Моделирования связи «структура химических соединений –молекулярные свойства и биологическая активность»

Автор: Пользователь скрыл имя, 11 Апреля 2011 в 08:21, реферат

Описание работы

Цель данной работы состоит в разработке эффективных методов математического и компьютерного моделирования связи «структура химических соединений –молекулярные свойства и биологическая активность» на основе стратегии формирования базы данных и знаний из имеющихся примеров, а также в создании компьютерных технологий поддержки профессиональных химико-структурно-биологических баз данных и знаний. Для достижения указанной цели по поиску эффективных препаратов с заданными свойствами требуется углубленный анализ и теоретические исследования первичных экспериментальных данных с использованием современных информационно - компьютерных технологий и методов математического моделирования

Работа содержит 1 файл

Глава I.doc

— 423.50 Кб (Скачать)

      Прогноз класса токсичности предполагается осуществлять на основе моделей и алгоритмов распознавания образов и теории статистических решений.

      Количественный прогноз предполагается осуществлять на основе неаддитивных моделей с использованием понятия о парциальных вкладах структурных элементов.

    В рамках данной задачи необходимо произвести исследование математических подходов прогноза токсикологических параметров, а также  сравнение полученных результатов с результатами существующих коммерческих пакетов прогнозирования токсикологических свойств.

  1. Система компьютерной поддержки.

Необходимо  разработать автоматизированную информационно-поисковую систему, оснащенную математическими процедурами статистического моделирования токсикологических свойств химических веществ, состоящую из:

  • Подсистемы поддержки профессиональных структурно-химических баз данных и знаний;
  • Подсистемы прогнозирования тосикологических свойств органических молекул с учетом или без учета их физико-химических параметров. Она позволит создавать обучающие и экзаменационные выборки из баз данных, задавать или выбирать из меню различные описания химической структуры или иных признаков, выбирать различные модели статистической обработки данных для построения решений о принадлежности молекул к тому или иному классу токсичности, а также структурно-аддитивные и неаддитивные математические модели, которые используются для нахождения количественных корреляций структура – свойства.

    Другими словами компьютерная система позволит осуществлять прогноз токсикологических  параметров веществ с использованием моделей теории распознавания образов и кусочно-линейных регрессионных моделей, где интервалами линейности являются классы опасности химических соединений.

    То, есть, необходимо создать компьютерную информационно-поисковую систему, которая даст возможность в режиме диалога вести оперативный прогноз токсикологических показателей, проверять на больших выборках гипотезы о связи структуры веществ с их биологическим действием, а также анализировать сравнительную информативную ценность различных групп факторов при изучении механизмов взаимодействия веществ с живым организмом. Такая система позволит повысить достоверность получаемых научных результатов и поможет существенно снизить трудоемкость исследовательских работ за счет качественно нового их уровня.

    Научный задел. Разработан  математический подход классификации химических веществ по степени токсичности  в острых опытах. Проведена апробация данного подхода на большом экспериментальном материале и установлены научно обоснованные границы классов опасности химических соединений. Разработана подсистема поддержки профессиональных структурно-химических баз данных и знаний. В ходе выполнения проекта в компьютерную систему нужно добавить подсистему  расчета токсикологический параметров.

    Таким образом, целью данной работы является создание универсальной масштабируемой компьютерной системы, предназначенной для применения на практике алгоритмов поиска и анализа отношений "структура-активность". Такая система должна поддерживать как возможности информационного поиска и навигации, так и построения баз знаний на основе имеющихся данных. Также система должна быть открытой, расширяемой и максимально гибкой, с возможностью добавления новых возможностей.

    В соответствии с целью поставлены следующие задачи:

    1. Разработка математически обоснованной универсальной классификации химических соединений по показателю токсичности;
    2. Разработка алгоритмов и методов для качественного прогнозирования принадлежности химического соединения к заданному классу токсичности.
    3. Разработка и апробация моделей для количественного прогноза показателя токсичности LD50;
    4. Разработка и использование моделей для предсказания токсичности по липофильности;
    5. Создание универсальной масштабируемой системы компьютерной поддержки, которая должна включать в себя:
      • иерархию классов, обеспечивающих гибкость и универсальность в настройке и расширении приложения (framework):
      • графический редактор структурных формул химических соединений;
      • подсистему моделирования;
      • подсистему хранения и информационного поиска данных;

 

Глава 2

Математическая  модель классификации  химических соединений по их различным свойствам

 

    Известно, что в организованном сообществе элементы распределены в соответствии с гиперболическим законом, то есть:

,       (3.2.I)

где Q1 — количество элементов в первом классе,r — ранг класса (r = 1…n), Q(r) — количество элементов в данном классе.

Для r=1,

.           (3.2.II)

(3.2.III) , где Q — количество элементов сообщества,

   (3.2.IV).

    Это уравнение дает общее решение  по разбиению множества из Q элементов на n классов. Отсюда необходимо найти b.

    По  формуле Шеннона:   (3.2.V), где H — энтропия информации, pi — вероятность попадания Qi элементов множества Q в данный класс i, или

   (3.2.VI).

    Предельные  значения энтропии информации равны 0 и Hmax. Hmax  рассчитывается по формуле Хартли: Hmax = log2(n).

    По  принципу структурной гармонии Шеннона  получаем обобщенное золотое сечение:

    (3.2.VII), или

   (3.2.VIII).

    Отсюда  найдем H, как положительный действительный корень (по условию) полинома n+1 степени.

    Подставляя  (3.2.I) в формулу (3.2.VI), зная значение H, имеем:

     (3.2.IX).

    Значение b, положительно определенное по условию, вычисляется из (3.2.IX) одним из численных методов решения уравнений. Далее, из (3.2.III) вычисляется значение Ф. После этого, подставляя Ф в (3.2.I), получаем количество элементов в каждом классе.

    Для получения пределов значений показателя, по которому организовано (упорядочено) семейство, необходимо взять значения этого показателя для первого и последнего элемента каждого класса.

Регрессионные модели и их характеристики

    Уравнение линейной регрессии имеет вид: y = a + bx + e [2].

    Построение  уравнения регрессии сводится к  оценке ее параметров. Для оценки параметров регрессий, линейных по параметрам, используют метод наименьших квадратов (МНК). МНК  позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака y от теоретических ŷx минимальна, то есть:

.

    Для линейных и нелинейных уравнений, приводимых к линейным, решается следующая система  относительно a и b:

.

    Из  этой системы следуют формулы:

.

    Для расчета множественной линейной регрессии данные представляются в  матричной форме [6]:

Y = Xb + e,

или

    

  ,

где матрица X называется регрессионной матрицей, вектор b — неизвестные параметры, подлежащие оцениванию, а столбец e — ошибки.

Пользуясь МНК, имеем:

.

В результате получаем выражение для оценки вектора b:

.

Соответственно, появляется модель, связывающая экспериментальные данные:

.

    Как для моделей парной, так и для  множественной регрессии справедливы  статистические оценки, описанные в  таблице 7 [2]:

    Таблица 7

    Название  характеристики Обозначение Формула Описание
    Полная  дисперсия TSS
    Общая сумма  квадратов отклонений зависимой переменной от ее выборочного значения
    Часть дисперсии, необъясненная регрессией ESS
    Необъясненная сумма квадратов отклонений
    Часть дисперсии, объясненная регрессией RSS
    Объясненная сумма  квадратов отклонений
    Коэффициент детерминации R2 RSS/TSS
    F-статистика

    (критерий  Фишера)

    F
       Оценка  качества уравнения регрессии. Состоит  в проверке гипотезы H0 о статистической незначимости уравнения регрессии. Для этого выполняется сравнение фактического F (где n – число единиц совокупности, m — число параметров при переменных x) и табличного (критического) Fтабл. Fтабл — это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости α. Уровень значимости α — вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно α принимается равным 0,05 или 0,01.

       Если  Fтабл < F, то H0 — гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Иначе —

    Продолжение таблицы 7

    Название  характеристики Обозначение Формула Описание
          признается  статистическая незначимость,  ненадежность уравнения регрессии.
    Средняя ошибка аппроксимации
     
    Среднее отклонение расчетных данных от фактических
 

    Для расчета доверительных интервалов параметров линейной регрессии применяются  статистически оценки, приведенные  в таблице 8: 

    Таблица 8

    Название характеристики Обозначение Формула Описание
     
    Случайная ошибка параметра a линейной регрессии
    ma
     
    Случайная ошибка параметра b линейной регрессии
    mb
    t-критерий Стьюдента для параметра а ta
         Рассчитывается  для оценки статистической значимости коэффициентов регрессии.  Выдвигается гипотеза H0 о случайной природе показателей, то есть о незначимом их отличии от нуля. Сравнивая фактическое и табличное (критическое) значения для заданного уровня значимости, принимаем или отвергаем выдвинутую гипотезу: если
    t-критерий Стьюдента для параметра b tb
 
 

 

    Продолжение таблицы 8

    Название  характеристики Обозначение Формула Описание
          tтабл > tфакт, то H0 отклоняется, то есть a и b не случайно отличаются от нуля и сформировались под воздействием систематически действующего фактора x, иначе — природа формирования случайна.
    Доверительные интервалы параметров линейной регрессии
    a- tтаблma      Если  в границы доверительного интервала попадает ноль, то есть нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, так как он не может принимать и положительное, и отрицательное значение.
    a+ tтаблma
    b- tтаблmb
    b+ tтаблmb

Информация о работе Моделирования связи «структура химических соединений –молекулярные свойства и биологическая активность»