Моделирования связи «структура химических соединений –молекулярные свойства и биологическая активность»

Автор: Пользователь скрыл имя, 11 Апреля 2011 в 08:21, реферат

Описание работы

Цель данной работы состоит в разработке эффективных методов математического и компьютерного моделирования связи «структура химических соединений –молекулярные свойства и биологическая активность» на основе стратегии формирования базы данных и знаний из имеющихся примеров, а также в создании компьютерных технологий поддержки профессиональных химико-структурно-биологических баз данных и знаний. Для достижения указанной цели по поиску эффективных препаратов с заданными свойствами требуется углубленный анализ и теоретические исследования первичных экспериментальных данных с использованием современных информационно - компьютерных технологий и методов математического моделирования

Работа содержит 1 файл

Глава I.doc

— 423.50 Кб (Скачать)
 
 

    Во  множественной регрессии для  нахождения доверительных интервалов справедливы формулы, описанные  в таблице 9: 

Таблица 9

    Название  характеристики Обозначение Формула Описание
    Дисперсия остатков регрессии s2 ESS/(n-k) n — число единиц совокупности, k — число неизвестных параметров.
    Дисперсия i-го коэффициента регрессии

    — i-й элемент диагонали ковариационной матрицы

 

 

    Продолжение таблицы 9

    Название  характеристики Обозначение Формула Описание
    Доверительный интервал i-го параметра множественной регрессии
    Свойства аналогичны свойствам доверительных интервалов для парной регрессии. Табличное
     
    значение t-критерия Стьюдента выбирается для n-k степеней свободы.

Модель  качественного прогноза

    Прогноз класса токсичности осуществляется на основе моделей и алгоритмов распознавания образов и теории статистических решений. Мы рассматривали задачу распознавания образов применительно к случаю двух классов. Это весьма распространенный случай, так как при любом другом числе классов последовательным разбиением на два класса можно построить разделение и на произвольное число k классов. Для этого достаточно провести k разбиений по принципу: отделить элементы первого класса от смеси остальных, затем элементы второго класса от остальных и т. д.

    Обозначим через  соответствующий класс токсичности. Будем рассматривать объекты обучающей выборки, входящие в , как положительные примеры класса , а объекты, не входящие в , — как контрпримеры или отрицательные объекты класса , множество которых мы обозначим через . Запишем бинарный вектор наблюдений X в виде , где или 0 в зависимости от того, присутствует или отсутствует i-й фрагмент структуры в описании соединения. Обозначим через и вероятности появления i-го дескриптора в классах и соответственно.

    В предположении условной независимости  можно записать условные плотности  распределения вероятностей в каждом классе в виде произведения вероятностей для компонент вектора наблюдений.

Отношение правдоподобия при этом определяется выражением

.

Прологарифмировав это отношения и приведя подобные члены, получим байесовскую решающую функцию

,

где

— информационный вес k-го дескриптора, а

 — константа.

    Байесовское решающее правило, минимизирующее среднюю вероятность ошибки, согласно [5], записывается следующим образом:

если 

, то
, иначе
.

    При выводе решающего правила мы исходили из того, что потери при правильной классификации равны нулю, а при ошибочной единице. При построении систем распознавания возможны такие ситуации, когда априорные вероятности появления объектов соответствующих классов и неизвестны. Применительно к этой ситуации рационально использовать минимаксный критерий, который минимизирует максимально возможное значение среднего риска. Показано [16], что минимаксное правило представляет собой специальное правило Байеса для наименее благоприятных априорных вероятностей. В этом случае решающая граница выбирается так, чтобы обеспечить равенство ошибок первого и второго рода, которые соответственно равны:

 и 
.

    Оценка  величин pi и qi осуществляется по конечному числу выборочных представителей образов в соответствующих классах:

,
,

где — числа встречаемости i-го дескриптора в первом и втором классах, а — объемы выборок в этих классах.

    Отнесение химического соединения к соответствующему классу токсичности производилось в дипломном проекте по значениям , где — ошибка второго рода для k-го класса в зависимости от отношения правдоподобия l, а значение k, на котором достигается , и является номером класса опасности.

Модель  количественного прогноза

    Количественный  прогноз осуществлялся на основе неаддитивных моделей с использованием понятия о парциальных вкладах  структурных элементов (дескрипторов). Используемые модели параметров, входящих в сртуктурно-неаддитивные модели имеют вид

,

где fk — парциальный вклад k-х дескрипторов в параметр f, dk — доля k-х структурных элементов в молекуле

.

    В нашем случае в качестве параметра f использовался нормированный показатель токсичности

,

где M есть молекулярная масса молекулы. В каждом из классов опасности строились оптимальные регрессионные уравнения, в которых величины fk определялись исходя из экспериментальных данных устойчивым методом наименьших квадратов, а также при помощи сингулярного разложения матрицы (п.4.3.1).

Алгоритм  сингулярного разложения матрицы и приближенного решения алгебраических систем линейных уравнений

 

    При описании различных моделей могут возникать системы линейных алгебраических уравнений с прямоугольными и вырожденными квадратными матрицами. Для систем линейных алгебраических уравнений, не обладающих решением с классической точки зрения, вводят понятие обобщенного решения [9]. Под обобщенным решением (псевдорешением) системы линейных алгебраических уравнений

Ах = b,  (4.3.1.I)

где А – матрица с размерами m x n, b – заданный вектор, x – искомый вектор, понимают вектор u, удовлетворяющий условию

,            (4.3.1.II)

где || || - евклидова норма.

    Если  система (4.3.1.I) имеет классическое решение, то оно совпадает с обобщенным, и при этом . Однако, нахождение векторов, минимизирующих функционал невязки , имеет смысл и в отсутствии классического решения системы (4.3.1.I). Поэтому введение определения обобщенного решения существенно расширяет понятие искомого решения системы (4.3.1.I).

    В работе Воеводина В.В. "Линейная алгебра" доказано, что для системы (4.3.1.I) всегда существует множество псевдорешений, а если рассмотреть так называемое нормальное псевдорешение, то есть решение с минимальной евклидовой нормой, то оно еще и единственно.

    Для решения системы (4.3.1.I) в дипломной  работе было использовано специальное представление матрицы, называемое сингулярным разложением. Известно, что любую действительную матрицу с размерами m x n можно представить в виде

,     (4.3.1.III)

где матрица U (m x m) сформирована из m ортонормированных  собственных векторов матрицы AAT, матрица V (n x n) — из n ортонормированных собственных векторов матрицы ATA, матрица S с размерами m x n имеет вид , или , при [9].

    Диагональные  элементы si являются неотрицательными значениями квадратных корней из общих собственных значений матриц AAT и ATA и называются сингулярными числами матрицы А. Если сингулярные числа упорядочены, то такое разложение называется сингулярным разложением матрицы А.

    Зная  сингулярное разложение, можно сразу выписать решение системы (4.3.1.I):

 где A#=VS#UT называется псевдообратной к А матрицей.

. 
 
 

Преобразование  прямоугольной матрицы  А к двухдиагональному  виду [11], [14]

Первым этапом нахождения сингулярного разложения матрицы А является ее численное приведение при помощи преобразований Хаусхолдера к двухдиагональному виду. Рассмотрим это преобразование.

    Умножая слева и справа исходную матрицу  А соответственно на специально подбираемые  матрицы отражения P(k) и Q(k), приходят к верхней двухдиагональной форме

.

Процесс преобразования осуществляется по формулам

Матрицы отражения  P(k) и Q(k) следует выбирать так, чтобы были выполнены условия

В этом случае матрицы P(k), Q(k) будут иметь вид

    Знак  перед  в выражениях для и следует выбирать таким же, как и знаки и соответственно.

    Окончательно  введя обозначения

можно записать .

Здесь P и Q — ортогональные матрицы. При таком преобразовании сингулярные числа матрицы J(0) совпадают с сингулярными числами матрицы А. 

Сингулярное разложение двухдиагональной матрицы

    Следуя  [17], изложим алгоритм сингулярного разложения двухдиагональной матрицы. С помощью так называемого QR-метода можно привести двухдиагональную матрицу J(0) к диагональной форме D, так что выполняется последовательность преобразований

(4.3.1.IV)

где S(i) и T(i) — ортогональные матрицы, которые выбирают так, чтобы J(i+1) сохраняли свою двухдиагональную форму, а симметричная трехдиагональная матрица J(i)TJ(i) стремилась к диагональному виду.

    Для удобства опустим индексы и введем следующие обозначения:

Переход осуществляется с помощью последовательности преобразований вращения. Таким образом,

.  (4.3.1.V)

Здесь Sk и Tk — элементарные матрицы вращения вида

,

причем  Для общего случая коэффициенты c и s вычисляются по формулам Гивенса

где ai,j — вытесняемый элемент.

    Очевидно, что умножение справа на матрицу  вращения изменяет лишь (k-1) и k столбцы матрицы, а умножение слева на матрицу вращения — лишь (k-1) и k строки. Формулы преобразования для столбцов имеют вид

для строк

    Коэффициенты  c2, s2 матрицы T2 оставим пока неопределенными, в то время как остальные коэффициенты ck, sk будем выбирать так, чтобы матрица имела ту же форму, что и J. Следовательно, матрица T2 не аннулирует ни одного элемента, но добавляет элемент J21, матрица S2 аннулирует J21, но добавляет J13, матрица T3 аннулирует J13, но добавляет J32 и т. д. и окончательно матрица аннулирует Jn,n-1 и ничего не добавляет.

Информация о работе Моделирования связи «структура химических соединений –молекулярные свойства и биологическая активность»