Автор: Пользователь скрыл имя, 11 Апреля 2011 в 08:21, реферат
Цель данной работы состоит в разработке эффективных методов математического и компьютерного моделирования связи «структура химических соединений –молекулярные свойства и биологическая активность» на основе стратегии формирования базы данных и знаний из имеющихся примеров, а также в создании компьютерных технологий поддержки профессиональных химико-структурно-биологических баз данных и знаний. Для достижения указанной цели по поиску эффективных препаратов с заданными свойствами требуется углубленный анализ и теоретические исследования первичных экспериментальных данных с использованием современных информационно - компьютерных технологий и методов математического моделирования
Во
множественной регрессии для
нахождения доверительных интервалов
справедливы формулы, описанные
в таблице 9:
Таблица 9
Название характеристики | Обозначение | Формула | Описание |
Дисперсия остатков регрессии | s2 | ESS/(n-k) | n — число единиц совокупности, k — число неизвестных параметров. |
Дисперсия i-го коэффициента регрессии | — i-й элемент диагонали ковариационной матрицы |
Продолжение таблицы 9
Название характеристики | Обозначение | Формула | Описание |
Доверительный интервал i-го параметра множественной регрессии | Свойства аналогичны
свойствам доверительных | ||
значение t-критерия Стьюдента выбирается для n-k степеней свободы. |
Прогноз класса токсичности осуществляется на основе моделей и алгоритмов распознавания образов и теории статистических решений. Мы рассматривали задачу распознавания образов применительно к случаю двух классов. Это весьма распространенный случай, так как при любом другом числе классов последовательным разбиением на два класса можно построить разделение и на произвольное число k классов. Для этого достаточно провести k разбиений по принципу: отделить элементы первого класса от смеси остальных, затем элементы второго класса от остальных и т. д.
Обозначим через соответствующий класс токсичности. Будем рассматривать объекты обучающей выборки, входящие в , как положительные примеры класса , а объекты, не входящие в , — как контрпримеры или отрицательные объекты класса , множество которых мы обозначим через . Запишем бинарный вектор наблюдений X в виде , где или 0 в зависимости от того, присутствует или отсутствует i-й фрагмент структуры в описании соединения. Обозначим через и вероятности появления i-го дескриптора в классах и соответственно.
В
предположении условной независимости
можно записать условные плотности
распределения вероятностей в каждом
классе в виде произведения вероятностей
для компонент вектора
Отношение правдоподобия при этом определяется выражением
Прологарифмировав
это отношения и приведя
где
Байесовское решающее правило, минимизирующее среднюю вероятность ошибки, согласно [5], записывается следующим образом:
если
При выводе решающего правила мы исходили из того, что потери при правильной классификации равны нулю, а при ошибочной единице. При построении систем распознавания возможны такие ситуации, когда априорные вероятности появления объектов соответствующих классов и неизвестны. Применительно к этой ситуации рационально использовать минимаксный критерий, который минимизирует максимально возможное значение среднего риска. Показано [16], что минимаксное правило представляет собой специальное правило Байеса для наименее благоприятных априорных вероятностей. В этом случае решающая граница выбирается так, чтобы обеспечить равенство ошибок первого и второго рода, которые соответственно равны:
Оценка величин pi и qi осуществляется по конечному числу выборочных представителей образов в соответствующих классах:
где — числа встречаемости i-го дескриптора в первом и втором классах, а — объемы выборок в этих классах.
Отнесение химического соединения к соответствующему классу токсичности производилось в дипломном проекте по значениям , где — ошибка второго рода для k-го класса в зависимости от отношения правдоподобия l, а значение k, на котором достигается , и является номером класса опасности.
Количественный прогноз осуществлялся на основе неаддитивных моделей с использованием понятия о парциальных вкладах структурных элементов (дескрипторов). Используемые модели параметров, входящих в сртуктурно-неаддитивные модели имеют вид
где fk — парциальный вклад k-х дескрипторов в параметр f, dk — доля k-х структурных элементов в молекуле
В нашем случае в качестве параметра f использовался нормированный показатель токсичности
где M есть молекулярная масса молекулы. В каждом из классов опасности строились оптимальные регрессионные уравнения, в которых величины fk определялись исходя из экспериментальных данных устойчивым методом наименьших квадратов, а также при помощи сингулярного разложения матрицы (п.4.3.1).
При описании различных моделей могут возникать системы линейных алгебраических уравнений с прямоугольными и вырожденными квадратными матрицами. Для систем линейных алгебраических уравнений, не обладающих решением с классической точки зрения, вводят понятие обобщенного решения [9]. Под обобщенным решением (псевдорешением) системы линейных алгебраических уравнений
Ах = b, (4.3.1.I)
где А – матрица с размерами m x n, b – заданный вектор, x – искомый вектор, понимают вектор u, удовлетворяющий условию
где || || - евклидова норма.
Если система (4.3.1.I) имеет классическое решение, то оно совпадает с обобщенным, и при этом . Однако, нахождение векторов, минимизирующих функционал невязки , имеет смысл и в отсутствии классического решения системы (4.3.1.I). Поэтому введение определения обобщенного решения существенно расширяет понятие искомого решения системы (4.3.1.I).
В работе Воеводина В.В. "Линейная алгебра" доказано, что для системы (4.3.1.I) всегда существует множество псевдорешений, а если рассмотреть так называемое нормальное псевдорешение, то есть решение с минимальной евклидовой нормой, то оно еще и единственно.
Для решения системы (4.3.1.I) в дипломной работе было использовано специальное представление матрицы, называемое сингулярным разложением. Известно, что любую действительную матрицу с размерами m x n можно представить в виде
где матрица U (m x m) сформирована из m ортонормированных собственных векторов матрицы AAT, матрица V (n x n) — из n ортонормированных собственных векторов матрицы ATA, матрица S с размерами m x n имеет вид , или , при [9].
Диагональные элементы si являются неотрицательными значениями квадратных корней из общих собственных значений матриц AAT и ATA и называются сингулярными числами матрицы А. Если сингулярные числа упорядочены, то такое разложение называется сингулярным разложением матрицы А.
Зная сингулярное разложение, можно сразу выписать решение системы (4.3.1.I):
где A#=VS#UT называется псевдообратной к А матрицей.
Преобразование прямоугольной матрицы А к двухдиагональному виду [11], [14]
Первым этапом нахождения сингулярного разложения матрицы А является ее численное приведение при помощи преобразований Хаусхолдера к двухдиагональному виду. Рассмотрим это преобразование.
Умножая слева и справа исходную матрицу А соответственно на специально подбираемые матрицы отражения P(k) и Q(k), приходят к верхней двухдиагональной форме
Процесс преобразования осуществляется по формулам
Матрицы отражения P(k) и Q(k) следует выбирать так, чтобы были выполнены условия
В этом случае матрицы P(k), Q(k) будут иметь вид
Знак перед в выражениях для и следует выбирать таким же, как и знаки и соответственно.
Окончательно введя обозначения
можно записать .
Здесь
P и Q — ортогональные матрицы. При таком
преобразовании сингулярные числа матрицы
J(0) совпадают с сингулярными числами
матрицы А.
Сингулярное разложение двухдиагональной матрицы
Следуя [17], изложим алгоритм сингулярного разложения двухдиагональной матрицы. С помощью так называемого QR-метода можно привести двухдиагональную матрицу J(0) к диагональной форме D, так что выполняется последовательность преобразований
где S(i) и T(i) — ортогональные матрицы, которые выбирают так, чтобы J(i+1) сохраняли свою двухдиагональную форму, а симметричная трехдиагональная матрица J(i)TJ(i) стремилась к диагональному виду.
Для удобства опустим индексы и введем следующие обозначения:
Переход осуществляется с помощью последовательности преобразований вращения. Таким образом,
Здесь Sk и Tk — элементарные матрицы вращения вида
причем Для общего случая коэффициенты c и s вычисляются по формулам Гивенса
где ai,j — вытесняемый элемент.
Очевидно, что умножение справа на матрицу вращения изменяет лишь (k-1) и k столбцы матрицы, а умножение слева на матрицу вращения — лишь (k-1) и k строки. Формулы преобразования для столбцов имеют вид
для строк
Коэффициенты c2, s2 матрицы T2 оставим пока неопределенными, в то время как остальные коэффициенты ck, sk будем выбирать так, чтобы матрица имела ту же форму, что и J. Следовательно, матрица T2 не аннулирует ни одного элемента, но добавляет элемент J21, матрица S2 аннулирует J21, но добавляет J13, матрица T3 аннулирует J13, но добавляет J32 и т. д. и окончательно матрица аннулирует Jn,n-1 и ничего не добавляет.