Автор: Пользователь скрыл имя, 06 Апреля 2012 в 17:21, доклад
Анализ отечественных и зарубежных публикаций показывает, что кластерный анализ находит применение в самых разнообразных научных направлениях: биология, медицина, археология, история, география, экономика, филология и т.д. В прекрасной книге В.В.Налимова "Вероятностная модель языка" [42] описано применение кластерного анализа при исследовании восприятия живописи.
"Кластерный анализ
- совокупность математических
Анализ отечественных и зарубежных публикаций показывает, что кластерный анализ находит применение в самых разнообразных научных направлениях: биология, медицина, археология, история, география, экономика, филология и т.д. В прекрасной книге В.В.Налимова "Вероятностная модель языка" [42] описано применение кластерного анализа при исследовании восприятия живописи. В. Власов. Эпидемиология.Большая часть литературы по кластерному анализу появилась в течение последних трех десятилетий, хотя первые работы, в которых упоминались кластерные методы, появились достаточно давно [1]. Польский антрополог К.Чекановский выдвинул идею "структурной классификации" [1], содержавшую основную идею кластерного анализа - выделение компактных групп объектов.
В 1925 г. советский гидробиолог П.В. Терентьев разработал так называемый "метод корреляционных плеяд" [22], предназначенный для группировки коррелирующих признаков. Этот метод дал толчок развитию методов группировки с помощью графов. Термин "кластерный анализ" впервые был предложен Трионом [2-3]. Слово "cluster" переводится с английского языка как "гроздь, кисть, пучок, группа". По этой причине первоначальное время этот вид анализа называли "гроздевым анализом". В начале 50-х годов появились публикации Р.Люиса, Е.Фикса и Дж. Ходжеса по иерархическим алгоритмам кластерного анализа. Заметный толчок развитие работ по кластерному анализу дали работы Р.Розенблатта по распознающему устройству (персептрону), положившие начало развитию теории "распознавания образов без учителя".
Толчком к разработке методов кластеризации явилась книга "Принципы численной таксономии"[4], опубликованная в 1963г. двумя биологами - Робертом Сокэлом и Питером Снитом. Авторы этой книги исходили из того, что для создания эффективных биологических классификаций процедура кластеризации должна обеспечивать использование всевозможных показателей характеризующих исследуемые организмы, производить оценку степени сходства между этими организмами и обеспечивать размещение схожих организмов в одну и ту же группу. При этом сформированные группы должны быть достаточно "локальны", т.е. сходство объектов (организмов) внутри групп должно превосходить сходство групп между собой. Последующий анализ выделенных группировок, по мнению авторов, может выяснить, отвечают ли эти группы разным биологическим видам. Иными словами, Сокэл и Снит предполагали, что выявление структуры распределения объектов в группы, помогает установить процесс образования этих структур. А различие и сходство организмов разных кластеров (групп) могут служить базой для осмысления происходившего эволюционного процесса и выяснения его механизма.
В эти же годы было предложено множество алгоритмов таких авторов, как Дж. Мак-Кин, Г. Болл и Д. Холл по методам k-средних; Г. Ланса и У. Уильямса, Н. Джардайна и др. - по иерархическим методам. Заметный вклад в развитие методов кластерного анализа внесли и отечественные ученые - Э.М.Браверман, А.А.Дорофеюк, И.Б.Мучник, Л.А,Растригин, Ю.И.Журавлев, И.И.Елисеева и др. В частности, в 60-70 гг. большой популярностью пользовались многочисленные алгоритмы разработанные новосибирскими математиками Н.Г.Загоруйко, В.Н.Елкиной и Г.С.Лбовым. Это такие широко известные алгоритмы, как FOREL, BIGFOR, KRAB, NTTP, DRET, TRF и др. На основе этих пакетов был создан специализированный пакет программ ОТЭКС [26]. Не менее интересные программные продукты ППСА и Класс-Мастер были созданы московскими математиками С.А.Айвазяном, И.С.Енюковым и Б.Г.Миркиным[27].
В том или ином
объеме методы кластерного анализа
имеются в большинстве наиболее
известных отечественных и
По приблизительным
оценкам специалистов число публикаций
по кластерному анализу и его
приложениям в различных
Третья причина - углубление специальных знаний неизбежно приводит к увеличению количества переменных, учитываемых при анализе тех или иных объектов и явлений. Вследствие этого субъективная классификация, которая ранее опиралась на достаточно малое количество учитываемых признаков, часто оказывается уже ненадежной. А объективная классификация, с все возрастающим набором характеристик объекта, требует использования сложных алгоритмов кластеризации, которые могут быть реализованы только на базе современных компьютеров. Именно эти причины и породили "кластерный бум"[12-47]. К сожалению, в среде медиков и биологов кластерный анализ еще не стал достаточно популярным и обыденным методом исследования. Причины этого мы уже рассматривали в своих предыдущих публикациях [48-50] и в статьях раздела "Биометрика" :
Данная статья имеет своей целью дать нашим читателям начальные знания по этому интересному методу анализа данных, познакомить с используемой терминологией и привести некоторые примеры использования этого анализа к реальным данным. В изложении этих сведений мы будем ориентироваться на самый минимальный уровень наших читателей. По этой причине часть материала может кому-то показаться достаточно тривиальной, поэтому такие разделы они могут пропускать и сразу же переходить к более содержательным разделам
1. ОБЪЕКТ И ПРИЗНАК
Введем первоначально такие понятия, как объект и признак. Объект - от латинского objectum - предмет. Применительно к медицине и биологии под объектами мы будем подразумевать конкретные предметы исследования, которые изучаются с помощью физических, химических и иных методик. Такими объектами могут быть, например, пациенты, страдающие теми или иными заболеваниями, отдельные системы или органы, растения, животные и т.д. Некоторую совокупность объектов, доступную исследователю для изучения, мы будем называть выборкой, или выборочной совокупностью. Количество объектов в такой совокупности принято называть объемом выборки. Обычно объем выборки обозначают латинской буквой "n" или "N" .
Признак (синонимы - свойство, переменная, характеристика; англ. - variable - переменная.) - представляет собой конкретное свойство объекта. Эти свойства могут выражаться как числовыми, так и не числовыми значениями. Например, артериальное давление (систолическое или диастолическое) измеряют в миллиметрах ртутного столба, вес - в килограммах, рост в сантиметрах и т.д. Далее такие признаки мы будем называть количественными признаками [5]. В отличие от этих непрерывных числовых характеристик (шкал), ряд признаков может иметь дискретные, прерывистые значения. В свою очередь такие дискретные признаки принято делить на две группы. Первая группа - ранговые, или как их еще называют порядковые переменные (шкалы). Таким признакам присуще свойство упорядоченности этих значений. К ним можно отнести стадии того или иного заболевания, возрастные группы, балльные оценки знаний учащихся, 12-балльную шкалу магнитуд землетрясений по Рихтеру и т.д. Вторая же группа дискретных признаков не имеет такой упорядоченности и носит название номинальных (от слова "номинал" - образец ) или классификационных признаков. Примером таких признаков может быть состояние пациента - "здоров" или "болен", пол пациента, период наблюдения - "до лечения" и "после лечения" и т.д. В этих случаях принято говорить, что такие признаки относятся к шкале наименований. Строго говоря, не вполне корректно в таких случаях будет использование выражения "измерение в шкале наименований", поскольку процедура измерения предполагает наличие некоторых средств измерения для нахождения численного значения измеряемой величины. Эти две группы дискретных признаков условимся далее именовать качественными признаками.[5]
Используя понятия
объекта и признака, условимся
впредь называть матрицей "Объект-свойство"
или "Объект-признак" прямоугольную
таблицу, состоящую из значений признаков
описывающих свойства исследуемой
выборки наблюдений. В данном контексте
одно наблюдение будет записываться
в виде отдельной строки состоящей
из значений используемых признаков. Отдельный
же признак в такой матрице
данных будет представлен столбцом,
состоящим из значений этого признака
по всем объектам выборки. Ниже приведена
такая матрица, содержащая небольшую
часть данных реального исследования
свойств эритроцитов крови и
ряда биохимических показателей
у детей с больной щитовидной
железой. В первом столбце матрицы
размещен порядковый номер наблюдения,
Х1-Х7 - количественные переменные представляющие
собой
Таблица 1
N п/п |
X1 |
X2 |
X3 |
X4 |
X5 |
X6 |
X7 |
X8 |
X9 |
1 |
80,93 |
0,605 |
0,303 |
4,94 |
1,21 |
5,85 |
0,2 |
1 |
1 |
2 |
80,3 |
0,5 |
0,7 |
5,1 |
1,3 |
5,7 |
0,1 |
1 |
1 |
3 |
80,22 |
0,599 |
0,599 |
5,59 |
1,09 |
5,29 |
0,2 |
2 |
1 |
4 |
80,8 |
0,3 |
0,6 |
4,9 |
1,2 |
5,9 |
0,1 |
2 |
1 |
5 |
80 |
0,5 |
0,9 |
5,2 |
1,1 |
5,8 |
0,1 |
1 |
1 |
6 |
80,6 |
0,7 |
0,3 |
5,1 |
1,2 |
5,9 |
0,2 |
2 |
1 |
7 |
79,9 |
0,2 |
1 |
4,7 |
1,9 |
5,7 |
0,2 |
1 |
1 |
8 |
81,4 |
0,6 |
0,5 |
5,3 |
1,8 |
3,9 |
0,2 |
2 |
2 |
9 |
80 |
0,3 |
0,8 |
4,9 |
1,8 |
5,1 |
0,3 |
3 |
2 |
10 |
80,3 |
0,5 |
0,4 |
5,4 |
1,9 |
5,1 |
0,2 |
2 |
2 |
11 |
79,8 |
0,8 |
0,2 |
5,3 |
2 |
5,2 |
0,3 |
3 |
2 |
12 |
80,7 |
0,6 |
0,3 |
5,7 |
2,1 |
4,7 |
0,2 |
2 |
1 |
13 |
80,9 |
0,3 |
0,6 |
4,1 |
2 |
5,7 |
0,3 |
1 |
1 |
14 |
80,5 |
0,5 |
0,5 |
4,9 |
1,9 |
5,1 |
0,2 |
2 |
1 |
15 |
79,5 |
0,5 |
0,6 |
5,3 |
2 |
5,3 |
0,1 |
3 |
1 |
16 |
80,2 |
0,7 |
0,2 |
5,1 |
2,2 |
5 |
0,2 |
1 |
1 |
17 |
80,5 |
0,6 |
0,3 |
5,1 |
2,1 |
4,7 |
0,2 |
2 |
2 |
18 |
80,42 |
0,499 |
0,399 |
4,89 |
1,89 |
5,09 |
0,3 |
2 |
2 |
19 |
80,3 |
0,7 |
0,3 |
5,3 |
2 |
5,2 |
0,2 |
1 |
2 |
20 |
80,5 |
0,5 |
0,5 |
5,1 |
1,9 |
4,9 |
0,2 |
3 |
2 |
Весь массив данных
включал 8 групп количественных признаков:
общий анализ крови, биохимия крови,
содержание гормонов, характеристики
эритроцитов крови, полученные с
помощью электронной
2. РАССТОЯНИЕ МЕЖДУ ОБЪЕКТАМИ (МЕТРИКА)
Теперь необходимо ввести понятие "расстояние между объектами". Интуитивно многие из нас понимают, что это понятие должно отражать меру сходства, близости объектов между собой по всей совокупности используемых признаков. Иными словами служить интегральной мерой сходства объектов между собой. Расстоянием между объектами в пространстве признаков называется такая величина dij , которая удовлетворяет следующим достаточно разумным аксиомам:
Меру близости (сходства) объектов удобно представить как обратную величину от расстояния между объектами. В многочисленных изданиях посвященных кластерному анализу описано более 50 различных способов вычисления расстояния между объектами. Кроме термина "расстояние" в литературе часто встречается и другой термин - "метрика", который подразумевает метод вычисления того или иного конкретного расстояния. Мы будем пользоваться как первым, так и вторым термином. Наиболее доступно для восприятия и понимания в случае количественных признаков является так называемое "евклидово расстояние" или "евклидова метрика". Те, кто помнит школьную теорему Пифагора, могут использовать в качестве примера такого расстояния длину гипотенузы. Формула для вычисления такого расстояния весьма напоминает школьную формулу:
В данной формуле использованы следующие обозначения: