Автор: Пользователь скрыл имя, 21 Ноября 2010 в 08:07, курсовая работа
Первые публикации по кластерному анализу появились в конце 30-х годов. Термин кластерный анализ, впервые введенный Трионом (Tryon) в 1939 году, включает в себя более 100 различных алгоритмов. Но активное развитие этих методов и их широкое использование началось в конце 60-х – 70-х годов. В дальнейшем это направление многомерного анализа очень интенсивно развивалось.
Целью курсовой работы является изучение основных типов задач кластер-анализа и основных типов кластер-процедур, а так же рассмотрение мер близости и расстояний между объектами.
Введение……………………………………………………………………………………….3
1. Основные типы задач кластер-анализа и основные типы кластер-процедур…………..4
2. Методы кластерного анализа………………………………………………………………5
3. Меры близости и расстояния между объектами………………………………………….7
4. Расстояния между классами объектов…………………………………………………….9
5. Пример……………………………………………………………………………………….10
Заключение…………………………………………………………………………………….18
Список литературы……………………………………………………………………………19
ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ
Государственное образовательное учреждение
высшего профессионального образования
Институт
математики,
экономики и информатики |
Кафедра теории вероятностей и дискретной математики |
Методы построения типологических групп
(основные
понятия кластерного анализа)
Курсовая работа |
Студентки
группы 2621
специальности 010501 – "Прикладная математика и информатика" Соломоновой Елены Анатольевны |
Научный
руководитель:
доцент кафедры ТВиДМ канд. физ.-мат. наук Тараканова
Татьяна Геннадьевна
|
ТОМСК –
2010
Оглавление
Введение…………………………………………………………
1. Основные типы
задач кластер-анализа и основные типы
кластер-процедур…………..4
2. Методы кластерного
анализа……………………………………………………………
3. Меры близости
и расстояния между объектами………………………………………….7
4. Расстояния между
классами объектов…………………………………………………….9
5. Пример………………………………………………………………
Заключение……………………………………………………
Список литературы…………………………………
Введение
Кластерный анализ – одно из направлений статистического исследования. Особо важное место он занимает в тех отраслях науки, которые связаны с изучением массовых явлении и процессов. Необходимость развития методов кластерного анализа и их использования продиктовано прежде всего тем, что они помогают построить научно обоснованные классификации, выявить внутренние связи между единицами наблюдаемой совокупности.
Кроме того, методы кластерного анализа могут использоваться с целью сжатия информации, что является важным фактором в условиях постоянного увеличения и усложнения потоков статистических данных.
Первые публикации по кластерному анализу появились в конце 30-х годов. Термин кластерный анализ, впервые введенный Трионом (Tryon) в 1939 году, включает в себя более 100 различных алгоритмов. Но активное развитие этих методов и их широкое использование началось в конце 60-х – 70-х годов. В дальнейшем это направление многомерного анализа очень интенсивно развивалось.
Целью курсовой работы является изучение основных типов задач кластер-анализа и основных типов кластер-процедур, а так же рассмотрение мер близости и расстояний между объектами.
Курсовая работа состоит из введения, пяти пунктов, заключения и списка литературы.
Пункты 1-4 носят реферативный характер и в них рассмотрены основные типы задач и иерархический метод кластерного анализа, а так же меры близости и расстояния между объектами. В пункте 5 рассмотрен пример.
Кластерный анализ – это совокупность методов, позволяющих классифицировать многомерные наблюдения, каждое из которых описывается набором исходных переменных Х1, Х2,…, Хm (m – количество наблюдаемых переменных). Целью кластерного анализа является образование групп схожих между собой объектов, которые принято называть кластерами. Слово кластер английского происхождения (cluster), переводится как сгусток, пучок, группа. Родственные понятия, используемые в литературе, - класс, таксон, сгущение.
Прежде всего целесообразно подразделение всех задач кластер-анализа на два основных типа: Б1 и Б2 в зависимости от объема n совокупности классифицируемых наблюдений Х1, Х2,…,Хn.
К типу Б1 отнесем задачи классификации сравнительно небольших по объему совокупностей наблюдений, состоящих, как правило, не более чем из нескольких десятков наблюдений. Сюда, по-видимому, могут быть отнесены задачи классификации некоторых макрообъектов, таких, как страны, города, фирмы, предприятия, типы технологических процессов и т.п.
К типу Б2 будем относить задачи классификации достаточно больших массивов многомерных наблюдений (n – порядка нескольких сотен и тысяч; классификация индивидуумов, семей, изделий, некоторых промышленных и технических микрообъектов). Подобное разделение задач классификации на два типа и условно, но весьма необходимо, и в первую очередь с точки зрения принципиального различия идей и методов, на основании которых конструируются кластер-процедуры в том и в другом случае. Например, для задач типа Б2 целесообразно построение процедур последовательного типа, обладающих достаточно хорошими, хотя бы асимптотическими по n, свойствами.
С точки зрения априорной информации об окончательном числе классов, на которое требуется разбить исследуемую совокупность объектов, задачи кластер-анализа можно подразделить на три основных типа:
(а) число классов априорий задано;
(б) число классов неизвестно и подлежит определению (оценке);
(в) число классв неизвестно, но его определение и не входит в условие задачи; требуется построить так называемое иерархическое дерево исследуемой совокупности, или дендрограмму.
В соответствии с подразделением задач кластер-анализа на типы можно выделить следующие три основных типа обслуживающих их кластер-процедур:
2. Методы кластерного анализа
Методы кластерного анализа можно разделить на две группы:
- иерархические;
- неиерархические.
Каждая из групп включает множество подходов и алгоритмов.
Используя различные методы
Рассмотрим иерархические
Иерархические методы кластерного анализа
Суть иерархической
Иерархические агломеративные методы
Эта группа методов
В начале работы алгоритма
все объекты являются
Иерархические дивизимные (делимые) методы
Эти методы являются
Принцип работы описанных выше
групп методов в виде
Рис. 1. Дендрограмма агломеративных и дивизимных методов
Иерархические методы
Иерархические методы
Преимуществом иерархических
Иерархические алгоритмы связаны с построением дендрограмм (от греческого dendron - "дерево"), которые являются результатом иерархического кластерного анализа. Дендрограмма описывает близость отдельных точек и кластеров друг к другу, представляет в графическом виде последовательность объединения (разделения) кластеров.
Дендрограмма (dendrogram) - древовидная диаграмма, содержащая n уровней, каждый из которых соответствует одному из шагов процесса последовательного укрупнения кластеров.
Дендрограмму также называют древовидной схемой, деревом объединения кластеров, деревом иерархической структуры.
Дендрограмма представляет
Существует много способов
Рис. 2. Пример дендрограммы
Числа 11, 10, 3 и т.д. соответствуют
номерам объектов или наблюдений исходной
выборки. Мы видим, что на первом шаге каждое
наблюдение представляет один кластер
(вертикальная линия), на втором шаге наблюдаем
объединение таких наблюдений: 11 и 10; 3,
4 и 5; 8 и 9; 2 и 6. На втором шаге продолжается
объединение в кластеры: наблюдения 11,
10, 3, 4, 5 и 7, 8, 9. Данный процесс продолжается
до тех пор, пока все наблюдения не объединятся
в один кластер.
3. Меры близости и расстояния между объектами
Для проведения классификации необходимо ввести понятие сходства или однородности объектов по наблюдаемым переменным. В каждый кластер (класс, таксон) должны попасть объекты, имеющие сходные характеристики.
В общем случае понятие однородности объектов определяется заданием правила вычисления , характеризующей либо расстояние d(Oi, Oj) между объектами Оi и Oj из исследуемой совокупности O(i, j=1,2,…,n), либо степень близости (сходства) r(Oi, Oj) тех же объектов. В кластерном анализе для количественной оценки сходства вводится понятие метрики. Сходство или различие между классифицируемыми объектами устанавливается в зависимости от метрического расстояния между ними. Если задана функция d(Oi, Oj), то близкие в смысле этой метрики объекты считаются однородными, принадлежащими к одному классу. Естественно, при этом необходимо сопоставление d(Oi, Oj) с некоторым пороговым значением, определяемым в каждом конкретном случае по-своему.
Информация о работе Методы построения типологических групп (основные понятия кластерного анализа)