Автор: Пользователь скрыл имя, 21 Ноября 2010 в 08:07, курсовая работа
Первые публикации по кластерному анализу появились в конце 30-х годов. Термин кластерный анализ, впервые введенный Трионом (Tryon) в 1939 году, включает в себя более 100 различных алгоритмов. Но активное развитие этих методов и их широкое использование началось в конце 60-х – 70-х годов. В дальнейшем это направление многомерного анализа очень интенсивно развивалось.
Целью курсовой работы является изучение основных типов задач кластер-анализа и основных типов кластер-процедур, а так же рассмотрение мер близости и расстояний между объектами.
Введение……………………………………………………………………………………….3
1. Основные типы задач кластер-анализа и основные типы кластер-процедур…………..4
2. Методы кластерного анализа………………………………………………………………5
3. Меры близости и расстояния между объектами………………………………………….7
4. Расстояния между классами объектов…………………………………………………….9
5. Пример……………………………………………………………………………………….10
Заключение…………………………………………………………………………………….18
Список литературы……………………………………………………………………………19
Строим матрицу расстояний D3, воспользовавшись принципом «дальнего соседа».
.
Объединим кластеры S1 и S(2.3), расстояние между которыми d1,(2..3)=2,06 минимально, и получим два кластера: S(1.2.3) и S(4.5), расстояние между которыми определяется по матрице
и равно d(1.2.3).(4.5)=4,1.
Графические результаты классификации представлены в виде дендограммы на рис.2.
Рис.2. Дендограмма (обычное евклидово расстояние, дальний сосед)
Как и в предыдущем случае, наилучшим является разбиение студентов на два кластера:
S(1.2.3) и S(4.5).
Таким образом, используя принцип «дальнего соседа» мы получили разбиение студентов на два кластера S(1.2.3) и S(4.5), которое совпадает с разбиением по принципу «ближнего соседа».
1в) Классификация на основе обычного евклидова расстояния и принципа «центра тяжести».
Так как мы используем обычное евклидово расстояние, то матрица D1 остается без изменения. Согласно агломеративному алгоритму объединяются в кластер S2,3 объекты 2 и 3 как наиболее близкие d2..3=0,56.
Кластер S2,3 характеризуется в дальнейшем его центром тяжести, определяемым его вектором средних . Расстояние от этого кластера до первого наблюдения равно:
Аналогично
пересчитываются расстояния d(2.3),4
и d(2.3),5. В результате получаем
матрицу расстояний
.
Объединим объекты 4 и 5, расстояние между которыми d4,5=1,39 минимальное. Кластер характеризуется центром тяжести , расстояние от которого до кластера S(2,3) равно:
;
.
Тогда матрица расстояний примет вид:
В матрице D3 минимальное расстояние d1,(2.3)=1,79, поэтому образуем кластер S(1,2,3) и определим его вектор средних
.
Найдем расстояние между S(1,2,3) и S(4.5)
,
на котором
все пять объектов объединяются в
один кластер. Графически результаты классификации
представлены дендограммой на рис. 3.
Рис.3. Дендограмма (обычное
1г) Классификация на основе обычного евклидова расстояния и принципа «средней связи».
Используя матрицу D1, согласно агломеративному алгоритму объединим кластеры S2 и S3 в один S(2,3), так как расстояние между ними d2.3=0,56 – минимально.
Расстояние от кластера до S(2,3) до остальных кластеров определим по принципу «средней связи» на основе матрицы D1. Например:
.
Тогда матрица расстояний имеет вид:
Объединим, как наиболее близкие d4,5=1,39 кластеры S4 и S5. Тогда расстояния от S(4.5) до остальных кластеров S1 и S(2.3) равны:
; ,
а матрица расстояний имеет вид:
.
Объединим как наиболее близкие (d1,(2.3)=1,79) кластеры S1 и S(2.3) и определим расстояния от S(1,2,3) и S(4.5)
,
на котором
все пять объектов объединились в
один кластер. Графически результаты классификации
представлены дендограммой на рис.4.
Рис. 4. Дендограмма (обычное евклидово расстояние, принцип средней связи)
Таким образом, два кластера S(1,2,3) и S(4.5) во всех 4-х методах разбиения пяти студентов на однородные группы оказались устойчевыми.
2) Классификация на основе «взвешенного евклидова расстояния» и принципа «ближайшего соседа».
Взвешенное евклидово расстояние между i-м и l-м наблюдениями определяется по формуле:
По условию задачи w1=0,95 и w2=0.05. Это означает, что существенно больший вес придается времени, потраченному на учебу. Применяя формулу к вычислению расстояний dij, получим матрицу расстояний:
Объединив S2 и S3, имеющих минимальное расстояние d2..3=0,27, в кластер S(2.3) и применив принцип «ближайшего соседа», получим матрицу расстояний:
Образовав на расстоянии d1,(2.3)=0,41 кластер S(1,2,3) , вновь построим матрицу расстояний:
Объединим S4 и S5, имеющих минимальное расстояние d4,5=0,65, в кластер S(4.5) и получим матрицу расстояний
При объединении кластеров S(1,
Результаты классификации
Рис.5. Дендограмма (взвешенное евклидово расстояние, принцип ближайшего соседа)
Таким образом, используя пять иерархических
алгоритмов кластерного анализа, мы получили
один вариант разбиения пяти студентов
на две группы.
Заключение
В курсовой работе были
рассмотрены основные типы задач кластер-анализа
и основные типы кластер-процедур, изучены
меры близости и примеры расстояний, широко
используемые в задачах кластерного анализа,
а так же рассмотрена задача.
Список
литературы
1. Айвазян
С.А. Прикладная статистика и основы эконометрики:
Учебник / С.А. Айвазян, В.С.Мхитарян – М.:
ЮНИТИ, 1998.
2. Айвазян
С.А. Прикладная статистика в задачах и
упражнениях: Учебник для вузов / С.А. Айвазян,
В.С. Мхитарян – М.: ЮНИТИ-ДАНА, 2001.- 270с.
3. Сошникова
Л.А. Многомерный
4. http://www.intuit.ru/
Информация о работе Методы построения типологических групп (основные понятия кластерного анализа)