Автор: Пользователь скрыл имя, 20 Марта 2011 в 15:27, реферат
Кластерный анализ - совокупность математических методов, предназначенных для формирования относительно "отдаленных" друг от друга групп "близких" между собой объектов по информации о расстояниях или связях (мерах близости) между ними.
1. Понятие кластерного анализа. Его значение…………………….3
2. Задачи, этапы, требования к данным кластерного анализа……..5
3. Методы кластерного анализа………………………….…………..7
4. Применение кластерного анализа………………………………...9
5. Анализ результатов кластерного анализа……………………….12
Список литературы………………………………………………….14
Содержание
Список литературы………………………………………………….
1
Понятие кластерного
анализа. Его значение
Кластерный анализ - совокупность математических методов, предназначенных для формирования относительно "отдаленных" друг от друга групп "близких" между собой объектов по информации о расстояниях или связях (мерах близости) между ними.
По смыслу аналогичен терминам: автоматическая классификация, таксономия, распознавание образов без учителя. Такое определение кластерного анализа дано в последнем издании "Статистического словаря".
Фактически "кластерный анализ" - это обобщенное название достаточно большого набора алгоритмов, используемых при создании классификации. В ряде изданий используются и такие синонимы кластерного анализа, как классификация и разбиение. Кластерный анализ широко используется в науке как средство типологического анализа. В любой научной деятельности классификация является одной из фундаментальных составляющих, без которой невозможны построение и проверка научных гипотез и теорий.
Большое
достоинство кластерного
Кластерный
анализ позволяет рассматривать
достаточно большой объем информации
и резко сокращать, сжимать большие
массивы социально-
Важное
значение кластерный анализ имеет применительно
к совокупностям временных
Кластерный
анализ можно использовать циклически.
В этом случае исследование производится
до тех пор, пока не будут достигнуты
необходимые результаты. При этом
каждый цикл здесь может давать информацию,
которая способна сильно изменить направленность
и подходы дальнейшего применения кластерного
анализа. Этот процесс можно представить
системой с обратной связью.
2
Задачи, этапы, требования
к данным кластерного
анализа
Кластерный анализ выполняет следующие основные задачи:
Независимо от предмета изучения применение кластерного анализа предполагает следующие этапы:
1.
Отбор выборки для
2.
Определение множества
3.
Вычисление значений той или
иной меры сходства между
4. Применение метода кластерного анализа для создания групп сходных объектов;
5.
Проверка достоверности
Кластерный
анализ предъявляет следующие
Если
кластерному анализу
3
Методы кластерного
анализа
Сегодня существует достаточно много методов кластерного анализа. Остановимся на некоторых из них (ниже приводимые методы принято называть методами минимальной дисперсии).
Пусть Х - матрица наблюдений: Х = (Х1, Х2,..., Хu) и квадрат евклидова расстояния между Хi и Хj определяется по формуле:
1) Метод полных связей.
Суть данного метода в том, что два объекта, принадлежащих одной и той же группе (кластеру), имеют коэффициент сходства, который меньше некоторого порогового значения S. В терминах евклидова расстояния d это означает, что расстояние между двумя точками (объектами) кластера не должно превышать некоторого порогового значения h. Таким образом, h определяет максимально допустимый диаметр подмножества, образующего кластер.
2)
Метод максимального
Каждый объект рассматривается как одноточечный кластер. Объекты группируются по следующему правилу: два кластера объединяются, если максимальное расстояние между точками одного кластера и точками другого минимально. Процедура состоит из n - 1 шагов и результатом являются разбиения, которые совпадают со всевозможными разбиениями в предыдущем методе для любых пороговых значений.
3) Метод Ворда.
В
этом методе в качестве целевой функции
применяют внутригрупповую
4) Центроидный метод.
Расстояние между двумя кластерами определяется как евклидово расстояние между центрами (средними) этих кластеров:
d2
ij = (`X –`Y)Т(`X –`Y) Кластеризация
идет поэтапно на каждом из
n–1 шагов объединяют два кластера G и p,
имеющие минимальное значение d2ij. Если
n1 много больше n2, то центры объединения
двух кластеров близки друг к другу и характеристики
второго кластера при объединении кластеров
практически игнорируются. Иногда этот
метод иногда называют еще методом взвешенных
групп.
4
Применение кластерного
анализа
Рассмотрим некоторые приложения кластерного анализа. Деление стран на группы по уровню развития.
Изучались 65 стран по 31 показателю (национальный доход на душу населения, доля населения занятого в промышленности в %, накопления на душу населения, доля населения, занятого в сельском хозяйстве в %, средняя продолжительность жизни, число автомашин на 1 тыс. жителей, численность вооруженных сил на 1 млн. жителей, доля ВВП промышленности в %, доля ВВП сельского хозяйства в %, и т.д.)
Каждая из стран выступает в данном рассмотрении как объект, характеризуемый определенными значениями 31 показателя. Соответственно они могут быть представлены в качестве точек в 31-мерном пространстве. Такое пространство обычно называется пространством свойств изучаемых объектов. Сравнение расстояния между этими точками будет отражать степень близости рассматриваемых стран, их сходство друг с другом. Социально-экономический смысл подобного понимания сходства означает, что страны считаются тем более похожими, чем меньше различия между одноименными показателями, с помощью которых они описываются.
Первый
шаг подобного анализа
Расстояние между вновь полученным кластером и странами полагается равным среднему из расстояний между последними и двумя странами, которые составляют новый кластер. Иными словами, объединенная группа стран рассматривается как целое с характеристиками, примерно равными средним из характеристик входящих в него стран.
Второй шаг анализа заключается в рассмотрении преобразованной таким путем матрицы с 64 строками и столбцами. Снова выявляется пара экономик, расстояние между которыми имеет наименьшее значение, и они, так же как в первом случае, сводятся воедино. При этом наименьшее расстояние может оказаться как между парой стран, так и между какой-либо страной и объединением стран, полученным на предыдущем этапе.
Дальнейшие процедуры аналогичны описанным выше: на каждом этапе матрица преобразуется так, что из нее исключаются два столбца и две строки, содержащие расстояние до объектов (пар стран или объединений – кластеров), сведенных воедино на предыдущей стадии; исключенные строки и столбцы заменяются столбцом и строкой, содержащими расстояния от новых объединений до остальных объектов; далее в измененной матрице выявляется пара наиболее близких объектов. Анализ продолжается до полного исчерпания матрицы (т. е. до тех пор, пока все страны не окажутся сведенными в одно целое). Обобщенные результаты анализа матрицы можно представить в виде дерева сходства (дендограммы), подобного описанному выше, с той лишь разницей, что дерево сходства, отражающее относительную близость всех рассматриваемых нами 65 стран, много сложнее схемы, в которой фигурирует только пять народных хозяйств. Это дерево в соответствии с числом сопоставляемых объектов включает 65 уровней. Первый (нижний) уровень содержит точки, соответствующие каждых стране в отдельности. Соединение двух этих точек на втором уровне показывает пару стран, наиболее близких по общему типу народных хозяйств. На третьем уровне отмечается следующее по сходству парное соотношение стран (как уже упоминалось, в таком соотношении может находиться либо новая пара стран, либо новая страна и уже выявленная пара сходных стран). И так далее до последнего уровня, на котором все изучаемые страны выступают как единая совокупность.