Кластерный анализ

Автор: Пользователь скрыл имя, 20 Марта 2011 в 15:27, реферат

Описание работы

Кластерный анализ - совокупность математических методов, предназначенных для формирования относительно "отдаленных" друг от друга групп "близких" между собой объектов по информации о расстояниях или связях (мерах близости) между ними.

Содержание

1. Понятие кластерного анализа. Его значение…………………….3
2. Задачи, этапы, требования к данным кластерного анализа……..5
3. Методы кластерного анализа………………………….…………..7
4. Применение кластерного анализа………………………………...9
5. Анализ результатов кластерного анализа……………………….12
Список литературы………………………………………………….14

Работа содержит 1 файл

доклад.doc

— 71.00 Кб (Скачать)

Содержание 
 

  1. Понятие кластерного  анализа. Его значение…………………….3
  2. Задачи, этапы, требования к данным кластерного анализа……..5
  3. Методы кластерного анализа………………………….…………..7
  4. Применение кластерного анализа………………………………...9
  5. Анализ результатов кластерного анализа……………………….12

    Список  литературы………………………………………………….14 

                                 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

      1 Понятие кластерного  анализа. Его значение  

    Кластерный  анализ - совокупность математических методов, предназначенных для формирования относительно "отдаленных" друг от друга групп "близких" между собой объектов по информации о расстояниях или связях (мерах близости) между ними.

    По  смыслу аналогичен терминам: автоматическая классификация, таксономия, распознавание образов без учителя. Такое определение кластерного анализа дано в последнем издании "Статистического словаря".

    Фактически "кластерный анализ" - это обобщенное название достаточно большого набора алгоритмов, используемых при создании классификации. В ряде изданий используются и такие синонимы кластерного анализа, как классификация и разбиение. Кластерный анализ широко используется в науке как средство типологического анализа. В любой научной деятельности классификация является одной из фундаментальных составляющих, без которой невозможны построение и проверка научных гипотез и теорий.

    Большое достоинство кластерного анализа  в том, что он позволяет производить  разбиение объектов не по одному параметру, а по целому набору признаков. Кроме  того, кластерный анализ в отличие  от большинства математико-статистических методов не накладывает никаких ограничений на вид рассматриваемых объектов, и позволяет рассматривать множество исходных данных практически произвольной природы. Это имеет большое значение, например, для прогнозирования конъюнктуры, когда показатели имеют разнообразный вид, затрудняющий применение традиционных эконометрических подходов.

    Кластерный  анализ позволяет рассматривать  достаточно большой объем информации и резко сокращать, сжимать большие  массивы социально-экономической  информации, делать их  компактными и наглядными.

    Важное  значение кластерный анализ имеет применительно  к совокупностям временных рядов, характеризующих экономическое  развитие (например, общехозяйственной  и товарной конъюнктуры). Здесь можно  выделять периоды, когда значения соответствующих показателей были достаточно близкими, а также определять группы временных рядов, динамика которых наиболее схожа.

    Кластерный  анализ можно использовать циклически. В этом случае исследование производится до тех пор, пока не будут достигнуты необходимые результаты. При этом каждый цикл здесь может давать информацию, которая способна сильно изменить направленность и подходы дальнейшего применения кластерного анализа. Этот процесс можно представить системой с обратной связью. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

2 Задачи, этапы, требования к данным кластерного анализа 

    Кластерный  анализ выполняет следующие основные задачи:

  • разработка типологии или классификации;
  • исследование полезных концептуальных схем группирования объектов;
  • порождение гипотез на основе исследования данных;
  • проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.
 

    Независимо  от предмета изучения применение кластерного  анализа предполагает следующие этапы:

    1. Отбор выборки для кластеризации;

    2. Определение множества переменных, по которым будут оцениваться  объекты в выборке;

    3. Вычисление значений той или  иной меры сходства между объектами;

    4. Применение метода кластерного  анализа для создания групп сходных объектов;

    5. Проверка достоверности результатов  кластерного решения.

  Кластерный  анализ предъявляет следующие требования к данным:

    • показатели не должны коррелировать между собой;
    • показатели должны быть безразмерными;
    • их распределение должно быть близко к нормальному;
    • показатели должны отвечать требованию «устойчивости», под которой понимается отсутствие влияния на их значения случайных факторов;
    • выборка должна быть однородна, не содержать «выбросов».

    Если  кластерному анализу предшествует факторный анализ, то выборка не нуждается в «ремонте» — изложенные требования выполняются автоматически самой процедурой факторного моделирования (есть ещё одно достоинство — z-стандартизация без негативных последствий для выборки; если её проводить непосредственно для кластерного анализа, она может повлечь за собой уменьшение чёткости разделения групп). В противном случае выборку нужно корректировать. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

3 Методы кластерного анализа 

   Сегодня существует достаточно много методов кластерного анализа. Остановимся на некоторых из них (ниже приводимые методы принято называть методами минимальной дисперсии).

   Пусть Х - матрица наблюдений: Х = (Х1, Х2,..., Хu) и квадрат евклидова расстояния между Хi и Хj определяется по формуле:

   1) Метод полных связей.

   Суть  данного метода в том, что два  объекта, принадлежащих одной и  той же группе (кластеру), имеют коэффициент  сходства, который меньше некоторого порогового значения S. В терминах евклидова  расстояния d это означает, что расстояние между двумя точками (объектами) кластера не должно превышать некоторого порогового значения h. Таким образом, h определяет максимально допустимый диаметр подмножества, образующего кластер.

   2) Метод максимального локального  расстояния.

   Каждый  объект рассматривается как одноточечный кластер. Объекты группируются по следующему правилу: два кластера объединяются, если максимальное расстояние между точками одного кластера и точками другого минимально. Процедура состоит из n - 1 шагов и результатом являются разбиения, которые совпадают со всевозможными разбиениями в предыдущем методе для любых пороговых значений.

   3) Метод Ворда.

   В этом методе в качестве целевой функции  применяют внутригрупповую сумму  квадратов отклонений, которая есть ни что иное, как сумма квадратов расстояний между каждой точкой (объектом) и средней по кластеру, содержащему этот объект. На каждом шаге объединяются такие два кластера, которые приводят к минимальному увеличению целевой функции, т.е. внутригрупповой суммы квадратов. Этот метод направлен на объединение близко расположенных кластеров. 

   4) Центроидный метод.

   Расстояние  между двумя кластерами определяется как евклидово расстояние между  центрами (средними) этих кластеров:

   d2 ij  =  (`X –`Y)Т(`X –`Y) Кластеризация  идет поэтапно на каждом из n–1 шагов объединяют два кластера G и p, имеющие минимальное значение d2ij. Если n1 много больше  n2,  то центры объединения двух кластеров близки друг к другу и характеристики  второго кластера при объединении кластеров практически игнорируются. Иногда этот метод иногда называют еще методом взвешенных групп. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

  4 Применение кластерного анализа 

   Рассмотрим  некоторые приложения кластерного  анализа. Деление стран на группы по уровню развития.

   Изучались 65 стран по 31 показателю (национальный доход на душу населения, доля населения занятого в промышленности в %, накопления на душу населения, доля населения, занятого в сельском хозяйстве в %, средняя продолжительность жизни, число автомашин на 1 тыс. жителей, численность вооруженных сил на 1 млн. жителей, доля ВВП промышленности в %, доля ВВП сельского хозяйства в %, и т.д.)

   Каждая  из стран выступает в данном рассмотрении как объект, характеризуемый определенными  значениями 31 показателя. Соответственно они могут быть представлены в качестве точек в 31-мерном пространстве. Такое пространство обычно называется пространством свойств изучаемых объектов. Сравнение  расстояния между этими точками будет отражать степень близости рассматриваемых стран, их сходство друг с другом. Социально-экономический смысл подобного понимания сходства означает, что страны считаются тем более похожими, чем меньше различия между одноименными показателями, с помощью которых они описываются.

   Первый  шаг подобного анализа заключается в выявлении пары народных хозяйств, учтенных в матрице сходства, расстояние между которыми является наименьшим. Это, очевидно, будут наиболее сходные, похожие экономики. В последующем рассмотрении обе эти страны считаются единой группой, единым кластером. Соответственно исходная матрица преобразуется так, что ее элементами становятся расстояния между всеми возможными парами уже не 65, а 64 объектами – 63 экономики и вновь преобразованного кластера – условного объединения двух наиболее похожих стран. Из исходной матрицы сходства выбрасываются строки и столбцы, соответствующие расстояниям от пары стран, вошедших в объедение, до всех остальных, но зато добавляются строка и столбец, содержащие расстояние между кластером, полученным при объединении и прочими странами.

   Расстояние  между вновь полученным кластером  и странами полагается равным среднему из расстояний между последними и  двумя странами, которые составляют новый кластер. Иными словами, объединенная группа стран рассматривается как  целое  с характеристиками, примерно равными средним из характеристик входящих в него стран.

   Второй  шаг анализа заключается в  рассмотрении преобразованной таким  путем матрицы с 64 строками и столбцами. Снова выявляется пара экономик, расстояние между которыми имеет наименьшее значение, и они, так же как в первом случае, сводятся воедино. При этом наименьшее расстояние  может оказаться как между парой стран, так  и между какой-либо страной  и объединением стран, полученным на предыдущем этапе.

   Дальнейшие  процедуры аналогичны описанным выше: на каждом этапе матрица преобразуется так, что из нее исключаются два столбца и две строки, содержащие расстояние до объектов (пар стран или объединений – кластеров), сведенных воедино на предыдущей стадии; исключенные строки и столбцы заменяются столбцом  и строкой, содержащими расстояния от новых объединений до остальных объектов; далее в измененной матрице выявляется пара наиболее близких объектов. Анализ продолжается до полного исчерпания матрицы (т. е. до тех пор, пока все страны не окажутся сведенными в одно целое). Обобщенные результаты анализа матрицы можно представить в виде дерева сходства (дендограммы), подобного описанному выше, с той лишь разницей, что дерево сходства, отражающее относительную близость всех рассматриваемых нами 65 стран, много сложнее схемы, в которой фигурирует только пять народных хозяйств. Это дерево в соответствии  с числом сопоставляемых объектов включает 65 уровней. Первый (нижний) уровень содержит точки, соответствующие каждых стране в отдельности. Соединение двух этих точек на втором уровне показывает пару стран, наиболее близких по общему типу народных хозяйств. На третьем уровне отмечается следующее по сходству парное соотношение стран (как уже упоминалось, в таком соотношении может находиться либо новая пара стран, либо новая страна  и уже выявленная пара сходных стран). И так далее до последнего уровня, на котором все изучаемые страны выступают как единая совокупность.

Информация о работе Кластерный анализ