Кластерный анализ

Автор: Пользователь скрыл имя, 12 Января 2012 в 12:20, лабораторная работа

Описание работы

по исходным данным лабораторной работы №1 выявить аномальные объекты на вероятностной нормальной бумаге и удалить их из дальнейшего анализа;
провести корреляционный анализ;
провести анализ описательных статистик;
провести стандартизацию исходных данных;

Работа содержит 1 файл

кластерный анализ.doc

— 762.50 Кб (Скачать)

Лабораторная  работа. Кластерный анализ.

     План:

  1. по исходным данным лабораторной работы №1 выявить аномальные объекты на вероятностной нормальной бумаге и удалить их из дальнейшего анализа;
  2. провести корреляционный анализ;
  3. провести анализ описательных статистик;
  4. провести стандартизацию исходных данных;
  5. получить 2, 3, 4-х кластерные модели по методу «дальнего соседа», выявить лучшее разбиение;
  6. построить 2, 3, 4-х кластерные модели по методу Уорда, выявить наилучшее разбиение;
  7. построить графики средних значений;
  8. провести классификацию стран методом k-средних, рассмотреть 2, 3, 4-х кластерные модели, сделать выводы;
  9. сделать окончательный выбор классификации с учетом функционалов качества полученных разбиений.
 

Исходные данные  

Таблица №1

    x1 x2 x3 x4
1 1 44,46 104,96 90 154
2 2 39,4 129,73 85 149
3 3 15,01 75 139 619
4 4 10,07 99,93 124 286
5 5 24,43 116,61 113 593
6 6 10,59 109,22 153 735
7 7 62,48 128,27 95 163
8 8 11,28 84,86 247 1637
9 9 58,72 165,85 108 158
10 10 55,65 123,9 95 154
11 11 14,35 63,97 93 387
12 12 45,64 125,57 69 144
13 13 9,9 72,45 108 345
14 14 45,72 127,38 111 136
15 15 8,46 86,6 83 401
16 16 33,83 58,65 162 1246
17 17 49,66 120,74 113 153
18 18 45,41 111,67 114 133
19 19 35,65 151,57 80 159
20 20 21,97 96,06 153 1120
21 21 20,56 131,39 142 447
22 22 27,51 47,41 139 235
23 23 17,89 91,9 103 669
24 24 18,53 99,59 111 205
25 25 28,51 98,9 98 183
26 26 23,64 151,24 95 239
27 27 28,48 80,74 105 223
28 28 22,39 122,56 87 322
29 29 15,89 102,7 94 249
30 30 9,46 72,19 245 310
31 31 10,42 92,01 106 284
32 32 61,96 110,31 103 98
33 33 23,02 112,87 96 447
34 34 12,18 84,59 106 449
35 35 23,68 89,05 93 236
36 36 28,65 121,09 119 857
37 37 28,64 104,73 102 705
38 38 4,32 75,38 117 303
39 39 31,11 128,76 64 144
40 40 56,42 93,45 103 139
41 41 42,47 132,95 100 232
42 42 21,94 133,54 62 142
43 43 20,99 88,05 108 204
44 44 64,11 117,97 91 144
45 45 57,83 119,38 96 125
46 46 14,12 85,61 124 481
47 47 8,91 90,6 92 267
48 48 44,29 94,71 85 136
49 49 11,69 100,58 69 173
50 50 38,04 86,73 80 127
 

     1. Выявление аномальных объектов  на вероятностной нормальной  бумаге

х1х2, х1х3, х1х4, х2х3, х2х4, х3х4 – выявлены аномальные наблюдения.  

Проведенный анализ на нормальной вероятностной бумаге в ППП «Статистика» выявил 4 аномальных объекта. Следовательно, следует исключить из дальнейшего анализа следующие страны: Гондурас, Гонконг, Казахстан, Марокко. 

      2. Анализ корреляционной матрицы

      Табл.2.

  x1 x2 x3 x4
x1 1,00 0,41 -0,20 -0,39
x2 0,41 1,00 -0,40 -0,32
x3 -0,20 -0,40 1,00 0,63
x4 -0,39 -0,32 0,63 1,00

Анализ корреляционной матрицы показал, что между показателями существует средняя связь, но дублирующих  показателей не выявлено. Поэтому  в целях получения комплексного решения следует включить в исследование все показатели. Можно использовать евклидову метрику, т.к. исходные показатели имеют:

  1. разные единицы измерения;
  2. различный числовой порядок.
 

3. Анализ дескриптивных  статистик

Табл. 3 

Переменные Количество  стран Среднее значение Медиана Минимум Максимум Стандартное

отклонение

x1 46 29,5413 25,9700 4,32000 64,110 16,7963
x2 46 104,2393 103,7150 47,41000 151,570 23,3490
x3 46 102,5435 101,0000 62,00000 162,000 21,5280
x4 46 313,5217 233,5000 98,00000 1246,000 235,6864

      Анализ  дескриптивных статистик показал, что медиана для всех признаков смещена в сторону минимальных значений. Значения всех 4-х показателей ниже средних. Значения показателя «число телефонных аппаратов сети общего пользования» (х1) для 28 из 45 стран и значения показателя «темп роста числа телефонных аппаратов сети общего пользования» (х3) для 24 из 45 стран ниже средних, что говорит о все меньшей популярности такого вида связи. Значения показателя «число подключенных терминалов сотовой подвижной связи» (х2) для 23 из 45 стран и значения показателя «темп роста числа подключенных терминалов сотовой подвижной связи» (х4) для 31 из 45 стран ниже средних, что свидетельствует о достаточно высокой цене на данный вид услуг. 

      4. Процедура стандартизации исходных  данных

      Табл.4.

    x1 x2 x3 x4
1 1 0,888214542 0,0308643531 -0,582659512 -0,676838977
2 2 0,586957268 1,09172291 -0,81491547 -0,698053608
3 3 -0,865150422 -1,25227341 1,69344888 1,29612174
4 4 -1,15926325 -0,184562314 0,996681002 -0,11677271
5 5 -0,304311782 0,529814785 0,485717895 1,18580565
6 6 -1,12830401 0,21331318 2,34376556 1,78830118
7 7 1,96107147 1,0291935 -0,350403554 -0,63865264
8 8 1,55443369 0,842033553 -0,350403554 -0,676838977
9 9 -0,904444849 -1,72467026 -0,443305937 0,311762843
10 10 0,958468215 0,913556919 -1,55813453 -0,719268239
11 11 -1,16938455 -1,36148574 0,253461937 0,13355994
12 12 0,963231176 0,991076257 0,392815511 -0,753211649
13 13 -1,25511784 -0,755464396 -0,907817853 0,371163811
14 14 0,255336119 -1,95251715 2,76182628 3,9564365
15 15 1,197807 0,706695925 0,485717895 -0,681081903
16 16 0,944774703 0,31824267 0,532169086 -0,765940428
17 17 0,363693478 2,02709436 -1,04717143 -0,655624345
18 18 -0,534720013 1,16281799 1,83280245 0,566338419
19 19 -0,120937789 -2,43390795 1,69344888 -0,333161949
20 20 -0,693683831 -0,528474071 0,0212059788 1,50826805
21 21 -0,655580145 -0,199123957 0,392815511 -0,460449737
22 22 -0,061400778 -0,228675528 -0,211049979 -0,553794115
23 23 -0,35134602 2,012961 -0,350403554 -0,316190244
24 24 -0,0631868883 -1,0064386 0,114108362 -0,384077064
25 25 -0,425767283 0,784643546 -0,722013087 0,0359726357
26 26 -0,812757853 -0,0659277478 -0,396854745 -0,273760982
27 27 -1,1384253 -0,523762951 0,160559554 -0,125258562
28 28 1,93011223 0,259996096 0,0212059788 -0,914442847
29 29 -0,388258967 0,369636706 -0,303952362 0,566338419
30 30 -1,03364016 -0,841549406 0,160559554 0,574824271
31 31 -0,34896454 -0,650534906 -0,443305937 -0,328919023
32 32 -0,0530655965 0,721685852 0,764425044 2,30593819
33 33 -0,0536609666 0,0210138295 -0,0252452128 1,66101339
34 34 -1,50160107 -1,23599863 0,671522661 -0,0446429633
35 35 0,0933954498 1,0501794 -1,79039049 -0,719268239
36 36 1,60027719 -0,462090108 0,0212059788 -0,740482871
37 37 0,769735891 1,22963024 -0,118147596 -0,345890728
38 38 -0,452558938 1,25489897 -1,88329288 -0,727754092
39 39 -0,509119098 -0,693363269 0,253461937 -0,464692663
40 40 2,0581168 0,588061359 -0,53620832 -0,719268239
41 41 1,68422438 0,648449351 -0,303952362 -0,799883838
42 42 -0,918138362 -0,797864475 0,996681002 0,710597912
43 43 -1,22832619 -0,584150943 -0,489757129 -0,197388309
44 44 0,878093251 -0,40812637 -0,81491547 -0,753211649
45 45 -1,0628133 -0,156723878 -1,55813453 -0,596223378
46 46 0,505986934 -0,749896709 -1,04717143 -0,791397986
 

Для х1, х2, х3, х4 эталонный объект будет иметь максимальные значения. 

      Табл.5. Эталонные значения

  Х1э Х2э Х3э Х4э
Эталонная компания 2,0581168 2,02709436 2,76182628 3,9564365
Швейцария Италия Иран Иран
 

     Средние значения

Х1 Х2 Х3 Х4
29,5413 104,2393 102,5435 313,5217
 

     5. Метод «дальнего  соседа»

       

     На  расстоянии объединения, равном 7, получаем 2 кластера: 

     1 кластер –14

     2 кластер –19, 43, 27, 26, 24, 31, 22, 39, 21, 13, 9, 42, 30, 34, 11, 4, 33, 20, 32, 5, 18, 6, 3, 36, 28, 16, 15, 12, 41, 8, 40, 7, 38, 35, 10, 23, 17, 37, 2, 45, 29, 25, 46, 44, 1.

     На  расстоянии объединения, равном 5, получаем 3 кластера:

     1 кластер – 14

     2 кластер – 19, 43, 27, 26, 24, 31, 22, 39, 21, 13, 9, 42, 30, 34, 11, 4, 33, 20, 32, 5, 18, 6, 3

     3 кластер – 36, 28, 16, 15, 12, 41, 8, 40, 7, 38, 35, 10, 23, 17, 37, 2, 45, 29, 25, 46, 44, 1.

     На  расстоянии объединения, равном 4, получаем 4 кластера:

     1 кластер – 14

     2 кластер – 19, 43, 27, 26, 24, 31, 22, 39, 21, 13, 9, 42, 30, 34, 11, 4

     3 кластер – 33, 20, 32, 5, 18, 6, 3

     4 кластер – 36, 28, 16, 15, 12, 41, 8, 40, 7, 38, 35, 10, 23, 17, 37, 2, 45, 29, 25, 46, 44, 1. 

     2-х  кластерная модель: 

     Табл.6. 1 кластер 

Показатель Средние значения по исходным показателям по кластерам Средние значения по исходным показателям по выборке в целом Отношение, %
X1 22,42 29,5413 75
X2 96,31 104,2393 92
X3 213 102,5435 208
X4 386 313,5217 123
 
 

     Табл.7. 2 кластер

Показатель Средние значения по исходным показателям по кластерам Средние значения по исходным показателям по выборке в целом Отношение, %
X1 28,6889 29,5413 97
X2 104,1096 104,2393 99,8
X3 103,0444 102,5435 101
X4 296,6667 313,5217 94
 

     Табл.8.

№ кластера Х1 Х2 Х3 Х4
Кластер 1 75 92 208 123
Кластер 2 97 99,8 101 94
 
 

 
 

     3- кластерная модель: 

     Табл 9 кластер 1 

Показатель Средние значения по исходным показателям по кластерам Средние значения по исходным показателям по выборке  в целом Отношение, %
X1 22,42 29,5413 75
X2 96,31 104,2393 92
X3 213 102,5435 208
X4 386 313,5217 123
 
 

Табл 10 кластер 2 

Информация о работе Кластерный анализ