Лабораторная
работа. Кластерный анализ.
План:
- по исходным
данным лабораторной работы №1 выявить
аномальные объекты на вероятностной
нормальной бумаге и удалить их из дальнейшего
анализа;
- провести
корреляционный анализ;
- провести
анализ описательных статистик;
- провести
стандартизацию исходных данных;
- получить
2, 3, 4-х кластерные модели по методу «дальнего
соседа», выявить лучшее разбиение;
- построить
2, 3, 4-х кластерные модели по методу Уорда,
выявить наилучшее разбиение;
- построить
графики средних значений;
- провести
классификацию стран методом k-средних,
рассмотреть 2, 3, 4-х кластерные модели,
сделать выводы;
- сделать окончательный
выбор классификации с учетом функционалов
качества полученных разбиений.
Исходные данные
Таблица
№1
|
|
x1 |
x2 |
x3 |
x4 |
1 |
1 |
44,46 |
104,96 |
90 |
154 |
2 |
2 |
39,4 |
129,73 |
85 |
149 |
3 |
3 |
15,01 |
75 |
139 |
619 |
4 |
4 |
10,07 |
99,93 |
124 |
286 |
5 |
5 |
24,43 |
116,61 |
113 |
593 |
6 |
6 |
10,59 |
109,22 |
153 |
735 |
7 |
7 |
62,48 |
128,27 |
95 |
163 |
8 |
8 |
11,28 |
84,86 |
247 |
1637 |
9 |
9 |
58,72 |
165,85 |
108 |
158 |
10 |
10 |
55,65 |
123,9 |
95 |
154 |
11 |
11 |
14,35 |
63,97 |
93 |
387 |
12 |
12 |
45,64 |
125,57 |
69 |
144 |
13 |
13 |
9,9 |
72,45 |
108 |
345 |
14 |
14 |
45,72 |
127,38 |
111 |
136 |
15 |
15 |
8,46 |
86,6 |
83 |
401 |
16 |
16 |
33,83 |
58,65 |
162 |
1246 |
17 |
17 |
49,66 |
120,74 |
113 |
153 |
18 |
18 |
45,41 |
111,67 |
114 |
133 |
19 |
19 |
35,65 |
151,57 |
80 |
159 |
20 |
20 |
21,97 |
96,06 |
153 |
1120 |
21 |
21 |
20,56 |
131,39 |
142 |
447 |
22 |
22 |
27,51 |
47,41 |
139 |
235 |
23 |
23 |
17,89 |
91,9 |
103 |
669 |
24 |
24 |
18,53 |
99,59 |
111 |
205 |
25 |
25 |
28,51 |
98,9 |
98 |
183 |
26 |
26 |
23,64 |
151,24 |
95 |
239 |
27 |
27 |
28,48 |
80,74 |
105 |
223 |
28 |
28 |
22,39 |
122,56 |
87 |
322 |
29 |
29 |
15,89 |
102,7 |
94 |
249 |
30 |
30 |
9,46 |
72,19 |
245 |
310 |
31 |
31 |
10,42 |
92,01 |
106 |
284 |
32 |
32 |
61,96 |
110,31 |
103 |
98 |
33 |
33 |
23,02 |
112,87 |
96 |
447 |
34 |
34 |
12,18 |
84,59 |
106 |
449 |
35 |
35 |
23,68 |
89,05 |
93 |
236 |
36 |
36 |
28,65 |
121,09 |
119 |
857 |
37 |
37 |
28,64 |
104,73 |
102 |
705 |
38 |
38 |
4,32 |
75,38 |
117 |
303 |
39 |
39 |
31,11 |
128,76 |
64 |
144 |
40 |
40 |
56,42 |
93,45 |
103 |
139 |
41 |
41 |
42,47 |
132,95 |
100 |
232 |
42 |
42 |
21,94 |
133,54 |
62 |
142 |
43 |
43 |
20,99 |
88,05 |
108 |
204 |
44 |
44 |
64,11 |
117,97 |
91 |
144 |
45 |
45 |
57,83 |
119,38 |
96 |
125 |
46 |
46 |
14,12 |
85,61 |
124 |
481 |
47 |
47 |
8,91 |
90,6 |
92 |
267 |
48 |
48 |
44,29 |
94,71 |
85 |
136 |
49 |
49 |
11,69 |
100,58 |
69 |
173 |
50 |
50 |
38,04 |
86,73 |
80 |
127 |
|
1.
Выявление аномальных объектов
на вероятностной нормальной
бумаге
х1х2,
х1х3, х1х4, х2х3,
х2х4, х3х4 – выявлены
аномальные наблюдения.
Проведенный анализ
на нормальной вероятностной бумаге
в ППП «Статистика» выявил 4 аномальных
объекта. Следовательно, следует исключить
из дальнейшего анализа следующие страны:
Гондурас, Гонконг, Казахстан, Марокко.
2.
Анализ корреляционной матрицы
Табл.2.
|
x1 |
x2 |
x3 |
x4 |
x1 |
1,00 |
0,41 |
-0,20 |
-0,39 |
x2 |
0,41 |
1,00 |
-0,40 |
-0,32 |
x3 |
-0,20 |
-0,40 |
1,00 |
0,63 |
x4 |
-0,39 |
-0,32 |
0,63 |
1,00 |
|
Анализ корреляционной
матрицы показал, что между показателями
существует средняя связь, но дублирующих
показателей не выявлено. Поэтому
в целях получения комплексного
решения следует включить в исследование
все показатели. Можно использовать евклидову
метрику, т.к. исходные показатели имеют:
- разные единицы
измерения;
- различный
числовой порядок.
3. Анализ дескриптивных
статистик
Табл. 3
Переменные |
Количество
стран |
Среднее
значение |
Медиана |
Минимум |
Максимум |
Стандартное
отклонение |
x1 |
46 |
29,5413 |
25,9700 |
4,32000 |
64,110 |
16,7963 |
x2 |
46 |
104,2393 |
103,7150 |
47,41000 |
151,570 |
23,3490 |
x3 |
46 |
102,5435 |
101,0000 |
62,00000 |
162,000 |
21,5280 |
x4 |
46 |
313,5217 |
233,5000 |
98,00000 |
1246,000 |
235,6864 |
|
Анализ
дескриптивных статистик показал,
что медиана для всех признаков смещена
в сторону минимальных значений. Значения
всех 4-х показателей ниже средних. Значения
показателя «число телефонных аппаратов
сети общего пользования» (х1) для 28 из
45 стран и значения показателя «темп роста
числа телефонных аппаратов сети общего
пользования» (х3) для 24 из 45 стран ниже
средних, что говорит о все меньшей популярности
такого вида связи. Значения показателя
«число подключенных терминалов сотовой
подвижной связи» (х2) для 23 из 45 стран и
значения показателя «темп роста числа
подключенных терминалов сотовой подвижной
связи» (х4) для 31 из 45 стран ниже средних,
что свидетельствует о достаточно высокой
цене на данный вид услуг.
4.
Процедура стандартизации исходных
данных
Табл.4.
|
|
x1 |
x2 |
x3 |
x4 |
1 |
1 |
0,888214542 |
0,0308643531 |
-0,582659512 |
-0,676838977 |
2 |
2 |
0,586957268 |
1,09172291 |
-0,81491547 |
-0,698053608 |
3 |
3 |
-0,865150422 |
-1,25227341 |
1,69344888 |
1,29612174 |
4 |
4 |
-1,15926325 |
-0,184562314 |
0,996681002 |
-0,11677271 |
5 |
5 |
-0,304311782 |
0,529814785 |
0,485717895 |
1,18580565 |
6 |
6 |
-1,12830401 |
0,21331318 |
2,34376556 |
1,78830118 |
7 |
7 |
1,96107147 |
1,0291935 |
-0,350403554 |
-0,63865264 |
8 |
8 |
1,55443369 |
0,842033553 |
-0,350403554 |
-0,676838977 |
9 |
9 |
-0,904444849 |
-1,72467026 |
-0,443305937 |
0,311762843 |
10 |
10 |
0,958468215 |
0,913556919 |
-1,55813453 |
-0,719268239 |
11 |
11 |
-1,16938455 |
-1,36148574 |
0,253461937 |
0,13355994 |
12 |
12 |
0,963231176 |
0,991076257 |
0,392815511 |
-0,753211649 |
13 |
13 |
-1,25511784 |
-0,755464396 |
-0,907817853 |
0,371163811 |
14 |
14 |
0,255336119 |
-1,95251715 |
2,76182628 |
3,9564365 |
15 |
15 |
1,197807 |
0,706695925 |
0,485717895 |
-0,681081903 |
16 |
16 |
0,944774703 |
0,31824267 |
0,532169086 |
-0,765940428 |
17 |
17 |
0,363693478 |
2,02709436 |
-1,04717143 |
-0,655624345 |
18 |
18 |
-0,534720013 |
1,16281799 |
1,83280245 |
0,566338419 |
19 |
19 |
-0,120937789 |
-2,43390795 |
1,69344888 |
-0,333161949 |
20 |
20 |
-0,693683831 |
-0,528474071 |
0,0212059788 |
1,50826805 |
21 |
21 |
-0,655580145 |
-0,199123957 |
0,392815511 |
-0,460449737 |
22 |
22 |
-0,061400778 |
-0,228675528 |
-0,211049979 |
-0,553794115 |
23 |
23 |
-0,35134602 |
2,012961 |
-0,350403554 |
-0,316190244 |
24 |
24 |
-0,0631868883 |
-1,0064386 |
0,114108362 |
-0,384077064 |
25 |
25 |
-0,425767283 |
0,784643546 |
-0,722013087 |
0,0359726357 |
26 |
26 |
-0,812757853 |
-0,0659277478 |
-0,396854745 |
-0,273760982 |
27 |
27 |
-1,1384253 |
-0,523762951 |
0,160559554 |
-0,125258562 |
28 |
28 |
1,93011223 |
0,259996096 |
0,0212059788 |
-0,914442847 |
29 |
29 |
-0,388258967 |
0,369636706 |
-0,303952362 |
0,566338419 |
30 |
30 |
-1,03364016 |
-0,841549406 |
0,160559554 |
0,574824271 |
31 |
31 |
-0,34896454 |
-0,650534906 |
-0,443305937 |
-0,328919023 |
32 |
32 |
-0,0530655965 |
0,721685852 |
0,764425044 |
2,30593819 |
33 |
33 |
-0,0536609666 |
0,0210138295 |
-0,0252452128 |
1,66101339 |
34 |
34 |
-1,50160107 |
-1,23599863 |
0,671522661 |
-0,0446429633 |
35 |
35 |
0,0933954498 |
1,0501794 |
-1,79039049 |
-0,719268239 |
36 |
36 |
1,60027719 |
-0,462090108 |
0,0212059788 |
-0,740482871 |
37 |
37 |
0,769735891 |
1,22963024 |
-0,118147596 |
-0,345890728 |
38 |
38 |
-0,452558938 |
1,25489897 |
-1,88329288 |
-0,727754092 |
39 |
39 |
-0,509119098 |
-0,693363269 |
0,253461937 |
-0,464692663 |
40 |
40 |
2,0581168 |
0,588061359 |
-0,53620832 |
-0,719268239 |
41 |
41 |
1,68422438 |
0,648449351 |
-0,303952362 |
-0,799883838 |
42 |
42 |
-0,918138362 |
-0,797864475 |
0,996681002 |
0,710597912 |
43 |
43 |
-1,22832619 |
-0,584150943 |
-0,489757129 |
-0,197388309 |
44 |
44 |
0,878093251 |
-0,40812637 |
-0,81491547 |
-0,753211649 |
45 |
45 |
-1,0628133 |
-0,156723878 |
-1,55813453 |
-0,596223378 |
46 |
46 |
0,505986934 |
-0,749896709 |
-1,04717143 |
-0,791397986 |
|
Для х1,
х2, х3, х4 эталонный объект
будет иметь максимальные значения.
Табл.5.
Эталонные значения
|
Х1э |
Х2э |
Х3э |
Х4э |
Эталонная
компания |
2,0581168 |
2,02709436 |
2,76182628 |
3,9564365 |
Швейцария |
Италия |
Иран |
Иран |
Средние
значения
Х1 |
Х2 |
Х3 |
Х4 |
29,5413 |
104,2393 |
102,5435 |
313,5217 |
5.
Метод «дальнего
соседа»
На
расстоянии объединения,
равном 7, получаем 2
кластера:
1
кластер –14
2
кластер –19, 43, 27, 26, 24, 31, 22, 39, 21, 13, 9, 42,
30, 34, 11, 4, 33, 20, 32, 5, 18, 6, 3, 36, 28, 16, 15, 12, 41, 8, 40,
7, 38, 35, 10, 23, 17, 37, 2, 45, 29, 25, 46, 44, 1.
На
расстоянии объединения, равном 5, получаем
3 кластера:
1
кластер – 14
2
кластер – 19, 43, 27, 26, 24, 31, 22, 39, 21, 13,
9, 42, 30, 34, 11, 4, 33, 20, 32, 5, 18, 6, 3
3
кластер – 36, 28, 16, 15, 12, 41, 8, 40, 7, 38, 35, 10, 23,
17, 37, 2, 45, 29, 25, 46, 44, 1.
На
расстоянии объединения, равном 4, получаем
4 кластера:
1
кластер – 14
2
кластер – 19, 43, 27, 26, 24, 31, 22, 39, 21, 13,
9, 42, 30, 34, 11, 4
3
кластер – 33, 20, 32, 5, 18, 6, 3
4
кластер – 36, 28, 16, 15, 12, 41, 8, 40, 7, 38, 35,
10, 23, 17, 37, 2, 45, 29, 25, 46, 44, 1.
2-х
кластерная модель:
Табл.6.
1 кластер
Показатель |
Средние значения
по исходным показателям по кластерам |
Средние значения
по исходным показателям по выборке в
целом |
Отношение, % |
X1 |
22,42 |
29,5413 |
75 |
X2 |
96,31 |
104,2393 |
92 |
X3 |
213 |
102,5435 |
208 |
X4 |
386 |
313,5217 |
123 |
Табл.7.
2 кластер
Показатель |
Средние значения
по исходным показателям по кластерам |
Средние значения
по исходным показателям по выборке
в целом |
Отношение, % |
X1 |
28,6889 |
29,5413 |
97 |
X2 |
104,1096 |
104,2393 |
99,8 |
X3 |
103,0444 |
102,5435 |
101 |
X4 |
296,6667 |
313,5217 |
94 |
Табл.8.
№ кластера |
Х1 |
Х2 |
Х3 |
Х4 |
Кластер
1 |
75 |
92 |
208 |
123 |
Кластер
2 |
97 |
99,8 |
101 |
94 |
3-
кластерная модель:
Табл
9 кластер 1
Показатель |
Средние значения
по исходным показателям по кластерам |
Средние значения
по исходным показателям по выборке
в целом |
Отношение, % |
X1 |
22,42 |
29,5413 |
75 |
X2 |
96,31 |
104,2393 |
92 |
X3 |
213 |
102,5435 |
208 |
X4 |
386 |
313,5217 |
123 |
Табл 10 кластер
2