Автор: Пользователь скрыл имя, 15 Декабря 2010 в 18:27, контрольная работа
Кластерный анализ по многомерным статистическим методам.
V.
Кластерный анализ.
1. Проранжируем данные по всем показателям и исключим аномальные наблюдения: визуальный анализ диаграмм рассеяния показал, что таких наблюдений нет.
На
основе корреляционной матрицы проверим,
не присутствует ли мультиколлинеарность
между признаками.
1 | 0,570 | 0,738 | 0,257 | -0,053 |
0,570 | 1 | 0,250 | -0,115 | 0,144 |
0,738 | 0,250 | 1 | 0,528 | 0,027 |
0,257 | -0,115 | 0,528 | 1 | -0,339 |
-0,053 | 0,144 | 0,027 | -0,339 | 1 |
Мультиколлинеарности
не наблюдается, поэтому кластеризация
будет проводиться по 60 наблюдениям.
Построим регрессию по всем переменным, используя метод пошагового исключения регрессоров в SPSS:
|
a Predictors: (Constant),
Численность населения за b Predictors: (Constant),
Численность населения за c Predictors: (Constant),
Численность населения за |
Coefficients(a)
Model | Unstandardized Coefficients | Standardized Coefficients | t | Sig. | ||
B | Std. Error | Beta | ||||
1 | (Constant) | 4114,556 | 701,187 | 5,868 | ,000 | |
Численность населения за чертой бедности (тыс.чел.) | 2,002 | ,207 | ,738 | 9,671 | ,000 | |
2 | (Constant) | 1213,893 | 727,511 | 1,669 | ,099 | |
Численность населения за чертой бедности (тыс.чел.) | 1,723 | ,174 | ,636 | 9,919 | ,000 | |
Численность безработных (тыс.чел.) | 16,813 | 2,622 | ,411 | 6,413 | ,000 | |
3 | (Constant) | 3881,367 | 1425,977 | 2,722 | ,008 | |
Численность населения за чертой бедности (тыс.чел.) | 1,720 | ,170 | ,634 | 10,131 | ,000 | |
Численность безработных (тыс.чел.) | 17,603 | 2,588 | ,430 | 6,802 | ,000 | |
Общий коэффициент смертности (на 1000 чел.) | -342,041 | 158,511 | -,132 | -2,158 | ,034 |
На
основе полученных данных можно сделать
вывод о том, что из трех построенных
моделей наилучшая – третья (основанный
на численности населения за чертой
бедности, численности безработных
и общем коэффициенте смертности),
т.к. эта модель имеет наибольшую
точность (R2 = 0,721) и наименьшую ошибку
(S = 4045,55). На основе анализа было также
выявлено, что на уровне значимости α =
0,05 уравнение регрессии значимо, а также
значимыми являются и все коэффициенты.
Окончательное уравнение регрессии имеет вид: Y = 3881,37 + 17,6X2 + 1,72X3 – 342,05X5,
2.
Проведем классификацию
объектов с использованием
иерархических кластер-процедур,
используя Евклидово
расстояние, а также
методы ближнего соседа,
дальнего соседа, центра
тяжести, средней связи,
Уорда (Warda).
Результаты классификации
представлены в таблице:
Метод | ||
1 | Ближнего соседа | 3 кластера |
2 | Дальнего соседа | 4 кластера |
3 | Центра тяжести | 3 кластера |
4 | Средней связи | 3 кластера |
5 | Уорда | 4 кластера |
3.
Таким образом, исходную
совокупность объектов
целесообразно разбить
на 3 кластера.
4.
Классифицируем объекты
с помощью метода k –
средних.
В
предыдущем пункте мы выяснили, что
целесообразнее всего разбить совокупность
на 3 кластера. Классификация объектов
по кластерам представлена в таблице:
Кластер | ||
1 | 2 | 3 |
Albania | Australia | Bosnia and Herzegovina |
Armenia | Austria | Costa Rica |
Bahamas | Azerbaijan | Croatia |
Bahrain | Belarus | Denmark |
Barbados | Belgium | Egypt |
Belize | Bulgaria | El Salvador |
Bhutan | Cuba | Finland |
Botswana | Czech Republic | Georgia |
Cyprus | Greece | Ireland |
Estonia | Hungary | Israel |
Fiji | Netherlands | Kyrgyzstan |
Jamaica | Portugal | Lebanon |
Kuwait | Sweden | New Zealand |
Latvia | Switzerland | Nicaragua |
Lithuania | Syrian Arab Republic | Norway |
Luxembourg | Tunisia | Paraguay |
Maldives | Republic of Moldova | |
Malta | Slovakia | |
Mauritius | ||
Mongolia | ||
Montenegro | ||
Panama | ||
Slovenia | ||
The former Yugoslav Republic of Macedonia | ||
Trinidad and Tobago | ||
Uruguay | ||
26 | 16 | 18 |
В таблице приведены
средние значения кластеров по показателям:
Кластер | Численность населения, тыс.чел | Численность безработных, тыс.чел. | Численность населения за чертой бедности, тыс.чел. | Общий коэффициент
рождаемости
(на 1000 чел.) |
Общий коэффициент
смертности
(на 1000 чел.) |
1 | 1620,46 | 65,29 | 339,65 | 15,42 | 9,61 |
2 | 11304,94 | 318,21 | 1386,64 | 11,74 | 8,19 |
3 | 4981,76 | 174,57 | 1082,84 | 15,62 | 7,73 |
Как
видно из таблицы, первый кластер
характеризуется малыми численностью
населения, количеством безработных
и долей населения за чертой бедности,
при этом высокими коэффициентами смертности
и рождаемости. Этот кластер включает
в себя в основном небольшие развивающиеся
страны (однако, возможно, из-за маленькой
численности населения в этот же кластер
попали Эстония, Латвия, Литва, Мальта
и Люксембург).
Второй
кластер включает в себя страны с
большой численностью населения, количеством
безработных и долей населения
за чертой бедности, тогда как коэффициент
рождаемости у этого кластера
самый маленький, а коэффициент смертности
– средний по сравнению с остальными кластерами.
Этот кластер состоит в основном из развитых
стран (за исключением Азербайджана и
Кубы).
Третий
кластер можно назвать «
Построим графики, отражающие разбиение совокупности данных на кластеры:
5.
Построим типологические
регрессии по каждому
кластеру.
а)
1 кластер
Методом пошагового
исключения регрессоров:
Model
Summary
Model | R | R Square | Adjusted R Square | Std. Error of the Estimate |
1 | ,796(a) | ,634 | ,619 | 694,04781 |
2 | ,850(b) | ,723 | ,699 | 617,28352 |
a Predictors: (Constant), X3
b Predictors: (Constant),
X3, X4
Coefficients(a)
Model | Unstandardized Coefficients | Standardized Coefficients | t | Sig. | ||
B | Std. Error | Beta | ||||
1 | (Constant) | 777,257 | 188,710 | 4,119 | ,000 | |
X3 | 2,483 | ,385 | ,796 | 6,451 | ,000 | |
2 | (Constant) | 1760,551 | 399,861 | 4,403 | ,000 | |
X3 | 2,815 | ,364 | ,903 | 7,742 | ,000 | |
X4 | -71,112 | 26,247 | -,316 | -2,709 | ,013 |