Кластерный анализ

Автор: Пользователь скрыл имя, 15 Декабря 2010 в 18:27, контрольная работа

Описание работы

Кластерный анализ по многомерным статистическим методам.

Работа содержит 1 файл

кластерный.docx

— 134.31 Кб (Скачать)

V. Кластерный анализ. 

     1. Проранжируем данные по всем показателям и исключим аномальные наблюдения: визуальный анализ диаграмм рассеяния показал, что таких наблюдений нет.

     На  основе корреляционной матрицы проверим, не присутствует ли мультиколлинеарность между признаками. 

1 0,570 0,738 0,257 -0,053
0,570 1 0,250 -0,115 0,144
0,738 0,250 1 0,528 0,027
0,257 -0,115 0,528 1 -0,339
-0,053 0,144 0,027 -0,339 1
 

      Мультиколлинеарности  не наблюдается, поэтому кластеризация будет проводиться по 60 наблюдениям. 

     Построим  регрессию по всем переменным, используя метод пошагового исключения регрессоров в SPSS:

                                         Model Summary 

 
Model R R Square Adjusted R Square Std. Error of the Estimate
1 ,738(a) ,545 ,539 5095,28318
2 ,839(b) ,704 ,696 4140,48435
 
3
,849(c) ,721 ,710 4045,54829
 
 
a  Predictors: (Constant), Численность населения за чертой  бедности (тыс.чел.)

b  Predictors: (Constant), Численность населения за чертой  бедности (тыс.чел.), Численность безработных  (тыс.чел.)

c  Predictors: (Constant), Численность населения за чертой  бедности (тыс.чел.), Численность безработных  (тыс.чел.), Общий коэффициент смертности (на 1000 чел.)

 

      Coefficients(a) 

Model    Unstandardized Coefficients Standardized Coefficients t Sig.
       B Std. Error Beta      
1 (Constant) 4114,556 701,187    5,868 ,000
    Численность населения  за чертой бедности (тыс.чел.) 2,002 ,207 ,738 9,671 ,000
2 (Constant) 1213,893 727,511    1,669 ,099
    Численность населения  за чертой бедности (тыс.чел.) 1,723 ,174 ,636 9,919 ,000
    Численность безработных (тыс.чел.) 16,813 2,622 ,411 6,413 ,000
3 (Constant) 3881,367 1425,977    2,722 ,008
    Численность населения  за чертой бедности (тыс.чел.) 1,720 ,170 ,634 10,131 ,000
    Численность безработных (тыс.чел.) 17,603 2,588 ,430 6,802 ,000
    Общий коэффициент  смертности (на 1000 чел.) -342,041 158,511 -,132 -2,158 ,034
 

     На  основе полученных данных можно сделать  вывод о том, что из трех построенных  моделей наилучшая – третья (основанный на численности населения за чертой бедности, численности безработных  и общем коэффициенте смертности), т.к. эта модель имеет наибольшую точность (R2 = 0,721) и наименьшую ошибку (S = 4045,55). На основе анализа было также выявлено, что на уровне значимости α = 0,05 уравнение регрессии значимо, а также значимыми являются и все коэффициенты. 

     Окончательное уравнение регрессии имеет вид: Y = 3881,37 + 17,6X2 + 1,72X3 – 342,05X5,

                                                                                                                 (0,634)     (0,43)    (-0,132)

                                                                                                     S = 4045,55, R2 = 0,721. 

     2. Проведем классификацию объектов с использованием иерархических кластер-процедур, используя Евклидово расстояние, а также методы ближнего соседа, дальнего соседа, центра тяжести, средней связи, Уорда (Warda). 

Результаты классификации  представлены в таблице: 

  Метод  
1 Ближнего соседа 3 кластера
2 Дальнего соседа 4 кластера
3 Центра тяжести 3 кластера
4 Средней связи 3 кластера
5 Уорда 4 кластера
 
 

3. Таким образом, исходную совокупность объектов целесообразно разбить на 3 кластера. 
 
 
 

4. Классифицируем объекты с помощью метода k – средних. 

     В предыдущем пункте мы выяснили, что  целесообразнее всего разбить совокупность на 3 кластера. Классификация объектов по кластерам представлена в таблице: 

Кластер
1 2 3
Albania Australia Bosnia and Herzegovina
Armenia Austria Costa Rica
Bahamas Azerbaijan Croatia
Bahrain Belarus Denmark
Barbados Belgium Egypt
Belize Bulgaria El Salvador
Bhutan Cuba Finland
Botswana Czech Republic Georgia
Cyprus Greece Ireland
Estonia Hungary Israel
Fiji Netherlands Kyrgyzstan
Jamaica Portugal Lebanon
Kuwait Sweden New Zealand
Latvia Switzerland Nicaragua
Lithuania Syrian Arab Republic Norway
Luxembourg Tunisia Paraguay
Maldives   Republic of Moldova
Malta   Slovakia
Mauritius    
Mongolia    
Montenegro    
Panama    
Slovenia    
The former Yugoslav Republic of Macedonia    
Trinidad and Tobago    
Uruguay    
26 16 18
 
 

В таблице приведены  средние значения кластеров по показателям: 

Кластер Численность населения, тыс.чел Численность безработных, тыс.чел. Численность населения  за чертой бедности, тыс.чел. Общий коэффициент  рождаемости

(на 1000 чел.)

Общий коэффициент  смертности

(на 1000 чел.)

1 1620,46 65,29 339,65 15,42 9,61
2 11304,94 318,21 1386,64 11,74 8,19
3 4981,76 174,57 1082,84 15,62 7,73
 

      Как видно из таблицы, первый кластер  характеризуется малыми численностью населения, количеством безработных  и долей населения за чертой бедности, при этом высокими коэффициентами смертности и рождаемости. Этот кластер включает в себя в основном небольшие развивающиеся страны (однако, возможно, из-за маленькой численности населения в этот же кластер попали Эстония, Латвия, Литва, Мальта и Люксембург). 

      Второй  кластер включает в себя страны с  большой численностью населения, количеством  безработных и долей населения  за чертой бедности, тогда как коэффициент  рождаемости у этого кластера самый маленький, а коэффициент смертности – средний по сравнению с остальными кластерами. Этот кластер состоит в основном из развитых стран (за исключением Азербайджана и Кубы). 

      Третий  кластер можно назвать «промежуточным»: показатели численности населения, безработных и населения за чертой бедности превышают те же характеристики для первого кластера, но уступают второму. Общий коэффициент рождаемости – самый большой из трех кластеров, а коэффициент смертности – самый маленький. В этот кластер попали как развитые, так и развивающиеся страны. 
 
 
 
 
 
 
 
 
 

      Построим графики, отражающие разбиение  совокупности данных на кластеры:

 
 
 
 
 
 
 
 
 
 
 
 

5. Построим типологические  регрессии по каждому  кластеру. 

      а) 1 кластер 

Методом пошагового исключения регрессоров: 

      Model Summary   

Model R R Square Adjusted R Square Std. Error of the Estimate
1 ,796(a) ,634 ,619 694,04781
2 ,850(b) ,723 ,699 617,28352

a  Predictors: (Constant), X3

b  Predictors: (Constant), X3, X4 

      Coefficients(a) 

Model    Unstandardized Coefficients Standardized Coefficients t Sig.
       B Std. Error Beta      
1 (Constant) 777,257 188,710    4,119 ,000
    X3 2,483 ,385 ,796 6,451 ,000
2 (Constant) 1760,551 399,861    4,403 ,000
    X3 2,815 ,364 ,903 7,742 ,000
    X4 -71,112 26,247 -,316 -2,709 ,013

Информация о работе Кластерный анализ