Кластерный анализ

Автор: Пользователь скрыл имя, 15 Декабря 2010 в 18:27, контрольная работа

Описание работы

Кластерный анализ по многомерным статистическим методам.

Скачать полностью (122.54 Кб) Сколько стоит заказать работу?

Работа содержит 1 файл

кластерный.docx

— 134.31 Кб (Скачать)

V. Кластерный анализ.

1. Проранжируем данные по всем показателям и исключим аномальные наблюдения: визуальный анализ диаграмм рассеяния показал, что таких наблюдений нет.

На основе корреляционной матрицы проверим, не присутствует ли мультиколлинеарность между признаками.

1	0,570	0,738	0,257	-0,053
0,570	1	0,250	-0,115	0,144
0,738	0,250	1	0,528	0,027
0,257	-0,115	0,528	1	-0,339
-0,053	0,144	0,027	-0,339	1

Мультиколлинеарности не наблюдается, поэтому кластеризация будет проводиться по 60 наблюдениям.

Построим регрессию по всем переменным, используя метод пошагового исключения регрессоров в SPSS:

Model Summary

Model	R	R Square	Adjusted R Square	Std. Error of the Estimate
1	,738(a)	,545	,539	5095,28318
2	,839(b)	,704	,696	4140,48435
3	,849(c)	,721	,710	4045,54829

a Predictors: (Constant), Численность населения за чертой бедности (тыс.чел.)

b Predictors: (Constant), Численность населения за чертой бедности (тыс.чел.), Численность безработных (тыс.чел.)

c Predictors: (Constant), Численность населения за чертой бедности (тыс.чел.), Численность безработных (тыс.чел.), Общий коэффициент смертности (на 1000 чел.)

Coefficients(a)

Model		Unstandardized Coefficients		Standardized Coefficients	t	Sig.
		B	Std. Error	Beta
1	(Constant)	4114,556	701,187		5,868	,000
	Численность населения за чертой бедности (тыс.чел.)	2,002	,207	,738	9,671	,000
2	(Constant)	1213,893	727,511		1,669	,099
	Численность населения за чертой бедности (тыс.чел.)	1,723	,174	,636	9,919	,000
	Численность безработных (тыс.чел.)	16,813	2,622	,411	6,413	,000
3	(Constant)	3881,367	1425,977		2,722	,008
	Численность населения за чертой бедности (тыс.чел.)	1,720	,170	,634	10,131	,000
	Численность безработных (тыс.чел.)	17,603	2,588	,430	6,802	,000
	Общий коэффициент смертности (на 1000 чел.)	-342,041	158,511	-,132	-2,158	,034

На основе полученных данных можно сделать вывод о том, что из трех построенных моделей наилучшая – третья (основанный на численности населения за чертой бедности, численности безработных и общем коэффициенте смертности), т.к. эта модель имеет наибольшую точность (R² = 0,721) и наименьшую ошибку (S = 4045,55). На основе анализа было также выявлено, что на уровне значимости α = 0,05 уравнение регрессии значимо, а также значимыми являются и все коэффициенты.

Окончательное уравнение регрессии имеет вид: Y = 3881,37 + 17,6X₂+ 1,72X₃ – 342,05X₅,

(0,634) (0,43) (-0,132)

S = 4045,55, R² = 0,721.

2. Проведем классификацию объектов с использованием иерархических кластер-процедур, используя Евклидово расстояние, а также методы ближнего соседа, дальнего соседа, центра тяжести, средней связи, Уорда (Warda).

Результаты классификации представлены в таблице:

	Метод
1	Ближнего соседа	3 кластера
2	Дальнего соседа	4 кластера
3	Центра тяжести	3 кластера
4	Средней связи	3 кластера
5	Уорда	4 кластера

3. Таким образом, исходную совокупность объектов целесообразно разбить на 3 кластера.

4. Классифицируем объекты с помощью метода k – средних.

В предыдущем пункте мы выяснили, что целесообразнее всего разбить совокупность на 3 кластера. Классификация объектов по кластерам представлена в таблице:

Кластер
1	2	3
Albania	Australia	Bosnia and Herzegovina
Armenia	Austria	Costa Rica
Bahamas	Azerbaijan	Croatia
Bahrain	Belarus	Denmark
Barbados	Belgium	Egypt
Belize	Bulgaria	El Salvador
Bhutan	Cuba	Finland
Botswana	Czech Republic	Georgia
Cyprus	Greece	Ireland
Estonia	Hungary	Israel
Fiji	Netherlands	Kyrgyzstan
Jamaica	Portugal	Lebanon
Kuwait	Sweden	New Zealand
Latvia	Switzerland	Nicaragua
Lithuania	Syrian Arab Republic	Norway
Luxembourg	Tunisia	Paraguay
Maldives		Republic of Moldova
Malta		Slovakia
Mauritius
Mongolia
Montenegro
Panama
Slovenia
The former Yugoslav Republic of Macedonia
Trinidad and Tobago
Uruguay
26	16	18

В таблице приведены средние значения кластеров по показателям:

Кластер	Численность населения, тыс.чел	Численность безработных, тыс.чел.	Численность населения за чертой бедности, тыс.чел.	Общий коэффициент рождаемости (на 1000 чел.)	Общий коэффициент смертности (на 1000 чел.)
1	1620,46	65,29	339,65	15,42	9,61
2	11304,94	318,21	1386,64	11,74	8,19
3	4981,76	174,57	1082,84	15,62	7,73

Как видно из таблицы, первый кластер характеризуется малыми численностью населения, количеством безработных и долей населения за чертой бедности, при этом высокими коэффициентами смертности и рождаемости. Этот кластер включает в себя в основном небольшие развивающиеся страны (однако, возможно, из-за маленькой численности населения в этот же кластер попали Эстония, Латвия, Литва, Мальта и Люксембург).

Второй кластер включает в себя страны с большой численностью населения, количеством безработных и долей населения за чертой бедности, тогда как коэффициент рождаемости у этого кластера самый маленький, а коэффициент смертности – средний по сравнению с остальными кластерами. Этот кластер состоит в основном из развитых стран (за исключением Азербайджана и Кубы).

Третий кластер можно назвать «промежуточным»: показатели численности населения, безработных и населения за чертой бедности превышают те же характеристики для первого кластера, но уступают второму. Общий коэффициент рождаемости – самый большой из трех кластеров, а коэффициент смертности – самый маленький. В этот кластер попали как развитые, так и развивающиеся страны.

Построим графики, отражающие разбиение совокупности данных на кластеры:

5. Построим типологические регрессии по каждому кластеру.

а) 1 кластер

Методом пошагового исключения регрессоров:

Model Summary

Model	R	R Square	Adjusted R Square	Std. Error of the Estimate
1	,796(a)	,634	,619	694,04781
2	,850(b)	,723	,699	617,28352

a Predictors: (Constant), X3

b Predictors: (Constant), X3, X4

Coefficients(a)

Model		Unstandardized Coefficients		Standardized Coefficients	t	Sig.
		B	Std. Error	Beta
1	(Constant)	777,257	188,710		4,119	,000
	X3	2,483	,385	,796	6,451	,000
2	(Constant)	1760,551	399,861		4,403	,000
	X3	2,815	,364	,903	7,742	,000
	X4	-71,112	26,247	-,316	-2,709	,013

Информация о работе Кластерный анализ