Автор: Пользователь скрыл имя, 31 Марта 2013 в 13:12, курсовая работа
Необходимо проверить характер распределения данных признаков и удалить аномальные данные.
В математической статистике выделяют два вида случайных величин- дискретные и непрерывные. Дискретные- это величины, которые можно пронумеровать, посчитать. Непрерывные- это величины, которые занимают интервал, конечный или бесконечный.
В данном курсовом проекте мы имеем дело с непрерывными случайными величинами.
1. Вычисление описательных статистик для каждого фактора………………...3
Матрица парных коэффициентов корреляции………………………………13
Коллинеарность факторов…………………………………………………….19
Средние коэффициенты эластичности……………………………………….19
Уравнение регрессии в линейной форме с полным набором факторов…...20
Оценка статистической значимости уравнения регрессии и его параметра с помощью критерия Фишера и Стьюдента. Интерпретация значимых параметров……………………………………………………………………..23
Уравнение регрессии со статистически значимыми факторами…………...25
Оценка качества уравнения через среднюю ошибку аппроксимации……..26
Выводы………………………………………………
Содержание:
1. Вычисление
описательных статистик для
Исходные данные
Страна |
Y |
X1 |
X2 |
X3 |
X4 |
Мозамбик |
47 |
3 |
2,6 |
2,4 |
113 |
Бурунди |
49 |
2,3 |
2,6 |
2,7 |
98 |
Чад |
48 |
2,6 |
2,5 |
2,5 |
117 |
Непал |
55 |
4,3 |
2,5 |
2,4 |
91 |
Буркина-Фасо |
49 |
2,9 |
2,8 |
2,1 |
99 |
Мадагаскар |
52 |
2,4 |
3,1 |
3,1 |
89 |
Бангладеш |
58 |
5,1 |
1,6 |
2,1 |
79 |
Гаити |
57 |
3,4 |
2 |
1,7 |
72 |
Мали |
50 |
2 |
2,9 |
2,7 |
123 |
Нигерия |
53 |
4,5 |
2,9 |
2,8 |
80 |
Кения |
58 |
5,1 |
2,7 |
2,7 |
58 |
Того |
56 |
4,2 |
3 |
2,8 |
88 |
Индия |
62 |
5,2 |
1,8 |
2 |
68 |
Бенин |
50 |
6,5 |
2,9 |
2,5 |
95 |
Никарагуа |
68 |
7,4 |
3,1 |
4 |
46 |
Гана |
59 |
7,4 |
2,8 |
2,7 |
73 |
Ангола |
47 |
4,9 |
3,1 |
2,8 |
124 |
Пакистан |
60 |
8,3 |
2,9 |
3,3 |
90 |
Мавритания |
51 |
5,7 |
2,5 |
2,7 |
96 |
Зимбабве |
57 |
7,5 |
2,4 |
2,2 |
55 |
Гондурас |
67 |
7 |
3 |
3,8 |
45 |
Китай |
69 |
10,8 |
1,1 |
1,1 |
34 |
Камерун |
57 |
7,8 |
2,9 |
3,1 |
56 |
Конго |
51 |
7,6 |
2,9 |
2,6 |
90 |
Шри-Ланка |
72 |
12,1 |
1,3 |
2 |
16 |
Принятые в таблице обозначения:
Y – средняя ожидаемая продолжительность жизни при рождении, лет;
X1 – ВВП по паритету покупательной способности, млрд долл. США;
X2 – темпы прироста населения по сравнению с предыдущим годом, %;
X3 – темпы прироста рабочей силы по сравнению с предыдущим годом, %;
X4 – коэффициент младенческой смертности, %;
1. Вычисление описательных статистик для каждого фактора
Необходимо проверить характер
распределения данных
В математической статистике выделяют два вида случайных величин- дискретные и непрерывные. Дискретные- это величины, которые можно пронумеровать, посчитать. Непрерывные- это величины, которые занимают интервал, конечный или бесконечный.
В данном курсовом проекте мы имеем дело с непрерывными случайными величинами.
Мы будем определять следующие выборочные характеристики для наших факторов:
-Хв;
-Д;
-Sx.
Методом описательной статистики называют методы описания выборок с помощью различных показателей и графиков.
На данном
этапе необходимо проверить принадлежит
ли выборка нормальному
Решение:
Since the smallest P-value amongst the tests performed is greater
than or equal to 0.10, we can not reject the idea that Y comes from a
normal distribution with 90% or higher confidence.
Исходя из вышеизложенной информации делаем вывод о том, что Y принадлежит нормальному распределению с вероятностью 90%.
Since the smallest P-value amongst the tests performed is greater
than or equal to 0.10, we can not reject the idea that X1 comes from a
normal distribution with 90% or higher confidence.
Исходя из вышеизложенной информации делаем вывод о том, что Х1 принадлежит нормальному распределению с вероятностью 90%.
Since the smallest P-value amongst the tests performed is less than
0.01, we can reject the idea that X2 comes from a normal distribution
with 99% confidence.
Исходя из вышеизложенной информации делаем вывод о том, что Х2 не принадлежит нормальному распределению с вероятностью 99%.
Since the smallest P-value amongst the tests performed is less than
0.05, we can reject the idea that X3 comes from a normal distribution
with 95% confidence.
Исходя из вышеизложенной информации делаем вывод о том, что Х3 не принадлежит нормальному распределению с вероятностью 95%.
Since the smallest P-value amongst the tests performed is greater
than or equal to 0.10, we can not reject the idea that X4 comes from a
normal distribution with 90% or higher confidence.
Исходя из вышеизложенной информации делаем вывод о том, что Х4 принадлежит нормальному распределению с вероятностью 90%.
Для проведения корреляционно-регрессионного анализа в первую очередь необходимо построить матрицу коэффициентов парной корреляции для оценки степени влияния факторов на зависимую переменную и друг на друга.
Практически для количественной оценки тесноты связи широко используют линейный коэффициент корреляции.
Частный коэффициент корреляции- мера линейной зависимости между двумя случайными величинами из некоторой совокупности случайных величин в том случае, когда исключено влияние остальных.
Величина влияния фактора на исследуемый отклик может быть оценка при помощи совокупности коэффициента линейной парной корреляции, характеризующего тесноту линейной связи между двумя переменными.
Решение:
Для вычисления линейных коэффициентов парной и частной корреляции используем Алгоритм: Discribe- Numeric Data-Multi Variable Analysis. Получаем коэффициенты парной и частной корреляции:
Correlations
Y X1 X2 X3 X4
------------------------------
Y
X1
0,7531
( 25)
0,0000
X2
-0,4897
-0,4040
( 25)
( 25)
0,0130
0,0452
X3
-0,0046
-0,0836
0,7906
( 25)
( 25)
( 25)
0,9827
0,6913
0,0000
X4
-0,9114
-0,7600
0,4822
0,0827
( 25)
( 25)
( 25)
( 25)
0,0000
0,0000
0,0147
0,6942
------------------------------
Correlation
(Sample Size)
P-Value
The StatAdvisor
---------------
This table shows Pearson product moment correlations between each
pair of variables. These correlation coefficients range between -1
and +1 and measure the strength of the linear relationship between the
variables. Also shown in parentheses is the number of pairs of data
values used to compute each coefficient. The third number in each
location of the table is a P-value which tests the statistical
significance of the estimated correlations. P-values below 0.05
indicate statistically significant non-zero correlations at the 95%
confidence level. The following pairs of variables have P-values
below 0.05:
Y and X1
Y and X2
Y and X4
X1 and X2
X1 and X4
X2 and X3
X2 and X4
Partial Correlations
Y X1 X2 X3 X4
------------------------------
Y
X1
0,2347
( 25)
X2
-0,5725
0,0742
( 25)
( 25)
X3
0,5830
-0,0983
0,9067
( 25)
( 25)
( 25)
X4
-0,7336
-0,2406
-0,1500
0,2049
( 25)
( 25)
( 25)
( 25)
------------------------------
Correlation