Автор: Пользователь скрыл имя, 31 Марта 2013 в 13:12, курсовая работа
Необходимо проверить характер распределения данных признаков и удалить аномальные данные.
В математической статистике выделяют два вида случайных величин- дискретные и непрерывные. Дискретные- это величины, которые можно пронумеровать, посчитать. Непрерывные- это величины, которые занимают интервал, конечный или бесконечный.
В данном курсовом проекте мы имеем дело с непрерывными случайными величинами.
1. Вычисление описательных статистик для каждого фактора………………...3
Матрица парных коэффициентов корреляции………………………………13
Коллинеарность факторов…………………………………………………….19
Средние коэффициенты эластичности……………………………………….19
Уравнение регрессии в линейной форме с полным набором факторов…...20
Оценка статистической значимости уравнения регрессии и его параметра с помощью критерия Фишера и Стьюдента. Интерпретация значимых параметров……………………………………………………………………..23
Уравнение регрессии со статистически значимыми факторами…………...25
Оценка качества уравнения через среднюю ошибку аппроксимации……..26
Выводы………………………………………………
(Sample Size)
The StatAdvisor
---------------
This table shows partial correlation coefficients between each pair
of variables. The partial correlations measure the strength of the
linear relationship between the variables having first adjusted for
their relationship to other variables in the table. They are helpful
in judging how useful one variable would be in improving the
prediction of the second variable given that information from all the
other variables has already been taken into account. Also shown in
parentheses is the number of pairs of data values used to compute each
coefficient.
Матрица парных коэффициентов корреляции
Для оценки мультиколлинеарнорсти факторов может использоваться определитель матрицы парных коэффициентов корреляции между факторами. Если бы факторы не коррелировали между собой, то матрица парных коэффициентов корреляции между факторами была бы единичной матрицей, поскольку все недиагональные элементы были бы равны нулю, а определитель был бы равен 1. Если же наоборот, между факторами существует полная линейная зависимость и все коэффициенты корреляции равны 1, то определитель такой матрицы был бы равен 0. Чем ближе к 0 определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И наоборот, чем ближе к 1 определитель матрицы межфакторной корреляции, тем меньше мультиколлинеарность факторов.
Так как у нас определитель равен 0,08335, то свидетельствует о слабой мультиколинеарности.
Коэффициенты корреляции показывают тесноту и направление связи. Он может принимать значения от -1 до 1. Если r >0, связь прямая, r <0, связь обратная. Если r <0,3 связь слабая. Если 0,3 <r >0,6 средняя. Если r >0,6 связь сильная.
Линейные коэффициенты парной корреляции показывают характер взаимного влияния изменения двух случайных величин.
r уx1 = 0,7531 – связь между средней ожидаемой продолжительностью жизни при рождении и ВВП по паритету покупательной способности сильная прямая;
r уx2 = -0,4897 - связь между средней ожидаемой продолжительностью жизни при рождении и темпами прироста населения средняя обратная;
r уx3 = -0,0046 - связь между средней ожидаемой продолжительностью жизни при рождении и темпами прироста рабочей силы слабая обратная;
r уx4 = -0,9114 - связь между средней ожидаемой продолжительностью жизни при рождении и коэффициентом младенческой смерти сильная обратная;
r x1 x2 = -0,4040 – связь между ВВП по паритету покупательной способности и темпами прироста населения средняя обратная;
r x1 x3 = - 0,0836 - связь между ВВП по паритету покупательной способности и темпами прироста рабочей силы слабая обратная;
r x1 x4 = -0,7600 - связь между ВВП по паритету покупательной способности и коэффициентом младенческой смерти сильная обратная;
r x2 x3 = 0,7906 - связь между темпами прироста населения и темпами прироста рабочей силы прямая сильная;
r x2 x4 = 0,4822 - связь между темпами прироста населения и коэффициентом младенческой смерти прямая средняя;
r x3 x4 = 0,0827 – связь между темпами прироста рабочей силы и и коэффициентом младенческой смерти прямая слабая;
Линейные коэффициенты частной корреляции характеризуют тесноту связи между результатом и соответствующими факторами при устранении влияния других факторов, включенных в уравнении регрессии.
r уx1 = 0,2347 – связь между средней ожидаемой продолжительностью жизни при рождении и ВВП по паритету покупательной способности средняя прямая;
rу x2 = -0,5725 - связь между средней ожидаемой продолжительностью жизни при рождении и темпами прироста населения средняя обратная;
r уx3 = 0,5830 - связь между средней ожидаемой продолжительностью жизни при рождении и темпами прироста рабочей силы средняя прямая;
r уx4 = -0,7336 - связь между средней ожидаемой продолжительностью жизни при рождении и коэффициентом младенческой смерти сильная обратная;
r x1 x2 = 0,0742 – связь между ВВП по паритету покупательной способности и темпами прироста населения слабая прямая;
r x1 x3 = - 0,0983 - связь между ВВП по паритету покупательной способности и темпами прироста рабочей силы слабая обратная;
r x1 x4 = -0,2406 - связь между ВВП по паритету покупательной способности и коэффициентом младенческой смерти слабая обратная;
r x2 x3 = 0,9067 - связь между темпами прироста населения и темпами прироста рабочей силы прямая сильная;
r x2 x4 = -0,1500 - связь между темпами прироста населения и коэффициентом младенческой смерти слабая обратная;
r x3 x4 = 0,2049 – связь между темпами прироста рабочей силы и и коэффициентом младенческой смерти прямая слабая;
Парная корреляция:
r x1 x2 = -0,4040 ˂0.7 факторы не коллинеарные;
r x1 x3 = - 0,0836˂0.7 факторы не коллинеарные;
r x1 x4 = -0,7600 ˂0.7 факторы не коллинеарные;
r x2 x3 = 0,7906 ˃0.7 факторы коллинеарные;
r x2 x4 = 0,4822 ˂0.7 факторы не коллинеарные;
r x3 x4 = 0,0827 ˂0.7 факторы не коллинеарные;
Частная корреляция:
r x1 x2 = 0,0742 ˂0.7 факторы не коллинеарные;
r x1 x3 = - 0,0983 ˂0.7 факторы не коллинеарные;
r x1 x4 = -0,2406 ˂0.7 факторы не коллинеарные;
r x2 x3 = 0,9067 ˃0.7 факторы коллинеарные;
r x2 x4 = -0,1500 ˂0.7 факторы не коллинеарные;
r x3 x4 = 0,2049 ˂0.7 факторы не коллинеарные;
В нашем случае коллинеарные факторы Х2 и Х3. Связь фактора Х3 с У больше чем Х2 (ryx3> ryx2). Поэтому следует оставить фактор Х3.
4. Средние коэффициенты
Коэффициент эластичности представляет собой показатель силы связи фактора Х с результатом У, показывающий, на сколько процентов изменится значение У при изменении значения фактора на 1 %.
Для линейной зависимости
Эух =bj *xj /y,
Где bj – коэффициент регрессии при хj в уравнение множественной регрессии.
Y = 69,559 + 0,328001*X1 - 6,41961*X2 + 5,31287*X3 - 0,158875*X4
Эх1= 0,328001*5,6/56,08=0,0328
Эх1 показывает, что при изменении ВВП по паритету покупательной способности на 1%, средняя ожидаемая продолжительность жизни при рождении изменится на 0,0328;
Эх2= 6,41961*2,556/56,08=0,2956
Эх2 показывает, что при изменении темпа прироста населения на 1%, средняя ожидаемая продолжительность жизни при рождении изменится на 0,2956;
Эх3= 5,31287*2,592/56,08=0,2456
Эх3 показывает, что при изменении темпов прироста рабочей силы на 1%, средняя ожидаемая продолжительность жизни при рождении изменится на 0,2456;
Эх4= 0,158875*79,8/56,08=0,2261
Эх4 показывает, что при изменении коэффициента младенческой смертности на 1 %, средняя ожидаемая продолжительность жизни при рождении изменится на 0,2261;
По значениям
частных коэффициентов
5. Уравнение регрессии в линейной форме с полным набором факторов
Регрессионный (линейный) анализ- статистический метод исследования зависимости между зависимой переменной У и одной или несколькими независимыми переменными Х1, Х2… Хр.
В зависимости
от количества факторов, включенных в
регрессию принять различать
простую и множественную
Простая регрессия представляет собой регрессию между двумя переменными Х и У.
Множественная регрессия представляет собой регрессию между результатом двумя и более факторами.
Решение:
Используем следующий Алгоритм: Relate- Multiple Regression-Analysis.
Multiple Regression Analysis
------------------------------
Dependent variable: Y
------------------------------
Parameter Estimate Error Statistic P-Value
------------------------------
CONSTANT 69,559 4,38538 15,8616 0,0000
X1 0,328001 0,303808 1,07963 0,2932
X2 -6,41961 2,05579 -3,12269 0,0054
X3 5,31287 1,65565 3,20893 0,0044
X4 -0,158875 0,0329091 -4,8277 0,0001
------------------------------
Analysis of Variance
------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
------------------------------
Model 1105,05 4 276,262 42,90 0,0000
Residual 128,791 20 6,43953
------------------------------
Total (Corr.) 1233,84 24
R-squared = 89,5618 percent
R-squared (adjusted for d.f.) = 87,4742 percent
Standard Error of Est. = 2,53762
Mean absolute error = 2,05163
Durbin-Watson statistic = 1,7545 (P=0,2314)
Lag 1 residual autocorrelation = 0,10596
The StatAdvisor
---------------
The output shows the results of fitting a multiple linear
regression model to describe the relationship between Y and 4
independent variables. The equation of the fitted model is
Y = 69,559 + 0,328001*X1 - 6,41961*X2 + 5,31287*X3 - 0,158875*X4
Since the P-value in the ANOVA table is less than 0.01, there is a
statistically significant relationship between the variables at the
99% confidence level.
The R-Squared statistic indicates that the model as fitted
explains 89,5618% of the variability in Y. The adjusted R-squared
statistic, which is more suitable for comparing models with different
numbers of independent variables, is 87,4742%. The standard error of
the estimate shows the standard deviation of the residuals to be
2,53762. This value can be used to construct prediction limits for
new observations by selecting the Reports option from the text menu.
The mean absolute error (MAE) of 2,05163 is the average value of the
residuals. The Durbin-Watson (DW) statistic tests the residuals to
determine if there is any significant correlation based on the order
in which they occur in your data file. Since the P-value is greater
than 0.05, there is no indication of serial autocorrelation in the
residuals.
In determining whether the model can be simplified, notice that the
highest P-value on the independent variables is 0,2932, belonging to
X1. Since the P-value is greater or equal to 0.10, that term is not
statistically significant at the 90% or higher confidence level.
Consequently, you should consider removing X1 from the model.
Multiple Regression Analysis
------------------------------
Dependent variable: Y
------------------------------
Parameter Estimate Error Statistic P-Value
------------------------------
CONSTANT 68,2484 5,19579 13,1353 0,0000
X1 0,39965 0,360579 1,10836 0,2802
X3 0,866113 1,00531 0,861538 0,3987
X4 -0,208664 0,034266 -6,08955 0,0000
------------------------------
Analysis of Variance
------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
------------------------------
Model 1042,26 3 347,419 38,08 0,0000
Residual 191,584 21 9,12304
------------------------------
Total (Corr.) 1233,84 24
R-squared = 84,4726 percent
R-squared (adjusted for d.f.) = 82,2543 percent
Standard Error of Est. = 3,02044
Mean absolute error = 2,40117
Durbin-Watson statistic = 2,16362 (P=0,2891)
Lag 1 residual autocorrelation = -0,0848642
The StatAdvisor
---------------
The output shows the results of fitting a multiple linear
regression model to describe the relationship between Y and 3
independent variables. The equation of the fitted model is
Y = 68,2484 + 0,39965*X1 + 0,866113*X3 - 0,208664*X4
Since the P-value in the ANOVA table is less than 0.01, there is a
statistically significant relationship between the variables at the
99% confidence level.
The R-Squared statistic indicates that the model as fitted
explains 84,4726% of the variability in Y. The adjusted R-squared
statistic, which is more suitable for comparing models with different
numbers of independent variables, is 82,2543%. The standard error of
the estimate shows the standard deviation of the residuals to be
3,02044. This value can be used to construct prediction limits for
new observations by selecting the Reports option from the text menu.
The mean absolute error (MAE) of 2,40117 is the average value of the
residuals. The Durbin-Watson (DW) statistic tests the residuals to
determine if there is any significant correlation based on the order
in which they occur in your data file. Since the P-value is greater
than 0.05, there is no indication of serial autocorrelation in the
residuals.
In determining whether the model can be simplified, notice that the
highest P-value on the independent variables is 0,3987, belonging to
X3. Since the P-value is greater or equal to 0.10, that term is not
statistically significant at the 90% or higher confidence level.
Consequently, you should consider removing X3 from the model.
6. Оценка статистической
значимости уравнения
Значимость
уравнения множественной
F=Dфак/Dост
Dфак- факторная сумма квадратов на одну степень свободы;
Dост- факторная сумма квадратов на одну степень свободы.
Если при заданном уровне значимости F факт.>Fтабл., то уравнение регрессии статистически значимо. Так же можно оценить не только уравнение в целом, но и фактора, дополнительно включенного в модель. Необходимость такой оценки связана с тем, что некоторые факторы вошедши в модель могли сформироваться под влиянием случайного признака.
Для оценки существенности коэффициента регрессии и расчета его доверительных интервалов применяют t – критерий Стьюдента. На основании значения данного критерия, можно сделать вывод о существенности какого-либо исследуемого параметра, который формируется под воздействием неслучайных причин. На основании t- критерия можно сделать вывод о неслучайной природе данного значения параметра. Если в результате решения фактическое значение t- критерия превышает табличное, то гипотезу о незначимости величин можно отклонить.
По результатам
вышеизложенного алгоритма мы получили
уравнение множественной
Y = 68,2484 + 0,39965*X1 + 0,866113*X3 - 0,208664*X4