Автор: Пользователь скрыл имя, 31 Марта 2013 в 13:12, курсовая работа
Необходимо проверить характер распределения данных признаков и удалить аномальные данные.
В математической статистике выделяют два вида случайных величин- дискретные и непрерывные. Дискретные- это величины, которые можно пронумеровать, посчитать. Непрерывные- это величины, которые занимают интервал, конечный или бесконечный.
В данном курсовом проекте мы имеем дело с непрерывными случайными величинами.
1. Вычисление описательных статистик для каждого фактора………………...3
Матрица парных коэффициентов корреляции………………………………13
Коллинеарность факторов…………………………………………………….19
Средние коэффициенты эластичности……………………………………….19
Уравнение регрессии в линейной форме с полным набором факторов…...20
Оценка статистической значимости уравнения регрессии и его параметра с помощью критерия Фишера и Стьюдента. Интерпретация значимых параметров……………………………………………………………………..23
Уравнение регрессии со статистически значимыми факторами…………...25
Оценка качества уравнения через среднюю ошибку аппроксимации……..26
Выводы………………………………………………
Значения случайных ошибок параметров b0 , b1 ,b3 ,b4 ,b5 c учетом округления.
mb0= 4,38 mb1=0,30 mb2 = 2,05 mb3=1,65, mb4=0,03
Они показывают, какое значение данной характеристики сформировалось под влиянием случайных факторов. Эти значения используются для расчета t-критерия Стьюдента:
tb0 =15,86 tb1= 1,07 tb2 =-3,12 tb3= 3,20 tb4= -4,82
df=n-2 25-2=23
При уровне значимости 90% t- критерий = 1,7139; при уровне значимости 95% t-критерий = 2,0687; при уровне значимости 99% t-критерий =2,8073.
Решение:
По данным таблицы дисперсионного анализа Fфакт. =38,08 . Вероятность случайно получить такие значения составляет0,0000, что не превышает допустимого уровня значимости 99%. Следовательно полученное значение не случайно, оно сформировалось под влиянием существенных факторов.
Fтабл = 1,36<Fфакт =38,08, что свидетельствует о статистической значимости уравнения регрессии.
В
условиях данной задачи
tby= 15,86 >2,8073 с уровнем значимости 99% фактор статистически значим.
tbx2= 1,07>1,7139 с уровнем значимости 90% фактор статистически значим.
tbх3 =3,20>2,8073 с уровнем значимости 99% фактор статистически значим.
tbх4 =-4,82<1,7139 с уровнем значимости 90% фактор статистически не значим.
Вывод:
Полученные и оцененные с помощью критерия Фишера значения Fтабл = 1,36<Fфакт =38,08, свидетельствует о том, что уравнение регрессии для данной модели значимо. Оценка параметров уравнения с помощью критерия Стьюдента, показала, что фактор Х4 (коэффициент младенческой смертности.) можно исключить как не информативный и не оказывающий существенного влияния на индекс человеческого развития.
Multiple Regression Analysis
------------------------------
Dependent variable: Y
------------------------------
Parameter Estimate Error Statistic P-Value
------------------------------
CONSTANT 42,7437 4,99612 8,55538 0,0000
X1 2,06473 0,381929 5,40607 0,0000
X3 0,684339 1,63275 0,419132 0,6792
------------------------------
Analysis of Variance
------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
------------------------------
Model 703,95 2 351,975 14,61 0,0001
Residual 529,89 22 24,0859
------------------------------
Total (Corr.) 1233,84 24
R-squared = 57,0536 percent
R-squared (adjusted for d.f.) = 53,1494 percent
Standard Error of Est. = 4,90774
Mean absolute error = 3,82442
Durbin-Watson statistic = 2,02708 (P=0,4313)
Lag 1 residual autocorrelation = -0,0335959
The StatAdvisor
---------------
The output shows the results of fitting a multiple linear
regression model to describe the relationship between Y and 2
independent variables. The equation of the fitted model is
Y = 42,7437 + 2,06473*X1 + 0,684339*X3
Since the P-value in the ANOVA table is less than 0.01, there is a
statistically significant relationship between the variables at the
99% confidence level.
The R-Squared statistic indicates that the model as fitted
explains 57,0536% of the variability in Y. The adjusted R-squared
statistic, which is more suitable for comparing models with different
numbers of independent variables, is 53,1494%. The standard error of
the estimate shows the standard deviation of the residuals to be
4,90774. This value can be used to construct prediction limits for
new observations by selecting the Reports option from the text menu.
The mean absolute error (MAE) of 3,82442 is the average value of the
residuals. The Durbin-Watson (DW) statistic tests the residuals to
determine if there is any significant correlation based on the order
in which they occur in your data file. Since the P-value is greater
than 0.05, there is no indication of serial autocorrelation in the
residuals.
In determining whether the model can be simplified, notice that the
highest P-value on the independent variables is 0,6792, belonging to
X3. Since the P-value is greater or equal to 0.10, that term is not
statistically significant at the 90% or higher confidence level.
Consequently, you should consider removing X3 from the model.