Статистические методы обработки данных

Автор: Пользователь скрыл имя, 31 Марта 2013 в 13:12, курсовая работа

Описание работы

Необходимо проверить характер распределения данных признаков и удалить аномальные данные.
В математической статистике выделяют два вида случайных величин- дискретные и непрерывные. Дискретные- это величины, которые можно пронумеровать, посчитать. Непрерывные- это величины, которые занимают интервал, конечный или бесконечный.
В данном курсовом проекте мы имеем дело с непрерывными случайными величинами.

Содержание

1. Вычисление описательных статистик для каждого фактора………………...3
Матрица парных коэффициентов корреляции………………………………13
Коллинеарность факторов…………………………………………………….19
Средние коэффициенты эластичности……………………………………….19
Уравнение регрессии в линейной форме с полным набором факторов…...20
Оценка статистической значимости уравнения регрессии и его параметра с помощью критерия Фишера и Стьюдента. Интерпретация значимых параметров……………………………………………………………………..23
Уравнение регрессии со статистически значимыми факторами…………...25
Оценка качества уравнения через среднюю ошибку аппроксимации……..26
Выводы………………………………………………

Работа содержит 1 файл

статистика катя.docx

— 140.45 Кб (Скачать)

Значения  случайных ошибок параметров b0 , b,b3 ,b4 ,b5 c учетом округления.

mb0= 4,38  mb1=0,30 mb2 = 2,05 mb3=1,65, mb4=0,03

Они показывают, какое значение данной характеристики сформировалось под влиянием случайных  факторов. Эти значения используются для расчета t-критерия Стьюдента:

tb0 =15,86     tb1= 1,07   tb2 =-3,12    tb3= 3,20    tb4= -4,82   

df=n-2  25-2=23

При уровне значимости 90% t- критерий = 1,7139; при уровне значимости 95% t-критерий = 2,0687; при уровне значимости  99% t-критерий =2,8073.

Решение:

По данным таблицы дисперсионного анализа  Fфакт. =38,08 . Вероятность случайно получить такие значения составляет0,0000, что не превышает допустимого уровня значимости 99%. Следовательно полученное значение не случайно, оно сформировалось под влиянием существенных факторов.

  Fтабл = 1,36<Fфакт =38,08, что свидетельствует о статистической значимости уравнения регрессии.

  В  условиях данной задачи значения  для исследуемых факторов, используемых для расчета t-критерия Стьюдента составили:

 tby= 15,86 >2,8073 с уровнем значимости 99% фактор статистически значим.

tbx2= 1,07>1,7139 с уровнем значимости 90% фактор статистически значим.

tbх3 =3,20>2,8073 с уровнем значимости 99% фактор статистически значим.

tbх4 =-4,82<1,7139 с уровнем значимости 90% фактор статистически не значим.

Вывод:

Полученные  и оцененные с помощью критерия Фишера значения Fтабл = 1,36<Fфакт =38,08, свидетельствует о том, что уравнение регрессии для данной модели значимо. Оценка параметров уравнения с помощью критерия Стьюдента, показала, что фактор Х4 (коэффициент младенческой смертности.) можно исключить как не информативный и не оказывающий существенного влияния на индекс человеческого развития. 

 

Multiple Regression Analysis

-----------------------------------------------------------------------------

Dependent variable: Y

-----------------------------------------------------------------------------

                                       Standard          T

Parameter               Estimate         Error       Statistic        P-Value

-----------------------------------------------------------------------------

CONSTANT                 42,7437        4,99612        8,55538         0,0000

X1                       2,06473       0,381929        5,40607         0,0000

X3                      0,684339        1,63275       0,419132         0,6792

-----------------------------------------------------------------------------

 

                           Analysis of Variance

-----------------------------------------------------------------------------

Source             Sum of Squares     Df  Mean Square    F-Ratio      P-Value

-----------------------------------------------------------------------------

Model                      703,95      2      351,975      14,61       0,0001

Residual                   529,89     22      24,0859

-----------------------------------------------------------------------------

Total (Corr.)             1233,84     24

 

R-squared = 57,0536 percent

R-squared (adjusted for d.f.) = 53,1494 percent

Standard Error of Est. = 4,90774

Mean absolute error = 3,82442

Durbin-Watson statistic = 2,02708 (P=0,4313)

Lag 1 residual autocorrelation = -0,0335959

 

 

 

The StatAdvisor

---------------

   The output shows the results of fitting a multiple linear

regression model to describe the relationship between Y and 2

independent variables.  The equation of the fitted model is

 

Y = 42,7437 + 2,06473*X1 + 0,684339*X3

 

Since the P-value in the ANOVA table is less than 0.01, there is a

statistically significant relationship between the variables at the

99% confidence level.

 

     The R-Squared statistic indicates that the model as fitted

explains 57,0536% of the variability in Y.  The adjusted R-squared

statistic, which is more suitable for comparing models with different

numbers of independent variables, is 53,1494%.  The standard error of

the estimate shows the standard deviation of the residuals to be

4,90774.  This value can be used to construct prediction limits for

new observations by selecting the Reports option from the text menu.

The mean absolute error (MAE) of 3,82442 is the average value of the

residuals.  The Durbin-Watson (DW) statistic tests the residuals to

determine if there is any significant correlation based on the order

in which they occur in your data file.  Since the P-value is greater

than 0.05, there is no indication of serial autocorrelation in the

residuals. 

 

   In determining whether the model can be simplified, notice that the

highest P-value on the independent variables is 0,6792, belonging to

X3.  Since the P-value is greater or equal to 0.10, that term is not

statistically significant at the 90% or higher confidence level.

Consequently, you should consider removing X3 from the model. 

 


Информация о работе Статистические методы обработки данных