Статистические методы обработки данных

Автор: Пользователь скрыл имя, 31 Марта 2013 в 13:12, курсовая работа

Описание работы

Необходимо проверить характер распределения данных признаков и удалить аномальные данные.
В математической статистике выделяют два вида случайных величин- дискретные и непрерывные. Дискретные- это величины, которые можно пронумеровать, посчитать. Непрерывные- это величины, которые занимают интервал, конечный или бесконечный.
В данном курсовом проекте мы имеем дело с непрерывными случайными величинами.

Содержание

1. Вычисление описательных статистик для каждого фактора………………...3
Матрица парных коэффициентов корреляции………………………………13
Коллинеарность факторов…………………………………………………….19
Средние коэффициенты эластичности……………………………………….19
Уравнение регрессии в линейной форме с полным набором факторов…...20
Оценка статистической значимости уравнения регрессии и его параметра с помощью критерия Фишера и Стьюдента. Интерпретация значимых параметров……………………………………………………………………..23
Уравнение регрессии со статистически значимыми факторами…………...25
Оценка качества уравнения через среднюю ошибку аппроксимации……..26
Выводы………………………………………………

Работа содержит 1 файл

статистика катя.docx

— 140.45 Кб (Скачать)

Содержание:

 

1. Вычисление  описательных статистик для каждого  фактора………………...3

  1. Матрица парных коэффициентов корреляции………………………………13
  2. Коллинеарность факторов…………………………………………………….19
  3. Средние коэффициенты эластичности……………………………………….19
  4. Уравнение регрессии в линейной форме с полным набором факторов…...20
  5. Оценка статистической значимости уравнения регрессии и его параметра с помощью критерия Фишера и Стьюдента. Интерпретация значимых параметров……………………………………………………………………..23
  6. Уравнение регрессии со статистически значимыми факторами…………...25
  7. Оценка качества уравнения через среднюю ошибку аппроксимации……..26
  8. Выводы…………………………………………………………………………28

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Исходные  данные

Страна

Y

X1

X2

X3

X4

Мозамбик

47

3

2,6

2,4

113

Бурунди

49

2,3

2,6

2,7

98

Чад

48

2,6

2,5

2,5

117

Непал

55

4,3

2,5

2,4

91

Буркина-Фасо

49

2,9

2,8

2,1

99

Мадагаскар

52

2,4

3,1

3,1

89

Бангладеш

58

5,1

1,6

2,1

79

Гаити

57

3,4

2

1,7

72

Мали

50

2

2,9

2,7

123

Нигерия

53

4,5

2,9

2,8

80

Кения

58

5,1

2,7

2,7

58

Того

56

4,2

3

2,8

88

Индия

62

5,2

1,8

2

68

Бенин

50

6,5

2,9

2,5

95

Никарагуа

68

7,4

3,1

4

46

Гана

59

7,4

2,8

2,7

73

Ангола

47

4,9

3,1

2,8

124

Пакистан

60

8,3

2,9

3,3

90

Мавритания

51

5,7

2,5

2,7

96

Зимбабве

57

7,5

2,4

2,2

55

Гондурас

67

7

3

3,8

45

Китай

69

10,8

1,1

1,1

34

Камерун

57

7,8

2,9

3,1

56

Конго

51

7,6

2,9

2,6

90

Шри-Ланка

72

12,1

1,3

2

16


 

Принятые  в таблице обозначения:

Y – средняя ожидаемая продолжительность жизни при рождении, лет;

X1 – ВВП по паритету покупательной способности, млрд долл. США;

X2 – темпы прироста населения по сравнению с предыдущим годом, %;

X3 – темпы прироста рабочей силы по сравнению с предыдущим годом, %;

X4 – коэффициент младенческой смертности, %;

 

1. Вычисление описательных статистик для каждого фактора

    Необходимо проверить характер  распределения данных признаков  и удалить аномальные данные.

В математической статистике выделяют два вида случайных  величин- дискретные и непрерывные. Дискретные- это величины, которые можно пронумеровать, посчитать. Непрерывные- это величины, которые занимают интервал, конечный  или бесконечный.

В данном курсовом проекте мы имеем дело с  непрерывными случайными величинами.

Мы будем  определять следующие выборочные характеристики для наших факторов:

-Хв;

-Д;

-Sx.

Методом описательной статистики называют методы описания выборок с помощью различных  показателей и графиков.

  1. Показатели положения данных на числовой оси: min, max, Хв, медиана;
  2. Показатели разброса: Д, S2, R. 
  3. Показатели ассиметрии: симметричность, эксцесс.
  4. Показатели описывающие закон распределения: графики, таблицы частот, гистограммы.

На данном этапе необходимо проверить принадлежит  ли выборка нормальному распределению. Необходимо определить принадлежит  ли максимально удаленная точка  данной выборке.

Решение:

  1. Для вычисления описательных статистик Y и всех факторов используем Алгоритм: SnapStats-One Sample Analysis.
  2. Для того, чтобы проверить принадлежность выборок к нормальному распределению используем  Алгоритм: Describe-Destributions-Dest.Futting.


 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

   Since the smallest P-value amongst the tests performed is greater

than or equal to 0.10, we can not reject the idea that Y comes from a

normal distribution with 90% or higher confidence.

Исходя  из вышеизложенной информации делаем вывод о том, что Y принадлежит нормальному распределению с вероятностью 90%.

 


 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

   Since the smallest P-value amongst the tests performed is greater

than or equal to 0.10, we can not reject the idea that X1 comes from a

normal distribution with 90% or higher confidence.

Исходя  из вышеизложенной информации делаем вывод о том, что Х1 принадлежит нормальному распределению с вероятностью 90%.

 


 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

   Since the smallest P-value amongst the tests performed is less than

0.01, we can reject the idea that X2 comes from a normal distribution

with 99% confidence.

Исходя  из вышеизложенной информации делаем вывод о том, что Х2 не принадлежит нормальному распределению с вероятностью 99%.


 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

   Since the smallest P-value amongst the tests performed is less than

0.05, we can reject the idea that X3 comes from a normal distribution

with 95% confidence.

Исходя  из вышеизложенной информации делаем вывод о том, что Х3  не принадлежит нормальному распределению с вероятностью 95%.

 


 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

   Since the smallest P-value amongst the tests performed is greater

than or equal to 0.10, we can not reject the idea that X4 comes from a

normal distribution with 90% or higher confidence.

Исходя  из вышеизложенной информации делаем вывод о том, что Х4   принадлежит нормальному распределению с вероятностью 90%.

 

  1. Матрица парных коэффициентов корреляции

 

Для проведения корреляционно-регрессионного анализа в первую очередь необходимо построить матрицу коэффициентов парной корреляции для оценки степени влияния факторов на зависимую переменную и друг на друга.

Практически для количественной оценки тесноты  связи широко используют линейный коэффициент корреляции.

Частный коэффициент корреляции- мера линейной зависимости между двумя случайными величинами из некоторой совокупности случайных величин в том случае, когда исключено влияние остальных.

Величина  влияния фактора на исследуемый отклик может быть оценка при помощи совокупности коэффициента линейной парной корреляции, характеризующего тесноту линейной связи между двумя переменными.

Решение:

Для вычисления линейных коэффициентов парной и  частной корреляции используем Алгоритм: Discribe- Numeric Data-Multi Variable Analysis. Получаем коэффициенты парной и частной корреляции:

 

Correlations

 

                    Y                   X1                  X2                  X3                  X4                 

--------------------------------------------------------------------------------------------------------------------------------------------

Y                                        0,7531             -0,4897             -0,0046             -0,9114            

                                        (   25)             (   25)             (   25)             (   25)            

                                         0,0000              0,0130              0,9827              0,0000            

 

X1                   0,7531                                 -0,4040             -0,0836             -0,7600            

                    (   25)                                 (   25)             (   25)             (   25)            

                     0,0000                                  0,0452              0,6913              0,0000            

 

X2                  -0,4897             -0,4040                                  0,7906              0,4822            

                    (   25)             (   25)                                 (   25)             (   25)            

                     0,0130              0,0452                                  0,0000              0,0147            

 

X3                  -0,0046             -0,0836              0,7906                                  0,0827            

                    (   25)             (   25)             (   25)                                 (   25)            

                     0,9827              0,6913              0,0000                                  0,6942            

 

X4                  -0,9114             -0,7600              0,4822              0,0827                                

                    (   25)             (   25)             (   25)             (   25)                                

                     0,0000              0,0000              0,0147              0,6942                                

--------------------------------------------------------------------------------------------------------------------------------------------

 

Correlation

(Sample Size)

P-Value

 

 

The StatAdvisor

---------------

   This table shows Pearson product moment correlations between each

pair of variables.  These correlation coefficients range between -1

and +1 and measure the strength of the linear relationship between the

variables.  Also shown in parentheses is the number of pairs of data

values used to compute each coefficient.  The third number in each

location of the table is a P-value which tests the statistical

significance of the estimated correlations.  P-values below 0.05

indicate statistically significant non-zero correlations at the 95%

confidence level.  The following pairs of variables have P-values

below 0.05:

   Y and X1

   Y and X2

   Y and X4

   X1 and X2

   X1 and X4

   X2 and X3

   X2 and X4

 

 

Partial Correlations

 

                    Y                   X1                  X2                  X3                  X4                 

--------------------------------------------------------------------------------------------------------------------------------------------

Y                                        0,2347             -0,5725              0,5830             -0,7336            

                                        (   25)             (   25)             (   25)             (   25)            

 

X1                   0,2347                                  0,0742             -0,0983             -0,2406            

                    (   25)                                 (   25)             (   25)             (   25)            

 

X2                  -0,5725              0,0742                                  0,9067             -0,1500            

                    (   25)             (   25)                                 (   25)             (   25)            

 

X3                   0,5830             -0,0983              0,9067                                  0,2049            

                    (   25)             (   25)             (   25)                                 (   25)            

 

X4                  -0,7336             -0,2406             -0,1500              0,2049                                

                    (   25)             (   25)             (   25)             (   25)                                

--------------------------------------------------------------------------------------------------------------------------------------------

 

Correlation

Информация о работе Статистические методы обработки данных