Автор: Пользователь скрыл имя, 04 Декабря 2011 в 16:46, контрольная работа
Сформулируем уравнение регрессии:
Уравнение регрессии будет иметь вид:
где – у - число побед
х1 – среднее число очков (ERA)
Имеются статистические данные по результатам игры разных команд.
Команда | Лига | Победы | E.R.A. | Пропущенные
удары |
Пропущенные
пробежки |
Защита | Ошибки |
Anaheim | 0 | 99 | 3,69 | 1345 | 509 | 54 | 87 |
Baltimore | 0 | 67 | 4,46 | 1491 | 549 | 31 | 91 |
Boston | 0 | 93 | 3,75 | 1339 | 430 | 51 | 104 |
Chicago White Sox | 0 | 81 | 4,53 | 1422 | 528 | 35 | 97 |
Cleveland | 0 | 74 | 4,91 | 1508 | 603 | 34 | 113 |
Detroit | 0 | 55 | 4,93 | 1593 | 463 | 33 | 142 |
Kansas City | 0 | 62 | 5,21 | 1587 | 572 | 30 | 130 |
Minnesota | 0 | 94 | 4,12 | 1454 | 439 | 47 | 74 |
New York Yankees | 0 | 103 | 3,87 | 1441 | 403 | 53 | 127 |
Oakland | 0 | 103 | 3,68 | 1391 | 474 | 48 | 102 |
Seattle | 0 | 93 | 4,07 | 1422 | 441 | 43 | 88 |
Tampa Bay | 0 | 55 | 5,29 | 1567 | 620 | 25 | 126 |
Texas | 0 | 72 | 5,15 | 1528 | 669 | 33 | 99 |
Toronto | 0 | 78 | 4,8 | 1504 | 590 | 41 | 107 |
Arizona | 1 | 98 | 3,92 | 1361 | 421 | 40 | 89 |
Atlanta | 1 | 101 | 3,13 | 1302 | 554 | 57 | 114 |
Chicago Cubs | 1 | 67 | 4,29 | 1373 | 606 | 23 | 114 |
Cincinnati | 1 | 78 | 4,27 | 1502 | 550 | 42 | 120 |
Colorado | 1 | 73 | 5,2 | 1554 | 582 | 43 | 112 |
Florida | 1 | 79 | 4,36 | 1449 | 631 | 36 | 106 |
Houston | 1 | 84 | 4 | 1423 | 546 | 43 | 83 |
Los Angeles | 1 | 92 | 3,69 | 1311 | 555 | 56 | 90 |
Milwaukee | 1 | 56 | 4,73 | 1468 | 666 | 32 | 103 |
Montreal | 1 | 83 | 3,97 | 1475 | 508 | 39 | 139 |
New York Mets | 1 | 75 | 3,89 | 1408 | 543 | 36 | 144 |
Philadelphia | 1 | 80 | 4,17 | 1381 | 570 | 47 | 88 |
Pittsburgh | 1 | 72 | 4,23 | 1447 | 572 | 47 | 115 |
St. Louis | 1 | 97 | 3,7 | 1355 | 547 | 42 | 103 |
San Diego | 1 | 66 | 4,62 | 1522 | 582 | 40 | 128 |
San Francisco | 1 | 95 | 3,54 | 1349 | 523 | 43 | 90 |
Уравнение
регрессии будет иметь вид:
где – у - число побед
х1 – среднее число очков (ERA)
х2 –число очков, набранных в 2002 году.
Число объясняющих переменных k=2.
Будем предполагать, что модель регрессии является классической, то есть для нее выполняются условия Гаусса-Маркова.
Будем предполагать, что
Если модель классическая, то оценки полученные методом наименьших квадратов (МНК) будут обладать свойствами несмещенности, состоятельности и эффективности.
МНК - оценки для вектора неизвестных коэффициентов:
При увеличении показателя ЕRA на 1 единицу, число побед снижается в среднем на 17 за сезон, при увеличении числа набранных очков на 1 единицу число побед увеличивается в среднем на 0,057 (здесь удобнее будет сказать, что при увеличении очков на 100 единиц, число побед увеличивается в среднем на 57).
=76 побед.
На рисунках 1-2 представлены графики остатков упорядоченные по переменной х1 и х2.
- остатки
Модельные значения и значения остатков приведены в приложении 2.
Рисунок 1 - График
остатков, упорядоченных по переменной
х1
Рисунок 2 - График
остатков, упорядоченных по переменной
х2
По графику остатков, видно, что предположения о постоянстве дисперсии и остатков и их некоррелированности не нарушаются.
Проверка
гипотезы об адекватности
линейной модели выборочным
данным
Для
проверки значимости построенного уравнения
регрессии выдвигается гипотеза Н0:
линейная модель множественной регрессии
не адекватна выборочным данным, что формально
можно сформулировать так
Н0:
β1=β2=…=βк=0
Альтернативная
гипотеза Н1: ЛММР адекватна выборочным
данным или формально Н1:
.
Для проверки гипотезы Н0 используем статистику:
,
которая в случае справедливости Н0 имеет распределение Фишера – Снедекорра с числом степеней свободы .
=1696,498
=4615,668
=6312,167
Далее проверяем гипотезу Fнабл =36,72и Fкр=3,35 – нулевая гипотеза отвергается, модель адекватна.
5.
Чтобы узнать существует ли статистически
значимая зависимость между количеством
побед и двумя объясняющими переменными,
вычислим множественный коэффициент корреляции
и проверим его значимость на уровне 0,05.
Коэффициент множественной корреляции
можно найти как корень квадратный из
коэффициента детерминации. Коэффициент
детерминации получается из тех соображений,
что общая вариация (дисперсия) результативного
признака складывается из вариации функции
регрессии, обусловленной варьированием
значений объясняющих переменных
, (факторной дисперсии) и из вариации
случайной величины относительно функции
регрессии (остаточной
дисперсии).
=0,855
(множественный коэффициент корреляции можно рассчитать и по формуле единица минус отношение определителя матрицы парных коэффициентов корреляции к соответствующему алгебраическому дополнению этой матрицы ).
Проверим значимость коэффициента
Пусть рассматривается оценка коэффициента детерминации , где "l" – указывает количество факторных признаков, связь с которыми мы желаем исследовать.
Выдвигаем ненулевую гипотезу Н0: (коэффициент множественной корреляции незначим - факторные признаки не оказывают значимого влияния).
При альтернативной гипотезе Н1: (коэффициент значим).
Для проверки гипотезы рассмотрим статистику:
которая в случае справедливости Н0 имеет распределение Фишера – Снедекора с числом степеней свободы .
Эту статистику
мы уже рассчитали (при проверке
адекватности модели данным) и показали,
что нулевая гипотеза отвергается,
то есть множественный коэффициент корреляции
значим и существует тесная зависимость
между числом побед и ERA и количеством
очков на уровне значимости 0,05.
Смысл
коэффициента множественной смешанной
корреляции, заключается в том, что
он показывает связь меду у и х1
и х2.Если его возвести в квадрат,
то получим коэффициент
Подправленная на несмещенность оценка (скоррекитированный) коэффициента детерминации имеет вид
Проверка
гипотез о значимости
коэффициента.
В случае если нулевая гипотеза о незначимости уравнения регрессии отвергнута, проверяем гипотезы о значимости коэффициентов уравнения регрессии. Выдвигаются гипотезы вида
Н0: коэффициент βj незначимо отличен от нуля (или формально βj=0);
альтернативная гипотеза Н1: коэффициент βj – значимо отличен от нуля (формально βj 0).
Для проверки таких гипотез Н0 строятся статистики , которые в случае справедливости Н0, имеют распределение Стьюдента с степенями свободы. Далее, либо сравниваем tнабл с tкр(α)
Для свободного параметра
t=113,61/27,65=4,108
t=17,82/3,042=5,85
t=0,057/0,024=2,33
t- критическое найдем по таблице распределения Стьюдента, для числа степеней свободы 27 и уровня значимости 0,05.
Для коэффициента
уравнения регрессии при
имеющую распределение
Стьюдента с
степенями свободы.
, где - табличное значение ( )
-24,069
-11,58
Вычислим коэффициенты частной множественной корреляции и поясним их смысл.
Оценка для частных коэффициентов корреляции
Где в числителе и знаменателе стоят алгебраические дополнения матрицы парных коэффициентов корреляции.
Рассчитаем матрицу парных коэффициентов корреляции
Победы | E.R.A. | Очки | |
Победы | 1 | -0,82272 | 0,624037 |
E.R.A. | -0,82272 | 1 | -0,51569 |
Очки | 0,624037 | -0,51569 | 1 |