Модель регрессии

Автор: Пользователь скрыл имя, 04 Декабря 2011 в 16:46, контрольная работа

Описание работы

Сформулируем уравнение регрессии:

Уравнение регрессии будет иметь вид:



где – у - число побед

х1 – среднее число очков (ERA)

Работа содержит 1 файл

Имеются статистические данные по результатам игры разных команд.doc

— 261.50 Кб (Скачать)

Имеются статистические данные по результатам игры разных команд.

Команда Лига Победы E.R.A. Пропущенные

удары

Пропущенные

пробежки

Защита Ошибки
Anaheim 0 99 3,69 1345 509 54 87
Baltimore 0 67 4,46 1491 549 31 91
Boston 0 93 3,75 1339 430 51 104
Chicago White Sox 0 81 4,53 1422 528 35 97
Cleveland 0 74 4,91 1508 603 34 113
Detroit 0 55 4,93 1593 463 33 142
Kansas City 0 62 5,21 1587 572 30 130
Minnesota 0 94 4,12 1454 439 47 74
New York Yankees 0 103 3,87 1441 403 53 127
Oakland 0 103 3,68 1391 474 48 102
Seattle 0 93 4,07 1422 441 43 88
Tampa Bay 0 55 5,29 1567 620 25 126
Texas 0 72 5,15 1528 669 33 99
Toronto 0 78 4,8 1504 590 41 107
Arizona 1 98 3,92 1361 421 40 89
Atlanta 1 101 3,13 1302 554 57 114
Chicago Cubs 1 67 4,29 1373 606 23 114
Cincinnati 1 78 4,27 1502 550 42 120
Colorado 1 73 5,2 1554 582 43 112
Florida 1 79 4,36 1449 631 36 106
Houston 1 84 4 1423 546 43 83
Los Angeles 1 92 3,69 1311 555 56 90
Milwaukee 1 56 4,73 1468 666 32 103
Montreal 1 83 3,97 1475 508 39 139
New York Mets 1 75 3,89 1408 543 36 144
Philadelphia 1 80 4,17 1381 570 47 88
Pittsburgh 1 72 4,23 1447 572 47 115
St. Louis 1 97 3,7 1355 547 42 103
San Diego 1 66 4,62 1522 582 40 128
San Francisco 1 95 3,54 1349 523 43 90
 
      
  1. Сформулируем  уравнение регрессии:

      Уравнение регрессии будет иметь вид: 

            

      где – у  - число побед

      х1 – среднее число очков (ERA)

      х2 –число очков, набранных в 2002 году.

      Число объясняющих переменных k=2.

      Будем предполагать, что модель регрессии является классической, то есть для нее выполняются условия Гаусса-Маркова.

      Будем предполагать, что

  1. х1,…,хк – детерминированные переменные;
  2. ранг матрицы Х равен "к+1" – среди признаков нет линейно зависимых;
  3. , - нет систематических ошибок в измерении у;
  4. , - гомоскедастичность регрессионных остатков (равноточные измерения);
  5. , , - условие некоррелированных регрессионных остатков.

      Если  модель классическая, то оценки полученные методом наименьших квадратов (МНК) будут обладать свойствами несмещенности, состоятельности и эффективности.

      МНК - оценки для вектора неизвестных коэффициентов:

               

      

  1. Смысл наклонов отклика в этой модели :

При увеличении показателя ЕRA на 1 единицу, число побед снижается в среднем на 17 за сезон, при увеличении числа набранных очков на 1 единицу число побед увеличивается в среднем на 0,057 (здесь удобнее будет сказать, что при увеличении очков на 100 единиц, число побед увеличивается в среднем на 57).

  1. Среднее количество побед у команды набравшей 750 очков , при ERA равным 4,5.

=76 побед.

  1. Выполним анализ остатков и адекватность модели.

На рисунках 1-2 представлены графики остатков упорядоченные  по переменной х1 и х2.

- остатки

Модельные значения и значения остатков приведены в  приложении 2.

Рисунок 1  - График остатков, упорядоченных по переменной х1 

Рисунок 2  - График остатков, упорядоченных по переменной х2 

По графику  остатков, видно, что предположения о постоянстве дисперсии и остатков и их некоррелированности не нарушаются.

    Проверка  гипотезы об адекватности линейной модели выборочным данным 

    Для проверки значимости построенного уравнения  регрессии выдвигается гипотеза Н0: линейная модель множественной регрессии не адекватна выборочным данным, что формально можно сформулировать так 

    Н0: β12=…=βк=0                                                                                     

    Альтернативная  гипотеза Н1: ЛММР адекватна выборочным данным или формально Н1: . 

    Для проверки гипотезы Н0 используем статистику:

          

которая в случае справедливости Н0 имеет распределение Фишера – Снедекорра с числом степеней свободы .

 =1696,498

=4615,668

=6312,167 

    Далее проверяем гипотезу Fнабл =36,72и Fкр=3,35 – нулевая гипотеза отвергается, модель адекватна.

    5. Чтобы узнать существует ли статистически значимая зависимость между количеством побед и двумя объясняющими переменными, вычислим множественный коэффициент корреляции и проверим его значимость на уровне 0,05. Коэффициент множественной корреляции можно найти как корень квадратный из коэффициента детерминации. Коэффициент детерминации получается из тех соображений, что общая вариация (дисперсия) результативного признака складывается из вариации функции регрессии, обусловленной варьированием значений объясняющих переменных , (факторной дисперсии) и из вариации случайной величины относительно функции регрессии (остаточной дисперсии). 

=0,855

(множественный коэффициент корреляции можно рассчитать и по формуле единица минус отношение определителя матрицы парных коэффициентов корреляции к соответствующему алгебраическому дополнению этой матрицы ).

Проверим  значимость коэффициента

    Пусть рассматривается оценка коэффициента детерминации , где "l" – указывает количество факторных признаков, связь с которыми мы желаем исследовать.

    Выдвигаем ненулевую гипотезу Н0: (коэффициент множественной корреляции незначим - факторные признаки не оказывают значимого влияния).

    При альтернативной гипотезе Н1: (коэффициент значим).

    Для проверки гипотезы рассмотрим статистику:

            

которая в случае справедливости Н0 имеет распределение Фишера – Снедекора с числом степеней свободы .

Эту статистику мы уже рассчитали (при проверке адекватности модели данным) и показали, что нулевая гипотеза отвергается, то есть множественный коэффициент корреляции значим и существует тесная зависимость между числом побед и ERA и количеством очков на уровне значимости 0,05. 
 

  1. P- значение в пункте 5 при проверке значимости уравнения регрессии=0,00000002 – это вероятность принятия нулевой гипотезы, если она меньше чем 0,05, то гипотеза отвергается.

    Смысл коэффициента множественной смешанной  корреляции, заключается в том, что  он показывает связь меду у и х1 и х2.Если его возвести в квадрат, то получим коэффициент детерминации, который показывает долю вариации у объясняемую вариацией факторов. В нашем случае коэффициент детерминации 0,73, значит, на 73% вариация числа побед объясняется вариацией показателя ERA и числа очков набранных в сезоне 2002 года, а остальные 27% вариации приходятся на неучтенные в модели факторы.

      Подправленная на несмещенность оценка (скоррекитированный) коэффициента детерминации имеет вид

    

=0,711

    

Проверка  гипотез о значимости коэффициента. 

    

В случае если нулевая  гипотеза о незначимости уравнения  регрессии отвергнута, проверяем гипотезы о значимости коэффициентов уравнения регрессии. Выдвигаются гипотезы вида

    

Н0: коэффициент βj незначимо отличен от нуля (или формально βj=0);

    

альтернативная гипотеза Н1: коэффициент βj – значимо отличен от нуля (формально βj 0).

    

Для проверки таких  гипотез Н0 строятся статистики , которые в случае справедливости Н0, имеют распределение Стьюдента с степенями свободы. Далее, либо сравниваем tнабл с tкр(α)

    

Для свободного параметра

    

t=113,61/27,65=4,108

    

t=17,82/3,042=5,85

    

t=0,057/0,024=2,33 

    

t- критическое найдем по таблице распределения Стьюдента, для числа степеней свободы 27 и уровня значимости 0,05.

  1. P- значение в пункте 9 при проверке значимости свободного параметра регрессии=0,00032 – это вероятность принятия нулевой гипотезы, если она меньше чем 0,05, то гипотеза отвергается. при проверке значимости свободного параметра регрессии при х1=0,0000031 при проверке значимости параметра регрессии при х2=0,0271
 
  1.  

          

Для коэффициента уравнения регрессии при переменной х1 значимо отличныхой от нуля находим доверительные интервалы, используя статистику

          

 

имеющую распределение  Стьюдента с степенями свободы. 

, где  - табличное значение ( )

-24,069 -11,58 

  1.  

    Вычислим  коэффициенты частной множественной  корреляции и поясним их смысл.

    

Оценка  для частных коэффициентов корреляции

          

    Где в числителе и знаменателе  стоят алгебраические дополнения матрицы  парных коэффициентов корреляции.

    Рассчитаем  матрицу парных коэффициентов корреляции

  Победы E.R.A. Очки
Победы 1 -0,82272 0,624037
E.R.A. -0,82272 1 -0,51569
Очки 0,624037 -0,51569 1

Информация о работе Модель регрессии