Множественная регрессия

Автор: Пользователь скрыл имя, 19 Октября 2011 в 22:10, лабораторная работа

Описание работы

1. Постройте матрицу парных коэффициентов корреляции. Рассчитайте коэффициенты множественной детерминации.
2. Постройте уравнение множественной регрессии в линейной форме с полным набором факторов.
3. Оцените статическую значимость по уравнению регрессии и его параметров с помощью критериев Фишера и Стьюдента.
4. Проведите тестирование ошибок уравнения множественной регрессии на гетероскедастичность, применив тест Гольфельда-Квандта.
5. Определите, какое уравнение лучше использовать для прогноза:
- парную регрессию y на х1;
- парную регрессию y на х2;
- множественную регрессию.

Работа содержит 1 файл

Лена.doc

— 453.50 Кб (Скачать)

ПЕНЗЕНСКИЙ  ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

Кафедра "Информационно-вычислительные системы"

 
 
 
 
 
 
 
 
 
 
 

Отчет о выполненной лабораторной работе № 2

Множественная регрессия

 
 
 
 

                  Выполнила:

                  студент гр. 03ВЭ1

Прохорова Е. А. 

                  Проверила:

Баусова З.И. 
 
 
 

 
 
 
 

Пенза 2005

Задание:

Дана  множественная регрессия z=a+b1*x+b2*y, где x, y, z приведены в     таблице 1.

Таблица 1

z х у
51,15 2,3 6,33
48,6 3,33 0,03
46,76 3,16 0,23
36,42 2,43 0,15
21,3 1,34 0,28
28,64 1,68 1,17
51,88 1,91 8,58
65,82 3,54 5,29
45,75 2,64 2,53
56,81 3,42 2,59
18,17 1,12 0,22
34,09 1,94 1,89
69,41 3,3 7,9
19,44 1,05 1,08
40,46 2,31 2,35
 

1. Постройте  матрицу парных коэффициентов  корреляции. Рассчитайте коэффициенты  множественной детерминации.

2. Постройте  уравнение множественной регрессии в линейной форме с полным набором факторов.

3. Оцените  статическую значимость по уравнению  регрессии и его параметров  с помощью критериев Фишера  и Стьюдента.

4. Проведите тестирование ошибок уравнения множественной регрессии на гетероскедастичность, применив тест Гольфельда-Квандта.

5. Определите, какое уравнение лучше использовать для прогноза:

- парную  регрессию y на х1;

- парную  регрессию y на х2;

- множественную  регрессию.

 

1.1Матрицу парных  коэффициентов корреляции переменных  можно рассчитать, используя инструмент анализа данных Корреляция. Для этого:

  • в главном меню последовательно выберем пункты Сервис/Анализ данных/Корреляция. Щелкнем по кнопке ОК;
  • заполним диалоговое окно ввода данных и параметров вывода
  • результаты вычислений – матрица коэффициентов парной корреляции – представлены в табл. 1
 

Таблица 2

  x y z
x 1    
y 0,264986 1  
z 0,879837 0,691413 1
 

1.2 Для  того, чтобы рассчитать коэффициенты  множественной детерминации необходимо  найти

b1=

=0,253596

b2=

=
0,895731

Расчет  линейного коэффициента множественной  корреляции выполним с использованием коэффициентов rzx, rzy и b1, b2:

Rzxy=

=
=0,999175

Коэффициент детерминации:

Rzxy2=0,9991752=0,998351. 
 

2. Линейное  уравнение множественной регрессии  z от х и у имеет вид:

z=a+b1*x+b2*y. Для расчета его параметров применим метод стандартизации переменных и построим искомое уравнение в стандартизированном  масштабе: tz=b1*tx+b2*ty

Получим уравнение:

    tz=0,253596*tx+0,895731*ty

    Для построения уравнения в естественной форме  рассчитаем b1, b2, используя формулы для перехода от bi к bi:

    bi=bi

    ,                                   bi=bi
    ,
     

где sx,z,y - стандартные отклонения по х, у, z (табл.2) 

Таблица 3

x   y   Z  
           
Среднее 2,369285714 Среднее 2,449285714 Среднее 27,77357
Стандартная ошибка 0,236741767 Стандартная ошибка 0,759433323 Стандартная ошибка 6,882278
Медиана 2,37 Медиана 1,53 Медиана 18,27
Мода #Н/Д Мода #Н/Д Мода #Н/Д
Стандартное отклонение 0,88580658 Стандартное отклонение 2,841539302 Стандартное отклонение 25,75113
Дисперсия выборки 0,784653297 Дисперсия выборки 8,074345604 Дисперсия выборки 663,1206
Эксцесс -1,458152641 Эксцесс 0,852029963 Эксцесс -0,10536
Асимметричность -0,112108082 Асимметричность 1,376555595 Асимметричность 1,045926
Интервал 2,49 Интервал 8,55 Интервал 76,83
Минимум 1,05 Минимум 0,03 Минимум 0,16
Максимум 3,54 Максимум 8,58 Максимум 76,99
Сумма 33,17 Сумма 34,29 Сумма 388,83
Счет 14 Счет 14 Счет 14
 
 

b1=

=7,372259

b2=

=8,117468

Значение  а определим из соотношения:

a=z-b1*x-b2*y=29,8593-7,372259*2,364666667-8,117468*2,708=-9,555706 

zxy=-9,555706+7,372259*x+8,117468*y 

3. Общий F-критерий Фишера проверяет гипотезу H0 о статистической значимость уравнения регрессии и показателя тесноты связи (R2=0):

Fфакт=

3634,61

где n-число наблюдений,

m – число факторов.

F-табл=3,88 ,a=0,05

Сравнивая Fтабл и Fфакт, приходим к выводу о необходимости отклонить гипотезу H0, так как Fтабл =3,88<Fфакт=3634,61. С вероятностью 1-a=0,95 делаем заключение о статической значимости уравнения в целом и показателя тесноты связи Rzxy, которые сформировались под неслучайным воздействием факторов х и у.

Частные F-критерии – Fx и Fy оценивают статистическую значимость присутствия факторов х и у в уравнении регрессии, оценивают целесообразность включения в уравнение одного фактора после другого фактора.

Fxфакт=

=211,8971

Fтабл=4,75 a=0,05

Низкое  значение Fхфакт свидетельствует о статистической незначимости прироста r2zx за счет включения в модель фактора х. Следовательно, подтверждается нулевая гипотеза H0 о нецелесообразности включения в модель фактора х. Это означает, что парная регрессионная модель является статистически значимой и что нет необходимости улучшать ее, включая дополнительный фактор х.

Целесообразность  включения фактора у после фактора х проверяет Fy:

Fyфакт

=3531,98

Сравнивая Fтабл и Fфакт, приходим к выводу о целесообразности включения в модель фактора у, т. к. Fуфакт=3531,98 >Fтабл. Гипотезу H0 о несущественности прироста R2z за счет включения дополнительного фактора у отклоняем и приходим к выводу о статически подтвержденной целесообразности включения фактора у. 

Оценка  с помощью t-критерия Стьюдента: рассчитывается для коэффициентов регрессии линейного уравнения как квадратный корень из соответствующего частного F-критерия Фишера:

tb1=

14,5566;

tb2=

59,4304

a=0,05 df=15-2-1=12, tтабл=2,1788. Сравнивая tтабл и tфакт , приходим к выводу, что так как tb1 и tb2 >2,1788, коэффициенты регрессии b1, b2 являются статистически значимыми, надежными, на них можно опираться в анализе и прогнозе.

4. Для оценки гетероскедастичности по методу Гольфельда-Квандта необходимо упорядочить по возрастанию значения переменной , затем исключаем С центральных наблюдений, при этом (n-C):2>p, где p – число оцениваемых параметров, затем разделяем совокупность на 2 группы и определяем в каждой из групп остаточные суммы S1 и S2 и находим их отношение R. Для определение гетероскедастичности воспользуемся встроенной функцией Регрессия (см. приложение 1). Она равна:

Гетероскедастичность  по Х

Критерий   Табличное значение F-критерия
9,759624 >= 1,939842
 
 
 
 

Гетероскедастичность  по Y

Критерий   Табличное значение F-критерия
201,0803 >= 1,939842
 

Гетероскедастичность по Z

Критерий   Табличное значение F-критерия
188,5943 >= 1,939842
 

     Из  этого наблюдения видно, что все  значения больше табличного значения F-критерия, следовательно,  дисперсии остаточных величин неравны.

5. Для определения лучшего уравнения для прогноза воспользуемся встроенной функцией Регрессия (см. приложение 2). По нормированному R^2 уравнение парной регрессии по Х можно отклонить, т. к. значение этого параметра меньше значений нормированных R^2 2-х оставшихся уравнений:

R^2по x=0,172719;

Информация о работе Множественная регрессия