Автор: Пользователь скрыл имя, 19 Октября 2011 в 22:10, лабораторная работа
1. Постройте матрицу парных коэффициентов корреляции. Рассчитайте коэффициенты множественной детерминации.
2. Постройте уравнение множественной регрессии в линейной форме с полным набором факторов.
3. Оцените статическую значимость по уравнению регрессии и его параметров с помощью критериев Фишера и Стьюдента.
4. Проведите тестирование ошибок уравнения множественной регрессии на гетероскедастичность, применив тест Гольфельда-Квандта.
5. Определите, какое уравнение лучше использовать для прогноза:
- парную регрессию y на х1;
- парную регрессию y на х2;
- множественную регрессию.
ПЕНЗЕНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
Отчет о выполненной лабораторной работе № 2
Множественная регрессия
Выполнила:
студент гр. 03ВЭ1
Прохорова
Е. А.
Проверила:
Баусова
З.И.
Пенза 2005
Задание:
Дана
множественная регрессия z=a+
Таблица 1
z | х | у | |||
51,15 | 2,3 | 6,33 | |||
48,6 | 3,33 | 0,03 | |||
46,76 | 3,16 | 0,23 | |||
36,42 | 2,43 | 0,15 | |||
21,3 | 1,34 | 0,28 | |||
28,64 | 1,68 | 1,17 | |||
51,88 | 1,91 | 8,58 | |||
65,82 | 3,54 | 5,29 | |||
45,75 | 2,64 | 2,53 | |||
56,81 | 3,42 | 2,59 | |||
18,17 | 1,12 | 0,22 | |||
34,09 | 1,94 | 1,89 | |||
69,41 | 3,3 | 7,9 | |||
19,44 | 1,05 | 1,08 | |||
40,46 | 2,31 | 2,35 |
1. Постройте матрицу парных коэффициентов корреляции. Рассчитайте коэффициенты множественной детерминации.
2. Постройте уравнение множественной регрессии в линейной форме с полным набором факторов.
3. Оцените
статическую значимость по
4. Проведите тестирование ошибок уравнения множественной регрессии на гетероскедастичность, применив тест Гольфельда-Квандта.
5. Определите, какое уравнение лучше использовать для прогноза:
- парную регрессию y на х1;
- парную регрессию y на х2;
- множественную регрессию.
1.1Матрицу парных
коэффициентов корреляции
Таблица 2
x | y | z | |
x | 1 | ||
y | 0,264986 | 1 | |
z | 0,879837 | 0,691413 | 1 |
1.2 Для
того, чтобы рассчитать коэффициенты
множественной детерминации
b1=
b2=
Расчет линейного коэффициента множественной корреляции выполним с использованием коэффициентов rzx, rzy и b1, b2:
Rzxy=
Коэффициент детерминации:
Rzxy2=0,9991752=0,998351.
2. Линейное
уравнение множественной
z=a+b1*x+b2*y. Для расчета его параметров применим метод стандартизации переменных и построим искомое уравнение в стандартизированном масштабе: tz=b1*tx+b2*ty
Получим уравнение:
tz=0,253596*tx+0,895731*ty
Для построения уравнения в естественной форме рассчитаем b1, b2, используя формулы для перехода от bi к bi:
bi=bi
где sx,z,y
- стандартные отклонения по х, у, z (табл.2)
Таблица 3
x | y | Z | |||
Среднее | 2,369285714 | Среднее | 2,449285714 | Среднее | 27,77357 |
Стандартная ошибка | 0,236741767 | Стандартная ошибка | 0,759433323 | Стандартная ошибка | 6,882278 |
Медиана | 2,37 | Медиана | 1,53 | Медиана | 18,27 |
Мода | #Н/Д | Мода | #Н/Д | Мода | #Н/Д |
Стандартное отклонение | 0,88580658 | Стандартное отклонение | 2,841539302 | Стандартное отклонение | 25,75113 |
Дисперсия выборки | 0,784653297 | Дисперсия выборки | 8,074345604 | Дисперсия выборки | 663,1206 |
Эксцесс | -1,458152641 | Эксцесс | 0,852029963 | Эксцесс | -0,10536 |
Асимметричность | -0,112108082 | Асимметричность | 1,376555595 | Асимметричность | 1,045926 |
Интервал | 2,49 | Интервал | 8,55 | Интервал | 76,83 |
Минимум | 1,05 | Минимум | 0,03 | Минимум | 0,16 |
Максимум | 3,54 | Максимум | 8,58 | Максимум | 76,99 |
Сумма | 33,17 | Сумма | 34,29 | Сумма | 388,83 |
Счет | 14 | Счет | 14 | Счет | 14 |
b1=
b2=
Значение а определим из соотношения:
a=z-b1*x-b2*y=29,8593-7,
zxy=-9,555706+7,372259*x+8,
3. Общий F-критерий Фишера проверяет гипотезу H0 о статистической значимость уравнения регрессии и показателя тесноты связи (R2=0):
Fфакт=
где n-число наблюдений,
m – число факторов.
F-табл=3,88 ,a=0,05
Сравнивая Fтабл и Fфакт, приходим к выводу о необходимости отклонить гипотезу H0, так как Fтабл =3,88<Fфакт=3634,61. С вероятностью 1-a=0,95 делаем заключение о статической значимости уравнения в целом и показателя тесноты связи Rzxy, которые сформировались под неслучайным воздействием факторов х и у.
Частные F-критерии – Fx и Fy оценивают статистическую значимость присутствия факторов х и у в уравнении регрессии, оценивают целесообразность включения в уравнение одного фактора после другого фактора.
Fxфакт=
Fтабл=4,75 a=0,05
Низкое значение Fхфакт свидетельствует о статистической незначимости прироста r2zx за счет включения в модель фактора х. Следовательно, подтверждается нулевая гипотеза H0 о нецелесообразности включения в модель фактора х. Это означает, что парная регрессионная модель является статистически значимой и что нет необходимости улучшать ее, включая дополнительный фактор х.
Целесообразность включения фактора у после фактора х проверяет Fy:
Fyфакт=
Сравнивая
Fтабл и Fфакт, приходим к выводу
о целесообразности включения в модель
фактора у, т. к. Fуфакт=3531,98 >Fтабл.
Гипотезу H0 о несущественности прироста
R2z за счет включения дополнительного
фактора у отклоняем и приходим к выводу
о статически подтвержденной целесообразности
включения фактора у.
Оценка с помощью t-критерия Стьюдента: рассчитывается для коэффициентов регрессии линейного уравнения как квадратный корень из соответствующего частного F-критерия Фишера:
tb1=
tb2=
a=0,05 df=15-2-1=12, tтабл=2,1788. Сравнивая tтабл и tфакт , приходим к выводу, что так как tb1 и tb2 >2,1788, коэффициенты регрессии b1, b2 являются статистически значимыми, надежными, на них можно опираться в анализе и прогнозе.
4. Для оценки гетероскедастичности по методу Гольфельда-Квандта необходимо упорядочить по возрастанию значения переменной , затем исключаем С центральных наблюдений, при этом (n-C):2>p, где p – число оцениваемых параметров, затем разделяем совокупность на 2 группы и определяем в каждой из групп остаточные суммы S1 и S2 и находим их отношение R. Для определение гетероскедастичности воспользуемся встроенной функцией Регрессия (см. приложение 1). Она равна:
Гетероскедастичность по Х
Критерий | Табличное значение F-критерия | |
9,759624 | >= | 1,939842 |
Гетероскедастичность по Y
Критерий | Табличное значение F-критерия | |
201,0803 | >= | 1,939842 |
Гетероскедастичность по Z
Критерий | Табличное значение F-критерия | |
188,5943 | >= | 1,939842 |
Из этого наблюдения видно, что все значения больше табличного значения F-критерия, следовательно, дисперсии остаточных величин неравны.
5. Для определения лучшего уравнения для прогноза воспользуемся встроенной функцией Регрессия (см. приложение 2). По нормированному R^2 уравнение парной регрессии по Х можно отклонить, т. к. значение этого параметра меньше значений нормированных R^2 2-х оставшихся уравнений:
R^2по x=0,172719;