Автор: Пользователь скрыл имя, 20 Декабря 2010 в 23:22, лабораторная работа
Типичной практической задачей является задача определения зависимостей в системе данных.
Зависимость, при которой изменение одной СВ (случайной величины) влечет за собой изменение среднего значения и закона распределения другой СВ называется корреляционной, при изменении условного математического ожидания говорят о регрессионной зависимости.
Лабораторная работа №2
Корреляционно-регрессионный
анализ
Типичной практической задачей является задача определения зависимостей в системе данных.
Зависимость, при которой изменение одной СВ (случайной величины) влечет за собой изменение среднего значения и закона распределения другой СВ называется корреляционной, при изменении условного математического ожидания говорят о регрессионной зависимости.
Коэффициентом корреляции СВ X и Y называется величина r:
где Mk – среднее значение соответствующих СВ,
nij – частота совместного появления величин,
Sk – стандартное отклонение соответствующих СВ.
Коэффициент корреляции служит для измерения степени тесноты связи линейной статистической зависимости.
|r| ≤ 1: r : (0; 0.25) – связь слабая;
r : [0.25;0.75) – связь умеренная;
r : [0.75;1) – связь тесная;
r
= ±1 – то корреляционная связь – линейная
функциональная
r < 0 – связь обратная;
r = 0 – связь отсутствует, т.е. величины Х и У не коррелированные (линии уравнений регрессии || осям координат).
Зная коэффициент корреляции, можно вычислить коэффициент регрессии:
тогда уравнение регрессии примет вид y=My+ρ∙(x-My).
Корреляция:
, где x- зависимая переменная, y- независимая
переменная.
Гипотеза: стоимость автомобилей ВАЗ зависит от комфортабельности.
Выясним существует
ли связь между переменными Var14 и Var13.
Var13 | 4 | 2 | 2 | 3 | 3 | 3 | 4 | 3 | 2 | 2 | 2 | 3 | 2 | 3 | 3 | 1 | 1 | 1 | 2 |
Var14 | 5 | 5 | 4 | 5 | 2 | 3 | 2 | 3 | 5 | 2 | 5 | 4 | 4 | 4 | 4 | 4 | 5 | 5 | 5 |
Var13 | 3 | 2 | 2 | 2 | 3 | 4 | 4 | 3 | 3 | 3 | 3 | 4 | 4 | 3 | 2 | 2 | |||
Var14 | 4 | 3 | 5 | 4 | 4 | 4 | 3 | 5 | 5 | 4 | 5 | 5 | 3 | 5 | 5 | 3 |
Вычислим коэффициент корреляции:
Statistics→Basic Statistics→Correlation matrices
Two lists: First – var13,
Second – var14.
r=-0,24-связь обратная
слабая. Так как коэффициент корреляции
очень маленький, то нельзя утверждать,
что чем ниже комфортабельность, тем выше
стоимость.
Найдем уравнение регрессии и отобразим поле корреляции (графическое изображение статистической зависимости).
Advanced/plot 2D scatterplot
Уравнение регрессии имеет вид: Var14= --0,2693*Var13+4,8013, где коэфф-т регрессии
.Это уравнении определяет зависимость стоимости от комфортабельности.
Лабораторная работа №3
Регрессионный
анализ
Регрессия: , где -независимые друг от друга переменные.
Предполагаемая
гипотеза: популярность автомобилей
ВАЗ зависит от стоимости, качества автомобилей
и рекламы.
С помощью регрессионного анализа выясним то, как популярность автомобилей ВАЗ зависит от рекламы, стоимости и качества.
Для
анализа проведём регрессионный
анализ не по одной переменной, а
по нескольким.
Зависимая переменная (dependent):
Var21-Оцените популярность автомобилей
Независимые переменные (independent):
Var14-Оцените стоимость автомобилей ВАЗ.
Var22-Оцените автомобили ВАЗ по качеству в целом.
Var23-Как часто Вы видите рекламу «Лады»
Оценить зависимость популярности от стоимости, качества и рекламы.
Statistics Multiple Regression
В результате регрессионного анализа методом Standart получена следующая модель.
No of cases | 35 | Std. Error | 1,396726 |
Multiple R | 0,50136245 | p | 0,027814 |
0,25136430 | F | 3,469553 | |
Adjusted | 0,17891569 | df | 3,31 |
Std.Err. of Estimate | 0,977211213 | t( 31) | 0,18790 |
Intercept | 0,262438003 | p= | 0,8522 |
Var21=
--0,09*Var14+0,35*Var22+0,318*
y=
-0,09*
+0,35*
+0,318*
+0,262
Multiple R=0,5. Связь
между предикатами и откликом умеренная.
То есть популярность зависит от выбранных
параметров умеренно. Наибольший вклад
в построенную модель вносит переменная
Var22- качество, наименьший(совсем не значительный)-
переменная Var14 – стоимость.
=0,25-коэффициент
Adjusted
=0,17-скорректированный
коэффициент детерминации, учитывает
число переменных в уравнении регрессии
Std.Err. of Estimate=0,98- Показывает меру рассеяния данных значений относительно регрессионной прямой(низкая или высокая степень)
p=0,03- уровень значимости
y= -0,09* +0,35* +0,318* +0,262.
По уравнению
видно, что популярность в большей
степени зависит от качества, чуть
меньше от рекламы и практически не зависит
от стоимости.
Построим таблицу с подробными результатами
Так как уровень значимости p-level переменной Var14 равный 0.59 много больше 0.05, то эта переменная не значима в построенной модели и ее нужно исключить. Также не значим свободный член. В итоге получим модель:
Var21=
0,35*Var22+0,318*Var23
Построим таблицу с частными и получастными коэффициентами корреляции.
Построенная таблица подтверждает, что переменная Var14 не существенна в построенном уравнении, так как она имеет очень маленький частный к-т корреляции Partial.cor=-0,098359. Частный к-т корреляции показывает, влияние предиката на отклик при фиксированных остальных предикатах.
Переменные Var22
и Var23 не имеют самостоятельной части
в объяснении изменчивости отклика, так
как к-ты частной и получастной корреляции
имеют среднее значение.
Проверим адекватность построенной модели.
Статистики Дарбина-Уотсона
Статистики Дарбина-Уотсона проверяют наличие сериальной корреляционной зависимости между остатками. Если такая зависимость существует, то это может свидетельствовать о зависимости между предикатами, то есть о не адекватности построенной модели и неустойчивости коэффициентов уравнения регрессии.
Сериальный коэффициент
корреляции Serial.Cor=0,130895 мал, поэтому нет
оснований считать построенную модель
не адекватной.
Проверить адекватность построенной модели также можно с помощью гистограммы остатков.
Распределение
близко к нормальному, можно считать
модель адекватной.
По построенной модели можно сделать предсказание о значении отклика при заданных значениях предикатов.
В результате регрессионного анализа методом Forward stepwise получена следующая модель.
No of cases | 35 | Std. Error | 1,110285 |
Multiple R | 0,49401508 | p | 0,011373 |
0,24405090 | F | 5,165446 | |
Adjusted | 0,19680408 | df | 2,32 |
Std.Err. of Estimate | 0,966807686 | t( 31) | -0,1755 |
Intercept | -0,194898366 | p= | 0,8618 |
Var21= 0,356*Var22+0,327*Var23-0,195 или
y= 0,356*
+0,327*
-0,195
Multiple R=0,5. Связь
между предикатами и откликом умеренная.
То есть популярность зависит от выбранных
параметров умеренно. Наибольший вклад
в построенную модель вносит переменная
Var22- качество, наименьший( не вносит совсем,
не входит в модель )- переменная Var14 –
стоимость.
=0,24-коэффициент детерминации, показывает, что 24% исходной изменчивости значений могут быть объяснены, а остальные остаются не детерминированными.
Adjusted
=0,20-скорректированный
коэффициент детерминации, учитывает
число переменных в уравнении регрессии
Std.Err. of Estimate=0,97- Показывает меру рассеяния данных значений относительно регрессионной прямой(низкая или высокая степень)
p=0,01- уровень значимости
y= 0,356* +0,327* -0,195
По уравнению
видно, что популярность в большей
степени зависит от качества, чуть
меньше от рекламы, а стоимость вовсе не
вошла в модель.
Построим таблицу с подробными результатами
Переменная Var14 в модель не вошла. Также не значим свободный член, так как уровень p-level=0.861762. В итоге получим модель:
Var21=
0,356*Var22+0,327*Var23
Построим таблицу с частными и получастными коэффициентами корреляции.
Построенная таблица подтверждает, что переменные Var22 и Var23 умеренно влияют на отклик. Частный к-т корреляции показывает, влияние предиката на отклик при фиксированных остальных предикатах.
Переменные Var22
и Var23 не имеют самостоятельной части
в объяснении изменчивости отклика, так
как к-ты частной и получастной корреляции
имеют среднее значение.
Проверим адекватность построенной модели.
Статистики Дарбина-Уотсона
Статистики Дарбина-Уотсона проверяют наличие сериальной корреляционной зависимости между остатками. Если такая зависимость существует, то это может свидетельствовать о зависимости между предикатами, то есть о не адекватности построенной модели и неустойчивости коэффициентов уравнения регрессии.
Сериальный коэффициент
корреляции Serial.Cor=0,120321 мал, поэтому нет
оснований считать построенную модель
не адекватной.