Корреляционно-регрессионный анализ

Автор: Пользователь скрыл имя, 20 Декабря 2010 в 23:22, лабораторная работа

Описание работы

Типичной практической задачей является задача определения зависимостей в системе данных.
Зависимость, при которой изменение одной СВ (случайной величины) влечет за собой изменение среднего значения и закона распределения другой СВ называется корреляционной, при изменении условного математического ожидания говорят о регрессионной зависимости.

Работа содержит 1 файл

Лабы2-4.doc

— 821.50 Кб (Скачать)

Лабораторная  работа №2

Корреляционно-регрессионный  анализ 

      Типичной  практической задачей является задача определения зависимостей в системе  данных.

      Зависимость, при которой изменение одной  СВ (случайной величины) влечет за собой  изменение среднего значения и закона распределения другой СВ называется корреляционной, при изменении условного математического ожидания говорят о регрессионной зависимости.

      Коэффициентом корреляции СВ X и Y называется величина r:

,

где        Mk – среднее значение соответствующих СВ,

         nij – частота совместного появления величин,

         Sk – стандартное отклонение соответствующих СВ.

     Коэффициент корреляции служит для измерения  степени тесноты связи линейной статистической зависимости.

  |r| ≤ 1: r : (0; 0.25) – связь слабая;

            r : [0.25;0.75) – связь умеренная;

            r : [0.75;1) – связь тесная;

         r = ±1 – то корреляционная связь – линейная функциональная                           

                                                                            зависимость;

            r < 0 – связь обратная;

            r = 0 – связь отсутствует, т.е. величины Х и У не коррелированные (линии уравнений регрессии || осям координат).

Зная коэффициент  корреляции, можно вычислить коэффициент регрессии:

,

тогда уравнение регрессии примет вид y=My+ρ∙(x-My).

       Корреляция: , где x- зависимая переменная, y- независимая переменная. 

Гипотеза: стоимость  автомобилей ВАЗ зависит от комфортабельности.

Выясним существует ли связь между переменными Var14 и Var13. 

Var13 4 2 2 3 3 3 4 3 2 2 2 3 2 3 3 1 1 1 2
Var14 5 5 4 5 2 3 2 3 5 2 5 4 4 4 4 4 5 5 5
Var13 3 2 2 2 3 4 4 3 3 3 3 4 4 3 2 2      
Var14 4 3 5 4 4 4 3 5 5 4 5 5 3 5 5 3      
 
 
 
 
 

Вычислим  коэффициент корреляции:

     Statistics→Basic Statistics→Correlation matrices

     Two lists:   First –   var13,

             Second – var14.

        

r=-0,24-связь обратная слабая. Так как коэффициент корреляции очень маленький, то нельзя утверждать, что чем ниже комфортабельность, тем выше стоимость.  

Найдем  уравнение регрессии  и отобразим поле корреляции (графическое изображение статистической зависимости).

      Advanced/plot 2D scatterplot

Уравнение регрессии  имеет вид: Var14= --0,2693*Var13+4,8013, где коэфф-т регрессии

.Это уравнении определяет зависимость стоимости от комфортабельности.

Лабораторная  работа №3

Регрессионный анализ 

       Регрессия: , где -независимые друг от друга переменные.

       Предполагаемая  гипотеза: популярность автомобилей ВАЗ зависит от стоимости, качества автомобилей и рекламы. 

     С помощью регрессионного анализа  выясним то, как популярность автомобилей ВАЗ зависит от рекламы, стоимости и качества.

      Для анализа проведём регрессионный  анализ не по одной переменной, а  по нескольким. 

Зависимая переменная (dependent):

    Var21-Оцените популярность автомобилей 

Независимые переменные (independent):

      Var14-Оцените стоимость автомобилей ВАЗ.

      Var22-Оцените автомобили ВАЗ  по качеству в целом.

      Var23-Как часто Вы видите рекламу «Лады» 

Оценить зависимость  популярности от стоимости, качества и рекламы.

                         

Statistics Multiple Regression

 
 

В результате регрессионного анализа методом Standart получена следующая модель.

 

                                                                             

                                                                             

                                                                             

                                                                             

No of cases 35 Std. Error 1,396726
Multiple R 0,50136245 p 0,027814
0,25136430 F 3,469553
Adjusted 0,17891569 df 3,31
Std.Err. of Estimate 0,977211213 t( 31) 0,18790
Intercept 0,262438003 p= 0,8522
 

Var21= --0,09*Var14+0,35*Var22+0,318*Var23+0,262 или

y= -0,09* +0,35* +0,318* +0,262 

Multiple R=0,5. Связь между предикатами и откликом умеренная. То есть популярность зависит от выбранных параметров умеренно. Наибольший вклад в построенную модель вносит переменная Var22- качество, наименьший(совсем не значительный)- переменная Var14 – стоимость. 

=0,25-коэффициент детерминации,показывает, что 25% исходной изменчивости  значений могут быть объяснены,  а остальные остаются не детерменированными.

Adjusted =0,17-скорректированный коэффициент детерминации, учитывает число переменных в уравнении регрессии 

Std.Err. of Estimate=0,98- Показывает меру рассеяния данных значений относительно регрессионной прямой(низкая или высокая степень)

p=0,03- уровень значимости 

y= -0,09* +0,35* +0,318* +0,262.

По уравнению  видно, что популярность в большей  степени зависит от качества, чуть меньше от рекламы и практически не зависит от стоимости. 

Построим  таблицу с подробными результатами

 

Так как уровень  значимости p-level переменной Var14 равный 0.59 много больше 0.05, то эта переменная не значима в построенной модели и ее нужно исключить. Также не значим свободный член. В итоге получим модель:

      Var21= 0,35*Var22+0,318*Var23 

Построим  таблицу с частными и получастными коэффициентами  корреляции.

Построенная таблица  подтверждает, что  переменная Var14 не существенна в построенном уравнении, так как она имеет очень маленький частный к-т корреляции Partial.cor=-0,098359. Частный к-т корреляции показывает, влияние предиката на отклик при фиксированных остальных предикатах.

Переменные Var22 и Var23 не имеют самостоятельной части в объяснении изменчивости отклика, так как к-ты частной и получастной корреляции имеют среднее значение. 
 

Проверим  адекватность построенной  модели.

Статистики  Дарбина-Уотсона

Статистики Дарбина-Уотсона  проверяют наличие сериальной корреляционной зависимости между остатками. Если такая зависимость существует, то это может свидетельствовать о зависимости между предикатами, то есть о не адекватности построенной модели и неустойчивости коэффициентов уравнения регрессии.

Сериальный коэффициент  корреляции Serial.Cor=0,130895 мал, поэтому нет оснований считать построенную модель не адекватной. 

Проверить адекватность построенной  модели также можно с помощью гистограммы остатков.

Распределение близко к нормальному, можно считать  модель адекватной. 

По  построенной модели можно сделать предсказание о значении отклика при заданных значениях предикатов.

                    
 

В результате регрессионного анализа методом  Forward stepwise получена следующая модель.

 

No of cases 35 Std. Error 1,110285
Multiple R 0,49401508 p 0,011373
0,24405090 F 5,165446
Adjusted 0,19680408 df 2,32
Std.Err. of Estimate 0,966807686 t( 31) -0,1755
Intercept -0,194898366 p= 0,8618
 

Var21= 0,356*Var22+0,327*Var23-0,195 или

y= 0,356* +0,327* -0,195 

Multiple R=0,5. Связь между предикатами и откликом умеренная. То есть популярность зависит от выбранных параметров умеренно. Наибольший вклад в построенную модель вносит переменная Var22- качество, наименьший( не вносит совсем, не входит в модель )- переменная Var14 – стоимость. 

=0,24-коэффициент детерминации, показывает, что 24% исходной изменчивости значений могут быть объяснены, а остальные остаются не детерминированными.

Adjusted =0,20-скорректированный коэффициент детерминации, учитывает число переменных в уравнении регрессии 

Std.Err. of Estimate=0,97- Показывает меру рассеяния данных значений относительно регрессионной прямой(низкая или высокая степень)

p=0,01- уровень значимости 

y= 0,356* +0,327* -0,195

По уравнению  видно, что популярность в большей  степени зависит от качества, чуть меньше от рекламы, а стоимость вовсе не вошла в модель. 

Построим  таблицу с подробными результатами

Переменная Var14 в модель не вошла. Также не значим свободный член, так как уровень p-level=0.861762. В итоге получим модель:

      Var21= 0,356*Var22+0,327*Var23 
 
 

Построим  таблицу с частными и получастными коэффициентами  корреляции.

 

Построенная таблица подтверждает, что  переменные Var22  и Var23 умеренно влияют на отклик. Частный к-т корреляции показывает, влияние предиката на отклик при фиксированных остальных предикатах.

Переменные Var22 и Var23 не имеют самостоятельной части в объяснении изменчивости отклика, так как к-ты частной и получастной корреляции имеют среднее значение. 
 
 
 
 
 

Проверим  адекватность построенной  модели.

Статистики  Дарбина-Уотсона

Статистики Дарбина-Уотсона  проверяют наличие сериальной корреляционной зависимости между остатками. Если такая зависимость существует, то это может свидетельствовать о зависимости между предикатами, то есть о не адекватности построенной модели и неустойчивости коэффициентов уравнения регрессии.

Сериальный коэффициент  корреляции Serial.Cor=0,120321 мал, поэтому нет оснований считать построенную модель не адекватной. 

Информация о работе Корреляционно-регрессионный анализ