Корреляционно-регрессионный анализ

Автор: Пользователь скрыл имя, 09 Марта 2012 в 19:10, контрольная работа

Описание работы

Используются компьютерные технологии, провести корреляционно-регрессионный анализ исследуемых экономических показателей и построить регрессионную модель. Используя компьютерные технологии, решение задачи линейного программирования

Работа содержит 1 файл

КИТ.doc

— 646.50 Кб (Скачать)


Задание 1. Используя компьютерные технологии, провести корреляционно-регрессионный анализ исследуемых экономических показателей и построить регрессионную модель.

             

Условия задания 1:

 

            По выборочным данным исследовать влияние факторов X1, X2 и Х3 на результативный признак Y.

            Построить корреляционное поле и сделать предположение о наличии и типе связи между исследуемыми факторами;

            Оценив тесноту связи между исследуемыми факторами, построить многофакторную (однофакторную) линейную регрессионную модель вида Y=f(X1,X2 Х3) или вида Y=f (X).

            Оценить:

            адекватность уравнения регрессии по значению коэффициента детерминированности R2;

            значимость коэффициентов уравнения регрессии по t- критерию Стьюдента при заданном уровне доверительной вероятности р=0,05;

            степень случайности связи между каждым факторам Х и признаком Y (критерий Фишера);

            Зависимость между показателями X1, X2, X3  основных фондов и объемом валовой продукции Y предприятия одной из отраслей промышленности характеризуется следующими данным:

 

В качестве инструментария исследования использовать:

      функции категории «Статистические» ТП MS Excel,

      инструменты надстройки Пакет Анализа ТП MS Excel,

      встроенные функции библиотеки Stats (Statistics) CKM Maple.

 

Решение задачи с помощью ТП MS Excel

Построение корреляционного поля

Разместим таблицу с исходными данными в ячейках A2:D13 рабочего листа Excel, как показано в приложении 1.1. Используя возможности мастера диаграмм ТП MS Excel, построим корреляционной поле, то есть представим графически связь между результирующим признаком Y и каждым из факторов x (см. Приложение 1.2). Из графиков видно, что между результирующим признаком Y и каждым из факторов x существует прямо пропорциональная зависимость, приближающаяся к линейной.

Построение матрицы коэффициентов парной корреляции

Используя надстройку «Пакет анализа» ТП MS Excel (Сервис Анализ данных Корреляция), построим матрицу коэффициентов парной корреляции.  Окно инструмента «Корреляция» представлено на рисунке 1. Матрица коэффициентов парной корреляции представлена на рисунке 2.

 

Рис.1 – Окно «Корреляциия»

 

 

 

Х1

Х2

Х3

Y

Х1

1

 

 

 

Х2

0,978035

1

 

 

Х3

0,912677

0,969829

1

 

Y

0,950466

0,978906

0,943623

1


 

Рис.2 – Матрица коэффициентов парной корреляции

 

Из этой матрицы видно, что все рассматриваемые факторы Х1-Х3  имеют тесную связь с результативным признаком Y. Поэтому построение многофакторной модели вида Y=f(X1, X2, X3) невозможно.

 

Построение однофакторной регрессионной модели вида Y=f(X1)

Для построения модели линейного вида Y=m∙x+b воспользуемся функцией ЛИНЕЙН из категории статистических функций ТП MS Excel. В ячейки B17:C21 с помощью мастера функций введем как формулу массива функцию ЛИНЕЙН в следующем формате =ЛИНЕЙН(D3:D13;A3:A13;1;1) (см приложение 1.3). При вводе следует одновременно нажать клавиши <CTRL>, <SHIFT> и <ENTER>. В результате получим массив значений, верхняя строка которого представляет собой коэффициенты уравнения регрессии m и b.                  

 

Y(X1)л= 0.664x1 + 2.121

 

а) коэффициент детерминированности R2=0.903 (ячейка В19), то есть около 90% вариации результативного признака Y – объем частного потребления – определяется изменением фактора x1.

б) значимость коэффициентов уравнения регрессии определяется по t- критерию Стьюдента. Расчетное значение  критерия Стьюдента tр =9.173 (ячейка E24, формула =A18/A19), что больше табличного tт=2,26 (функция =СТЬЮДРАСПОБР(0,05;9). То есть коэффициент при переменной x1 значим.

в) Расчетное значение критерия Фишера Fр=84.153 (ячейка A21) больше табличного Fт= 5,117 (ячейка E30, формула =FРАСПОБР(0,05;1;9)). То есть связь между факторами не случайна и в целом уравнение регрессии адекватно.

Для построения экспоненциальной модели вида Y= bmx воспользуемся функцией ЛГРФПРИБЛ (см. приложение 1.1) и в ячейках D18:E22 в соответствии с описанной выше методикой рассчитаем параметры экспоненциальной регрессионной модели.  Получим уравнение регрессии вида

 

Y(x1)э=5,242*1,053 x1

 

В этой модели коэффициент детерминированности R2= 0,849 (ячейка D20), то есть приблизительно 85% вариации результативного признака Y – объем частного потребления – определяется изменением фактора x1.

Критерий Фишера Fр=50,557 (ячейка D21) больше табличного Fт= 5.12. То есть связь между факторами не случайна и в целом уравнение регрессии адекватно.

Аналогичным образом рассчитаем и оценим адекватность уравнения регрессии вида Y=f(x2) (ячейки A33:B37 и D33:E37) и вида Y=f(x3) (ячейки A42:B46 и D42:E46). Приложение 1.3 содержит результаты расчетов, а также полученные функции регрессии. Использованные формулы показаны в Приложении 1.4.

По своим статистическим характеристика модели признака Х2 имеет: в линейной модели коэффициент детерминированности составляет 0,958, а в экспоненциальной модели равен 0,939.

Модели признака Х3 также признаются адекватными: в линейной модели коэффициент детерминированности составляет 0.890, а в экспоненциальной модели он равен 0.920.

 

Построение линейной однофакторной регрессионной модели Y=f(X1)  средствами надстройки «Пакет анализа»

Используя надстройку «Пакет анализа» ТП MS Excel (Сервис  Анализ данных Регрессия), рассчитаем линейную регрессионную модель вида Y=f(x1). Окно «Регрессия» представлено на рисунке 3.

 

 

Рис.3 – Окно «Регрессия»

 

Результаты регрессионного анализа (Приложение 1.5) представлены в виде трех таблиц. Первая таблица – «Регрессионная статистика» позволяет оценить тесноту связи между факторами и уровень стандартной ошибки.

Вторая таблица – «Дисперсионный анализ» на основании критерия Фишера, остаточной и регрессионной суммы квадратов позволяет оценить адекватность уравнения регрессии в целом. В этой таблице представлена, в частности, факторная, остаточная и общая вариация результативного признака (SS). Также показан параметр Значимость F – минимальный уровень значимости, при котором связь оценивается как не случайная. В данном случае этот вывод можно сделать при уровне, превышающем 7.30*10-6, т.е. мы можем не определять табличное значение F, чтобы убедиться в том, что при уровне α=0.05>Значимость F связь между признаками не случайна.

В третьей таблице представлены значения коэффициентов уравнения регрессии, критерий Стьюдента  и уровень значимости p. Р-значение коэффициента m показывает, что мы можем считать его значимо отличным от 0 при уровне значимости 7.30*10-6 и выше, т.е. практически с единичной вероятностью. Свободный член также считается значимо отличным от 0 с очень высокой вероятностью, поскольку его Р-значение близко к 0.

Аналогично с помощью надстройки Пакет анализа можно провести регрессионный анализ для линейных моделей вида Y=F(X2) И Y=F(X3) (см. Приложения 1.6 и 1.7)

Все построенные модели отвечают условиям адекватности. Наиболее  высокие статистические характеристики имеет линейная модель Y=f(x2) вида:

 

Y= 1.529 х2 + 4,398

 

в которой  коэффициент  детерминированности R2=0.954;критерий Фишера F=206.609 (Fp=206,609>Fт=5,117); критерий Стьюдента =  14,374 (tр=14,374>tт=2.26); коэффициенты уравнения регрессии значимы.

 

Решение задачи в СКМ Maple с использованием библиотеки stats (на примере факторного признака Х1).

На первом этапе массивы данных Х1-показатель основных фондов и Y – объем валовой продукции следует оформить типом statsdata для возможности обработки процедурами и функциями библиотеки stats СКМ Maple:

> restart;

> with(stats);

> X1:=[9,10,12,13,15,17,19,21,25,27,29];

> Y:=[7.1,7.9,8.3,10.6,13.6,15.2,17.8,16.3,17.9,18.9,20.6];

 

Для расчета функциональной зависимости между экспериментальными данными Х1 и Y и возможности ее графического отображения определим функцию пользователя spisok=f(x) с использованием функционального оператора . Также задаем вид модели (линейная модель) и определяем коэффициенты функции регрессии:

> spisok:=(X1,Y)->[X1,Y]

 

> fit[leastsquare[[x,y]]]([X1,Y]);

 

> evalf(%,3);

 

 

Для того, чтобы графически отразить экспериментальные данные и построить линию тренда, значения Х1 и Y сначала следует сгруппировать попарно функцией zip, а затем на основании полученного уравнения можно рассчитать теоретические значения результативного признака:

> k:=zip(spisok,X1,Y);

 

> fun:=rhs(fit[leastsquare[[x,y]]]([X1,Y]));

 

> for i from 1 to nops (X1) do       

> Y[i]:=evalf(subs({x=X1[i]},fun))

> end do:

> Y:=convert(Y,list);

 

Здесь стандартная функция rhs библиотеки stats выделяет правую часть полученной функциональной зависимости для расчета линии тренда Y1, функция nops в цикле for подсчитывает количество значений Х1, функция subs осуществляет подстановку значений аргумента из массива X1[i] в уравнение регрессии, а функция convert преобразовывает полученный массив Y1 в данные типа list (список) для возможности использования их в функции построения графика plot:

> k1:=zip(spisok,X1,Y):

> plot([k,k1],thickness=2,labels=["Независимая переменная X1","Зависимая переменная Y"],labeldirections=[horizontal,vertical],legend=["Исходные данные","Теоретическая модель"],title=cat("Модель Y=",convert(evalf(fun,7),string)));

Заданные в функции plot параметры позволяют не только построить реальную и расчетную зависимости, применив различные графические стили и комментарии, но и вывести на графике уравнение регрессии (см. рис. 4)

 

Рис.4 – Графическое представление модели

 

Проверим адекватность модели, рассчитав ряд статистических характеристик (см. ниже). Для возможности использования стандартных процедур и функций библиотеки stats значения Y и Y1 вначале необходимо преобразовать к символьному виду (array) и только затем обрабатывать:

> y:=convert(Y,array):

 

> n:=nops(Y):

> sr:=evalf((sum(y[j],j=1..n)/n),7);

> Q:=evalf((sum((y[j]-sr)^2,j=1..n)),12);

> y1:=convert(Y1,array);

> Qe:=evalf((sum((y[j]-y1[j])^2,j=1..n)),12);

> Qr:=evalf(sum((y1[j]-sr)^2,j=1..n),12);

> R:=evalf(Qr/(Qr+Qe),4);

> correl:=evalf(R^0.5,6);

> k:=1;

> S:=Qe/(n-k-1);

> F:=evalf(Qr/S,4);

 

Результаты выводятся функцией printf:

 

 

> printf("Коэффициент кореляции =>%20.6f\nКоэффициент детерминированности =>%18.4f\nРегрессионная сумма квадратов =>%15.1f\nОстаточная сумма квадратов =>%15.1f\nОбщая сумма квадратов =>%15.1f\nКритерий Фишера =>%16.2f\n",correl,R,Qr,Qe,Q,F);

>

Коэффициент кореляции =>            0.950474

Коэффициент детерминированности =>            0.9034

Регрессионная сумма квадратов =>          210.5

Остаточная сумма квадратов =>           22.5

Общая сумма квадратов =>          233.0

Критерий Фишера =>           84.17

 

Итак, коэффициент детерминированности составляет почти 0.95, что очень близко к 1, и свидетельствует об адекватности модели. Коэффициент детерминированности столь близок к 1, потому что регрессионная сумма квадратов, отражающая влияние изменения признака Х1, намного больше остаточной суммы квадратов, отражающей влияние изменения неконтролируемых факторов.

Расчетное значение F-критерия на два порядка превосходит табличный уровень, так что связь считается не случайной.

Аналогично проводится анализ для признаков Х2, и Х3 (см. Приложения 1.8 и 1.9).

 

 

 

 

 

 



Информация о работе Корреляционно-регрессионный анализ