Корреляционно-регрессионный анализ

Автор: Пользователь скрыл имя, 24 Марта 2013 в 10:56, контрольная работа

Описание работы

Поэтому регрессионный анализ называют основным методом современной математической статистики для выявления неявных и завуалированных связей между данными наблюдений. Электронные же таблицы делают такой анализ легко доступным. Из множества видов этого анализа мы рассмотрим те, которые используются наиболее часто в качестве универсальных инструментов познания действительности.
Корреляционно-регрессионный анализ связей между переменными показывает, как один набор переменных (X) может влиять на другой набор (У).

Содержание

ВВЕДЕНИЕ 3
ПОСТАНОВКА ЗАДАЧИ 5
ПРАКТИЧЕСКАЯ ЧАСТЬ 6

Работа содержит 1 файл

КР Численные методы.docx

— 362.64 Кб (Скачать)

ОГЛАВЛЕНИЕ

 

ВВЕДЕНИЕ 3

ПОСТАНОВКА ЗАДАЧИ 5

ПРАКТИЧЕСКАЯ ЧАСТЬ 6

 

 

ВВЕДЕНИЕ

 

Экономические данные почти  всегда представлены в виде таблиц. Числовые данные, содержащиеся в таблицах, обычно имеют между собой явные (известные) или неявные (скрытые) связи.

Явно связаны показатели, которые получены методами прямого  счета, т. е. вычислены по заранее  известным формулам. Например, проценты выполнения плана, уровни, удельные веса, отклонения в сумме, отклонения в  процентах, темпы роста, темпы прироста, индексы и т. д.

Связи же второго типа заранее  неизвестны. Однако люди должны уметь  объяснять и предсказывать (прогнозировать) сложные явления для того, чтобы  управлять ими. Поэтому специалисты  с помощью наблюдений стремятся  выявить скрытые зависимости  и выразить их в виде формул, т. е. математически смоделировать явления  или процессы. Одну из таких возможностей предоставляет корреляционно-регрессионный  анализ.

Представление экономических  и других данных в электронных  таблицах в наши дни стало простым  и естественным. Оснащение же электронных  таблиц средствами корреляционно-регрессионного анализа способствует тому, что из группы сложных, глубоко научных  и потому редко используемых, почти  экзотических методов, корреляционно-регрессионный анализ превращается для специалиста в повседневный, эффективный и оперативный аналитический инструмент. Однако, в силу его сложности, освоение его требует значительно больших знаний и усилий, чем освоение простых электронных таблиц.

Пользуясь методами корреляционно-регрессионного анализа, аналитики измеряют тесноту  связей показателей с помощью  коэффициента корреляции. При этом обнаруживаются связи, различные по силе (сильные, слабые, умеренные и  др.) и различные по направлению (прямые, обратные). Если связи окажутся существенными, то целесообразно будет найти  их математическое выражение в виде регрессионной модели и оценить  статистическую значимость модели. В  экономике значимое уравнение используется, как правило, для прогнозирования изучаемого явления или показателя.

Поэтому регрессионный  анализ называют основным методом современной  математической статистики для выявления  неявных и завуалированных связей между данными наблюдений. Электронные  же таблицы делают такой анализ легко  доступным. Из множества видов этого  анализа мы рассмотрим те, которые  используются наиболее часто в качестве универсальных инструментов познания действительности.

Корреляционно-регрессионный  анализ связей между переменными  показывает, как один набор переменных (X) может влиять на другой набор (У).

 

 

 

 

 

ПОСТАНОВКА ЗАДАЧИ

В данной работе проведен корреляционно-регрессионный  анализ показателей работы организации ООО «Система М» для выявления зависимости влияния ряда показателей на объем чистой прибыли.

Вид деятельности организации  – розничная продажа компьютеров, компьютерных комплектующих, программного обеспечения. Зависимой переменной будем считать чистую прибыль организации (. Рассмотрим влияние следующих переменных на зависимую (так как организация меняла адрес работы магазина, а также график работы факторы были взяты соответствующие):

x1 – объем продаж, тыс.руб.

x2 – площадь торгового зала, м2

x3 – численность сотрудников организации, чел.

x4 – фонд оплаты труда сотрудников, тыс.руб.

x5 – время работы магазина, час.

Нулевой этап - это сбор данных.

На этапе сбора исходных данных и их первичной обработки, согласно теории, сходная информация может быть собрана в трех видах:

  • динамические (временные) ряды;
  • пространственная информация – информация о работе нескольких объектов в одном разрезе времени;
  • сменная – табличная форма, т.е. информация о работе нескольких объектов за разные периоды.

В данной работе исходные данные для выполнения многофакторного  корреляционно–регрессионного анализа  влияния факторов на зависимую переменную (чистая прибыль) собраны в виде динамических рядов и представлены в таблице 1 (2011-2012 год).

 

ПРАКТИЧЕСКАЯ  ЧАСТЬ

На этапе спецификации функции регрессии предполагаем, что имеет место множественная линейная регрессия, т. е. доходы организации линейно зависят от выбранных пяти факторов x1, x2, …x5. Уравнение регрессии имеет следующий вид:

,

где a0, a1,….a5 – параметры уравнения регрессии, подлежат оценке.

Таблица 1 – Исходные данные

Календарный период

Переменные

Объясняющие переменные (факторы)

Зависимая переменная (y)

x1

x2

x3

x4

x5

1

1148

101

6

120

12

73

2

1252

101

6

121

12

88

3

1250

101

5

105

9

98

4

1329

101

5

106

9

114

5

1360

101

6

122

9

104

6

1258

101

7

131

9

74

7

1233

101

7

132

9

71

8

1237

101

7

133

9

70

9

1347

101

7

135

12

100

10

1394

101

6

124

12

112

11

1443

101

6

123

12

115

12

1715

101

7

146

12

155

13

1525

101

6

124

12

128

14

1397

101

6

123

12

110

15

1070

75

5

108

9

65

16

1068

75

5

106

9

58

17

1060

75

5

108

9

59

18

1067

75

5

110

9

63

19

1051

75

5

108

9

72

20

1059

75

5

109

9

70

21

1082

75

6

124

12

77

22

1093

75

6

125

12

89

23

1115

75

6

128

12

107

24

1104

75

6

140

12

124


 

Отчет о результатах регрессионного анализа представлен на рисунке 1.

Рисунок 1 – Результаты выполнения функции регрессии и корреляционная матрица для первой функции

В регрессионном анализе  наиболее важными результатами являются:

  • множественный R, характеризующий точность модели для имеющихся исходных данных;
  • F-критерий Фишера;
  • коэффициенты при переменных и Y-пересечение, являющиеся искомыми параметрами модели;
  • t-статистика – величины, характеризующие степень значимости отдельных коэффициентов модели.

Для данной регрессии коэффициент  множественной корреляции равен  R=0,9597, а коэффициент детерминации R-квадрат=0,9211 что свидетельствует о высокой тесноте связи между выбранными факторами и доходами предприятия.

Для оценки значимости R2 применяется F-критерий Фишера, вычисляемый по формуле:

 

где n - размер выборки (количество экспериментов); m - число параметров при переменной x.

 

Если Fфакт превышает некоторое критическое значение Fкрит для данных n и m при заданном уровне значимости α, то величина R2 считается существенной.

Fкрит находим в таблице критических значений критерия Фишера для уровня значимости a = 0,05, числу степеней свободы большей дисперсии f1=m и числу степеней свободы меньшей дисперсии f2=n-m-1. Таким образом, f1=5, f2=24-5-1=18. Для таких значений Fкрит(0,05,5,18) = 2,77 и, следовательно, Fфакт>Fкрит, таким образом величина R2 является значимой.

На t-статистике (t-критерий Стьюдента) следует остановиться особо. Очень часто при построении регрессионной модели неизвестно, влияет тот или иной фактор x на y. Включение в модель факторов, которые не влияют на выходную величину, ухудшает качество модели. Вычисление t-статистики помогает обнаружить такие факторы. В данной модели критерий Стьюдента уже был вычислен при выполнении функции регрессии, нам необходимо только сравнить t-критическое (tкрит) с величиной t-статистики (tстат), для этого нужно найти количество степеней свободы f=n-m-1, f=24-5-1=18. Таким образом, при уровне значимости a=0,05 и количестве степеней свободы f=18,  значение tкрит = 2,10.

Проанализировав данные, мы можем сделать вывод, что наиболее значимыми факторами является факторы x1, x2, x3, x4. После этого исключаем фактор x5 и повторно выполняем регрессию, строим корреляционную матрицу. Результат на рисунке 2.

Рисунок 2 – Результаты выполнения функции регрессии и корреляционная матрица для второй функции

Для данной регрессии коэффициент  множественной корреляции равен  R=0,9583, а коэффициент детерминации R-квадрат=0,9184 что свидетельствует о высокой тесноте связи между выбранными факторами и зависимой переменной.

Прежде чем вынести окончательное  решение об исключении переменных из анализа в силу их незначимого  влияния на зависимую переменную, проведем исследование совместного  влияния факторов.

Для этого воспользуемся статистикой, которая имеет F–распределение с f:

где Дm – коэффициент детерминации регрессии с m объясняющими переменными; Дm1 – коэффициент детерминации регрессии с m1 факторами; m – число переменных в первой регрессии; m1 – число переменных в последней регрессии.

Если Fрасп£Fкрит, то исключенные выше факторы совместно не оказывают статистически значимого влияния на функцию. Вычислим Fрасп:

 

 

Определим критическое  значение статистики Fкрит при f1 = 5 – 4 = 1 и f2 = 24 – 5 –1 = 18 и уровне значимости a=0,05. Fкрит(0,05,1,18)=4,41. Тогда, сравнивая 0,62<4,41, делаем вывод, что ранее исключенные факторы совместно не оказывают статистически значимого влияния на вариацию переменной у. Поэтому фактор x5(время работы магазина) окончательно исключаем из модели.

Этап проверки адекватности модели включает расчет следующих показателей: оценку значимости коэффициента детерминации, проверку качества подбора теоретического уравнения, вычисление специальных показателей.

Оценка значимости коэффициента детерминации необходима для решения вопроса: оказывают  ли выбранные факторы влияние  на зависимую переменную?

Для оценки значимости R2 применяется F-критерий Фишера, вычисляемый по формуле:

 

где n - размер выборки (количество экспериментов); m - число параметров при переменной x.

 

Если F превышает некоторое  критическое значение Fкрит для данных n и m и принятой доверительной вероятности, то величина R2 считается существенной.

Fкрит возьмем из таблицы значений критерия Фишера (F-критерия) для уровня значимости a = 0,05, f1=m и f2=n-m-1. Таким образом f1=4, f2=24-4-1=19. Для таких значений Fкрит(0,05,4,19)=2,9 и, следовательно Fрасп>Fкрит, таким образом величина R2 является значимой.

Проверка качества подбора теоретического уравнения проводится с использованием средней ошибки аппроксимации регрессии. Средняя ошибка аппроксимации регрессии рассчитывается по формуле:

 

,

 

где уi – фактическое значение функции для i – го календарного периода;

уit – теоретическое значение функции для i – го календарного периода;.

Для вычисления средней ошибки аппроксимации  составляем еще одну расчетную таблицу.

Таблица 2 – Расчет значения средней  ошибки аппроксимации

y

Фактическое значение функции

Остаток

Теоретическое значение функции

Вычисление ошибки, %

1

98,000

-6,425

104,425

-6,153

2

101,000

-11,588

112,588

-10,292

3

106,000

2,939

103,061

2,851

4

114,000

4,088

109,912

3,720

5

119,000

-1,961

120,961

-1,621

6

108,000

1,896

106,104

1,787

7

109,000

1,505

107,495

1,400

8

112,000

1,592

110,408

1,442

9

116,000

-5,590

121,590

-4,597

10

124,000

-4,153

128,153

-3,240

11

132,000

3,979

128,021

3,108

12

155,000

-15,646

170,646

-9,169

13

148,000

12,970

135,030

9,606

14

142,000

16,393

125,607

13,051

15

65,000

-3,321

68,321

-4,861

16

58,000

-4,809

62,809

-7,657

17

59,000

-8,796

67,796

-12,975

18

63,000

-10,571

73,571

-14,368

19

72,000

4,676

67,324

6,945

20

70,000

-0,447

70,447

-0,635

21

77,000

-1,373

78,373

-1,752

22

89,000

7,346

81,654

8,996

23

107,000

16,081

90,919

17,687

24

124,000

-1,830

125,830

-1,454

Среднее значение

102,833

-0,127

102,960

-0,341

Информация о работе Корреляционно-регрессионный анализ