Автор: Пользователь скрыл имя, 23 Декабря 2012 в 15:05, лабораторная работа
работа содержит построение поля корреляции для заданной совокупности наблюдений, на основе визуального анализа удаление из выборки аномальные наблюдения (не более 5% от исходного числа), добиваясь увеличения коэффициента детерминации для линейной модели парной регрессии.
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ
Кафедра прикладной математики и моделирования систем
Студент гр. ЭБ-д-3-1 Фамилия И.О.
Преподаватель Голинков Ю.П.
2007
Построить поле корреляции для заданной совокупности наблюдений, на основе визуального анализа удалить из выборки аномальные наблюдения (не более 5% от исходного числа), добиваясь увеличения коэффициента детерминации для линейной модели парной регрессии.
Используя встроенные функции Excel, для скорректированной выборки наблюдений построить модели парной регрессии для 6 заданных функций регрессии: линейной, степенной, экспоненциальной, полулогарифмической, обратной, гиперболической. Для каждой из построенных моделей определить коэффициент детерминации, среднюю ошибку аппроксимации, коэффициент эластичности. Прокомментировать качество построенных моделей.
Привести расчетные формулы и выполнить вычисления параметров уравнения парной линейной регрессии, показателей статистической значимости уравнения регрессии в целом, коэффициентов регрессии и корреляции, точечного и интервального прогноза. Используя надстройку Excel “Анализ данных” и матричные вычисления, продублировать вычисления параметров модели парной линейной регрессии и всех показателей, характеризующих ее качество.
С помощью пакета STATISTICA провести расчеты для линейной, гиперболической и обратной функций регрессии. Построить график с доверительными интервалами прогноза для линейной регрессии.
Проанализировать возможность улучшения качества модели регрессии за счет применения нелинейных функций регрессии и удаления некоторых наблюдений (не более 10%).
Исходные данные
Значения коэффициента детерминации для исходной выборки и после поочередного удаления предполагаемых на основе визуального анализа аномальных наблюдений:
Исходная выборка |
0.711 | |
235.2 |
1.42 |
0.7266 |
250 |
10.1 |
0.7704 |
630 |
4.58 |
0.7415 |
1300 |
10.86 |
0.7181 |
1800 |
20.54 |
0.3879 |
По результатам проведенного анализа из выборки удалено наблюдение (10,1; 250).
Скорректированная выборка (27 наблюдений)
Описательная статистика
Модели парной регрессии
Степенная
Экспоненциальная
Логарифмическая
Обратная
Гиперболическая
где - наблюдавшееся значение результативного показателя;
- расчетное значение по уравнению регрессии;
- среднее значение
Коэффициент детерминации рассчитывался для степенной функции регрессии:
для экспоненциальной функции регрессии:
для обратной функции регрессии:
и для гиперболической функции регрессии:
Коэффициент детерминации для линейной и логарифмической функций получен с помощью команды Excel: Диаграмма_Добавить линию тренда.
Для расчета средней ошибки аппроксимации использовались формулы:
,
.
Для каждой модели выбиралось минимальное из трех рассчитанных значений.
Для линейной функции:
Для степенной функции:
Для экспоненциальной функции:
Для полулогарифмической функции:
Для обратной функции:
Для гиперболической функции:
Вид модели |
Коэффициент детерминации |
Средняя ошибка аппроксимации |
Коэффициент эластичности |
Линейная |
0.7704 |
29.79% |
0.5383 |
Степенная |
0.6191 |
32.66% |
0.4892 |
Экспоненциальная |
0.7801 |
29.98% |
0.3513 |
Логарифмическая |
0.5468 |
36.60% |
0.5180 |
Обратная |
0.2364 |
35.91% |
0.1804 |
Гиперболическая |
0.2583 |
42.92% |
0.2209 |
Из рассмотренных моделей наибольшее значение коэффициента детерминации, близкое к требуемой величине 0.8, имеют линейная и экспоненциальная модели. Однако, высокая величина средней ошибки аппроксимации (около 30%) ограничивает возможность их практического применения. Ни одна из других моделей не соответствует предъявляемым требованиям по величине коэффициента детерминации и средней ошибки аппроксимации.
Система нормальных линейных алгебраических
уравнений относительно
параметров парной линейной регрессии
Решение системы: a = 2.38315; b = 0,00868.
Коэффициент регрессии (альтернативные формулы)
Свободный член уравнения регрессии
Коэффициент корреляции
Индекс корреляции
Коэффициент детерминации
(для парной линейной
Скорректированный коэффициент детерминации
Более 76% дисперсии результативного показателя (Стоимость полиграфических работ) обусловлено изменением фактора-аргумента (Объем заказа в тыс. л.-отт.). По этому показателю рассматриваемая модель регрессии удовлетворяет необходимым требованиям.
Стандартная ошибка регрессии
F-критерий Фишера
Fтабл =FРАСПОБР(0.05;1;25) = 4.2417
Fтабл =FРАСПОБР(0.01;1;11) = 7.7698
При уровне значимости a = 0,05 и при более строгом подходе (a = 0,01) уравнение регрессии в целом является значимым.
Стандартные ошибки параметров регрессии и коэффициента корреляции
Расчетные значения T-критериев Стьюдента
Соотношение между T-критериями Стьюдента и F-критерием Фишера
Табличное значение T-критерия Стьюдента
Tтабл =СТЬЮДРАСПОБР(0.05;25) = 2.05954
Tтабл =СТЬЮДРАСПОБР(0.01;25) = 2.7874
При уровне значимости a = 0,05 и при a = 0,01 параметры уравнения регрессии a и b, а также коэффициент корреляции r являются значимыми.
Точечный прогноз
Ошибка прогноза
Доверительный интервал прогноза с учетом индивидуального рассеивания результирующего показателя при x = 1.1xсредн.
Доверительный интервал прогноза без учета индивидуального рассеивания результирующего показателя при x = 1.1xсредн.
Доверительные интервалы прогноза с учетом и без учета индивидуального рассеивания результирующего показателя при различных значениях x
Линейная модель
Параметры регрессии
Доверительные интервалы прогноза
Пунктирная линия на графике соответствует прогнозу для значения фактора, превышающего на 10% его среднюю величину (ранее было получено: 1,49376 ≤ yр ≤ 9,37264).
Гипербола
Результаты расчетов совпадают с полученными ранее в Excel:
Коэффициенты линеаризованной модели | |
-464.4 |
8.03501 |
157.389 |
1.17222 |
0.2583 |
3.37554 |
8.70621 |
25 |
99.2007 |
284.856 |
Дополнительно получена скорректированная величина индекса детерминации 0,2286 и уровни значимости свободного члена и коэффициента регрессии.
Обратная функция
Результаты расчетов в Excel:
Коэффициенты линеаризованной модели | |
-0.00020043594 |
0.34418 |
7.7802E-05 |
0.0387 |
0.209785106 |
0.15416 |
6.636963798 |
25 |
0.157728585 |
0.59413 |
Для гиперболической и обратной функций регрессии результаты, полученные пакетом STATISTICA, полностью совпадают с параметрами линеаризованных моделей регрессии, рассчитанных ранее с помощью функции Excel "ЛИНЕЙН".
Нелинейная функция регрессия с двумя слагаемыми
За счет применения нелинейной функции с двумя слагаемыми не удалось улучшить коэффициент детерминации, дополнительный фактор x1/2 оказался незначимым, его включение в модель нецелесообразно. Не привело к улучшению модели включение в качестве дополнительного фактора 1/x, ln(x), x2. Некоторое улучшение исходной модели парной линейной регрессии имеет место при замене x на x2.
Исключение наблюдения методом Монте-Карло
Случайные числа |
Объем заказа в тыс. л.-отт., x |
Стоимость полиграфических работ, y |
0.901497058 |
67.2222 |
2.16 |
0.708706091 |
280 |
7.31 |
0.458937517 |
336 |
4.89 |
0.21076708 |
184.8 |
4.85 |
0.173503726 |
630 |
4.58 |
0.984780677 |
109.2 |
2.13 |
0.122357235 |
1300 |
10.86 |
0.297489252 |
143 |
4.4 |
0.792862629 |
1800 |
20.54 |
0.079878536 |
184.8 |
1.66 |
0.277892891 |
311.111 |
5.62 |
0.84261417 |
600 |
8.33 |
0.513903269 |
300 |
5.2 |
0.035772746 |
100.8 |
2.07 |
0.339773519 |
144.222 |
4.77 |
0.102913686 |
79.8 |
3.81 |
0.194761822 |
66 |
4.33 |
0.239156682 |
270 |
2.9 |
0.352146129 |
281.944 |
5.45 |
0.255540589 |
136.111 |
5.01 |
0.847962716 |
176.4 |
3.32 |
0.923866415 |
235.2 |
1.42 |
0.555366508 |
81 |
1.64 |
0.592801588 |
260 |
2.78 |
0.946900586 |
90.7407 |
4.14 |
0.389226652 |
115.5 |
6.18 |
0.101839229 |
340 |
8.86 |