Автор: Пользователь скрыл имя, 04 Декабря 2011 в 12:26, курсовая работа
Целью курсовой работы является:
Изучение возможностей применения статистических методов анализа данных;
Знакомство со средствами решения подобных задач, входящими в табличный процессор MS Excel .
Введение…………………………………………………………………..
1.Регрессионный анализ эмпирических данных…………………….
1.1.Постановка задачи…………………………………………………
1.2.Оценка однородности данных……………………………………
1.3.Метод наименьших квадратов……………………………………
1.4.Оценка адекватности модели…………………………………….
2.Задание на курсовую работу………………………………………….
3.Порядок выполнения курсовой работы…………………………….
3.1.Формирование таблицы исходных данных…………………….
3.2.Анализ данных наблюдений………………………………………
3.3.Построение и исследование линейного уравнения
регрессии…………………………………………………………….
3.4.Построение и исследование нелинейного уравнения
регрессии……………………………………………………………
Министерство культуры российской федерации
ФЕДЕРАЛЬНОЕ
ГОСУДАРСТВЕННОЕ
ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
КИНО И ТЕЛЕВИДЕНИЯ»
Кафедра математического моделирования
Курсовая работа по дисциплине «Информатика»
Тема: «Построение математической модели с помощью регрессионного анализа»
Выполнила:
Проверил: ст. преподаватель
Санкт-Петербург
2009
Содержание:
Введение…………………………………………………………
1.Регрессионный анализ эмпирических данных…………………….
1.1.Постановка задачи………………………
1.2.Оценка однородности данных……………………………………
1.3.Метод наименьших квадратов……………………………………
1.4.Оценка адекватности модели…………………………………….
2.Задание на курсовую работу………………………………………….
3.Порядок выполнения курсовой работы…………………………….
3.1.Формирование таблицы исходных данных…………………….
3.2.Анализ данных наблюдений………………………………………
3.3.Построение и исследование линейного уравнения
регрессии………………………………………………………
3.4.Построение и исследование нелинейного уравнения
регрессии………………………………………………………
Введение.
Целью курсовой работы является:
Исходные данные:
(yпр2 = а0 + a1x1 + a2x2 + a3x22)
1.Регрессионный анализ данных.
1.1. Постановка задачи
Важнейшим условием эффективного управления любыми процессами является знание о закономерностях их протекания, выраженное в формализованной математической модели. Являясь формальным описанием, математическая модель позволяет изучить влияние управляемых параметров на ход процесса и обоснованно выбрать их значения с целью достижения наилучшего результата.
Основным источником получения математической модели процесса является эксперимент, проводимый на действующем оборудовании и на лабораторных установках. Опытные данные, полученные с помощью датчиков, приборов, или статистические данные документального характера обрабатываются далее с целью получения формальной математической зависимости выходных характеристик процесса от управляемых параметров [1,2,4,5].
Различают два вида эксперимента: пассивный и активный. Пассивный эксперимент выполняется на действующем оборудовании и сводится к фиксации значений интересующих исследователя величин. Очевидно, что в ходе пассивного эксперимента нет возможности в широких пределах изучить процесс, ибо это может привести к нарушению нормального хода процесса. В то же время пассивный эксперимент не требует затрат на создание специальных лабораторных установок, которые, в общем случае, не могут абсолютно точно воспроизвести законы функционирования промышленного оборудования.
Принципы проведения активного эксперимента предполагают вмешательство исследователя в ход процесса путем изменения управляемых параметров в заранее заданных диапазонах значений. В этом случае ход эксперимента и его характеристики могут значительно отличаться от стандартных, вплоть до намеренного создания экстремальных ситуаций. Именно поэтому активный эксперимент чаще всего реализуется на экспериментальных макетах или стендах.
Эффективность эксперимента оценивается количеством полученной информации и затратами на ее получение. Очевидно, что чаще всего, эти показатели противоречивы, в связи с чем применение того или иного типа эксперимента или их сочетания зависят от конкретных условий. Опытные данные, полученные в ходе работы, подлежат статистической обработке с целью получения математической зависимости, описывающей изучаемое явление в виде функции, определяющей характеристики процесса от ряда параметров:
У = f ( x1,x2,…xk ) , (1)
Где у - зависимая (выходная) переменная, отражающая исследуемую характеристику процесса; эта переменная называется откликом;
x1, х2, ...,хк - независимые (входные) переменные, представляющие собой управляемые параметры процесса; эти переменные называются факторами.
Выходной переменной (откликом) является величина, характеризующая результат процесса. Обычно в качестве такой величины выступает технико-экономический или технологический показатель (производительность оборудования, себестоимость продукции и т.д.).
Входные переменные (факторы) в общем случае представляют собой параметры, значения которых могут меняться в ходе эксперимента. Они оказывают существенное влияние на процесс и их учет при построении модели является обязательным, в противном случае зависимость (1) будет неполной.
Помимо указанных переменных, среди входных величин могут быть случайные параметры, которые в процессе проведения эксперимента не фиксируются. Как правило, влияние их на отклик невелико и как случайные величины они имеют нормальный закон распределения с нулевым математическим ожиданием. Наличие таких случайных параметров (возмущений) делает зависимость (1) вероятностной. Тогда величина у, входящая в зависимость (1), интерпретируется как среднее значение отклика, а сама эта зависимость называется регрессионной зависимостью.
В качестве f в зависимости (1) обычно используется полином некоторой степени V. Однако, учитывая характер изучаемых явлений, чаще всего ограничиваются полиномами, содержащими только линейные, квадратичные члены и парные взаимодействия. Членами более высоких степеней и взаимодействиями более высоких порядков пренебрегают из-за их малости и подверженности случайным возмущениям. Итак, с учетом изложенного, уравнение регрессии для к факторов имеет вид
у = а0 +a1x1+a2x2 + ... + a1,2x1x2 + ... + a11x12+ ... + akkxk2 , (2)
В дальнейшем важную роль будет играть соотношение между количеством имеющихся экспериментальных точек и числом неизвестных коэффициентов модели, которые могут быть определены по этим точкам однозначно. Для одного фактора через две точки можно провести прямую, т.е. определить однозначно два неизвестных коэффициента; через три точки - параболу, т.е. определить три неизвестных коэффициента и т.д.
Если рассмотреть t факторов, каждый из которых имеет U уровней фиксированных значений, то общее количество возможных экспериментальных точек для них определяется соотношением
N = Ut.
Например, при трех факторах, каждый из которых имеет два уровня значений, общее количество точек равно 23 = 8. Тогда, обобщая проведенные рассуждения, можно утверждать, что для N экспериментальных точек можно однозначно определить коэффициенты полинома N - 1 степени. Учитывая, что данные эксперимента часто содержат десятки точек, мы могли бы построить однозначно полином достаточно высокой степени. Однако, как указывалось выше, уравнение регрессии не содержит степеней выше второй (реже - третьей). Это приводит к тому, что количество точек значительно превышает число неизвестных параметров уравнения. Следовательно, полученный полином не будет проходить через все экспериментальные точки, а значит, будет лишь приближенно описывать данные опыта. Мерой качества такого приближения служит дисперсия адекватности, сопоставляя которую с ошибкой эксперимента (ошибкой воспроизводимости), можно сделать статистически обоснованный вывод об адекватности модели (ее соответствии реальному объекту).
1.2 Оценка однородности данных.
Как указывалось выше, при проведении и обработке данных эксперимента не учитывается ряд случайных факторов. В связи с этим в любой точке эксперимента (т.е. при фиксированных значениях факторов) принципиально нельзя получить одинаковые значения отклика У, проводя, например, несколько измерений, разнесенных во времени. Иначе говоря, любому измерению отклика присуща ошибка воспроизводимости, которая распределена по нормальному закону с нулевым средним. Для оценки ошибки воспроизводимости в каждой точке эксперимента выполняется ряд повторных измерений отклика. Пусть в некоторой i-ой точке выполнено q повторных измерений
yi1,yi2,....,yiq.
Тогда среднее значение отклика в i-ой точке
а дисперсия
(4)
В общем случае, в каждой точке мы получим различные значения di . Тогда встает вопрос, насколько значимы эти различия, т.е. являются ли измерения отклика в различных точках однородными. В случае одинакового количества повторных измерений для оценки статистической значимости различий di применяется критерий Кохрена [3], оценивающий отношение максимальной дисперсии к сумме всех дисперсий:
G=
Рассчитанные значения О сравниваются с табличным значением Ор(п,1) для заданного количества оцениваемых дисперсий п, числа степеней свободы f=q -1 и уровня значимости Р = 0,05 (см. табл. 1 в Приложении 3).
Проверяется неравенство
0<0р(п,9 . (6)
Если условие (6) не выполняется, то это означает, что максимальная дисперсия значимо отличается от остальных, т.е. экспериментальные данные этой строки являются ошибочными. Их следует исключить из дальнейших расчетов, учитывая при этом изменение величины п, и выполнить снова проверку однородности для оставшихся данных.
Если условие (6) выполняется, то различие дисперсий воспроизводимости в точках опыта незначимо, т.е. можно, используя в дальнейшем в качестве оценки дисперсии воспроизводимости средневзвешенное значе-
1 п
п М
приступить
к расчету коэффициентов
1.3 - Метод наименьших квадратов
Для вычисления коэффициентов уравнения регрессии используется метод наименьших квадратов (МНК). Принцип, положенный в его основу, состоит в том, что стремятся найти такие коэффициенты уравнения, которые обеспечивают минимум суммы квадратов отклонений экспериментальных значений от значений, полученных по уравнению регрессии. Напомним, что предполагается число экспериментальных точек, превышающее число определяемых коэффициентов. Рассмотрим уравнение (2), приняв сквозную нумерацию коэффициентов
у = а0 + аххх + а2х2 +... + ак+1 ххх2 +... + amxk2 . (8)
Итак, в уравнении (8) т+1 неизвестных коэффициентов, для определения которых имеется n (n»m+l) экспериментальных точек. Рассмотрим произвольную i точку эксперимента, где среднее значение отклика равно ycpi .
Информация о работе Построение математической модели с помощью регрессионного анализа