Автор: Пользователь скрыл имя, 23 Января 2011 в 23:47, курс лекций
23 вопроса.
Если Fрасч > с F крит, то уравнение считается значимым, в противном случае ур-ие не значимо.
Надежность получаемых оценок а и b зависит от ошибки ε.
Нужно найти среднюю квадратическую ошибку
, где
Для
значимого ур-я регрессии
Интервальная оценка параметра a, есть:
Замечание: если интервальные границы в разные по знаку, то такие уравнения в прогнозировании использовать нельзя, т.е. непонятно какое направление.
Линейная модель множественной регрессии. У=а0+а1х1+ а2х2+…+ аmхm+e
Параметры определяются с помощью методов наименьших квадратов.
Для этого проведем все
;
где У вектор n значений результативного показателя.
Х – матрица n значений m независимых переменных; а матрица параметров
У=Х∙а+ε.
Заметим, что а – выборочные оценки совокупности.
Итак, метод наименьших квадратов требует мин-ии суммы квадратов отклонений исходных модели значений
,
Далее:
Из матричной алгебры известно, что , тогда:
1
– это есть матрица
Согласно условию экстремума S по а =0
;
2ХТY+2aXTX=0
XTY=aXTX
Для погашения а умножим обе части этого уравнения на (ХТХ)-1, тогда
а= (XTХ)-1∙XTY
Решение задачи нахождения матицы, а возможно лишь в том случае, если строки и столбцы матрицы Х линейно независимы.
Связь между у и независимыми факторами х1, х2, … хn можно охарактеризовать уравнением (моделью) множественной регрессии.
Y=f (х1, х2, … хn).
Эта модель показывает, какие значения в ср принимает результативный показатель У, если переменные Хi примут какие-то свой конкретные значения.
В зависимости от функции f будем иметь линейную или не линейную множественную регрессию.
Тинтером было доказано, что усложнение формы связи м\у хi и у не принципиально влияет на конечные результаты.
Линейная модель множественной регрессии.
У=а0+а1х1+ а2х2+…+ аmхm+e
Параметры определяются с помощью методов наименьших квадратов.
Технология разработки прогнозов на ПВМ.
Эк
явления как правило
Для этого используют матрицу парных коэффициентов корреляции м\у всеми рассматриваемыми переменными.
По этой матрице вычисляется множественный коэффициент корреляции, отражающий тесноту связи м/у Y и всеми остальными факторами.
, где R – алгебраические дополнения
к соответствующим
Частный
коэффициент корреляции устанавливается
зависимость м\у j-ым и k-ым фактором при
исключении остальных.
Для
экономических показателей
Причины мультиколлиниарности общий временной тренд для различных факторов, либо использование лаговых переменных в качестве объясняющих изменение результативного показателя
Факторные признаки хi xk мультиколлиниарны, если коэффициент парной корреляции м\у ними не меньше 0,8
ryx(i) > 0,8
Из 2х мультиколлинеарных факторов в модель можно включать только один (можно вкл. фактор явл. линейной комбинацией). Основанием для включения одного из мультиколлинеарных факторов является содержательный анализ либо из 2х муль-х факторов в модели оставляют, тот у γ коэффициент парной корреляции с результативным показателем будет выше.
В модель регрессии так же не следует включать факторы, у γ коэфф-т корреляции с результативным показателем низок (прибл. 0,2).
В стат
исследованиях группировка
Различие между схемами задач по классификации определяется тем, что понимает по словом сходство и степень сходства. После того, как сформулирована цель работы нужно определить критерии качества, целевую функцию, значения γ позволяют сопоставить различные схемы классификаций. В эконометрическом исследовании целевая функция, как правило, должна минимизировать некоторые параметры определенные на множестве объектов (например, при классификации оборудования цель – группировка по мин совокупных затрат вр и средств не ремонтные работы). Если формировать цель не удается, критерием качества классификации является возможность сосредоточительной интерпретации найденных групп.
А) Кластерный анализ - это совокупность методов, позволяющих классифицировать м6ногомерные наблюдения, каждое из кот описывается набором признаков (параметров) Х1, Х2, … Хк. Целью кластерного анализа явл образование групп схожих м/у собой объектов, кот принято называть кластерами.
Кластерный анализ – одно из направлений статистического исследования. Особо важное место он занимает в тех отраслях науки, γ которые связаны с изучением массовых явлений и процессов. Необходимость развития методов кластерного анализа и их использования продиктована тем, что они помогают построить научно обоснованные классификации, выявить внутренние связи м/у единицами наблюдений совокупности. Метод кластерного анализа позволяет решить следующие задачи: проведение классификации объектов с учетом признаков, отражающих сущность, природу объектов. Решение такой задачи, как правило, приводит к углублению знаний о совокупности классифицируемых объектов; проверка выдвигаемых предположений о наличии некоторой структуры в изучаемой совокупности объектов, т.е. поиск существующей структуры; построение новых классификаций для слабоизученных явлений. Когда необходимо установить наличие связей внутри совокупности и попытаться привнести в нее структуру.
Обычная форма представления исходных данных в задачах кластерного анализа прямоугольная таблица:
каждая строка γ представляет собой результат измерений k рассматриваемого признака, на одном из исследуемых объектах.
В
некоторых случаях может
Матрицы не единственный способ представления данных для задачи кластерного анализа. Иногда исходная информация данная квадратной матрицы: R=(rij), где элемент rij определяет степень близости объекта i к объекту j . Выбор меры близости явл одним из условных моментов исследования. Это может быть обыное эфклидовое расстояние (расстояние м\у двумя точками – сумма квадратов разности одномерных координат)
, где xik или xjk - величина k-ой компоненты у i- ого (j-ого) объекта.
Б) Дискриминантный анализ явл разделом многомерного статистического анализа, который влк в себя методы классификации многомерных наблюдений по принципу максимального сходства при наличии обобщающих признаков. В Д.а. новые кластеры не образуются, а формулируются правило, по кот объекты подмножества подлежащего классификации относятся к одному из уже существующих (обучающих) подмножеств (классов)., на основе сравнения величины дискриминантной функции классифицируемого объекта, рассчитанной по дискриминантным переменным, с некоторой константой дискриминациии.
Постановка задачи дискриминантного анализа. Пусть имеется множество М единиц N объектов наблюдения, каждая i-ая единица кот описывается совокупностью р значений дискириминантных переменных (признаков) xij (i=1, 2, …, N; j =1, 2, …, p). Причем все множество М объектов включает q обучающих подмножеств (q≥2) Mk размером nk каждое и подмножество М0 объектов подлежащих дискриминации (под дискриминацией понимается различие). Здесь – номер подмножества (класса), k=1, 2, …,q.
Требуется установить правило (линейную или не линейную дискриминантную функцию) f(X)) распределения m-объектов подмножества М0 по подмножествам Мk
Наиболее часто используется линейная форма дискриминантной функции, которая представляется в виде скалярного произведения векторов А=(а1, а2, …, ар) дискриминантных множителей и вектора Хi=(xi1, xi2, …xip) дискриминантных переменных: Fi=A x X`i или Fi=a1xi,1+a2xi,2+…+apxi,p (хij – значегие j-x признаков у i –гог объекта наблюдения. Дискриминантный анализ проводится в условиях следующих основных предположений: 1) множество М объектов Мк (класса), кот отличаются от других групп переменными хij , 2) в каждом подмножестве Мк находятся, по крайней мере, два объекта (nk≥2) не менее чем на две единицы; 3) число N объектов наблюдения длжно превышать число р дискриминантных переменных (0<р<N-2) не менее чем на две единицы; 4)линейная независимость м/у признаками (j), т.е. ни один из признаков не должен быть линейной комибинацией др признаков, в противном случае он не несет новой информации; 5) нормальный закон распределения дискриминантных переменных хij (по признакам).
Если приведенные предположения не удовлетворяются, то ставится вопрос о целесообразности использования дискриминантного анализа для классификации новых наблюдений.
В исследовательской и практической работе приходится сталкиваться с ситуацией, когда общее число признаков х1, х2, х3 … хр регистрируемых на каждом из множестве объектов (стран, регионов, семей) очень велико.
Тем не менее имеющиеся многомерные наблюдения следует подвергать статистической выборке (осмыслить, ввести в БВ, для того, чтобы иметь возможность использовать их в нужный момент).