Автор: Пользователь скрыл имя, 23 Января 2011 в 23:47, курс лекций
23 вопроса.
Желание статистика представить любое из наблюдений хi в виде вектора z вспомогательных показателей.
с существенно меньшим, чем число р компонент р` бывает обусловлен следующим причинам:
необходимостью наглядного представления исходных данных, что достигается их проецированием на специально подобранное трехмерное пространство (p`=3) или двухмерное (р`=2) или одномерное (р`=1);
стремлением к локализму исследуемых моделей для упрощения счета и интерпретации полученных выводов;
Ограниченными возможностями человека в одновременном охвате большого числа частных критериев;
Например: в анализе ряда разноспекторных характеристик качества жизни человека. А отсюда, стремление к сверстке информации и этих частных критериев и переходу к интегральному индикатору.
Необходимостью сжатия объемов хранимой информации (стат) в специальной БД. При этом вспомогательные признаки z1 z2 …zр могут вбираться из числа иходных признаков, либо явл их линейными комбинациями.
При формировании новой системы признаков k последним предъявляются разного рода требования, такие как: Наибольшая информативность (в определенном смысле) взаимная некоррелированность
Наименьшее искажение структуры их данных; В зависимости от варианта формальной конкретизации этих требований приходим к тому или иному алгоритму снижения размерности.
Имеется по крайней мер 3 основных тип принципиальных предпосылок, обуславливающих возможность перехода от большего числа р- исходных показателей, состояний исследуемой системы k существенно меньшему р` наиболее информативных переменных: дублирование информации (наличие взаимосвязанных признаков); не информативность (малая вариательность признака при переходе от одного объекта к др); возможность агригорования (т.е. простого суммирования или взаимного по некоторым группам).
Формально задача перехода с наименьшими потерями от р признаков к новому набору р` м.б. описана следующим образом: Пусть Z=Z(x)=Z(Z1 Z2 … Zp`) Некоторая р` -мерная функция от исходных переменных.
И пусть Ур(Z(x)) – определенным образом заданная мера информативности р`-мерной системы признаков: Z= Z(Z1(х) Z2(х) … Zp(х))Т
Конкретный выбор функционально зависит от специфики реально решаемых задач и оперяется на один из возможных критериев.
Критерия автноинформативности нацеленных на мах-ие сохранение информации, содержащейся в исходном массиве xi , относительно самих исходных признаков.
Критерий внешней информативности, нацеленной на мах-ию «выжимания» из хi информации относительно некоторых внешних показателей.
Тот или иной вариант конкретизации этой постановке приводит к конкретному методу снижения размерности, а именно: -методу гл. компонентов; -методу факторного анализа; -метод экстремальной группировке параметров.
Метод гл. компонент.
Во
многих задачах обработки многомерных
наблюдений и в частности в
задачах классификации
,
можно принять в качестве меры информативности p`-мерной системы показателей. Тогда при любом фиксированном р` вектор Z искомых показателей вспомогательных переменных (новых) определяется как линейная комбинация Z= исходных данных, где - вектор центрированных исходных данных.
- принцип строки, γ удовлетворяет условию ортагональностьи.
Полученных т.о. переменные и называют гл. компонентами.
1-ой гл. компонентой явл та, γ обладает наибольшей дисперсией. Далее компоненты располагаются по мере убывания дисперсей. Вычисление гл. компонент. По исходным статистическим данным получить вектор ср. значений и квалификационную матрицу ∙Σ.
Для определения коэффициентов линейного преобразования, с помощью γ осуществляется переход к главным компонентам необходимо решить харак-ческое уравнение.
где ε
– единичная матрица
найти относительные доли суммарной дисперсии, обусловленные этим компонентом
; ; …
К сожалению гл. компонента бывает сложно интерпретировать.
Х1- носит самую большую нагрузку.
Располагая исходными данными и используя уравнение для z1 (меняя значения х) можно посчитать значения 1-ой гл. компоненты для люб измеряемых пр-ий.
Интерпретируем z1 как объясняющую переменную и записываем уравнения хi=f(z1) (уравнение парной регрессии) для люб исходного показателя.
Влияние
факторов на зависимую переменную оцениваются
с помощью коэффициентов
Он показывает на сколько % увеличится результативный показатель У при увеличении соответствующего j-ого фактора на 1%.
, где
и
он показывает на какую величину своего среднего квадратического отклонения изменится результативный показатель У при увеличении соответствующего j-ого фактора на 1-о свое среднеквадратическое отклонение.
По полученной, адекватной и точной моедли можно строить точечный и интервальный прогноз.
Прогнозное значение факторных показателей Хj можно поучить:
А) построив уравнение тренда (если он есть)
Б) либо применить адаптивную модель Брауна, если предпочтения надо отдать последним данным (при отсутствии сезонности).
В) либо построив адаптивную модель Хольтст-Уильтерса – если есть сезонность (и курс)
Г) либо применив метод экспериментальных оценок (и курс?)
Д) Поучив обобщенный прогноз по всем вышеперечисленным моделям с учетом коэффициента важности.
Подставив точечный прогноз фактора Хj в модель получим точечный прогноз результативного показателя У. Вероятность того, что от сбудется =0, поэтому необходимо построить доверительный интервал, в γ с заданной доверительной вероятностью р попадет прогнозное значение. Ширина доверительного интервала
, где Sm – ср квадрат ошибка модели
; ,
?????
Связь между у и независимыми факторами х1, х2, … хn можно охарактеризовать уравнением (моделью) множественной регрессии.
Y=f (х1, х2, … хn).
Эта модель показывает, какие значения в ср принимает результативный показатель У, если переменные Хi примут какие-то свой конкретные значения.
В зависимости от функции f будем иметь линейную или не линейную множественную регрессию.
Тинтером было доказано, что усложнение формы связи м\у хi и у не принципиально влияет на конечные результаты.
Линейная модель множественной регрессии.
У=а0+а1х1+ а2х2+…+ аmхm+e
Параметры определяются с помощью методов наименьших квадратов.
Для
этого проведем все
;
где У вектор n значений результативного показателя.
Х – матрица n значений m независимых переменных; а матрица параметров
У=Х∙а+ε.
Заметим, что а – выборочные оценки совокупности.
Итак, метод наименьших квадратов требует мин-ии суммы квадратов отклонений исходных модели значений ,
Далее:
Из матричной алгебры известно, что , тогда:
1 –
это есть матрица размерностью
1Х1, т.е. число-скаляр, а скаляр
при трансформировании не
Согласно условию экстремума S по а =0
;
2ХТY+2aXTX=0
XTY=aXTX
Для погашения а умножим обе части этого уравнения на (ХТХ)-1, тогда
а= (XTХ)-1∙XTY
Решение задачи нахождения матицы, а возможно лишь в том случае, если строки и столбцы матрицы Х линейно независимы.
Качество модели, т.е. ее адекватность и точность проверяется с помощью d-критерия – критерия независимости последних уровней остаточной компоненты.
если (d`)dp [1.36;2,0), то остаточные компоненты не коррелированы.
если (d`)dp>2, то переходим к d`=4 - dp
если (d`)dp [1.08;1,36), то используют
; Þ ………………………………..
Далее критические повороты точек (о случайности значений остаточной компоненты)
При использовании поворотных точек следует обратить особое внимание на сущ-ие аномальных значение εi .
Если какие-то значения εi .явл аномальными, то соответствующие I-ое наблюдение из данных надо убрать.
Далее R/S-критерий ///соответствие распределения остаточной компоненты по нормальному закону///.
, если R/Sрасч принадлежит
Точность модели можно оценить с помощью средней относительной ошибки.
Þ модель точна и ее можно использовать в прогнозировании.
Влияние
факторов на зависимую переменную оцениваются
с помощью коэффициентов
Он показывает на сколько % увеличится результативный показатель У при увеличении соответствующего j-ого фактора на 1%.
, где
и
он показывает на какую величину своего среднего квадратического отклонения изменится результативный показатель У при увеличении соответствующего j-ого фактора на 1-о свое среднеквадратическое отклонение.