Автор: Ольга Осипова, 10 Ноября 2010 в 11:11, реферат
Целью данной работы является изучить проблему сокращения размерности признакового пространства с помощью метода главных компонент.
В связи с поставленной целью предусмотрено решение следующих задач:
- рассмотреть компонентный анализ, как многомерный метод снижение размерности;
- изучить сущность метода главных компонент;
- проанализировать линейную модель метода главных компонент.
В работе использовались следующие методы:
анализ;
-синтез;
-реферирование.
Введение……………………………………………………………………..3
1. Статистический подход в методе главных компонент.
Примеры использования главных компонент в экономике………………4
2. Многомерное нормальное распределение………………………………6
3. Линейная модель главных компонент. Метод Фаддеева- одновременное вычисление коэффициента характеристического многочлена
и присоединенной матрицы…………………………………………………10
4. Квадратичные формы и главные компоненты…………………………..13
Заключение …………………………………………………………………..19
Список литературы…………………………………………………………...20
3.
Линейная модель
метода главных
компонент. Метод
Фаддеева - одновременное
вычисление коэффициента
характеристического
многочлена и присоединенной
матрицы
Рассмотрим модель метода главных компонент:
y
=
где fr - r-я главная компонента;
a вес r-q компоненты нa j-й переменной;
y - центрированное (нормированное) значение j-го признака.
Из модели видно, что отсутствуют специфические (индивидуальные) факторы; число главных компонент r=п здесь соответствует числу признаков п. Значит, в полной модели главных компонент исчерпывается вся дисперсия исследуемого процесса.
Как будет сказано позже, главные компоненты являются характеристическими векторами ковариационной матрицы.
Множество главных компонент представляет собой удобную систему координат, а соответствующие дисперсии главных компонент характеризуют их статистические свойства. Из общего числа главных компонент для исследования, как правило, оставляют т (т<п) наиболее весомых, т.е. вносящих максимальный вклад в объясняемую часть общей дисперсии. Опыт показал, что m ≈(0,1÷ 0,25)n . Для экономической интерпретации полученных результатов самыми наглядными являются случаи, когда т=1,2 или З.
Таким образом, несмотря на то, что в методе главных компонент для точного воспроизведения корреляций и дисперсий между переменными необходимо найти все компоненты, большая доля дисперсий объясняется небольшим числом главных компонент. Кроме того, можно по признакам описать главные компоненты, а по главным компонентам описать признаки. Для центроидного метода факторного анализа это принципиально невозможно; можно лишь добиваться, чтобы дисперсия остатков была минимальной. С.Р. Рао показал, что метод главных компонент одинаково хорошо приближает дисперсии и ковариации. Наконец, следует отметить еще одно существенное свойство метода-это его линейность и аддитивность. Центроидный метод, например, несет в себе только гипотезу линейности. Если она верна, то результаты могут быть использованы только для первого приближения. В настоящее время часто используется центроидный метод для получения приближенных оценок, которые затем уточняются методом максимума правдоподобия.
Рассмотрим метод Фаддеева. При помощи метода Фаддеева одновременно определяются:
а) Р1,Р2,...,Рп - скалярные коэффициенты характеристического многочлена
∆(λ)=λ -P λ -…-P
б) В1,В2,...,Вn-1 - матричные коэффициенты присоединенной матрицы.
При помощи tr А следа матрицы получаем
trA = (2)
если λλλ характеристические числа матрицы А, т.е.
∆λ=( λ –λ ) ( λ – λ )….. ( λ – λ )
Теорема. Если λ λ………λ - все характеристические числа (с учетом кратностей) матрицы A, a g(A) - некоторый скалярный многочлен, то g(λ),g(λ2 ),...,g{λ„ ) - являются характеристическими числами матрицы g(A).
Частный случай. Дана матрица Л; λх, λ2,..., λп - ее характеристические числа. Определить характеристические числа матрицы А .
В соответствии с теоремой g(A) = А .
Поэтому g(λ,) = λ g{λ2) = λ,...,g(λn) = λk„, (k = 0,1,2,...).
Отсюда следует, что trAk = Sk = , (k=0,1,2,...).
Суммы Sk (k=l,2, ... ,n) степеней корней многочлена (2) связаны с коэффициентами этого уравнения формулами Ньютона.
KPk=Sk-PlSk-l-...-Pk-1Sl, (k=1,n). (3)
Метод Леверрье. Определение коэффициентов характеристического многочлена по следам степеней матрицы заключается в следующем:
1) определяются Sl,S2,...,Sn - следы матрицы А, А2,..., А".
2) по (3) последовательно определяются P1,P2,...,Pn.
Фаддеев в свою очередь предложил вместо следов степеней матриц А,А2,...,А вычислять последовательно следы других матриц А1,А2,...,А„ и с их помощью определять Р1,Р2,...,Р„ и В1В2,...Bn.
A1=A; P1=tr(A1); В1=А1-P1E;
A2=AB1 P2=tr(A2); В2=А2-Р2Е;
Ап-1 =АВn-2
P
=
tr(An-1) Bn-1
=A
n-1 -P
n-1 E
(4)
A n=AB n-1 P n= tr(A n) Bn= A n- P n E=0
Для контроля вычислений можно воспользоваться последней формулой (Вn=0). Убедимся, что по системе (4) Р1,Р2,...,Рn; В1,В2,...,Вп-1 последовательно определяемые, являются коэффициентами ∆(λ) и В(λ).
Используя систему (4) для Ак и Вк, (к = 1,п) получим:
Ak=A -P1A -…-Pk-1A (5)
Bk=A -P1A -…-Pk-1A-PkE (6)
Приравняем следы левой и правой частей (5)
KPk=Sk-P1S k -1 -...-P k -1S1. (7)
Выражения
(7) и (3) совпадают с формулами Ньютона,
по которым последовательно определяются
коэффициенты характеристического многочлена ∆(λ).
Значит, числа Р1,Р2,...,Рп
системы (4) являются коэффициентами ∆(λ).По
формуле (6) определяют матричные коэффициенты
В1 ,Вг
,..., Вп-1
присоединенной матрицы В(λ). Значит, система
(4) определяет коэффициенты В1,В2,...,Вn
матричного многочлена В(λ).
4. Квадратичные формы и главные компоненты
Для того
чтобы представить в
Пусть дано уравнение линии второго порядка:
Ах2 +2Вху + Су2 =Н. (8)
Левая часть уравнения (8) не меняется при замене х, у на -х, -у. Значит, во-первых, точки линии (8) расположены парами симметрично относительно начала координат. Во-вторых, линия второго порядка, заданная (8), обладает центром симметрии и, в-третьих, начало координат помещено в центр. Левая часть (8) представляет собой однородный многочлен второй степени. Такой многочлен называют квадратичной формой от двух переменных.
Ах2 +2Вху + Су2. (9)
Приведем данную квадратичную форму (9) к каноническому виду. Для этого надо будет повернуть так координатные оси х и у, чтобы в новых
координатах исчез член с произведением новых текущих координат. Переход к новым координатам производится по известным формулам:
х' = l1 х+т1 у (10)
у' =l1 x+т2 у
Старые координаты связаны с новыми по формулам:
x=l1 x' + l2 y'
у = т1
х' + т2
у'
где х' и у' - новые координаты.
Характеристика коэффициентов со старыми координатами представлена на рис.1.
Рис. 1. Единичный вектор и его компоненты
На рис. 2 на новой оси абсцисс отложен отрезок OX1 единичной длины, тогда его проекции на старые координатные оси составят:
l1 =cos α
m1 =sin α
где а - угол поворота осей х и у.
Значит, вектор с компонентами l1 и m1, является единичным вектором, определяющим направление новой оси абсцисс х':
Аналогично единичный вектор, определяющий направление новой оси у' ординат, имеет вид:
Рассматриваемые коэффициенты обладают следующими свойствами:
l
+ т2
=1;