Автор: Пользователь скрыл имя, 27 Марта 2011 в 11:39, реферат
Под мультиколлинеарностью понимается высокая взаимная коррелированность объясняющих переменных. Мультиколлинеарность может проявляться в функциональной (явной) и стохастической (скрытой) формах.
Мультиколлинеарность
Выполнила
студент 1 курса
заочного факультета
сп-ть «Бухгалтерский учёт,
анализ и аудит».
Проверила
Катержина С.Ф.
Кострома 2008 г
Мультиколлинеарность
Под мультиколлинеарностью
понимается высокая взаимная коррелированность
объясняющих переменных. Мультиколлинеарность
может проявляться в
При функциональной
форме мультиколлинеарности по крайней
мере одна из парных связей между объясняющими
переменными является линейной функциональной
зависимостью. В этом случае матрица
X`X особенная, так как содержит линейно
зависимые векторы-столбцы, и её
определитель равен нулю, т.е. нарушается
предпосылка регрессионного анализа,
это приводит к невозможности
решения соответствующей
Однако в экономических
исследованиях
В то же время вектор оценок b и его ковариционная матрица ?b пропорциональны обратной матрице (X`X)-1, а значит, их элементы обратно пропорциональны величине определителя |X`X|. В результате получаются значительные средние квадратические отклонения (стандартные ошибки) коэффициентов регрессии b0, b1,…,bp и оценка их значимости по t-критерию не имеет смысла, хотя в целом регрессионная модель может оказаться значимой по F-критерию.
Оценки становятся
очень чувствительными к
Точных количественных
критериев для определения
Один из таких подходов заключается в анализе корреляционной матрицы между объясняющими переменными X1,X2,…,Xp и выявлении пар переменных, имеющих высокие переменные корреляции (обычно больше 0,8). Если такие переменные существуют, говорят о мультиколлинеарности между ними. Полезно также находить множественные коэффициенты детерминации между одной из объясняющих переменных и некоторой группой из них. Наличие высокого множественного коэффициента детерминации (обычно больше 0,6) свидетельствует о мультиколлинеарности.
Другой подход
состоит в исследовании матрицы
X`X. Если определитель матрицы X`X либо её
минимальное собственное
Для устранения
или уменьшения мультиколлинеарности
используется ряд методов. Самый
простой из них (но далеко не всегда
возможный) состоит в том, что
из двух объясняющих переменных, имеющих
высокий коэффициент корреляции
(больше 0,8), одну переменную исключают
из рассмотрения. При этом, какую
переменную оставить, а какую удалить
из анализа, решают в первую очередь
на основании экономических
Другой метод устранения или уменьшения мультиколлинеарности заключается в переходе от несмещённых оценок, определённых по методу наименьших квадратов, к смещённым оценкам, обладающим, однако, меньшим рассеянием относительно оцениваемого параметра, т.е. меньшим математическим ожиданием квадрата отклонения оценки bj от параметра ?j или M (bj - ?j)2.
Оценки, определяемые
вектором, обладают в соответствии
с теоремой Гаусса-Маркова минимальными
дисперсиями в классе всех линейных
несмещённых оценок, но при наличии
мультиколлинеарности эти дисперсии
могут оказаться слишком
Действительно, пусть максимально допустимый по величине доверительный интервал для оцениваемого параметра ?j есть (?j-?, ?j+?). Тогда доверительная вероятность, или надёжность оценки, определяемая площадью под кривой распределения на интервале (?j-?, ?j+?), как нетрудно видеть из рисунка, будет в данном случае больше для оценки ?j по сравнению с bj ( на рисунке эти площади заштрихованы). Соответственно средний квадрат отклонения оценки от оцениваемого параметра будет меньше для смещённой оценки, т.е.:
M ( ?j^- ?j )2 < M ( bj - ?j )2
При использовании «ридж-регрессии» (или «гребневой регрессии») вместо несмещённых оценок рассматривают смещённые оценки, задаваемые вектором
??^=( X`X+? Ep+1)-1 X`Y,
где ? - некоторое положительное число, называемое «гребнем» или «хребтом»,
Ep+1 - единичная матрица (р+1) -го порядка.
Добавление ? к диагональным элементам матрицы X`X делает оценки параметров модели смещёнными, но при этом увеличивается определитель матрицы системы нормальных уравнений - вместо (X`X) от будет равен
|X`X+? Ep+1|
Таким образом, становится возможным исключение мультиколлинеарности в случае, когда определитель |X`X| близок к нулю.
Для устранения мультиколлинеарности может быть использован переход от исходных объясняющих переменных X1,X2,…,Xn, связанных между собой достаточно тесной корреляционной зависимостью, к новым переменным, представляющим линейные комбинации исходных. При этом новые переменные должны быть слабо коррелированными либо вообще некоррелированными. В качестве таких переменных берут, например, так называемые главные компоненты вектора исходных объясняющих переменных, изучаемые в компонентном анализе, и рассматривают регрессию на главных компонентах, в которой последние выступают в качестве обобщённых объясняющих переменных, подлежащих в дальнейшем содержательной (экономической) интерпритации.
Ортогональность
главных компонент
Мультиколлинеарность -- это понятие, которое используется для описания проблемы, когда нестрогая линейная зависимость между объясняющими переменными приводит к получению ненадежных оценок регрессии. Разумеется, такая зависимость совсем необязательно дает неудовлетворительные оценки. Если все другие условия благоприятствуют, т. е. если число наблюдений и выборочные дисперсии объясняющих переменных велики, а дисперсия случайного члена --мала, то в итоге можно получить вполне хорошие оценки.
Итак, мультиколлинеарность должна вызываться сочетанием нестрогой зависимости и одного (или более) неблагоприятного условия, и это -- вопрос
степени выраженности явления, а не его вида. Оценка любой регрессии будет страдать от нее в определенной степени, если только все независимые переменные не окажутся абсолютно некоррелированными. Рассмотрение данной проблемы начинается только тогда, когда это серьезно влияет на результаты оценки регрессии.
Эта проблема является
обычной для регрессий
Что можно предпринять в этом случае?
Различные методы,
которые могут быть использованы
для смягчения
Если вы применяете
данные временных рядов, то это можно
сделать путем сокращения продолжительности
каждого периода времени. Например,
при оценивании уравнений функции
спроса в упражнениях 5.3 и 5.6 можно
перейти с использования
После этого
вместо 25 наблюдений их станет 100. Это
настолько очевидно и так просто
сделать, что большинство
Если вы используете
данные перекрестной выборки и находитесь
на стадии планирования исследования,
то можно увеличить точность оценок
регрессии и ослабить проблему мультиколлинеарности
просто за счет большего расхода средств
на увеличение размера выборки. Однако
такой подход имеет уменьшающуюся
предельную отдачу, поскольку стандартные
отклонения коэффициентов регрессии
обратно пропорциональны
Столь же важно, если вы используете данные перекрестной выборки и находитесь на стадии планирования исследования, максимизировать дисперсию наблюдений независимых переменных в выборке, например путем расслоения выборки.
Далее, можно сократить величину а^. Случайный член включает в себя объединенный эффект всех переменных, оказывающих влияние на величину уу которые не включены явно в уравнение регрессии. Если вы допускаете мысль о том, что важная переменная могла быть опущена и, следовательно, оказывает влияние на и, то можно сократить величину а^, если добавить эту переменную в уравнение регрессии.
Если, однако, новая
переменная линейно связана с
одной или несколькими
Наконец, об использовании
самого простого метода. Если вы действительно
имеете возможность собрать
Существуют два
типа внешней информации, которая
может оказаться полезной: теоретические
ограничения и внешние
При построении
производственной функции с использованием
данных временных рядов (как это
было сделано в разделе 5.3) следует
иметь в виду, что на выпуск продукции,
наряду с изменениями в капитальных
и трудовых затратах, вероятно, будет
оказывать влияние технический
прогресс. Если вы имеете дело с агрегированными
данными, то невозможно количественно
оценить технический прогресс, и
проще всего включить экспоненциальный
временной тренд в уравнение,
записав функцию Кобба--
Г= AK«Lte«v, (5.47)
где Y, К и L имеют те же определения, что и в разделе 5.3; / -- время; г -- темп
прироста выпуска благодаря техническому прогрессу. Оценив это соотношение по данным табл. 5.1, получим (стандартные ошибки указаны в скобках):
log У= 2,81 - 0,53 log K+ 0,91 log L + 0,047/; R2 = 0,97; (5.48)
(1,38) (0,34) (0,14) (0,021) F= 189,8.