Робастные процедуры анализа данных

Автор: Пользователь скрыл имя, 06 Января 2012 в 10:35, контрольная работа

Описание работы

При решении задач статистического анализа и, в частности, при вычислении оценок параметров распределений проблема наличия в выборке аномальных измерений имеет чрезвычайно важное зна¬чение. Присутствие единственного аномаль¬ного наблюдения может приводить к оценкам, которые совер¬шен¬но не согласуются с выборочными данными.

Содержание

Введение
1. Робастные процедуры анализа данных.
2. Оценка точности и статистической значимости данных.
3.Метод кластерного анализа
4. Сущность и содержание латентных признаков.
Список использованной литературы

Работа содержит 1 файл

анализ данных готовое.doc

— 174.00 Кб (Скачать)

План:

Введение

1. Робастные процедуры анализа данных.

2. Оценка точности и статистической значимости данных.

3.Метод кластерного анализа

4. Сущность и содержание латентных признаков.

Список  использованной литературы 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

     Введение 

     В процессе обработки экономической информации, как правило, считают, что экономические показатели подчиняются нормальному распределению. Однако практика обработки такой информации показывает, что экономические показатели не так часто подчиняются теоретическому нормальному распределению. Наблюдаются односторонние и двухсторонние отклонения. Статистическая информация представляет собой смесь нескольких законов распределения с разными дисперсиями. Иногда из-за малого объема выборки не представляется возможным достаточно точно определить вид закона, засоряющего распределения. При применении метода наименьших квадратов небольшое число грубых ошибок может заметно исказить значения характеристик распределения.

     При решении задач статистического  анализа и, в частности, при вычислении оценок параметров распределений проблема наличия в выборке аномальных измерений имеет чрезвычайно важное значение. Присутствие единственного аномального наблюдения может приводить к оценкам, которые совершенно не согласуются с выборочными данными. 
 
 
 
 
 
 
 
 
 
 
 

     1. Робастные процедуры анализа данных 

     При решении задач статистического  анализа и, в частности, при вычислении оценок параметров распределений проблема наличия в выборке аномальных измерений имеет чрезвычайно  важное значение. Присутствие единственного аномального наблюдения может приводить к оценкам, которые совершенно не согласуются с выборочными данными.

     Посмотрим на примере что же такое грубые ошибки. В таблице 1 приведены данные о выручке магазина за 10 дней.   

     Таблица 1- Пример грубых ошибок.

     

     Как видим значения 16596 и 43894 резко выделяются из общей совокупности. Определением проблемы, являются эти значения ошибками или это реальные значения, занимается такой раздел статистики как  - робастные исследования.

     Итак, что же такое грубая ошибка? Это  резко выделяющиеся наблюдения; данные, которые резко засоряют общую  статистическую совокупность.

     Методы  робастного оценивания – те методы, которые позволяют получать достаточно надежные оценки статистической совокупности с учетом неясности  закона  ее распределения и наличия существенных отклонений в значениях данных.

     В борьбе с грубыми погрешностями  измерений, если они не были обнаружены в процессе измерений, используют два подхода:

  • исключение резко выделяющихся аномальных измерений из дальнейшей обработки;
  • использование робастных методов обработки.

     Исключение  резко выделяющихся аномальных явлений  имеет широкое применение, но этот способ не может полностью удовлетворить аналитика. Причина этого в том, что из общей совокупности можно удалить очень много значений, а следовательно полученный результат не  будет соответствовать действительности. Эта проблема ощутима и при небольших объемах совокупности.

     Основы  робастных методов оценки были разработаны  академиками  А.Н. Колмогоровым, Н.В. Смирновым и Б.С. Ястремским. Дальнейшее развитие робастные методы получили в работах американских и швейцарских  математиков.

     Грубые ошибки, в основном, появляются при сборе информации, при ее передаче либо при нестрогих первичных экономических расчетах. Поэтому при проведении многомерного анализа очень важное значение имеют методы устойчивого оценивания.

     В настоящее время в науке используется несколько методов оценивания и обработки экономической информации.

     Методы  оценивания, чувствительные к «грубым  ошибкам», называются неустойчивыми.

     Методы  оценивания, учитывающие наличие  «грубых ошибок» и позволяющие  при этом достаточно точно определять оценки параметров, называются робастными или устойчивыми. Таковыми являются методы Хубера, Винзора, Пуанкаре и ряд других методов.

     Пусть совокупность вместе с «обычными» значениями элементов содержит «грубые ошибки». При этом основная масса элементов является реализацией случайной величины, закон распределения которой известен с точностью до некоторого параметра. Вероятность появления этих элементов в совокупности равна

     1-ε,  где ε — вероятность появления другой случайной величины — η, определяющей грубые ошибки. Однако это условие является условным.

     Например, известно, что средняя арифметическая оценка является несмещённой, состоятельной  и эффективной оценкой математического  ожидания, однако её эффективность  падает с увеличением числа наблюдений, значительно удалённых от среднего значения.

     Лаплас  и Гаусс выявили преимущества и недостатки средней абсолютной ошибки  

      ,

     а также средней квадратической ошибки

      ,

     где ;

      -  i-е значение случайной величины;

      - среднее значение случайной  величины.

     При наличии серии наблюдений

      ,

     средняя абсолютная и средняя квадратическая ошибки определяют разные характеристики распределения ошибок. Отношение их предельных значений для нормального распределения ошибок:

      .

     Еще в начале XIX века Ф. Бессаль отметил, что в большинстве случаев реальные распределения имеют «утяжелённые хвосты» (наблюдения, значительно удалённые от среднего значения), по сравнению с табличным нормальным распределением. В ХХ в. утяжеление хвоста реальных распределений отмечено во многих наборах статистической информации. Д. Тьюки предложил свою модель для оценки характеристик распределения с утяжеленными относительно нормальной совокупности хвостами. В ней предусматривается наличие нормальной совокупности с математическим ожиданием μ, дисперсией , которая засоряется другой нормальной совокупностью с этим же математическим ожиданием и с дисперсией  .

     Распределение Тьюки имеет вид:

      ,

     где

      .

     Часто для сравнения средней абсолютной ошибки со средней квадратической ошибкой  используется асимптотическая характеристика

      ,

     где e(ε) – относительная асимптотическая эффективность по отношению к .

     Если  засорения нет, то для определения  требуется на 12% меньше наблюдений, чем для определения . Однако уже при малом засорении преимущество быстро падает. Наоборот, с ростом засорения относительная эффективность быстро растёт. При засорении, равном 0,18%, e(0,18)=1.

     Итак, легко убедиться в том, что процедуры, предусмотренные теорией нормальных ошибок, не устойчивы к «грубым» ошибкам. Более устойчивыми оказываются процедуры, связанные с определением средней абсолютной ошибки . Известен целый ряд методов исключения резко выделяющихся наблюдений.

     Наиболее  доступным и распространенным является анализ измерений с точки зрения экономической сущности полученных наблюдений. Для выявления резко  выделяющихся наблюдений имеется ряд  критериев, которые являются несмещенными, инвариантными по отношению к преобразованиям совокупности и требуют добавления константы или умножения каждого члена совокупности на положительное число. 
 

     2. Оценка точности  и статистической  значимости данных 

     Проверка  значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели. 
Если расчетное значение с k1=(m) и k2=(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

     R2 = 1 - (yi - yx)2 (yi - y) 2 = 1 - 2061.413426.96 = 0.85

     где m – число факторов в модели.

     Оценка  статистической значимости парной линейной регрессии производится по следующему алгоритму:

     1. Выдвигается нулевая гипотеза  о том, что уравнение в целом  статистически незначимо: H0: R2=0 на  уровне значимости α.

     2. Далее определяют фактическое  значение F-критерия:

     F = R21 - R2(n - m -1)m

     F = 0.85 21 - 0.85 2(7-1-1)1  = 27.57

     где m=1 для парной регрессии.

     Табличное значение определяется по таблицам распределения  Фишера для заданного уровня значимости, принимая во внимание, что число  степеней свободы для общей суммы  квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.

     Fтабл - это максимально возможное значение  критерия под влиянием случайных  факторов при данных степенях  свободы и уровне значимости  α. Уровень значимости α - вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно α принимается равной 0,05 или 0,01.

     Если  фактическое значение F-критерия меньше табличного, то говорят, что нет основания  отклонять нулевую гипотезу.

     В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.

     Табличное значение критерия со степенями свободы k1=1 и k2=5, Fтабл = 6.61

     Поскольку фактическое значение F > Fтабл, то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна).

     Связь между F-критерием Фишера и t-статистикой  Стьюдента выражается равенством:

     t2r = t2b = F

     Понятно, что чем больше число анализов вы проведете с совокупностью собранных данных, тем большее число значимых (на выбранном уровне) результатов будет обнаружено чисто случайно. Например, если вы вычисляете корреляции между 10 переменными (имеете 45 различных коэффициентов корреляции), то можно ожидать, что примерно два коэффициента корреляции (один на каждые 20) чисто случайно окажутся значимыми на уровне p  .05, даже если переменные совершенно случайны и некоррелированы в популяции. Некоторые статистические методы, включающие много сравнений, и, таким образом, имеющие хороший шанс повторить такого рода ошибки, производят специальную корректировку или поправку на общее число сравнений. Тем не менее, многие статистические методы (особенно простые методы разведочного анализа данных) не предлагают какого-либо способа решения данной проблемы. Поэтому исследователь должен с осторожностью оценивать надежность неожиданных результатов.

Информация о работе Робастные процедуры анализа данных