Сущность дисперсионного анализа

Автор: Пользователь скрыл имя, 07 Ноября 2011 в 18:12, реферат

Описание работы

Дисперсионный анализ (от латинского Dispersio – рассеивание) – статистический метод, позволяющий анализировать влияние различных факторов на исследуемую переменную. Метод был разработан биологом Р. Фишером в 1925 году и применялся первоначально для оценки экспериментов в растениеводстве. В дальнейшем выяснилась общенаучная значимость дисперсионного анализа для экспериментов в психологии, педагогике, медицине и др.

Работа содержит 1 файл

Дисперсионный анализ.doc

— 520.50 Кб (Скачать)

            Iij - эффект, обусловленный взаимодействием двух факторов, т.е. отклонение от средней по наблюдениям в ячейке ij от суммы первых трех слагаемых в модели (15);

            εijk - возмущение, обусловленное вариацией переменной внутри отдельной ячейки.

       Предполагается, что εijk  имеет нормальный закон распределения N(0; с2), а все математические ожидания F*, G*, Ii*, I*j равны нулю.

       Групповые средние находятся по формулам:  

       - в ячейке:

       

,

       по  строке:

       

       по  столбцу:

       

       общая средняя:

       

       В таблице 1.3 представлен общий вид  вычисления значений, с помощью дисперсионного анализа. 

       Таблица 1.3 – Базовая таблица дисперсионного анализа

Компоненты  дисперсии Сумма квадратов Число степеней свободы Средние квадраты
Межгрупповая (фактор А)
m-1
Межгрупповая (фактор B)
l-1
Взаимодействие
(m-1)(l-1)
Остаточная
mln - ml
Общая
mln - 1  
 

       Проверка  нулевых гипотез HA, HB, HAB об отсутствии влияния на рассматриваемую переменную факторов А, B и их взаимодействия AB осуществляется сравнением отношений , , (для модели I с фиксированными уровнями факторов) или отношений , (для случайной модели II) с соответствующими табличными значениями F – критерия Фишера – Снедекора. Для смешанной модели III проверка гипотез относительно факторов с фиксированными уровнями производится также как и в модели II, а факторов со случайными уровнями – как в модели I.

       Если  n=1, т.е. при одном наблюдении в ячейке, то не все нулевые гипотезы могут быть проверены так как выпадает компонента Q3 из общей суммы квадратов отклонений, а с ней и средний квадрат , так как в этом случае не может быть речи о взаимодействии факторов.

       С точки зрения техники вычислений для нахождения сумм квадратов Q1, Q2, Q3, Q4, Q целесообразнее использовать формулы: 
 

       

 
 

       

 
 

       

 
 

       

 
 

       Q3 = Q – Q1 – Q2 – Q4. 

       Отклонение  от основных предпосылок дисперсионного анализа — нормальности распределения исследуемой переменной и равенства дисперсий в ячейках (если оно не чрезмерное) — не сказывается существенно на результатах дисперсионного анализа при равном числе наблюдений в ячейках, но может быть очень чувствительно при неравном их числе. Кроме того, при неравном числе наблюдений в ячейках резко возрастает сложность аппарата дисперсионного анализа. Поэтому рекомендуется планировать схему с равным числом наблюдений в ячейках, а если встречаются недостающие данные, то возмещать их средними значениями других наблюдений в ячейках. При этом, однако, искусственно введенные недостающие данные не следует учитывать при подсчете числа степеней свободы. 
 
 
 
 
 
 
 
 

       Применение дисперсионного анализа в различных процессах и исследованиях 
 

       Использование дисперсионного анализа  при изучении миграционных процессов 
 

       Миграция - сложное социальное явление, во многом определяющее экономическую и политическую стороны жизни общества. Исследование миграционных процессов связано с выявлением факторов заинтересованности, удовлетворенности условиями труда, и оценкой влияния полученных факторов на межгрупповое движение населения.

       λij=ciqijaj,

       где  λij – интенсивность переходов из исходной группы i (выхода) в новую j (входа);

       ci – возможность и способности покинуть группу i (ci≥0);

       qij – привлекательность новой группы по сравнению с исходной (0≤qij≤1);

       aj – доступность группы j (aj≥0). 

       Если  считать численность группы i равной ni, то оценкой случайной величины νij - числа переходов из i в j – будет niciqijaj:

                                                          νij≈ niλij=niciqijaj.        (16)

       На  практике для отдельного человека вероятность p перехода в другую группу мала, а  численность рассматриваемой группы n велика. В этом случае действует закон редких событий, то есть пределом νij является распределение Пуассона с параметром μ=np:

       

.

       С ростом μ распределение приближается к нормальному. Преобразованную  же величину √νij можно считать нормально распределенной.

       Если  прологарифмировать выражение (16) и  сделать необходимые замены переменных, то можно получить модель дисперсионного анализа:  

       ln√νijlnνij=½(lnni+lnci+lnqij+lnaj)+εij, 

       Xi,j=2ln√νij-lnni-lnqij, 

       Ci=lnci, 

       Aj=lnaj, 

       Xi,j=Ci+Aj+ε. 

       Значения Ci и Aj позволяют получить модель двухфакторного дисперсионного анализа с одним наблюдением в клетке. Обратным преобразованием из Ci и Aj вычисляются коэффициенты ci и aj.

       При проведении дисперсионного анализа  в качестве значений результативного признака Y следует взять величины: 

       Yij=Xi,j-X,

       Х=(Х1,11,2+:+Хmi,mj)/mimj, 

       где mimj- оценка математического ожидания Хi,j;

            Хmi и Хmj - соответственно количество групп выхода и входа.  

       Уровнями  фактора I будут mi групп выхода, уровнями фактора J - mj групп входа. Предполагается mi=mj=m. Встает задача проверки гипотез HI и HJ о равенствах математических ожиданий величины Y при уровнях Ii и при уровнях Jj, i,j=1,…,m. Проверка гипотезы HI основывается на сравнении величин несмещенных оценок дисперсии sI2 и so2. Если гипотеза HI верна, то величина F(I)= sI 2/so2 имеет распределение Фишера с числами степеней свободы k1=m-1 и k2=(m-1)(m-1). Для заданного уровня значимости α находится правосторонняя критическая точка xпр,αкр. Если числовое значение F(I)чис величины попадает в интервал (xпр,αкр, +∞), то гипотеза HI отвергается и считается, что фактор I влияет на результативный признак. Степень этого влияния по результатам наблюдений измеряется выборочным коэффициентом детерминации, который показывает, какая доля дисперсии результативного признака в выборке обусловлена влиянием на него фактора I. Если же F(I)чис<xпр,αкр, то гипотеза HI не отвергаются и считаются, что влияние фактора I не подтвердилось. Аналогично проверяется гипотеза HJ о влиянии фактора J. 
 

       Принципы  математико-статистического  анализа данных медико-биологических  исследований 
 

       В зависимости от поставленной задачи, объема и характера материала, вида данных и их связей находится выбор  методов математической обработки  на этапах как предварительного (для оценки характера распределения в исследуемой выборке), так и окончательного анализа в соответствии с целями исследования. Крайне важным аспектом является проверка однородности выбранных групп наблюдения, в том числе контрольных, что может быть проведено или экспертным путем, или методами многомерной статистики (например, с помощью кластерного анализа). Но первым этапом является составление вопросника, в котором предусматривается стандартизованное описание признаков. В особенности при проведении эпидемиологических исследований, где необходимо единство в понимании и описании одних и тех же симптомов разными врачами, включая учет диапазонов их изменений (степени выраженности). В случае существенности различий в регистрации исходных данных (субъективная оценка характера патологических проявлений различными специалистами) и невозможности их приведения к единому виду на этапе сбора информации, может быть затем осуществлена так называемая коррекция ковариант, которая предполагает нормализацию переменных, т.е. устранение ненормальностей показателей в матрице данных. "Согласование мнений" осуществляется с учетом специальности и опыта врачей, что позволяет затем сравнивать полученные ими результаты обследования между собой. Для этого могут использоваться многомерный дисперсионный и регрессионный анализы.

       Признаки  могут быть как однотипными, что  бывает редко, так и разнотипными. Под этим термином понимается их различная  метрологическая оценка. Количественные или числовые признаки - это замеренные в определенной шкале и в шкалах интервалов и отношений (I группа признаков). Качественные, ранговые или балльные используются для выражения медицинских терминов и понятий не имеющих цифровых значений (например, тяжесть состояния) и замеряются в шкале порядка (II группа признаков). Классификационные или номинальные (например, профессия, группа крови) - это замеренные в шкале наименований (III группа признаков).

       Во  многих случаях делается попытка  анализа крайне большого числа признаков, что должно способствовать повышению информативности представленной выборки. Однако выбор полезной информации, то есть осуществление отбора признаков является операцией совершенно необходимой, поскольку для решения любой классификационной задачи должны быть отобраны сведения, несущие полезную для данной задачи информацию. В случае, если это не осуществлено по каким-то причинам исследователем самостоятельно или отсутствуют достаточно обоснованные критерии для снижения размерности пространства признаков по содержательным соображениям, борьба с избыточностью информации осуществляется уже формальными методами путем оценки информативности.

       Дисперсионный анализ позволяет определить влияние  разных факторов (условий) на исследуемый  признак (явление), что достигается  путем разложения совокупной изменчивости (дисперсии, выраженной в сумме квадратов отклонений от общего среднего) на отдельные компоненты, вызванные влиянием различных источников изменчивости.

       С помощью дисперсионного анализа  исследуются угрозы заболевания  при наличии факторов риска. Концепция относительного риска рассматривает отношение между пациентами с определенной болезнью и не имеющими ее. Величина относительного риска дает возможность определить, во сколько раз увеличивается вероятность заболеть при его наличии, что может быть оценено с помощью следующей упрощенной формулы:  

       r' = a*d / b*c, 

       где  a - наличие признака в исследуемой  группе;

            b - отсутствие признака  в исследуемой группе;

            c - наличие признака  в группе сравнения (контрольной);

            d - отсутствие признака в группе сравнения (контрольной).

       Показатель  атрибутивного риска (rA) служит для  оценки доли заболеваемости, связанной  с данным фактором риска:

       

,

       где   Q - частота признака, маркирующего риск, в популяции;

             r' - относительный  риск.  

       Выявление факторов, способствующих возникновению (проявлению) заболевания, т.е. факторов риска может осуществляться различными способами, например, путем оценки информативности  с последующим ранжированием  признаков, что однако не указывает  на совокупное действие отобранных параметров, в отличие от применения регрессионного, факторного анализов, методов теории распознавания образов, которые дают возможность получать "симптомокомплексы" риск-факторов. Кроме того, более сложные методы позволяют анализировать и непрямые связи между факторами риска и заболеваниями.  
 

       Биотестирование почвы 
 

       Многообразные загрязняющие вещества, попадая в  агроценоз, могут претерпевать в нем различные превращения, усиливая при этом свое токсическое действие. По этой причине оказались необходимыми методы интегральной оценки качества компонентов агроценоза. Исследования проводили на базе многофакторного дисперсионного анализа в 11-ти польном зернотравянопропашном севообороте. В опыте изучалось влияние следующих факторов: плодородие почвы (А), система удобрений (В), система защиты растений (С). Плодородие почвы, система удобрений и система защиты растений изучались в дозах 0, 1, 2 и 3. Базовые варианты были представлены следующими комбинациями:

Информация о работе Сущность дисперсионного анализа