Корелляционный анализ

Автор: Пользователь скрыл имя, 19 Марта 2012 в 13:37, контрольная работа

Описание работы

Цель планирования эксперимента – нахождение таких условий и правил проведения опытов при которых удается получить надежную и достоверную информацию об объекте с наименьшей затратой труда, а также представить эту информацию в компактной и удобной форме с количественной оценкой точности.
Среди основных методов планирования, применяемых на разных этапах исследования, используют:
- планирование отсеивающего эксперимента, основное значение которого выделение из всей совокупности факторов группы существенных факторов, подлежащих дальнейшему детальному изучению;
- планирование эксперимента для дисперсионного анализа, т.е. составление планов для объектов с качественными факторами;
- планирование регрессионного эксперимента, позволяющего получать регрессионные модели (полиномиальные и иные);
- планирование экстремального эксперимента, в котором главная задача – экспериментальная оптимизация объекта исследования;
- планирование при изучении динамических процессов и т.д.

Содержание

Введение 3
Понятие корреляционной связи 5
Общая классификация корреляционных связей 7
Корреляционные поля и цель их построения 7
Этапы корреляционного анализа 10
Коэффициенты корреляции 10
Нормированный коэффициент корреляции Браве-Пирсона 12
Коэффициент ранговой корреляции Спирмена 13
Основные свойства коэффициентов корреляции 15
Проверка значимости коэффициентов корреляции 16
Критические значения коэффициента парной корреляции 16
Заключение 17
Список литературы 18

Работа содержит 1 файл

Корелляционный анализ(готов).doc

— 248.50 Кб (Скачать)

Таким образом, визуальный анализ корреляционного поля помогает выявить не только наличия статистической зависимости (линейную или нелинейную) между исследуемыми признаками, но и ее тесноту и форму. Это имеет существенное значение для следующего шага в анализе ѕ выбора и вычисления соответствующего коэффициента корреляции.

Корреляционную зависимость между признаками можно описывать разными способами. В частности, любая форма связи может быть выражена уравнением общего вида Y = f(X), где признак Y – зависимая переменная, или функция от независимой переменной X, называемой аргументом. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.

 

Этапы корреляционного анализа

 

Реализация корреляционного анализа включает следующие этапы:

а) постановка задачи и выбор признаков;

б) сбор информации и ее первичная обработка (группировки, исключение аномальных наблюдений, проверка нормальности одномерного распределения);

в) предварительная характеристика взаимосвязей (аналитические группировки, графики);

г) устранение мультиколлинеарности (взаимозависимости факторов) и уточнение набора показателей путем расчета парных коэффициентов корреляции;

д) исследование факторной зависимости и проверка ее значимости;

е) оценка результатов анализа и подготовка рекомендаций по их практическому использованию.

 

Коэффициенты корреляции

 

Коэффициенты корреляции является общепринятой в математической статистике характеристикой связи между двумя случайными величинами. Коэффициент корреляции - показатель степени взаимозависимости, статистической связи двух переменных; изменяется в пределах от -1 до +1. Значение коэффициента корреляции 0 указывает на возможное отсутствие зависимости, значение +1 свидетельствует о согласованности переменных.

Различают следующие коэффициенты корреляции:

- дихотомический - показатель связи признаков (переменных) измеряемых по дихотомическим шкалам наименований;

- Пирсона (Pearson product-moment correlation) - коэффициент корреляции, используемый для континуальных переменных;

- ранговой корреляции Спирмена (Spearmen's rank-order correlation) - коэффициент корреляции для переменных, измеренных в порядковых (ранговых) шкалах;

- точечно-бисериальной корреляции (point-biserial correlation) - коэффициент корреляции, применяемый в случае анализа отношения переменных, одна из которых измерена в континуальной шкале, а другая - в строго дихотомической шкале наименований;

- j - коэффициент корреляции, используемый в случае, если обе переменные измерены в дихотомической шкале наименований.

- тетрахорический (четырехпольный) (tetrachoric) - коэффициент корреляции, используемый в случае, если обе переменные измерены в континуальных шкалах.

Линейная связь между переменными Xi и Xj оценивается коэффициентом корреляции:

,  

где Xi и Xj – исследуемые переменные; mXi и mXj – математические ожидания переменных; σX и σX – дисперсии переменных.

Выборочный коэффициент корреляции определяют по формуле:

,

или по преобразованной формуле:

,   где i =1, 2, ..., n, j = 1, 2, ..., m, u = 1, 2, ..., N; N – число опытов(объем выборки); xi, xj – оценки математических ожиданий; SXi, SXj – оценки среднеквадратических отклонений.

Только при совместной нормальной распределенности исследуемых случайных величин Xi и Xj коэффициент корреляции имеет определенный смысл связи между переменными. В противном случае коэффициент корреляции может только косвенно характеризовать эту связь.

 

Нормированный коэффициент корреляции Браве-Пирсона

 

В качестве оценки генерального коэффициента корреляции р используется коэффициент корреляции r Браве-Пирсона. Для его определения принимается предположение о двумерном нормальном распределении генеральной совокупности, из которой получены экспериментальные данные. Это предположение может быть проверено с помощью соответствующих критериев значимости. Следует отметить, что если по отдельности одномерные эмпирические распределения значений xi и yi согласуются с нормальным распределением, то из этого еще не следует, что двумерное распределение будет нормальным. Для такого заключения необходимо еще проверить предположение о линейности связи между случайными величинами Х и Y. Строго говоря, для вычисления коэффициента корреляции достаточно только принять предположение о линейности связи между случайными величинами, и вычисленный коэффициент корреляции будет мерой этой линейной связи.
Коэффициент корреляции Браве–Пирсона () относится к параметрическим коэффициентам и для практических расчетов вычисляется по формуле:

Из формулы видно, что для вычисления необходимо найти средние значения признаков Х и Y, а также отклонения каждого статистического данного от его среднего . Зная эти значения, находятся суммы . Затем, вычислив значение , необходимо определить достоверность найденного коэффициента корреляции, сравнив его фактическое значение с табличным для f = n –2. Если , то можно говорить о том, что между признаками наблюдается достоверная взаимосвязь. Если , то между признаками наблюдается недостоверная корреляционная взаимосвязь.

 

Коэффициент ранговой корреляции Спирмена

 

Если потребуется установить связь между двумя признаками, значения которых в генеральной совокупности распределены не по нормальному закону, т. е. предположение о том, что двумерная выборка (xi и yi) получена из двумерной нормальной генеральной совокупности, не принимается, то можно воспользоваться коэффициентом ранговой корреляции Спирмена ():

где dx и dy – ранги показателей xi и yi; n – число коррелируемых пар.

Коэффициент ранговой корреляции также имеет пределы 1 и –1. Если ранги одинаковы для всех значений xi и yi, то все разности рангов (dx - dy) = 0 и = 1. Если ранги xi и yi расположены в обратном порядке, то = -1. Таким образом, коэффициент ранговой корреляции является мерой совпадения рангов значений xi и yi.

Когда ранги всех значений xi и yi строго совпадают или расположены в обратном порядке, между случайными величинами Х и Y существует функциональная зависимость, причем эта зависимость не обязательно линейная, как в случае с коэффициентом линейной корреляции Браве-Пирсона, а может быть любой монотонной зависимостью (т. е. постоянно возрастающей или постоянно убывающей зависимостью). Если зависимость монотонно возрастающая, то ранги значений xi и yi совпадают и = 1; если зависимость монотонно убывающая, то ранги обратны и = –1. Следовательно, коэффициент ранговой корреляции является мерой любой монотонной зависимости между случайными величинами Х и Y.

Из формулы видно, что для вычисления необходимо сначала проставить ранги (dx и dy) показателей xi и yi, найти разности рангов (dx - dy) для каждой пары показателей и квадраты этих разностей (dx - dy)2. Зная эти значения, находятся суммы , учитывая, что всегда равна нулю. Затем, вычислив значение , необходимо определить достоверность найденного коэффициента корреляции, сравнив его фактическое значение с табличным. Если , то можно говорить о том, что между признаками наблюдается достоверная взаимосвязь. Если , то между признаками наблюдается недостоверная корреляционная взаимосвязь.

Коэффициент ранговой корреляции Спирмена вычисляется значительно проще, чем коэффициент корреляции Браве-Пирсона при одних и тех же исходных данных, поскольку при вычислении используются ранги, представляющие собой обычно целые числа.

Коэффициент ранговой корреляции целесообразно использовать в следующих случаях:

- если экспериментальные данные представляют собой точно измеренные значения признаков Х и Y и требуется быстро найти приближенную оценку коэффициента корреляции. Тогда даже в случае двумерного нормального распределения генеральной совокупности можно воспользоваться коэффициентом ранговой корреляции вместо точного коэффициента корреляции Браве-Пирсона. Вычисления будут существенно проще, а точность оценки генерального параметра р с помощью коэффициента при больших объемах выборки составляет 91,2% по отношению к точности оценки по коэффициенту корреляций;

- когда значения xi и (или) yi заданы в порядковой шкале (например, оценки судей в баллах, места на соревнованиях, количественные градации качественных признаков), т. е. когда признаки не могут быть точно измерены, но их наблюдаемые значения могут быть расставлены в определенном порядке.

 

Основные свойства коэффициентов корреляции

 

К основным свойствам коэффициента корреляции необходимо отнести следующие:

- коэффициенты корреляции способны характеризовать только линейные связи, т.е. такие, которые выражаются уравнением линейной функции. При наличии нелинейной зависимости между варьирующими признаками следует использовать другие показатели связи;

- значения коэффициентов корреляции – это отвлеченные числа, лежащее в пределах от —1 до +1, т.е. -1 < r < 1;

- при независимом варьировании признаков, когда связь между ними отсутствует, r = 0;

- при положительной, или прямой, связи, когда с увеличением значений одного признака возрастают значения другого, коэффициент корреляции приобретает положительный знак и находится в пределах от 0 до+1, т.е. 0<r< 1;

- при отрицательной, или обратной, связи, когда с увеличением значений одного признака соответственно уменьшаются значения другого, коэффициент корреляции сопровождается отрицательным знаком и находится в пределах от 0 до –1, т.е. -1 < r <0;

- чем сильнее связь между признаками, тем ближе величина коэффициента корреляции к 1. Если r = ±1, то корреляционная связь переходит в функциональную, т.е. каждому значению признака Х будет соответствовать одно или несколько строго определенных значений признака Y;

- только по величине коэффициентов корреляции нельзя судить о достоверности корреляционной связи между признаками. Этот параметр зависит от числа степеней свободы f = n –2, где n – число коррелируемых пар показателей Х и Y. Чем больше n, тем выше достоверность связи при одном и том же значении коэффициента корреляции.

Проверка значимости коэффициентов корреляции

 

Для проверки значимости коэффициентов корреляции чаще всего используют распределение Стьюдента и условие:

, f = N – 2, α = 0,05.

Если условие выполняется, то гипотеза об отсутствии корреляционной связи принимается.

 

Критические значения коэффициента парной корреляции

 

Для проверки значимости коэффициента парной корреляции нужно сравнить его значение с табличным (критическим) значением r. Для пользования этой таблицей нужно знать число степеней свободы f = N – 2 и выбрать определенный уровень значимости. Такое значение уровня значимости называют еще 5%-ным уровнем риска, что соответствует вероятности верного ответа при проверке гипотезы Р = 1 – α = 0,95, или 95%. Это значит, что в среднем только в 5% случаев возможна ошибка при проверке гипотезы.

В практических исследованиях 5%-ный уровень риска применяется наиболее часто. Но экспериментатор всегда свободен в выборе уровня значимости, и возможны ситуации, в которых, например, требуется 1%-ный уровень риска. При этом возрастает надежность ответа. Проверка гипотезы сводится к сравнению абсолютной величины коэффициента парной корреляции с критическим значением. Если экспериментально найденное значение r меньше критического, то нет оснований считать, что имеется тесная линейная связь между параметрами, а если больше или равно, то гипотеза о корреляционной линейной связи не отвергается.

 

 

 

 

 

ЗАКЛЮЧЕНИЕ

 

Термин «корреляция» был введен в науку выдающимся английским естествоиспытателем Френсисом Гальтоном в 1886 году. Однако точную формулу для подсчета коэффициента корреляции разработал его ученик Карл Пирсон.

Задачи с одним выходным параметром имеют очевидные преимущества. Но на практике чаще всего приходится учитывать несколько выходных параметров. Иногда их число довольно велико. Так, например, при производстве резиновых и пластмассовых изделий приходится учитывать физико-механические, технологические, экономические, художественно-эстетические и другие параметры (прочность, эластичность, относительное удлинение и т.д.). Математические модели можно построить для каждого из параметров, но одновременно оптимизировать несколько функций невозможно.

Обычно оптимизируется одна функция, наиболее важная с точки зрения цели исследования, при ограничениях, налагаемых другими функциями. Поэтому из многих выходных параметров выбирается один в качестве параметра оптимизации, а остальные служат ограничениями. Всегда полезно исследовать возможность уменьшения числа выходных параметров. Для этого и используется корреляционный анализ.

С использованием результатов корреляционного анализа исследователь может делать определённые выводы о наличии и характере взаимозависимости, что уже само по себе может представлять существенную информацию об исследуемом объекте. Результаты могут подсказать и направление дальнейших исследований, и совокупность требуемых методов, в том числе статистических, необходимых для более полного изучения объекта.

Особенно реальную пользу применение аппарата корреляционного анализа может принести на стадии ранних исследований в областях, где характеры причин определённых явлений ещё недостаточно понятны. Это может касаться изучения очень сложных систем различного характера: как технических, так и социальных.

Информация о работе Корелляционный анализ