Современные методы обработки данных

Автор: Пользователь скрыл имя, 10 Ноября 2011 в 12:30, реферат

Описание работы

Методология системного анализа представляет собой довольно сложную и пеструю совокупность принципов, подходов, концепций и конкретных ме-тодов.Под принципами понимаются основные, исходные положения, некото-рые общие правила познавательной деятельности, которые указывают нап-равление научного познания, но не дают указания на конкретную истину. Это выработанные и исторически обобщенные требования к познавательно-му процессу, выполняющие важнейшие регулятивные роли в познании.

Работа содержит 1 файл

обработка данных реферат.docx

— 71.20 Кб (Скачать)

2.5. Мода. 

       Числовой характеристикой выборки, как правило, не требующей вычис-лений, является так называемая мода. Модой называют количественное зна-чение исследуемого признака, наиболее часто встречающееся в выборке. Для симметричных распределений признаков, в том числе для нормального расп-ределения, значение моды совпадает со значениями среднего и медианы. Для других типов распределении, несимметричных, это не характерно. К приме-ру, в последовательности значений признаков 1, 2, 5, 2, 4, 2, 6, 7, 2 модой является значение 2, так как оно встречается чаще других значений - четыре раза.Моду находят согласно следующим правилам:

1) В том случае, когда все значения в выборке  встречаются одинаково часто,  принято считать, что этот выборочный  ряд не имеет моды. Например: 5, 5, 6, 6, 7, 7 - в этой выборке моды  нет.

2) Когда два  соседних (смежных) значения имеют  одинаковую частоту и их частота  больше частот любых других  значений, мода вычисляется как  сред-нее арифметическое этих двух значений. Например, в выборке 1, 2, 2, 2, 5, 5, 5, 6 частоты рядом расположенных значений 2 и 5 совпадают и равняются 3. Эта частота больше, чем частота других значений 1 и 6 (у которых она равна 1). Следовательно, модой этого ряда будет величина =3,5.

3) Если два  несмежных (не соседних) значения  в выборке имеют равные час-тоты, которые больше частот любого другого значения, то выделяют две мо-ды. Например, в ряду 10, 11, 11, 11, 12, 13, 14, 14, 14, 17 модами являются значения 11 и 14. В таком случае говорят, что выборка является бимодаль-ной.Могут существовать и так называемые мультимодальные распределения, имеющие более двух вершин (мод).

4) Если мода  оценивается по множеству сгруппированных  данных, то для на-хождения моды необходимо определить группу с наибольшей частотой приз-нака. Эта группа называется модальной группой. 

2.6. Медиана. 

       Медианой называется значение изучаемого признака, которое делит вы-борку, упорядоченную по величине данного признака, пополам. Справа и слева от медианы в упорядоченном ряду остается по одинаковому количест-ву признаков. Например, для выборки 2, 3, 4, 4, 5, 6, 8, 7, 9 медианой будет значение 5, так как слева и справа от него остается по четыре показателя. Если ряд включает в себя четное число признаков, то медианой будет сред-нее, взятое как полусумма величин двух центральных значений ряда. Для следующего ряда 0, 1, 1, 2, 3, 4, 5, 5, 6, 7 медиана будет равна 3,5.Знание медианы полезно для того, чтобы установить, является ли распределение частных значений изученного признака симметричным и приближающимся к так называемому нормальному распределению. Средняя и медиана для нор-мального распределения обычно совпадают или очень мало отличаются друг от друга. Если выборочное распределение признаков нормально, то к нему можно применять методы вторичных статистических расчетов, основанные на нормальном распределении данных. В противном случае этого делать нельзя, так как в расчеты могут вкрасться серьезные ошибки.  

2.7. Выборочное среднее.

       Выборочное среднее (среднее арифметическое) значение как статисти-ческий показатель представляет собой среднюю оценку изучаемого в экспе-рименте психологического качества. Эта оценка характеризует степень его развития в целом у той группы испытуемых, которая была подвергнута психодиагностическому обследованию. Сравнивая непосредственно средние значения двух или нескольких выборок, мы можем судить об относительной степени развития у людей, составляющих эти выборки, оцениваемого качест-ва.Выборочное среднее определяется при помощи следующей формулы: 

                             (х12+...+хn) /n = 1/n ( ni=1 x xi ) 

где х - выборочная средняя величина или  среднее арифметическое значение по выборке; n - количество испытуемых в  выборке или частных психодиагностических показателей, на основе которых вычисляется  средняя величина; хk - частные значения показателей у отдельных испытуемых. Всего таких показателей n, поэтому индекс k данной переменной принимает значения от 1 до n; ∑ - принятый в математике знак суммирования величин тех переменных, которые находятся справа от этого знака. Выражение соответственно означает сумму всех х с индексом k, от 1до n. В психодиагностике и в экспериментальных психолого-педагогических исследованиях среднее, как правило, не вычисляется с точностью, превышающей один знак после запятой, т.е. с большей, чем десятые доли единицы. В психодиагностических обследованиях большая точность расчетов не требуется и не имеет смысла, если принять во внимание приблизительность тех оценок, которые в них получаются, и достаточность таких оценок для производства сравнительно точных расчетов. 

2.8. Разброс выборки.

 

 

Разброс (иногда эту величину называют размахом) выборки обозначается буквой R. Это самый простой показатель, который можно получить для выборки - разность между максимальной и минимальной величинами данного конкретного вариационного ряда, т.е. 

R= хmax - хmin 

Понятно, что чем сильнее варьирует  измеряемый признак, тем больше величина R, и наоборот. Однако может случиться  так, что у двух выборочных рядов  и средние, и размах совпадают, однако характер варьирования этих рядов будет  различный. Например, даны две выборки:

Х = 10 15 20 25 30 35 40 45 50X = 30 R = 40

Y = 10 28 28 30 30 30 32 32 50 Y=30 R = 40

При равенстве  средних и разбросов для этих двух выборочных рядов характер их варьирования различен. Для того чтобы  более четко представлять характер варьирования выборок, следует обратиться к их распределениям. 

2.9. Дисперсия.

 

 

Дисперсия - это среднее арифметическое квадратов  отклонений значений переменной от её среднего значения.

Дисперсия как статистическая величина характеризует, насколько частные значения отклоняются  от средней величины в данной выборке. Чем больше дисперсия, тем больше отклонения или разброс данных. 

                                        D = 1/n  ni=1(xi -x)2 

 где D - выборочная дисперсия, или просто дисперсия;

(……)2 - выражение, означающее, что для всех х, от первого до последнего в данной выборке необходимо вычислить разности между частными и средними значениями, возвести эти разности в квадрат и просуммировать;

п - количество испытуемых в выборке или первичных значений, по которым вычисляется дисперсия. Однако сама дисперсия, как характеристика отклонения от среднего, часто неудобна для интерпретации. Для того, чтобы приблизить размерность дисперсии к размерности измеряемого признака применяют операцию извлечения квадратного корня из дисперсии. Полученную величину называют стандартным отклонением.

Из суммы квадратов, делённых на число членов ряда извлекаеся квадратный корень.

                         Sx = 

 Иногда исходных  частных первичных данных, которые  подлежат статисти-ческой обработке,   бывает довольно много, и они требуют проведения ог-ромного количества элементарных арифметических операций. Для того что-бы сократить их число и вместе с тем сохранить нужную точность расчетов, иногда прибегают к замене исходной выборки частных эмпирических дан-ных на интервалы. Интервалом называется группа упорядоченных по величи-не значений признака, заменяемая в процессе расчетов средним значением.

3. Методы вторичной статистической обработки данных.

С помощью вторичных  методов статистической обработки  эксперименталь-ных данных непосредственно проверяются, доказываются или опровергаются гипотезы, связанные с экспериментом. Эти методы, как правило, сложнее, чем методы первичной статистической обработки, и требуют от исследовате-ля хорошей подготовки в области элементарной математики и статистики. Обсуждаемую группу методов можно разделить на несколько подгрупп: 1.Регрессионное исчисление.

2. Методы сравнения  между собой двух или нескольких  элементарных ста-тистик (средних, дисперсий и т.п.), относящихся к разным выборкам.

3. Методы установления  статистических взаимосвязей между  переменными, например их корреляции  друг с другом.

4. Методы выявления  внутренней статистической структуры  эмпирических данных (например, факторный  анализ). Рассмотрим каждую из  выделенных подгрупп методов  вторичной статистической обработки  на примерах.

3.1. Регрессионное исчисление.

Регрессионное исчисление - это метод математической статистики, позво-ляющий свести частные, разрозненные данные к некоторому линейному гра-фику, приблизительно отражающему их внутреннюю взаимосвязь, и полу-чить возможность по значению одной из переменных приблизительно оцени-вать вероятное значение другой переменной . Графическое выражение рег-рессионного уравнения называют линией регрессии. Линия регрессии выра-жает наилучшие предсказания зависимой переменой (Y) по независимым пе-ременным (X). Регрессию выражают с помощью двух уравнений регрессии, которые в самом прямом случае выглядят, как уравнения прямой.

Y = a 0 + a 1 * X (1)

X = b 0 + b 1 * Y (2)

В уравнении (1) Y - зависимая переменная, X - независимая  переменная, a 0 - свободный член, a 1 - коэффициент регрессии, или угловой  коэффициент, оп-ределяющий наклон линии регрессии по отношению к осям координат.В уравнении (2) X - зависимая переменная, Y - независимая переменная, b 0 - свободный член, b 1 - коэффициент регрессии, или угловой коэффициент, оп-ределяющий наклон линии регрессии по отношению к осям координат.Коли-чественное представление связи (зависимости) между Х и Y (между Y и X) называется регрессионным анализом. Главная задача регрессионного анализа заключается в нахождении коэффициентов a 0, b 0, a1и b 1 и определении уровня значимости полученных аналитических выражений, связывающих между собой переменные Х и У.При этом коэффициенты регрессии a 1 и b 1 показывают, насколько в среднем величина одной переменной изменяется при изменении на единицу меры другой. Коэффициент регрессии a 1 в уравнении можно подсчитать по формуле:

                                               A1 = Rxy * Sy / Sx 

а коэффициент b 1 в уравнении по формуле:

                                               B1 = Ryx * Sx / Sy

 где ryx - коэффициент корреляции между переменными X и Y;

Sx - среднеквадратическое отклонение, подсчитанное для переменной X;

Sy - среднеквадратическое отклонение, подсчитанное для переменной У.

Для применения метода линейного регрессионного анализа  необходимо соблюдать следующие  условия:

1. Сравниваемые  переменные Х и Y должны быть  измерены в шкале интервалов  или отношений.

2. Предполагается, что переменные Х и Y имеют  нормальный закон распределения.

3. Число варьирующих  признаков в сравниваемых переменных должно быть одинаковым. 

3.2. Корреляция. 

Следующий метод  вторичной статистической обработки, посредством кото-рого выясняется связь или прямая зависимость между двумя рядами экспери-ментальных данных, носит название метод корреляций. Он показывает, ка-ким образом одно явление влияет на другое или связано с ним в своей дина-мике. Подобного рода зависимости существуют, к примеру, между величина-ми, находящимися в причинно-следственных связях друг с другом. Если вы-ясняется, что два явления статистически достоверно коррелируют друг с дру-гом и если при этом есть уверенность в том, что одно из них может высту-пать в качестве причины другого явления, то отсюда определенно следует вывод о наличии между ними причинно-следственной зависимости. Когда повышение уровня одной переменной сопровождается повышением уровня другой, то речь идёт о положительной корреляции. Если же рост одной пере-менной происходит при снижении уровня другой, то говорят об отрицатель-ной корреляции. При отсутствии связи переменных мы имеем дело с нулевой корреляцией. Имеется несколько разновидностей данного метода: линейный, ранговый, парный и множественный. Линейный корреляционный анализ поз-воляет устанавливать прямые связи между переменными величинами по их абсолютным значениям. Эти связи графически выражаются прямой линией, отсюда название "линейный". Ранговая корреляция определяет зависимость не между абсолютными значениями переменных, а между порядковыми мес-тами, или рангами, занимаемыми ими в упорядоченном по величине ряду. Парный корреляционный анализ включает изучение корреляционных зависи-мостей только между парами переменных, а множественный, или многомер-ный, - между многими переменными одновременно. Распространенной в прикладной статистике формой многомерного корреляционного анализа является факторный анализ.

Коэффициент линейной корреляции определяется при помощи следующей формулы:

Информация о работе Современные методы обработки данных