Автор: Пользователь скрыл имя, 05 Мая 2012 в 16:35, лекция
Вариационный ряд – ранжированный в порядке возрастания или убывания ряд вариантов с соответствующими им весами (частотой, частостью …). То есть вариационный ряд – двойной числовой ряд, показывающий, каким образом численные значения изучаемого признака связаны с их повторяемостью в выборке. Вариационные ряды имеют большое значение при статистической обработке экспериментальных данных, поскольку дают наглядное представление о характерных особенностях варьирования признака.
Дли повышения наглядности эмпирических распределений, используется их графическое представление. Наиболее распространенными способами графического представления являются гистограмма, полигон частот и полигон накопленных частот (кумулята).
Гистограмма используется для графического представления распределений непрерывно варьирующих признаков и состоит из примыкающих друг к другу прямоугольников, как показано на рис. 2.1. Основание каждого прямоугольника равно ширине интервала группировки, а высота его такова, что площадь прямоугольника пропорциональна частоте (или частости) попадания в данный интервал. Если ряд безинтервальный, то ширина всех столбцов выбирается произвольной, но одинаковые. Таким образом, высоты прямоугольников должны быть пропорциональны величинам
где ni — частота i-го интервала группировки; hi — ширина i-го интервала группировки.
На графике гистограммы основание прямоугольников откладывается по оси абсцисс (x), а высота — по оси ординат (у) прямоугольной системы координат.
Однако в тех случаях, когда ширина всех интервалов группировки одинакова, вид гистограммы не изменится, если по оси ординат откладывать не величины рi, а частоты интервалов ni.
Рис. 2.1. Гистограмма распределения результатов в предыдущем примере (когда ширина некоторых интервалов группировки неодинакова).
В этом случае чтобы не нарушить принцип построения гистограммы (площади прямоугольников пропорциональны частотам интервалов), по оси ординат уже нельзя откладывать частоты, а надо – высоты прямоугольников (которые должны быть пропорциональны отношениям ).
Другим распространенным способом графического представления является полигон частот.
Полигон частот образуется ломаной линией, соединяющей точки, соответствующие срединным значениям интервалов группировки и частотам этих интервалов, срединные значения откладываются по оси х, а частоты – по оси у.
Из сравнения двух рассмотренных способов графического представления эмпирических распределений следует, что для получения полигона частот из построенной гистограммы нужно середины вершин прямоугольников, образующих гистограмму, соединить отрезками прямых. Пример полигона частот представлен на рис. 2.2.
Рис. 2.2. Полигон частот
Полигон частот используется для представления распределений как непрерывных, так и дискретных признаков. В случае непрерывного распределения полигон частот является более предпочтительным способом графического представления, чем гистограмма, если график эмпирического распределения описывается плавной зависимостью.
Полигон накопленных частот (кумулята) получается при соединении отрезками прямых точек, координаты которых соответствуют верхним границам интервалов группировки и накопленным частотам. Если по оси ординат откладывать накопленные частости, то полученный график называется полигоном накопленных частостей. Пример полигона накопленных частот приведен на рис. 2.3.
На практике полигон накопленных частот используется в основном для представления дискретных данных. Ему свойственна более плавная форма, чем у гистограммы или полигона частот. Данное свойство и позволяет иногда отдавать предпочтение этому способу графического представлений эмпирических распределений.
Рис. 2.3. Полигон накопленных частот
Эмпирической функцией распределения называется функция, вычисляемая для любого значения х по формуле
где n – объем выборки, – количество вариант, значения которых меньше, чем х.
Свойства :
При ;
При ;
При ;
– функция неубывающая.
Рис. 2.4 График функции распределения
Вариационные ряды и графики эмпирических распределений дают наглядное представление о том, как варьирует признак в выборочной совокупности. Но они недостаточны для полной характеристики выборки, поскольку содержат много деталей, охватить которые невозможно без применения обобщающих числовых характеристик.
Числовые характеристики выборки дают количественное представление об эмпирических данных и позволяют сравнивать их между собой. Наибольшее практическое значение имеют характеристики положения, рассеяния и асимметрии эмпирических распределений.
В этой главе рассматриваются характеристики положения и рассеяния, а также практические методы их вычисления. Характеристики асимметрии будут рассмотрены в гл. 6 применительно к проверке гипотез о виде распределения генеральной совокупности.
В этом разделе рассмотрены характеристики положения, определяющие положение центра эмпирического распределения. Чаще всего употребляются такие характеристики положения, как среднее арифметическое, медиана и мода.
Среднее арифметическое, или просто среднее, — одна из основных характеристик выборки.
Определение. Среднее арифметическое – такое значение признака, сумма отклонений от которого выборочных значений признака равна нулю (с учетом знака отклонения).
Если воспользоваться геометрической интерпретацией, то среднее арифметическое можно определить как точку на оси х, которая является абсциссой центра масс гистограммы.
Среднее принято обозначать той же буквой, что и варианты выборки, с той лишь разницей, что над буквой ставится символ усреднения — черта. Например, если обозначить исследуемый признак через X, а его числовые значения — через xi, то среднее арифметическое имеет обозначение .
Среднее арифметическое, как и другие числовые характеристики выборки, может вычисляться как по необработанным первичным данным, так и по результатам группировки этих данных.
Для несгруппированных данных среднее арифметическое определяется по следующей формуле:
где n — объем выборки; хi — варианты выборки.
Если данные сгруппированы, то
где n — объем выборки; k — число интервалов группировки; ni — частота i-ого интервала; хi — срединное значение i-ого интервала.
Среднее арифметическое – величина того же наименования, что и значения признаков.
Нахождение среднего арифметического непрерывного вариационного ряда осложняется если крайние интервалы не замкнуты (то есть имеют вид “менее 10” ”более 60”). В этом случае считается, что ширина первого интервала равна ширине второго, а ширина последнего – ширине предпоследнего.
Среднее арифметическое, вычисленное по формуле (3.2), называют также взвешенным средним, подчеркивая этим, что в формуле (3.2) xi, суммируются с коэффициентами (весами), равными частотам попадания в интервалы группировки.
Определение. Медианой (Ме) называется такое значение признака X, когда ровно половина значений экспериментальных данных меньше ее, а вторая половина — больше.
Собственно, этим и ограничивается смысловое значение медианы. Широкое использование этой характеристики на практике объясняется простотой ее вычисления и независимостью от формы распределения эмпирических данных.
Если данных немного (объем выборки невелик), медиана вычисляется очень просто. Для этого выборку ранжируют, т. е. располагают данные в порядке возрастания или убывания, и в ранжированной выборке, содержащей n членов, ранг R (порядковый номер) медианы определяется как
Пусть, например, имеется ранжированная выборка, содержащая нечетное число членов n = 9: 12 14 14 18 20 22 22 26 28. Тогда ранг медианы
и медиана, обозначаемая символом Ме, совпадает с пятым членом ряда: Ме = 20.
Если выборка содержит четное число членов, то медиана не может быть определена столь однозначно. Например, получен ряд из 10 членов: 6 8 10 12 14 16 18 20 22 24.
Ранг медианы оказывается равным
Медианой в этом случае может быть любое число между 14 и 16 (5-м и 6-м членами ряда). Для определенности принято считать в качестве медианы среднее арифметическое этих значений, т. е.
Если необходимо найти медиану для сгруппированных данных, то поступают следующим образом.
Вначале находят интервал группировки, в котором содержится медиана, путем подсчета накопленных частот или накопленных относительных частот. Медианным будет тот интервал, в котором накопленная частота впервые окажется больше n/2 (n — объем выборки) или накопленная относительная частота — больше 0,5. Внутри медианного интервала медиана определяется по следующей формуле:
где xMeн — нижняя граница медианного интервала; — половина объема выборки; hme — ширина медианного интервала; — накопленная частота интервала, предшествующего медианному, nMe — частота медианного интервала.
Медиана обычно несколько отличается от среднего арифметического. Так бывает всегда, когда имеет место несимметричная форма эмпирического распределения.
Для тех случаев, когда эмпирическое распределение оказывается сильно асимметричным, среднее арифметическое теряет свою практическую ценность, поскольку при этом значительно большая часть значений признака оказывается выше или ниже среднего арифметического. В этой ситуации медиана представляет собой лучшую характеристику центра распределения.
Определение. Мода (Мо) представляет собой значение признака, встречающееся в выборке наиболее часто.
Ряд называется унимодальным, если в нем только одно модальное значение и полимодальным, если есть несколько значений признака, которые встречаются одинаково часто. Для полимодального ряда моду не вычисляют.
Для дискретного ряда мода находится по определению.
Интервал группировки с наибольшей частотой называется модальным.
Для определения моды в интервальном ряду используется следующая формула:
где хмон — нижняя граница модального интервала; h — ширина интервала группировки; nMo — частота модального интервала; nMo-1 — частота интервала, предшествующего модальному; nMo+1 — частота интервала, следующего за модальным.
Средние значения не дают полной информации о варьирующем признаке. Нетрудно представить себе два эмпирических распределения, у которых средние одинаковы, но при этом у одного из них значения признака рассеяны в узком диапазоне вокруг среднего, а у другого – в широком. Поэтому наряду со средними значениями вычисляют и характеристики рассеяния выборки. Рассмотрим наиболее употребительные из них.
Определение. Размах вариации – разность между максимальной и минимальной вариантами выборки:
Как видим, размах вычисляется очень просто, и в этом его главное и единственное достоинство. Информативность этого показателя невелика. Можно привести очень много распределений, сильно отличающихся по форме, но имеющих одинаковый размах. Размах вариации используется иногда в практических исследованиях при малых (не более 10) объемах выборки, Например, по размаху вариации легко оценить, насколько различаются лучший и худший результаты в группе спортсменов. При больших объемах выборки к его использованию надо откоситься с осторожностью.
Дисперсия и стандартное отклонение являются важнейшими характеристиками рассеяния.
Определение. Дисперсией называется средний квадрат отклонения значений признака от среднего арифметического. Дисперсия, вычисляемая но выборочным данным, называется выборочной дисперсией и обозначается .
Выборочную дисперсию вычисляют по приведенным ниже формулам:
Для несгруппированных данных