Автор: Пользователь скрыл имя, 26 Сентября 2011 в 12:04, реферат
Понятие вариационного ряда. Первичные статистические данные, с которыми имеет дело историк, часто представлены неупорядоченной последовательностью чисел, характеризующей ту или иную сторону процесса или явления. В этой совокупности чисел бывает трудно разобраться, и первичная обработка материалов сводится к приведению имеющихся данных к виду, удобному для анализа.
Воспользовавшись вторым методом исчисления моды, рассчитаем наиболее типичный размер посева по данным табл. 6:
Мода имеет те же достоинства, что и медиана. Мода и медиана эффективно используются в качестве мер уровня, но сравнительно со средней арифметической реже употребляются как исходный материал для более сложных методов математической статистики.
Меры рассеяния. Рассмотренные выше средние показывают уровень вариационного ряда, другими словами, позволяют ряд чисел охарактеризовать одним числом. Однако средние не содержат в себе информации о том, насколько хорошо они представляют всю совокупность. Одинаковые или близкие по величине средние могут относиться к весьма различным рядам. Для пояснения этого положения рассмотрим условный пример.
Пример 10. В табл. 7 приведены данные о возрасте (для простоты число их невелико).
Рассчитав, получаем, что средний возраст в 1-й и 2-fi группах одинаков и равен 36. Но простейшее сравнение этих двух рядов показывает, что одинаковые средние представляют две совершенно различные по возрастному составу группы, а именно: в 1-ю группу входят люди в зрелом возрасте, тогда как во 2-ю-старики и дети. Иначе говоря, варианты первого ряда довольно тесно группируются вокруг своей средней, т. е. средняя представительна, тогда как во втором ряду обнаруживается сильный разброс (рассеяние) вариант. Чтобы отметить подобные различия, в статистике прибегают к расчету показателей, характеризующих рассеяние признака (мер рассеяния).
Рассмотрим основные меры рассеяния: размах вариации, дисперсию и среднее квадратичное отклонение.
Размах вариации показывает разность между наибольшим и наименьшим значениями признака (R=xmax-xmin). Достоинством этого показателя является простота расчета. Однако возможности его применения ограничены, так как эта характеристика является наиболее грубой из всех мер рассеяния.
Во-первых, при расчете этого показателя рассеяния признака используются только крайние значения признака, остальные же во внимание не принимаются. Во-вторых, размах вариации существенно зависит от случайных колебаний выборка.
Более ценными для характеристики рассеяния признака являются показатели, при расчете которых используются отклонения всех вариант от некоторой средней (например, средней арифметической, медианы). К таким мерам рассеяния, в частности, относятся дисперсия и среднее квадратичное отклонение. Последние меры рассеяния меньше любой другой меры подвержены случайным колебаниям выборки. Среднее квадратичное отклонение и дисперсия нашли широкое применение почти во всех разделах математической статистики.
Дисперсия, или средний квадрат отклонения (обозначим σ2) есть средняя арифметическая из квадратов отклонений вариант от их средней арифметической, т. е. в математической записи
где xi-варианта с порядковым номером i; - средняя арифметическая; k- число вариант; qi-частота или частость с порядковым номером I.
Часто для исследования удобно представлять меру рассеяния в тех же единицах измерения, что и варианты. Тогда вместо дисперсии используют среднее квадратичное отклонение, которое является квадратным корнем из дисперсии, т. е. среднее квадратичное отклонение вычисляется по формуле
Пример 11. Рассмотрим распределение дореформенного надела у крестьян Симбирской губернии отдельно для группы барщинных и группы оброчных крестьян (пример 6). Средние величины дореформенных наделов для обеих групп крестьян оказались практически равными (4,018 дес. у барщинных и 3,976 у оброчных). Выясним, насколько одинаковой была вариация показателей в этих группах. С этой целью вычислим средние квадратичные отклонения по совокупности барщинных и по совокупности оброчных крестьян.
Для вычисления
средних квадратичных отклонений удобно
составить вспомогательную
и среднее квадратичное отклонение для оброчных крестьян:
т е. колебание признака у оброчных крестьян примерно в полтора раза больше, чем у барщинных.
Таким образом, средняя величина дореформенного надела у барщинных и оброчных крестьян Симбирской губернии почти одинакова, т. е. в среднем эти группы крестьян по обеспеченности землей практически не отличаются. Но в среде оброчных крестьян различия в размере наделов больше, чем среди барщинных крестьян.
Рассмотренные выше меры рассеяния (размах вариации, дисперсия, среднее квадратичное отклонение) являются абсолютными величинами, судить по ним о степени колеблимости признака не всегда можно, в некоторых задачах необходимо использовать относительные показатели рассеяния. Таким показателем является коэффициент вариации.
Коэффициент вариации (обозначим V) представляет собой отношение среднего квадратичного отклонения к средней арифметической, выраженное в процентах, т. е.
Коэффициент вариации позволяет: 1) сравнивать вариацию одного и того же признака у разных групп объектов, 2) выявить степень различия одного и того же признака у одной и той же группы объектов в разное время, 3) сопоставить вариацию разных признаков у одних и тех же групп объектов.
Графическое представление играет важную роль в изучении вариационных рядов, так как позволяет в простой и наглядной форме проводить анализ статистических данных.
Существует несколько способов графического изображения рядов (гистограмма, полигон, кумулята, огива), выбор которых зависит от цели исследования и отвида вариационного ряда.
Полигон распределения в основном используется для изображения дискретного ряда, но можно построить полигон и для интервального ряда, если предварительно привести его к декретному. Полигон распределения представляет собой замкнутую ломаную линию в прямоугольной системе координат с координатами (xi, qi), где xi - значение i-го признака, qi - частота или частость i-ro признака.
Пример 13. Построим полигон распределения по данным табл. 1. В прямоугольной системе координат на горизонтальной оси откладываем значения признака (возраст студентов), а на вертикальной оси - частоты (число студентов с данным возрастом). Полученные точки соединим отрезками прямой. Для того чтобы фигура была замкнутой, введем дополнительно новые значения признака (16 лет, 24 года); соответствующие им частоты, естественно, равны нулю. В результате получим полигон распределения студентов по возрасту (рис. 1).
Гистограмма распределения применяется для изображения интервального ряда. Для построения гистограммы на горизонтальной оси откладывают последовательно отрезки, равные интервалам признака, и на этих отрезках, как на основаниях, строят прямоугольники, высоты которых равны частотам или частностям для ряда с равными интервалами, плотностям; для ряда с неравными интервалами.
Пример 14. Построим гистограмму распределения душ по размеру прирезки в Бельском уезде Смоленской губернии по данным табл. 2 (рис 2) (За неимением дополнительных данных при построении графика воспользуемся предположением, что величина последнего открытого интервала равна величине предыдущего).
Как уже отмечалось, для интервального ряда также можно построить полигон распределения Для этого за значения признака принимают середины интервалов и для полученного дискретного ряда обычным способом строят полигон. Полигон распределения можно получить и по готовой гистограмме. Достаточно соединить отрезками прямых середины верхних оснований прямоугольников и замкнуть, фигуру описанным способом. Результаты такого построения изображены на рис 2 пунктирной линией.
Кумулята есть графическое изображение вариационного ряда, когда на вертикальной оси откладываются накопленные частоты или частности, а на горизонтальной - значения признака. Кумулята служит для графического представления как дискретных, так и интервальных вариационных рядов.
Пример 15. Построим кумуляту по данным интервального ряда табл. 2. Предварительно рассчитаем накопленные частности.
Обозначим на горизонтальной
оси интервалы (рис. 3). Нижней границе
первого интервала
Возможности графического изображения статистических данных не ограничиваются воспроизведением материала в наглядном, легко воспринимаемом виде. Представление данных в виде графика позволяет просто и быстро получить приблизительные значения таких средних характеристик ряда, как мода и медиана.
Используя определенные виды графического
изображения вариационного
Пример 16. Определим приближенно медиану по данным табл. 6. Для этого построим кумуляту и на уровне 50% (середина ряда) проведем прямую линию, параллельную горизонтальной оси. Далее, из точки пересечения этой линии с кумулятой опустим перпендикуляр но, горизонтальную ось Точка пересечения перпендикуляра с осью и показывает приближенное значение медианы (рис. 4). Искомая медиана в нашем примере равна 10 дес. а вычисленная в примере 8-9,9 дес.
Пример 17. Определим моду по тем же данным, что и в предыдущем примере. Напомним, что интервал, которому соответствует наибольшая частота или частность для ряда с равными интервалами, наибольшая плотность - для ряда с неравными интервалами, является модальным. Выпишем из табл. 6 предмодальный, модальный и послемодальный интервалы с соответствующими плотностями.
Построим для
этих интервалов столбики гистограммы
и соединим отрезками вершины
прямоугольников (рис. 5). Опустив перпендикуляр
из пересечения отрезков на горизонтальную
ось, получим приблизительное
Нормальное распределение. Если уменьшать интервалы и одновременно увеличивать число наблюдений в них, то гистограмма распределения будет все более приближаться к плавной линии. Кривая, к которой стремится график при указанном пробразовании, называется кривой распределения.
Формы кривых распределения разнообразны. Мы ограничимся рассмотрением одного важного в теоретико-прикладном плане распределения, так называемого нормального распределения.
График нормального
распределения (рис. 6) представляет собой
симметричную одновершинную кривую,
напоминающею по форме колокол. Форма
нормальной кривой и положение ее
на оси абсцисс полностью
Каждому значению
признака х соответствует при
этом определенное значение так называемой
функции распределения F(x), показывающее,
какова вероятность существования
вариант, меньших данного значения
х. Геометрически вероятность
Ввиду своей
важности для практических приложений
функция нормального
При замене х на t центр распределения смещается в точку 0, а единицей измерения становится величина среднего квадратического отклонения σ, но вид кривой распределения неизменяется). Среднее значениенормированного отклонения t равно нулю, аего среднее квадратическое отклонениеравно единице (рис. 7). Нормированная функциянормального распределения обладаетследующими свойствами: . В табл. 7 приложения приведены значения F(t) дляположительных значений t. Так, для t=2F(t)=0,97725. На рис. 7 площадь, соответствующая этойвероятности,заштрихована.