Автор: Пользователь скрыл имя, 11 Марта 2012 в 15:40, реферат
Статистика — самостоятельная общественная наука. Она изучает количественную сторону массовых общественных явлений в неразрывной связи с их качественной стороной.
В зависимости от того, какую сторону явлений общественной жизни изучает та или иная отрасль статистики, она получает специальное название.
В процессе исторического развития в ее составе статистики как единой науки выделились и получили известную самостоятельность следующие разделы:
· общая теория;
Содержание
1. Предмет, методология и задачи статистики
2. Статистическое наблюдение, его виды и способы
4. Группировка и сводка материалов статистических наблюдений
5. Абсолютные и относительные величины
5. Средние величины
5.1 Основные понятия
5.2 Меры оценки колеблемости ряда и типичности средних величин
6. Выборочный метод и оценка достоверности относительных и средних величин (средние ошибки)
6.1 Оценка достоверности относительных величин и различий между ними
6.2 Оценка достоверности различий между относительными величинами
6.3 Оценка достоверности средних величин и различий между ними
6.4 Оценка достоверности различий между двумя средними величинами
6.5 Порядок оценки достоверности различий двух серий наблюдений, проведенных на одной и той же совокупности (разностный метод критерия Стьюдента)
7. Динамические ряды
7.1 Методика расчета показателей
Приложение
Средняя арифметическая:
дня.
Средняя прогрессивная:
дня.
5.2 Меры оценки колеблемости ряда и типичности средних величин
Средние арифметические величины, взятые сами по себе без дополнительных приемов оценки, имеют подчас ограниченное значение, т. к. они не отражают степени рассеяния (или колеблемости) ряда.
Одинаковые по размеру средние могут быть получены из рядов с различной степенью рассеяния. Средние — это величины, вокруг которых рассеяны различные варианты. Понятно, что чем ближе друг к другу отдельные варианты, (значит меньше рассеяние, колеблемость ряда), тем типичнее его средняя.
Примером могут служить две средние, полученные из следующих рядов (табл. 8), составленных на сроках длительности случаев утраты трудоспособности по поводу одного и того же заболевания (числа условные).
Таблица 8
Пример получения средней величины
Число дней V | d | d2 | Число дней V | d | d2 | |
6 | -1 | 1 | 1 | -6 | 36 | |
6 | -1 | 1 | 1 | -6 | 36 | |
7 | 0 | 0 | 5 | -2 | 4 | |
7 | 0 | 0 | 11 | +4 | 16 | |
9 | +2 | 4 | 17 | +10 | 100 | |
35 | 4 | 6 | 35 | 28 | 192 | |
дней | дней | |||||
Обе средние величины получены правильно (сумма величин, деленная на число наблюдений), но даже “невооруженному глазу” видно, что их ценность, значение, типичность далеко не одинаковы и что вторая средняя не может служить типичной характеристикой ряда, с его резкой колеблемостью.
Очевидно, следует прибегнуть к дополнительным мерам оценки, тем более, что не всегда можно видеть сам ряд распределения, потому что в литературных материалах авторы его не приводят, а пользуются только производными величинами.
Первоначальный, приближенный метод оценки — это сравнение амплитуды рядов. Амплитуда (разность между наибольшим и наименьшим значением вариант) в первом ряду составляет всего 3, во втором — 16 (т. е. его колеблемость втрое больше).
Амплитуда второго ряда более, чем вдвое превышает значение его средней величины М. Однако амплитуда ряда не учитывает промежуточные значения вариант внутри ряда; кроме того, ее размеры связаны не только с колеблемостью, но могут зависеть и от количества наблюдений. Более точно колеблемость ряда измеряется по отклонениям.
Отклонения, обозначаемые буквой d (от латинского слова deviatio), вычисляются как разность между каждой вариантой и средней величиной. Алгебраическая сумма положительных и отрицательных отклонений от средней всегда равна нулю, т. к. средняя нивелирует эти отклонения (в нашем примере +2 и –2; +14 и –14). Попробуем сложить абсолютные значения отклонений, игнорируя их знаки, и разделить на число наблюдений. Мы получаем так называемое среднее отклонение (иногда оно называется линейным или арифметическим отклонением). В первом ряду оно относительно невелико (0,8), во втором ряду (5,6) почти достигает размеров самой средней, что разумеется её обесценивает.
Однако пользование средним отклонением основано на игнорировании положительных и отрицательных знаков, на условном допущении. Поэтому основной, наиболее правильной мерой оценки колеблемости ряда является среднее квадратическое отклонение, при котором отклонения возводятся в квадрат, и, следовательно, все они получают положительные знаки. В таблице показано вычисление среднего квадратического, или стандартного, отклонения, обозначаемого греческой буквой (сигма). Среднее квадратическое отклонение вычисляется по формуле , где xi — значение величины, полученной в i-м измерении, — среднее значение, n — число измерений. Величина 2 является наилучшей (несмещенной) оценкой дисперсии распределения. Сигма первого ряда составила 1,1, сигма второго ряда — 6,2.
Значение возведения отклонений в квадрат двоякое: во-первых, оно уничтожает ошибку со знаком, во-вторых, уменьшает значение малых отклонений (меньших, чем единица) и увеличивает значение больших, т. е. делает более выпуклой и рельефной картину отклонений.
Ход вычисления средней арифметической и среднего квадратического в простом ряду показан в табл. 9.
Таблица 9
Вычисление средней арифметической и среднего квадратического отклонения в простом ряду (непосредственное вычисление)
V | p | Vp | d | dp | d2 | d2p |
58 | 1 | 58 | -4 | -4 | 16 | 16 |
59 | 3 | 177 | -3 | -9 | 9 | 27 |
60 | 2 | 120 | -2 | -4 | 4 | 8 |
61 | 7 | 427 | -1 | -7 | 1 | 7 |
62 | 10 | 620 | 0 | 0 | 0 | 0 |
63 | 6 | 378 | +1 | +6 | 1 | 6 |
64 | 4 | 256 | +2 | +8 | 4 | 16 |
65 | 2 | 130 | +3 | +6 | 9 | 18 |
66 | 1 | 66 | +4 | +4 | 16 | 16 |
N = 36 | =2232 | =114 |
;
Из табл. 9 видно, что в ряду, где частоты не равны единице, необходимо квадрат каждого отклонения перемножить на соответственную частоту (т. е. на те числа наблюдений, при которых наблюдалось это отклонение).
Таким образом, вычисление среднего квадратического отклонения производится путем проведения шести последовательных действий. Для вычисления сигмы необходимо:
· определить отклонения от средней;
· возвести отклонения в квадрат;
· перемножить квадраты отклонений на частоты;
· суммировать произведения квадратов отклонений на частоты;
· разделить эту сумму на число наблюдений;
· извлечь из частного квадратный корень.
Как видно из приведенных таблиц даже при незначительном числе наблюдений, , получение средней арифметической и среднего квадратического отклонения довольно громоздко и требует ряда подсчетов. Ещё больше усложняется работа при большом числе наблюдений.
На практике вычисление средних обычно производится с использованием ЭВМ.
Как уже упоминалось, сигма характеризует колеблемость ряда, степень рассеяния вокруг средней отдельных вариант. При помощи сигмы можно установить степень типичности средней, пределы рассеяния ряда, пределы колебаний вокруг средней отдельных вариант. Чем меньше сигма, тем меньше колеблемость ряда, и тем точнее и типичнее получается вычисленная на этом ряду средняя. Таким образом, при помощи сигмы мы изучаем колеблемость явления. Применение сигмы дает возможность оценки и сравнения колеблемости нескольких рядов распределения, как однотипных, так и различных, а также оценки изолированного единичного ряда и даже отдельных вариант.
При оценке однотипных рядов принимаются во внимание абсолютные размеры сигмы. Так, например, при сравнении двух рядов распределения по признаку веса, если средние будут близки по уровню, но сигма в одном ряду будет 5,6 и в другом 2,1, второй ряд будет менее рассеян, и его средняя более типична и достоверна.
При оценке колеблемости различных рядов (например, постоянства таких признаков, как вес и рост) непосредственное сравнение размеров сигмы невозможно, т. к. сигма — величина, именованная и выраженная абсолютным числом. При средней величине веса 62,6 с сигмой в 5,6 и средней величине роста 165 с сигмой 6,6 для установления степени относительной колеблемости рядов следует прибегнуть к производной величине, к коэффициенту изменчивости (вариации), обозначаемому буквой V или С. Коэффициент изменчивости получается из процентного отношения сигмы к средней:
.
Коэффициент изменчивости для веса в нашем примере будет:
.
Коэффициент изменчивости для роста — соответственно:
.
Эти цифры можно сравнить и сделать заключение, что в данном примере рост оказался вдвое более устойчивым признаком, чем вес.
Этот же метод вычисления коэффициента изменчивости пригоден и для суждения об однотипных рядах, у которых очень разнятся по размеру средние величины, и для оценки изолированного, единичного ряда. Но более полное суждение о степени рассеяния единичного ряда получается путем прибавления к средней одной, двух и трёх сигм.
В ряду с распределением, близким к нормальному, в пределах M 1, т. е. средней и одной сигмы (в сторону минуса и плюса), расположено 68,3% всех вариант. В пределах M 2 расположено 95,5% всех вариант. В пределах M 3 расположено 99,7 % всех вариант.
Амплитуду нормального ряда полагают равной трем сигмам в одну и другую сторону (правило трех сигм, см. рис. 3).
В заключении раздела о методах обработки вариационных рядов следует остановиться на формулах вычисления моды и медианы.
Медиана определяется по формуле:
, где
Хе — начало интервала, — сумма всех частот интервалов, предшествовавших медианному интервалу, а Ре — частота медианного интервала. Если мы обратимся к рис. 3, то увидим, что Хе составляет 18, интервал (i) составляет 6, полусумма числа наблюдений — 211, сумма предшествовавших частот — 184 и частота медианного интервала — 60.
Таким образом,
,
т. е.
18 + 2,7 = 20,7.
Мода вычисляется по следующей формуле:
, где
Хо — начало модального интервала, P1 — частота домодального интервала, P2 — частота модального и P3 — частота послемодального интервала. По данным того же ряда можно вычислить:
.
6. Выборочный метод и оценка достоверности относительных и средних величин (средние ошибки)
Как уже отмечалось, под выборочным методом в статистике понимается такой метод наблюдения, при котором для определения типичных черт какой-либо совокупности изучаются не все единицы этой совокупности, а лишь их часть. Как бы тщательно ни производилась выборка, какой бы репрезентативной ни была выборочная совокупность (отобранная часть наблюдений), она неизбежно будет отличаться от всей генеральной (общей, исчерпывающей) совокупности. Таким образом, полного тождества результатов достичь не удается, и неизбежно остается некоторая неточность. Однако в нашем распоряжении имеются методы установления степени различий числовых характеристик обеих совокупностей и пределов возможных колебаний показателей при данном числе наблюдений. Как будет видно из последующего, значительную роль играет число наблюдений: чем больше число наблюдений, тем точнее отображается генеральная совокупность и тем меньше ошибка.
Так называемые средние ошибки являются мерой точности и достоверности любых статистических величин. Теория выборочного метода, наряду с обеспечением репрезентативности, практически сводится к оценке расхождений между числовыми характеристиками генеральной и выборочной совокупности, т. е. к определению средних ошибок и так называемых доверительных границ или интервалов. Средняя ошибка позволяет установить тот интервал, в котором заключено действительное значение производной величины при данном числе наблюдений, т. е. средняя ошибка всегда является конкретной. На размеры средней ошибки влияет не только число наблюдений, но и степень колеблемости, изменчивости признаков. Чем изменчивее изучаемое явление, тем больше будет его ошибка.
Это видно из формулы, по которой определяется средняя ошибка средней величины, обозначаемая буквой m. Она вычисляется, по формуле: