Основные понятия и методы математической статистики

Автор: Пользователь скрыл имя, 27 Января 2011 в 12:58, контрольная работа

Описание работы

1. Из истории математической статистики
2. Основные определения, формулы и теоремы математической статистики
3. Примеры задач по математической статистике
4. Применение математической статистики

Работа содержит 1 файл

Математическая статистика.doc

— 154.50 Кб (Скачать)

     Основные  понятия и методы математической статистики 

1. Из истории математической  статистики 

     Издавна в каждом государстве соответствующими органами власти собирались сведения о числе жителей по полу, возрасту, занятости в различных сферах труда, наличии различных воинов, вооружения, денежных средств, орудий труда, средств производства и т.д. Все эти и подобные им данные называются статистическими. С развитием государства и международных отношений возникла необходимость анализа статистических данных, их прогнозирование, обработка, оценка достоверности основанных на их анализе выводов и т.п. К решению таких задач стали привлекаться математики. Таким образом, в математике сформировалась новая область — математическая статистика, изучающая общие закономерности статистических данных или явлений и взаимосвязи между ними.

     Математическая  статистика как наука начинается с работ знаменитого немецкого  математика Карла Фридриха Гаусса (1777-1855), который на основе теории вероятностей исследовал и обосновал метод  наименьших квадратов, созданный им в 1795 г. и примененный для обработки астрономических данных (с целью уточнения орбиты малой планеты Церера). Его именем часто называют одно из наиболее популярных распределений вероятностей – нормальное, а в теории случайных процессов основной объект изучения – гауссовские процессы.

     В конце XIX в. – начале ХХ в. крупный  вклад в математическую статистику внесли английские исследователи, прежде всего К.Пирсон (1857-1936) и Р.А.Фишер (1890-1962). Пирсон разработал критерий «хи-квадрат» проверки статистических гипотез, а Фишер – дисперсионный анализ, теорию планирования эксперимента, метод максимального правдоподобия оценки параметров.

     В 30-е годы ХХ в. поляк Ежи Нейман (1894-1977) и англичанин Э.Пирсон развили  общую теорию проверки статистических гипотез, а советские математики академик А.Н. Колмогоров (1903-1987) и член-корреспондент АН СССР Н.В.Смирнов (1900-1966) заложили основы непараметрической статистики. В сороковые годы ХХ в. румын А. Вальд (1902-1950) построил теорию последовательного статистического анализа.

     Математическая  статистика бурно развивается и  в настоящее время. За последние 40 лет можно выделить четыре принципиально  новых направления исследований:

     - разработка и внедрение математических  методов планирования экспериментов;

     - развитие статистики объектов  нечисловой природы как самостоятельного  направления в прикладной математической  статистике;

     - развитие статистических методов,  устойчивых по отношению к  малым отклонениям от используемой  вероятностной модели;

     - широкое развертывание работ по созданию компьютерных пакетов программ, предназначенных для проведения статистического анализа данных. 

2. Основные определения, формулы и теоремы математической статистики 

     Математическая  статистика – раздел математики, посвященный математическим методам систематизации, обработки и использования статистических данных для научных и практических выводов. При этом статистическими данными называют сведения о числе объектов в какой-либо более или менее обширной совокупности, обладающих теми или иными признаками.

     Математическая  статистика занимается установлением  закономерностей, которым подчинены  массовые случайные явления, на основе обработки статистических данных, полученных в результате наблюдений. Двумя основными  задачами математической статистики являются:

     - определение способов сбора и  группировки этих статистических  данных;

     - разработка методов анализа полученных  данных в зависимости от целей  исследования, к которым относятся:

     а) оценка неизвестной вероятности  события; оценка неизвестной функции распределения; оценка параметров распределения, вид которого известен; оценка зависимости от других случайных величин и т.д.;

     б) проверка статистических гипотез о  виде неизвестного распределения или  о значениях параметров известного распределения.

     Для решения этих задач необходимо выбрать  из большой совокупности однородных объектов ограниченное количество объектов, по результатам изучения которых  можно сделать прогноз относительно исследуемого признака этих объектов.

     Предмет и методы математической статистики

     В зависимости от математической природы  конкретных результатов наблюдений статистика математическая делится  на статистику чисел, многомерный статистический анализ, анализ функций (процессов) и  временных рядов, статистику объектов нечисловой природы. Выделяют так же описательную статистику, теорию оценивания и теорию проверки гипотез. Описательная статистика есть совокупность эмпирических методов, используемых для визуализации и интерпретации данных (расчет выборочных характеристик, таблицы, диаграммы, графики и т. д.), как правило, не требующих предположений о вероятностной природе данных. Некоторые методы описательной статистики предполагают использование возможностей современных компьютеров. К ним относятся, в частности, кластерный анализ, нацеленный на выделение групп объектов, похожих друг на друга, и многомерное шкалирование, позволяющее наглядно представить объекты на плоскости.

     Методы  оценивания и проверки гипотез опираются  на вероятностные модели происхождения  данных. Эти модели делятся на параметрические и непараметрические. В параметрических моделях предполагается, что характеристики изучаемых объектов описываются посредством распределений, зависящих от (одного или нескольких) числовых параметров. Непараметрические модели не связаны со спецификацией параметрического семейства для распределения изучаемых характеристик. В математической статистике оценивают параметры и функции от них, представляющие важные характеристики распределений (например, математическое ожидание, стандартное отклонение, и др.), плотности и функции распределения и пр. Используют точечные и интервальные оценки.

     В математической статистике есть общая  теория проверки гипотез и большое  число методов, посвящённых проверке конкретных гипотез. Рассматривают  гипотезы о значениях параметров и характеристик, о проверке однородности (то есть о совпадении характеристик или функций распределения в двух выборках), о согласии эмпирической функции распределения с заданной функцией распределения или с параметрическим семейством таких функций, о симметрии распределения и др.

     Большое значение имеет раздел математической статистики, связанный с проведением  выборочных обследований, со свойствами различных схем организации выборок и построением методов оценивания и проверки гипотез.

     Задачи восстановления зависимостей активно изучаются более 200 лет, с момента разработки К. Гауссом в 1794 г. метода наименьших квадратов.

     Различные методы построения (кластер-анализ), анализа  и использования классификаций (типологий) именуют также методами распознавания образов (с учителем и без), автоматической классификации и др.

     В настоящее время компьютеры играют большую роль в математической статистике. Они используются как для расчётов, так и для имитационного моделирования (в частности, в методах размножения выборок и при изучении пригодности асимптотических результатов).

     Определим основные понятия (определения), формулы и теоремы математической статистики.

     Генеральная совокупность – все множество имеющихся объектов.

     Выборка – набор объектов, случайно отобранных из генеральной совокупности.

     Объем генеральной совокупности N и объем выборки n – число объектов в рассматриваемой генеральной совокупности.

     Выборки бывают повторными и бесповторными. Выборка называется повторной, если каждый отобранный объект перед выбором следующего возвращается в генеральную совокупность, и выборка называется бесповторной, если отобранный объект в генеральную совокупность не возвращается. На практике обычно пользуются бесповторным случайным отбором.

     Отбор делят на два вида:

  1. Отбор, не требующий деления генеральной совокупности на части (простой, случайный, повторный);
  2. Отбор, требующий деление генеральной совокупности на части (бесповторный).

         Пусть интересующая нас случайная величина Х принимает в выборке значение х1 n1 раз, х2 – n2 раз, …, хк – nк раз, причем , где n – объем выборки. Тогда наблюдаемые значения случайных величин х1, х2,…, хк  называют вариантами, а n1, n2,…, nкчастотами. Если разделить каждую частоту на объем выборки, то получим относительные частоты . Последовательность вариант, записанных в порядке возрастания, называют вариационным рядом, а перечень вариант и соответствующих им частот или относительных частот – статистическим рядом:

xi x1 x2 ... xk
ni n1 n2 ... nk
wi w1 w2 ... wk
 

         Если  исследуется некоторый непрерывный  признак, то вариационный ряд может  состоять из очень большого количества чисел. В этом случае удобнее использовать группированную выборку. Для ее получения интервал, в котором заключены все наблюдаемые значения признака, разбивают на несколько равных частичных интервалов длиной h, а затем находят для каждого частичного интервала ni - сумму частот вариант, попавших в i-й интервал. Составленная по этим результатам таблица называется группированным статистическим рядом.

         Для наглядного представления поведения  исследуемой случайной величины в выборке в математической статистике строят различные графики. Ломаная, отрезки которой соединяют точки  с координатами (x1, n1), (x2, n2),…, (xk, nk), где xi откладываются на оси абсцисс, а ni– на оси ординат, называется полигоном частот. Если на оси ординат откладывать не абсолютные (ni), а относительные (wi) частоты, то получим полигон относительных частот (рис.1).

         

         Рис.1

     Выборочной (эмпирической) функцией распределения называют функцию F*(x), определяющую для каждого значения х относительную частоту события X < x.

     

,

     где nх – число вариант, меньших х, n – объем выборки.

     Из  определения эмпирической функции  распределения вытекают следующие свойства:

     1)      0 ≤ F*(x) ≤ 1 – график расположен в верхней полуплоскости и ограничен линиями х = 0 и х = 1.

     2)      F*(x) – неубывающая функция.

     3)      Если х1 – наименьшая варианта, то F*(x) = 0 при х≤ х1; если хк – наибольшая варианта, то  F*(x)  = 1 при х > хк .

     Для непрерывного признака графической иллюстрацией служит гистограмма, то есть ступенчатая фигура, состоящая из прямоугольников, основаниями которых служат частичные интервалы длиной h, а высотами – отрезки длиной ni /h (гистограмма частот) или wi /h (гистограмма относительных частот).

     Гистограммой  частот статистического распределения выборки называют ступенчатую фигуру, состоящую из прямоугольников, основания которых равны длине частичного интервала h, а высоты равны ni/h. Площадь гистограммы частот равна объему выборки.

     Гистограммой  относительных частот называется ступенчатая  фигура, состоящая из прямоугольников, основания которых равны длине  частичного интервала h, а высоты равны hi/(n*h). Площадь гистограммы относительных частот равна единице (рис.2).

     

     Рис.2

     Эмпирические функции статистического распределения используются для оценки интегральной функции распределения, так как относительная частота сходится по вероятности K вероятности события – следствие из теоремы Чебышева.

     

     Теорема Бернулли:

     Если  произведение n – независимых испытаний в каждом из которых событие может наступить с вероятностью p и не наступить с вероятностью q = 1-p, то при достаточно большом числе испытаний и E > 0, выполнится условие:

     

Lim P(
) = 1.

     Рассмотрим  определения, необходимые при решении  задач по математической статистике:

Информация о работе Основные понятия и методы математической статистики