Исследование корреляционной зависимости по выборке

Автор: Пользователь скрыл имя, 10 Апреля 2012 в 21:13, курсовая работа

Описание работы

Рассматривая влияние материального фактора на рождаемость, а также обоснованность ссылок на него как на мотив ограничения детности, прежде всего, обратимся к объективным данным. На момент опроса к моментам рождения первого или второго ребенка учитывались два показателя: среднемесячный заработок респондента и средний душевой доход (без налогов, включая все виды зарплат, пенсии, алименты и помощь родных).

Содержание

Введение
Постановка задачи
Теоретическая часть
Исходные данные и их обработка
Выводы
Литература

Работа содержит 1 файл

Курсовая ТВМС 1.docx

— 95.92 Кб (Скачать)
 
 
 
 
 
 
 
 
 
 
 

Курсовая  работа

по  Теории вероятностей и математической статистике

на  тему:

«Исследование корреляционной зависимости по

выборке» 
 
 
 
 
 
 
 
 
 
 
 

Дубна, 2011

 

Оглавление

Введение 3

Постановка  задачи 4

Теоретическая часть 5

Исходные  данные и их обработка 7

Выводы 13

Литература 14 

 

Введение

    Рассматривая  влияние материального фактора  на рождаемость, а также обоснованность ссылок на него как на мотив ограничения  детности, прежде всего, обратимся к объективным данным. На момент опроса к моментам рождения первого или второго ребенка учитывались два показателя: среднемесячный заработок респондента и средний душевой доход (без налогов, включая все виды зарплат, пенсии, алименты и помощь родных).

      Среднемесячная зарплата –– показатель официальной статистики. Кроме того, для каждого человека она не только имеет определенное значение в совокупном доходе семьи, но и выступает как индикатор достижений личности, ее психологического комфорта. В обыденном сознании такие понятия, как «оклад», «зарплата», тесно связаны с представлениями о материальном благополучии семьи, в реальной жизни люди чаще оперируют ими, чем статистикой душевного дохода. Поэтому имеет смысл посмотреть, какова связь рождаемости и заработной платы.

    На  современном этапе молодые семьи не всегда начинают свою жизнь в хороших жилищных условиях. Также натянутость экономического становления некоторых семей оказывает отрицательное воздействие на рождаемость.

 

Постановка  задачи

      Даны  выборки  ,

       — уровень рождаемости, — доход населения.

      Задача  состоит в изучении характера  зависимости  .

    1) Придумать интерпретацию числовых  данных желательно в рамках  вашей специальности.

    2) Провести статистический анализ  данных для переменных X и Y. Найти  выборочные средние, дисперсии  и среднеквадратические отклонения  для X и Y по отдельности.

    3) Найти ковариацию Cov(X,Y).

    4) Найти коэффициент корреляции X и  Y.

    5) Найти по выборке уравнение  линейной регрессии (Y как функцию  X) по методу наименьших квадратов.

    6) Найти по выборке уравнение  параболической регрессии второго  порядка (Y как функцию X) по  методу наименьших квадратов.

    7) Построить график, изображающий данные выборки и найденные функции регрессии.

    8) Проверить гипотезу о значимости  выборочного коэффициента корреляции  при заданном уровне значимости  альфа = 0.001.

    9) Проанализировать полученные результаты  и сделать выводы. 

 

Теоретическая часть

    Возникновение теории вероятностей относится к  середине 17 в. и связано с именами  Гюйгенса, Паскаля, Ферма и Якова  Бернулли. В переписке Паскаля  и Ферма, вызванной задачами, связанными с азартными играми и не укладывающимися  в рамки математики того времени, выявлялись постепенно такие важные понятия, как вероятность и математическое ожидание. При этом, конечно, нужно  отдавать себе ясный отчет, что выдающиеся ученые, занимаясь задачами азартных игр, предвидели и фундаментальную  роль науки, изучающей случайные  явления. Они были уверены в том, что на базе случайных массовых событий  могут возникать четкие закономерности.

    Теорией вероятностей называется математическая наука, изучающая закономерности в случайных явлениях. Случайным называется такое явление, которое при неоднократном воспроизведении одного и того же опыта (испытания, эксперимента) протекает каждый раз несколько по-иному. Т.е. явление или событие, которое при реализации некоторого комплекса условий может произойти, а может и не произойти.

    В теории вероятностей под распределением понимают соответствие между возможными значениями случайной величины и их вероятностями, а в математической статистике — соответствие между наблюдаемыми вариантами и их частотами, или относительными частотами.

    Статистическая  зависимость между двумя переменными, при которой каждому значению одной переменной соответствует  определённое среднее значение, то есть условное математическое ожидание другой, называется  корреляционной. Иначе, корреляционной зависимостью между  двумя переменными величинами называется функциональная зависимость между  значениями одной из них и условным математическим ожиданием другой. Основной задачей корреляционного анализа является выявление связи между случайными переменными.

    Выборочное  среднее – сумма произведений вариантов на их частоты, поделённая на объём выборки:

.

В нашем  случае:

.

Выборочное  среднее – аналог математического  ожидания дискретной случайной величины: 

Выборочная  дисперсия – среднее арифметическое квадратов отклонений от  по выборке:

.

Среднеквадратическое отклонение – арифметическое значение корня квадратного из дисперсии: 

Ковариация  случайных величин Х и У вычисляется по формуле: 
 

Коэффициентом корреляции двух случайных величин  называется отношение их ковариации  к произведению среднеквадратических отклонений этих величин: 

Если  то зависимость близка к линейной. 
 
 

 

Исходные  данные и их обработка

Нам дана выборка  (объема n=20), пусть хi – это доход населения, а yi– это уровень рождаемости.  

x y
23,6 -69,1
23,7 -70,7
23,4 -70,1
33,5 -96,1
37,3 -112,7
34,7 -102,7
34,1 -100
28,9 -90,4
25 -77,1
29,90 -88,8
31,6 -98,6
37,4 -116,3
30,7 -90,4
38,3 -117
25,4 -77,4
35,9 -110,8
32,4 -98,7
36,5 -106,8
30,5 -91,9
26,5 -82,1

 

1 задание.

Используя данную выборку из 20 случайных величин  рассмотрим зависимость уровня рождаемости от уровня доходов населения. 

2 задание.

Посчитаем выборочную среднюю для Х и  У: 

В нашем  случае, .

             Xв=30,9650                          Yв=-93,3850 

 

Теперь  считаем Дисперсию для Х и У: 

                             Dв(X) = 25,23292105                  Dв(Y) = 235,1634474

Найдем среднеквадратические отклонения для Х и У: 

                                                  

                      5,023238104                      15,33503986  

3 задание.

Найдем ковариацию Cov (X,Y): 
 
 

Cov (X,Y)= -72,2705

4 задание.

Найдем коэффициент  корреляции X и Y: 

r (X,Y)=

 

 

5 задание.

      Найдем по выборке уравнение  линейной регрессии (Y как функцию  X) по методу наименьших квадратов.

    Линейная  регрессия. Регрессия называется линейной, так как предполагается, что между X и Y существует линейная зависимость, то есть . Нужно провести эту прямую между экспериментальными точками оптимально. Введем некоторую величину –– отклонение. Каждому x соответствуют два значения y. Пусть –– экспериментальные точки, а –– точки, соответствующие значениям на прямой . Тогда пусть –– расстояния между этими точками. Отрезки –– отклонения экспериментальных точек от теоретических. Отклонения разного знака, поэтому, чтобы полнее охарактеризовать суммарное отклонение, сложим их, возведя каждое в квадрат. Получим некоторую величину :

.

    Очевидно, что линия регрессии будет  оптимальной, если –– суммарное отклонение в квадрате –– минимальна. Для того, чтобы приняла минимальное значение, необходимо и достаточно, чтобы частные производные по и были равны нулю, т.е.

     

     Решая систему, получим:

     

     Решая систему, получим значения для  a и b:

     

Пользуясь этими формулами мы сможем легко  посчитать a, b и построить график линейной регрессии. В нашем случае a= -3,014878224, b= -0,02929579, т. е. искомое уравнение линейной регрессии имеет вид y = -3,014878224x + (-0,02929579).

 

6 задание.

    Найдем  по выборке уравнение параболической регрессии второго порядка (Y как  функцию X) по методу наименьших квадратов.

    Параболическая регрессия. Линейные связи являются основными, но нередко встречаются и нелинейные связи, хорошо описываемые параболой, гиперболой и т. д.

    Уравнение регрессии в форме параболы второго  порядка имеет вид: . Суммарное отклонение зависит от коэффициентов , и этой функции. Как и в предыдущем исследовании, нам необходимо провести оптимальную кривую, т. е. найти минимум функции .

    Известно, что минимум достигается в  точках, где частные производные  равны нулю. В нашем случае имеем:

     

     

    

    Решая систему, получаем p= -0,009111099; q= -2,45807939; r = -8,316160284; следовательно, искомое уравнение параболической регрессии имеет вид:

    y=-0,009111099x2 -2,45807939x -8,316160284. 

 

     7 задание.

     Строим  с помощью Wolframe Mathematika график, изображающий данные выборки и найденные функции регрессии:

      y = -3,014878224x + (-0,02929579) и y=-0,009111099x2 -2,45807939x -8,316160284 

 

8 задание.

    Выборочный  коэффициент корреляции является оценкой коэффициента корреляции генеральной совокупности. Допустим, что выборочный коэффициент оказался отличным от нуля. Так как выборка отобрана случайно, то еще нельзя заключить, что коэффициент корреляции генеральной совокупности также отличен от 0. В конечном счёте, нас интересует именно этот коэффициент, поэтому возникает необходимость проверить гипотезу о значимости выборочного коэффициента корреляции, то есть  о равенстве нулю коэффициента корреляции генеральной совокупности.

Информация о работе Исследование корреляционной зависимости по выборке