Автор: Пользователь скрыл имя, 10 Апреля 2012 в 21:13, курсовая работа
Рассматривая влияние материального фактора на рождаемость, а также обоснованность ссылок на него как на мотив ограничения детности, прежде всего, обратимся к объективным данным. На момент опроса к моментам рождения первого или второго ребенка учитывались два показателя: среднемесячный заработок респондента и средний душевой доход (без налогов, включая все виды зарплат, пенсии, алименты и помощь родных).
Введение
Постановка задачи
Теоретическая часть
Исходные данные и их обработка
Выводы
Литература
Курсовая работа
по Теории вероятностей и математической статистике
на тему:
«Исследование корреляционной зависимости по
выборке»
Дубна, 2011
Оглавление
Введение 3
Постановка задачи 4
Теоретическая часть 5
Исходные данные и их обработка 7
Выводы 13
Литература 14
Введение
Рассматривая влияние материального фактора на рождаемость, а также обоснованность ссылок на него как на мотив ограничения детности, прежде всего, обратимся к объективным данным. На момент опроса к моментам рождения первого или второго ребенка учитывались два показателя: среднемесячный заработок респондента и средний душевой доход (без налогов, включая все виды зарплат, пенсии, алименты и помощь родных).
Среднемесячная зарплата –– показатель официальной статистики. Кроме того, для каждого человека она не только имеет определенное значение в совокупном доходе семьи, но и выступает как индикатор достижений личности, ее психологического комфорта. В обыденном сознании такие понятия, как «оклад», «зарплата», тесно связаны с представлениями о материальном благополучии семьи, в реальной жизни люди чаще оперируют ими, чем статистикой душевного дохода. Поэтому имеет смысл посмотреть, какова связь рождаемости и заработной платы.
На современном этапе молодые семьи не всегда начинают свою жизнь в хороших жилищных условиях. Также натянутость экономического становления некоторых семей оказывает отрицательное воздействие на рождаемость.
Постановка задачи
Даны выборки ,
— уровень рождаемости, — доход населения.
Задача состоит в изучении характера зависимости .
1)
Придумать интерпретацию
2)
Провести статистический
3) Найти ковариацию Cov(X,Y).
4) Найти коэффициент корреляции X и Y.
5)
Найти по выборке уравнение
линейной регрессии (Y как функцию
X) по методу наименьших
6)
Найти по выборке уравнение
параболической регрессии
7) Построить график, изображающий данные выборки и найденные функции регрессии.
8)
Проверить гипотезу о
9)
Проанализировать полученные
Теоретическая часть
Возникновение
теории вероятностей относится к
середине 17 в. и связано с именами
Гюйгенса, Паскаля, Ферма и Якова
Бернулли. В переписке Паскаля
и Ферма, вызванной задачами, связанными
с азартными играми и не укладывающимися
в рамки математики того времени,
выявлялись постепенно такие важные
понятия, как вероятность и
Теорией вероятностей называется математическая наука, изучающая закономерности в случайных явлениях. Случайным называется такое явление, которое при неоднократном воспроизведении одного и того же опыта (испытания, эксперимента) протекает каждый раз несколько по-иному. Т.е. явление или событие, которое при реализации некоторого комплекса условий может произойти, а может и не произойти.
В теории вероятностей под распределением понимают соответствие между возможными значениями случайной величины и их вероятностями, а в математической статистике — соответствие между наблюдаемыми вариантами и их частотами, или относительными частотами.
Статистическая
зависимость между двумя
Выборочное среднее – сумма произведений вариантов на их частоты, поделённая на объём выборки:
.
В нашем случае:
.
Выборочное
среднее – аналог математического
ожидания дискретной случайной величины:
Выборочная
дисперсия – среднее
.
Среднеквадратическое
отклонение – арифметическое значение
корня квадратного из дисперсии:
Ковариация
случайных величин Х и У вычисляется
по формуле:
Коэффициентом
корреляции двух случайных величин
называется отношение их ковариации
к произведению среднеквадратических
отклонений этих величин:
Если
то зависимость близка
к линейной.
Исходные данные и их обработка
Нам дана
выборка (объема n=20), пусть хi
– это доход населения, а yi– это
уровень рождаемости.
x | y |
23,6 | -69,1 |
23,7 | -70,7 |
23,4 | -70,1 |
33,5 | -96,1 |
37,3 | -112,7 |
34,7 | -102,7 |
34,1 | -100 |
28,9 | -90,4 |
25 | -77,1 |
29,90 | -88,8 |
31,6 | -98,6 |
37,4 | -116,3 |
30,7 | -90,4 |
38,3 | -117 |
25,4 | -77,4 |
35,9 | -110,8 |
32,4 | -98,7 |
36,5 | -106,8 |
30,5 | -91,9 |
26,5 | -82,1 |
1 задание.
Используя данную
выборку из 20 случайных величин
рассмотрим зависимость уровня рождаемости
от уровня доходов населения.
2 задание.
Посчитаем выборочную
среднюю для Х и У:
В нашем случае, .
Xв=30,9650
Теперь
считаем Дисперсию
для Х и У:
Dв(X) = 25,23292105 Dв(Y) = 235,1634474
Найдем среднеквадратические
отклонения для Х и
У:
5,023238104
3 задание.
Найдем ковариацию
Cov (X,Y):
Cov (X,Y)= -72,2705
4 задание.
Найдем коэффициент
корреляции X и Y:
r (X,Y)=
5 задание.
Найдем по выборке уравнение
линейной регрессии (Y как функцию
X) по методу наименьших
Линейная регрессия. Регрессия называется линейной, так как предполагается, что между X и Y существует линейная зависимость, то есть . Нужно провести эту прямую между экспериментальными точками оптимально. Введем некоторую величину –– отклонение. Каждому x соответствуют два значения y. Пусть –– экспериментальные точки, а –– точки, соответствующие значениям на прямой . Тогда пусть –– расстояния между этими точками. Отрезки –– отклонения экспериментальных точек от теоретических. Отклонения разного знака, поэтому, чтобы полнее охарактеризовать суммарное отклонение, сложим их, возведя каждое в квадрат. Получим некоторую величину :
.
Очевидно, что линия регрессии будет оптимальной, если –– суммарное отклонение в квадрате –– минимальна. Для того, чтобы приняла минимальное значение, необходимо и достаточно, чтобы частные производные по и были равны нулю, т.е.
Решая систему, получим:
Решая систему, получим значения для a и b:
Пользуясь этими формулами мы сможем легко посчитать a, b и построить график линейной регрессии. В нашем случае a= -3,014878224, b= -0,02929579, т. е. искомое уравнение линейной регрессии имеет вид y = -3,014878224x + (-0,02929579).
6 задание.
Найдем
по выборке уравнение
Параболическая регрессия. Линейные связи являются основными, но нередко встречаются и нелинейные связи, хорошо описываемые параболой, гиперболой и т. д.
Уравнение регрессии в форме параболы второго порядка имеет вид: . Суммарное отклонение зависит от коэффициентов , и этой функции. Как и в предыдущем исследовании, нам необходимо провести оптимальную кривую, т. е. найти минимум функции .
Известно, что минимум достигается в точках, где частные производные равны нулю. В нашем случае имеем:
Решая систему, получаем p= -0,009111099; q= -2,45807939; r = -8,316160284; следовательно, искомое уравнение параболической регрессии имеет вид:
y=-0,009111099x2
-2,45807939x -8,316160284.
7 задание.
Строим с помощью Wolframe Mathematika график, изображающий данные выборки и найденные функции регрессии:
y = -3,014878224x + (-0,02929579) и y=-0,009111099x2
-2,45807939x -8,316160284
8 задание.
Выборочный коэффициент корреляции является оценкой коэффициента корреляции генеральной совокупности. Допустим, что выборочный коэффициент оказался отличным от нуля. Так как выборка отобрана случайно, то еще нельзя заключить, что коэффициент корреляции генеральной совокупности также отличен от 0. В конечном счёте, нас интересует именно этот коэффициент, поэтому возникает необходимость проверить гипотезу о значимости выборочного коэффициента корреляции, то есть о равенстве нулю коэффициента корреляции генеральной совокупности.
Информация о работе Исследование корреляционной зависимости по выборке