Контрольная работа по «Статистический анализ нечисловой информации»

Автор: Пользователь скрыл имя, 10 Марта 2013 в 10:59, контрольная работа

Описание работы

Задание 1. Построить все возможные двухфакторные таблицы сопряженности и провести предварительную обработку результатов анкетирования;
Задание 2. Для всех пар признаков проверить гипотезу об отсутствии связи между ними;
Задание 3. Провести точечное и интервальное оценивание коэффициентов парной связи между признаками. Сделать вывод о тесноте и направлении связи;
Задание 4. С помощью логлинейного анализа исследовать структуру взаимосвязей между тремя дихотомическими признаками:

Содержание

1. Построение и предварительный анализ выборочных таблиц сопряженности………………………………………………………………….....4
2. Проверка гипотезы о независимости признаков и характеристика связи………………………………………………………………………………..7
2.1. Анализ и исследование связи в таблицах сопряженности 2×2……………7
2.2. Анализ и исследование связи в таблицах сопряженности r×s…………...11
3. Анализ 3-х факторной таблицы сопряженности…………………………..24
3.1. Построение и анализ насыщенной логлинейной модели...………………24
3.2. Построение и анализ ненасыщенных и иерархических логлинейных моделей…………………………………………………………………………...27

Работа содержит 1 файл

САНИ отчет.doc

— 2.10 Мб (Скачать)

 

Исследование  связи между признаками х и  у

Проверка гипотезы о независимости  признаков х и у.

 

Для решения этой связи формируются  следующие гипотезы:

H0: pij = pi* * p*j , i=1;2. j=1;2  (признаки х и у независимы, т.е. связь отсутствует)

H1: ij: pij = pi* * p*j , i=1;2. j=1;2  (между признаками существует значимая связь)

Так как объем выборки n больше 30, то для проверки гипотезы H0 используется Критерий максимального правдоподобия . Статистика критерия имеет вид: .

Статистика критерия при справедливости H0 распределяется по закону V = (r-1)(s-1)=4

 

Рассчитаем теоретические  частоты 

=

=

=

 =

Рассчитаем критерий максимального правдоподобия статистики

= + +…+ =0,991

 

Пусть уравнение значимости =0,05

По таблице 100 %-ых точек распределения Х2 находится значение статистики

Вывод: Так как (9,5>0,991), то гипотеза H0 подтверждается, а следовательно, между признаками х и у не существует значимой связи, то есть возраст человека не влияет на его отношение к курению.

 

Проверка всех вычислений проводилась  в компьютерной программе STATICTICA 8. Результаты проверки представлены в Приложении В.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3. Анализ 3-х  факторных таблиц сопряженности.

 

3.1. Построение и анализ насыщенной логлинейной модели.

В результате опроса респондентов по признаками х – Ваш пол (х1 – мужской, х2 – женский), у – Курите ли Вы? ( у1 – да, у2 – нет) и z – Считаете ли Вы, что курение вредит здоровью? (z1 – да, z2 - нет) составлена следующая таблица сопряженности:

Ваш пол (х)

Курите ли Вы?

(у)

Вредит ли курение здоровью? (z)

да (z1)

нет (z2)

мужской (х1)

да (у1)

4

2

нет (у2)

9

1

женский (х2)

да (у1)

7

3

нет (у2)

23

1


 

Для удобства составим таблицы частот для х,у и z и двухфакторные таблицы для ху, хz и уz:

хi

х1

х2

ni**

16

34


уj

у1

у2

n*j*

16

34




zk

z1

z2

n**k

43

7




 

 

 

 

 

z1

z2

х1

13

3

х2

30

4




 

 

 

у1

у2

х1

6

10

х2

10

24


 

z1

z2

у1

11

5

у2

32

2




 

 

 

 

 

 

 

 

 

 Рассмотрим насыщенную логлинейную модель:

, где

i=1,2

j=1,2

k=1,2

Для насыщенной модели , ν=0, число независимых параметров равно 8. Эта модель всегда адекватна выборочным данным. В ней .

Рассчитаем выборочные значения независимых параметров насыщенной модели:

(1,37+2,2+1,95+3,14+0,69+0+1,1+0)=1,3

-0,24

 

-0,026

0,86

-0,0034

-0,14

-0,474

0,098

Рассчитаем нормированные значения параметров. Для этого вычислим значение дисперсии параметров .

=0,05275

Тогда =0,23

=5,65

норм= =-1,04

норм= =-0,113

норм= =3,74

норм= =-0,6

норм= =-0,015

норм= =-2,06

норм= =0,426

В интервал (-1,96; 1,96) попадают норм, норм, норм, норм  и норм. Так как они принадлежат этому интервалу, то на уровне значимости α=0,05 параметры норм, норм, норм, норм  и норм, скорее всего, незначимы.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3.2. Построение  и анализ ненасыщенных и иерархических логлинейных моделей.

Результаты проверки адекватности всех возможных ненасыщенных моделей приведены в таблице – Ненасыщенные иерархические логлинейные модели для таблиц сопряженности 2*2*2:

№ п/п

Обозначение модели

Формулировка нулевой гипотезы

Расчет теоретических частот

Число степеней свободы

Наблюдаемое значение статистики Х2мп

Наблюдаемый уровень значимости р

Вывод: адекватна или неадекватна  модель

1

AB/AC/BC

Находят из соотношения:

1

0,32927

0,56609

Н0 принимается; модель адекватна

2

AB/AC

2

5,7753

0,05571

Н0 принимается; модель адекватна

3

AB/BC

2

0,59226

0,74369

Н0 принимается; модель адекватна

4

AC/BC

2

0,68836

0,70880

Н0 принимается; модель адекватна

5

AB/C

3

6,3547

0,09557

Н0 принимается; модель адекватна

6

AC/B

3

6,4508

0,09162

Н0 принимается; модель адекватна

7

BC/A

3

1,2678

0,73680

Н0 принимается; модель адекватна

8

A/B/C

4

7,0302

0,13430

Н0 принимается; модель адекватна

9

AB

4

32,554

0

Н0 отвергается; модель неадекватна

10

AC

4

14,038

0,00718

Н0 отвергается; модель неадекватна

11

BC

4

7,3841

0,11693

Н0 принимается; модель адекватна

12

A/B

5

33,229

0

Н0 отвергается; модель неадекватна

13

A/C

5

14,617

0,01213

Н0 отвергается; модель неадекватна

14

B/C

5

13,147

0,02204

Н0 отвергается; модель неадекватна

15

B

6

39,346

0

Н0 отвергается; модель неадекватна

16

C

6

20,733

0,00205

Н0 отвергается; модель неадекватна

17

A

6

40,816

0

Н0 отвергается; модель неадекватна

18

Равнове-роятная модель

7

     



Анализируя таблицу, получаем, что  адекватной ненасыщенной логлинейной  моделью, содержащей наименьшее число  параметров (наибольшее число степеней свободы) является модель ВС: .

Рассчитаем теоретические частоты  получившейся модели:

                 

                  

                     

                 

Рассчитаем выборочные значения независимых  параметров модели:

Рассчитаем критерий :

=8

.

Так как  > , то гипотеза Н0 подтверждается.

Интерпретация параметров модели:

1) так как гипотеза  подтвердилась, следовательно,  между такими признаками  как «Ваш пол», «Курите ли Вы?» и «Вредит ли курение здоровью?» не существует значимой связи;

2) так как       >0, то количество людей, ответивших утвердительно на вопрос «Вредит ли курение здоровью?», больше количества людей, ответивших отрицательно в               =0,34 раза;

3) так как       <0, то курящих людей меньше, чем некурящих в             =1,85 раз;

4) так как        <0, то связь между признаками «Курите ли Вы?» и «Вредит ли курение здоровью?» отрицательная, то есть, если человек считает курение вредным для здоровья, то, скорее всего, он не курит.

 

Заключение

Цель данной исследовательской работы на тему: «Ваше отношение к курению» была достигнута. Исследование влияния половозрастных характеристик респондентов и их отношения к курению проведено.

При решении задач  были построены таблицы сопряженности, проверены гипотезы о независимости  двух признаков и проведен анализ многофакторных таблиц сопряженности.

Для данной работы было опрошено 50 респондентов, из которых 32% составили мужчины, 68% - женщины. Было выяснено, что из опрошенных 12% курят и 26% считают курение вредным для здоровья. Из опрошенных женщин 18% курят и 8% положительно относятся к курению. Было обнаружено, что 64% из всех респондентов отрицательно относятся к курению, 6%  - в возрасте до 25 лет положительны в своем мнении о курении, 86% считают курение очень вредной привычкой. В целом, это неплохие показатели, которые говорят о том, что жители города Оренбурга еще более или менее следят за своим здоровьем, не злоупотребляя курением.

При исследовании было выяснено, что связь отсутствует между  следующими признаками: X – «Ваш пол» и Y – «Курите ли Вы?»; X – «Ваш пол» и Y – «Как Вы относитесь к курению?»; X – «Ваш пол» и Y – «Ваш возраст»; X – «Ваш возраст» и Y – «Курите ли Вы?»; X – «Ваш возраст» и Y – «Как Вы относитесь к курению?»; X – «Ваш пол» и Y – «Вредит ли курение здоровью?»; X – «Ваш возраст» и Y – «Вредит ли курение здоровью?».

А между признаками X – «Курите ли Вы?» и Y – «Как Вы относитесь к курению?»  доказано наличие значимой связи. По значениям коэффициентов можно сделать вывод, что связь заметная. Это говорит о том что, изменение значения признака Х обусловлено влиянием признака Y на (0,52)2*100%=27%, а на 73% - зависит от влияния других факторов.

Также существует связь между признаками X – «Курите ли Вы?» и Y – «Вредит ли курение здоровью?» умеренной силы. По большинству коэффициентов связи можно сделать вывод, что связь заметная, то есть если человек считает, что курение вредит здоровью, то, скорее всего, он не курит.

Еще связь существует между признаками X – «Как Вы относитесь к курению?» и Y – «Вредит ли курение здоровью?», но она очень слабая.

В результате логлинейного анализа получен вывод о том, что между признаками Х – «Ваш пол», Y – «Курите ли Вы?» и Z – «Вредит ли курение здоровью?» существует умеренная связь.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Приложение  А

Анкета «Ваше отношение к курению»

1. Ваш пол:

а) мужской

б) женский

2. Ваш возраст:

а) до 25 лет

б) 25-40 лет

в) после 40 лет

3. Курите ли Вы?

а) да

б) нет

4. Как Вы относитесь к курению?

а) положительно

б) отрицательно

в) безразлично

5. Считаете ли Вы, что  курение вредит здоровью?

а) да

б) нет

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Приложение  Б

Кол-во человек

1 вопрос

2 вопрос

3 вопрос

4 вопрос

5 вопрос

1

б

а

б

б

а

2

б

а

б

б

а

3

б

в

б

б

а

4

б

а

а

а

б

5

б

а

б

б

а

6

а

б

а

б

а

7

б

а

а

а

б

8

б

а

а

а

а

9

б

б

а

б

а

10

б

б

а

в

а

11

а

в

б

б

а

12

а

б

б

б

а

13

б

а

б

в

а

14

б

а

б

б

а

15

б

б

б

б

а

16

б

а

б

б

а

17

а

в

а

а

б

18

а

в

а

б

а

19

а

а

б

б

а

20

а

а

а

в

а

21

б

б

б

б

а

22

а

а

б

б

а

23

б

б

б

б

а

24

б

в

б

б

а

25

б

а

б

б

а

26

б

в

а

в

а

27

б

а

б

б

а

28

а

а

б

б

а

29

б

в

б

б

а

30

б

б

б

в

б

31

б

а

б

б

а

32

а

а

а

б

б

33

а

а

б

б

а

34

а

б

б

б

а

35

б

в

а

б

а

36

а

а

б

б

а

37

б

б

б

в

а

38

б

б

б

б

а

39

б

б

а

б

б

40

б

а

б

б

а

41

а

в

б

б

б

42

б

б

б

б

а

43

а

б

б

б

а

44

б

б

б

б

а

45

б

а

б

б

а

46

б

в

б

б

а

47

б

а

б

б

а

48

б

в

б

б

а

49

а

а

а

в

а

50

б

б

а

а

а

Информация о работе Контрольная работа по «Статистический анализ нечисловой информации»