Контрольная работа по «Статистический анализ нечисловой информации»

Автор: Пользователь скрыл имя, 10 Марта 2013 в 10:59, контрольная работа

Описание работы

Задание 1. Построить все возможные двухфакторные таблицы сопряженности и провести предварительную обработку результатов анкетирования;
Задание 2. Для всех пар признаков проверить гипотезу об отсутствии связи между ними;
Задание 3. Провести точечное и интервальное оценивание коэффициентов парной связи между признаками. Сделать вывод о тесноте и направлении связи;
Задание 4. С помощью логлинейного анализа исследовать структуру взаимосвязей между тремя дихотомическими признаками:

Содержание

1. Построение и предварительный анализ выборочных таблиц сопряженности………………………………………………………………….....4
2. Проверка гипотезы о независимости признаков и характеристика связи………………………………………………………………………………..7
2.1. Анализ и исследование связи в таблицах сопряженности 2×2……………7
2.2. Анализ и исследование связи в таблицах сопряженности r×s…………...11
3. Анализ 3-х факторной таблицы сопряженности…………………………..24
3.1. Построение и анализ насыщенной логлинейной модели...………………24
3.2. Построение и анализ ненасыщенных и иерархических логлинейных моделей…………………………………………………………………………...27

Работа содержит 1 файл

САНИ отчет.doc

— 2.10 Мб (Скачать)

 

Исследование  связи между признаками х и  у

Проверка гипотезы о независимости  признаков х и у.

 

Для решения  этой связи формируются следующие  гипотезы:

H0: pij = pi* * p*j , i=1;2. j=1;2  (признаки х и у независимы, т.е. связь отсутствует)

H1: ij: pij = pi* * p*j , i=1;2. j=1;2  (между признаками существует значимая связь)

Так как  объем выборки n больше 30, то для проверки гипотезы H0 используется Критерий максимального правдоподобия . Статистика критерия имеет вид: .

Статистика  критерия при справедливости H0 распределяется по закону V = (r-1)(s-1)=2

 

Рассчитаем теоретические частоты 

=

=

=

=

 

Рассчитаем критерий максимального правдоподобия статистики

= + +…+ =18,37

 

Пусть уравнение значимости =0,05

По таблице 100 %-ых точек распределения Х2 находится значение статистики

Вывод: Так как (6<18,37), то гипотеза H0 отвергается, а значит между признаками х и у существует значимая связь, то есть можно предположить, что некурящий человек отрицательно относится к курению.

Проверка  всех вычислений проводилась в компьютерной программе STATICTICA 8. Результаты проверки представлены в Приложении В.

 

Перейдем к интерпретации связи.

Рассчитаем  коэффициенты связи признака х – Курите ли Вы? ( х1 – да, х2 – нет) и признака у – Как Вы относитесь к курению?  (у1-положительно, у2-отрицательно, у3-безразлично).

 

Меры связи, основанные на статистике :

а) Фи-коэффициент

- связь заметная;

б) Коэффициент  сопряженности Пирсона

- связь заметная;

Рассчитаем доверительные интервалы для коэффициента:

, где  - среднее квадратическое отклонение коэффициента, то есть 0,518 < Р < 0,522;

 

в) Коэффициент  Чупрова

- связь заметная;

Рассчитаем доверительные интервалы для коэффициента:

, где  , то есть 0,19 < С < 1,21;

 

г) Коэффициент Крамера

- связь заметная;

Рассчитаем доверительные интервалы для коэффициента:

, где  , то есть 0,59 < К < 1,79

На основании построенных интервалов можно утверждать, что с вероятностью коэффициент Пирсона Р (0,518; 0,522), коэффициент Чупрова С (0,19; 1,21) и коэффициент Крамера К (0,59; 1,79).

 

По значениям коэффициентов, основанных на статистике можно сделать вывод, что связь заметная. Так, по значению коэффициента сопряженности Пирсона изменение значения признака х (Курите ли Вы?) обусловлено влиянием признака у (Как Вы относитесь к курению?) на (0,52)2*100%=27%, а на 73% - зависит от влияния других факторов.

 

Рассчитаем коэффициенты Гудмена и Краскала:

;

, следовательно, признак у  не зависит от признака х.

, значит, вероятность ошибки  предсказания значения признака  х при известной информации  о значении признака у снижается  на 0,4 по сравнению с ситуацией, когда значение у – неизвестно, что говорит о умеренной зависимости.

 

 

7) Рассмотрим 2 категоризованных номинальных признака: х – Ваш возраст (х1-до 25 лет, х2- 25-40 лет, х3- после 40 лет), у – Курите ли Вы? (у1-да, у2-нет).

 

Результаты опроса представлены в  виде таблицы сопряженности  3 2:

                             уj) Курите ли Вы?

xi)  Ваш возраст

у1) да

у2) нет

ni*

х1)до 25 лет

6

17

23

х2)25-40 лет

5

11

16

х3) после 40 лет

4

7

11

n*j

15

35

50


 

Исследование  связи между признаками х и  у

Проверка гипотезы о независимости  признаков х и у.

 

Для решения этой связи формируются  следующие гипотезы:

H0: pij = pi* * p*j , i=1;2. j=1;2  (признаки х и у независимы, т.е. связь отсутствует)

H1: ij: pij = pi* * p*j , i=1;2. j=1;2  (между признаками существует значимая связь)

Так как объем выборки n больше 30, то для проверки гипотезы H0 используется Критерий максимального правдоподобия . Статистика критерия имеет вид: .

Статистика критерия при справедливости H0 распределяется по закону V = (r-1)(s-1)=2

 

Рассчитаем теоретические  частоты 

=

=

=

=

 

Рассчитаем критерий максимального правдоподобия статистики

= + +…+ =0,389

 

Пусть уравнение значимости =0,05

По таблице 100 %-ых точек распределения Х2 находится значение статистики

Вывод: Так как (6>0,389), то гипотеза H0 подтверждается, а следовательно, между признаками х и у не существует связи, то есть возраст человека не зависит от того, курит он или не курит.

Проверка всех вычислений проводилась  в компьютерной программе STATICTICA 8. Результаты проверки представлены в Приложении В.

 

8) Рассмотрим 2 категоризованных номинальных признака: х – Ваш возраст (х1-до 25 лет, х2- 25-40 лет, х3- после 40 лет), у – Считаете ли Вы, что курение вредит здоровью? (у1-да, у2-нет).

 

 

 

 

Результаты опроса представлены в  виде таблицы сопряженности  3 2:

                             уj)Вредит ли кур-е здор-ю?

xi)  Ваш возраст

у1) да

у2) нет

ni*

х1)до 25 лет

20

3

23

х2)25-40 лет

14

2

16

х3) после 40 лет

9

2

11

n*j

43

7

50


 

Исследование  связи между признаками х и  у

Проверка гипотезы о независимости  признаков х и у.

 

Для решения этой связи формируются  следующие гипотезы:

H0: pij = pi* * p*j , i=1;2. j=1;2  (признаки х и у независимы, т.е. связь отсутствует)

H1: ij: pij = pi* * p*j , i=1;2. j=1;2  (между признаками существует значимая связь)

Так как объем выборки n больше 30, то для проверки гипотезы H0 используется Критерий максимального правдоподобия . Статистика критерия имеет вид: .

Статистика критерия при справедливости H0 распределяется по закону V = (r-1)(s-1)=2

 

Рассчитаем теоретические  частоты 

=

=

=

=

 

Рассчитаем критерий максимального правдоподобия статистики

= + +…+ =0,197

Пусть уравнение значимости =0,05

По таблице 100 %-ых точек распределения Х2 находится значение статистики

Вывод: Так как (6>0,197), то гипотеза H0 подтверждается, а следовательно, между признаками х и у не существует значимой связи, то есть возраст человека не влияет на его мнение о вреде курения.

Проверка всех вычислений проводилась  в компьютерной программе STATICTICA 8. Результаты проверки представлены в Приложении В.

 

9) Рассмотрим 2 категоризованных номинальных признака: х – Как Вы относитесь к курению? (х1-положительно, х2- отрицательно, х3- безразлично), у – Считаете ли Вы, что курение вредит здоровью? (у1-да, у2-нет).

 

Результаты опроса представлены в  виде таблицы сопряженности 3 2:

                             уj)Вредит ли кур-е здор-ю?

xi) Отн-е к курению

у1)да

у2)нет

ni*

х1)положительно

2

3

5

х2)отрицательно

35

3

38

х3)безразлично

6

1

7

n*j

43

7

50


 

Исследование  связи между признаками х и  у

Проверка гипотезы о независимости  признаков х и у.

 

Для решения этой связи формируются  следующие гипотезы:

H0: pij = pi* * p*j , i=1;2. j=1;2  (признаки х и у независимы, т.е. связь отсутствует)

H1: ij: pij = pi* * p*j , i=1;2. j=1;2  (между признаками существует значимая связь)

Так как объем выборки n больше 30, то для проверки гипотезы H0 используется Критерий максимального правдоподобия . Статистика критерия имеет вид: .

Статистика критерия при справедливости H0 распределяется по закону V = (r-1)(s-1)=2

 

Рассчитаем теоретические  частоты 

=

=

=

=

Рассчитаем критерий максимального правдоподобия статистики

= + +…+ =7,034

 

Пусть уравнение значимости =0,05

По таблице 100 %-ых точек распределения Х2 находится значение статистики

Вывод: Так как (6<7,034), то гипотеза H0 отвергается, а значит между признаками х и у существует значимая связь, то есть можно предположить, что человек, который отрицательно относится к курению, считает, что оно вредит здоровью.

Проверка всех вычислений проводилась  в компьютерной программе STATICTICA 8. Результаты проверки представлены в Приложении В.

 

Перейдем к интерпретации  связи.

Рассчитаем коэффициенты связи  признака х – Как Вы относитесь к курению? (х1-положительно, х2- отрицательно, х3- безразлично) и признака у – Считаете ли Вы, что курение вредит здоровью?  (у1-да, у2-нет).

 

Меры связи, основанные на статистике :

а) Фи-коэффициент

- связь умеренная;

б) Коэффициент сопряженности Пирсона

- связь умеренная;

Рассчитаем доверительные интервалы для коэффициента:

, где  - среднее квадратическое отклонение коэффициента, то есть 0,34 < Р < 0,36;

 

в) Коэффициент Чупрова

- связь умеренная;

Рассчитаем доверительные интервалы для коэффициента:

, где  , то есть  0,28 < С < 0,92;

 

 

 

 

г) Коэффициент Крамера

- связь умеренная;

Рассчитаем доверительные интервалы для коэффициента:

, где  , то есть  0,18 < К < 0,72.

На основании построенных интервалов можно утверждать, что с вероятностью коэффициент Пирсона Р (0,34; 0,36), коэффициент Чупрова С (0,28; 0,92) и коэффициент Крамера К (0,18; 0,72).

 

По значениям коэффициентов, основанных на статистике можно сделать вывод, что связь умеренная. Так, по значению коэффициента сопряженности Пирсона изменение значения признака х (Как Вы относитесь к курению?) обусловлено влиянием признака у (Считаете ли Вы, что курение вредит здоровью?) на (0,35)2*100%=12%, а на 88% - зависит от влияния других факторов.

 

Рассчитаем коэффициенты Гудмена и Краскала:

Следовательно, вероятность ошибки предсказания признака «Считаете ли Вы, что курение вредит здоровью?» (у) при известной информации о значении признака «Как Вы относитесь к курению?» (х) снижается на 0,143 по сравнению с ситуацией, когда х неизвестен, что свидетельствует об очень слабой зависимости у от х.

 

 В данном случае равенство    не означает отсутствие зависимости признака х от у,  так как все принадлежат одной строке, в которой находится .

В этом случае следует рассчитать :

 

Значит, вероятность ошибки предсказания значения признака х при известной информации о значении признака у равна 0. Следовательно, признак х не зависит от у, что очевидно.

Коэффициент не рассчитывается, так как имеет значимость то, что х не зависит от у.

 

Вывод: Опираясь на вышеизложенные вычисления и интерпретации связей, следует, что признак х (Как Вы относитесь к курению?) и признак у (Считаете ли Вы, что курение вредит здоровью?) имеют слабую тесноту связи, при чем признак х не зависит от признака у.

10) Рассмотрим 2 категоризованных номинальных признака: х – Ваш возраст (х1-до 25 лет, х2- 25-40 лет, х3- после 40 лет), у – Как Вы относитесь к курению? (у1-положительно, у2-отрицательно, у3-безразлично).

 

Результаты опроса представлены в  виде таблицы сопряженности 3 3:

                             уj)Отнош-е к курению

xi)  Ваш возраст

у1) полож.

у2) отриц.

у3)безразл.

ni*

х1)до 25 лет

3

17

3

23

х2)25-40 лет

1

12

3

16

х3) после 40 лет

1

9

1

11

n*j

5

38

7

50

Информация о работе Контрольная работа по «Статистический анализ нечисловой информации»