Автор: Пользователь скрыл имя, 13 Октября 2011 в 12:35, контрольная работа
Чотири основні етапи статистичного аналізу даних
Планування збору даних
Попереднього дослідження
Оцінки невідомої величини
Перевірки гіпотези
Етапи
Формулювання теорії
Операціоналізація теорії
Вибір адекватних методів дослідження
Спостереження за поведінкою
Аналіз данних
Інтерпретація отриманих результатів
P – частка у вибірці
α - частка в генеральній вибірці
P -?
P(p-a)≤0.01 - ?
Δ = 0.01
tкритичне
=
df = 1067-1=1066
x=0.76
Отримуємо P two tailed
P дов = 0,55 = 55%
на наступних виборах Чер. отримає 24,9% +-2,6 з імовірністю 0,55
Статистична
гіпотеза – будь-яке припущення
про вид або параметри
Гіпотеза яка перевіряється – це нульова гіпотеза. (Н0)
Альтернативна
або конкуруюча гіпотиза є логічним
заперечення нульової гіпотизи Н1
Н0 – це певне твердження, яке приймається тоді, коли немає переконаних аргументів для його відхилення.
Н1
– приймається тоді, коли є переконуючі
докази, які відкидаються тожливість прийняття
гіпотизи Н0
Множина можливих значень статистики критерію розбивається на 2 області, які не перетинаються між собою – критичною областю та областю допустимих значень/область прийняття гіпотизи.
H0 | приймаємо | відхиляємо |
вірна | правильне рішення | помилка першого роду |
невірна | помилка другого роду | правильне рішення |
Для опису результатів перевірки гіпотизи будемо використовувати такі треміни.
Чим менший рівень значимості, тим більш сильний результат отримаємо. Потрібно завжди вказувати найменший рівень значимості, на яку відхиляємо основні гіпотезу.
Дуже високозначимий результат повинен бути значими на всіх рівнях.
р>0,05 | результат незначимий | Н0 приймаємо |
р<0,05 | результат значимий | Н0 відхиляємо та приймаємо Н1 |
р<0,01 | результат сильнозначимий | більш сильний результат – маємо більше доказів, щоб відхили Н0 |
результат дуже сильнозначемий | Н0 відхиляємо |
Н1 0,05 Н0
Якщо α = 0,05, то Рдовірче=1 – α = 1 – 0,05 = 0,95
Якщо підтверджується Н0 або спростовується, то результат будемо гарантувати з достовірністю Р = 0,95
В статистиці рахуємо і дивимось в який інтервал вона потрапить число.
Зліва від 0,05 відхиляємо, справа – приймаємо.
Розглядаємо задачу про встановлення теоретичного закону розподілу випадкової величини за еміричним розподілом
Теоритичний закон розподілення буває:
Перевіряємо чи відповідає емпіричний розподіл теоритичному нормальному розподілу.
Статистичний критерій:
nwi – емпіричн частота (змінну представляємо у вигляді інтевалів, від 0 до 10, від 10 до 20 і скільки з них сюди потрапить)
npi – теоритична частота
n
– кількість інтервалів для
значень змінної формулювання
гіпотези.
Перевіряємо якщо змінна має менш 30 значень, обов’язково чи є розподіл нормальни
Н0 – розподіл значень змінної відповідає теоретичному нормальному розподілу
Н1 – розподіл значень знмінної не відповідає теоритичному нормальному розподілу.
Всі значення підпорядковуються нормальному закону розподілу.
Припускаємо, що значення розподілу за нормальним законом.
Якщо значень більше 30, то автоматично вважається, що розподіл є нормальним.
При формулюванні гіпотези ми формулюємо твердження про всю вибірку.
Всі критерії розподіляються на 3 групи.
При порівняння 2-х вибірок (і більше) один з основних критеріїв – залежність вибірок. Якщо елементу з 1-ї вибірки відповідає один і тільки один елемент з 2-ої вибірки, то така вибірка називається залежною. (столиця-країна) Якщо взаємозв’язок відсутній, то така вибірка називається незалежною.
2 вибірки | більше 2 вибірок | ||
параметричні | непараметричні | параметричні | непараметричні |
t - student | критерій Манна Уітні | дисперсійний аналіз | ранговий критерій Краскела Уоліса |
Калмогарова - Смірнова | медіанний тест |
2 вибірки | більше 2 вибірок | ||
параметричні | непараметричні | параметричні | непараметричні |
t – student для залежних вибірок | критерій значення (знаків) | дисперсійний аналіз з повторюванням | дисперсійний аналіз Фрідмана |
2 вибріки
Параметрчині
Непараметричні
Непараметричні
методи - це такі статистичні процедури
для перевірки гіпотиз, які не потребують
нормального розподілу значень змінної.
Параметричні методи - це статистичні процедури, які вимагають нормального розподілу.
Ефективність - показує наскільки повністю використовуються дані, які використовуються для аналізу
Що б визначити чи до параметричних чи не до параметричних, то треба це робити за допомогою критерію хі квадрат Пірсона. Якщо відповідає нормальному, то звератємось до параметричних.
Якщо розмір вибірки 30 елементів, то нормальний розподіл вважається вже наявним
Маємо дві вибірки, і хочемо їх порівняти.
Непараметричний статистичний метод який використовується для оцінки розходжень між двома вибірками за рівнем певної ознаки. (кількісної)
Цей метод визначає зону розходжень між двома вибірками та зону перехресних значень між двома вибірками.
Чим
менше значення критерію тим більша
імовірність, що розходження між
значеннями параметра у вибірках
достовірні.