Автор: Пользователь скрыл имя, 13 Октября 2011 в 12:35, контрольная работа
Чотири основні етапи статистичного аналізу даних
Планування збору даних
Попереднього дослідження
Оцінки невідомої величини
Перевірки гіпотези
Етапи
Формулювання теорії
Операціоналізація теорії
Вибір адекватних методів дослідження
Спостереження за поведінкою
Аналіз данних
Інтерпретація отриманих результатів
На першому етапі складається докладний план збору даних.
План включає визначення адекватності даних сформульованих цілям
Визначення необхідної кількості даних
Відбір
невеликої групи, яка складається
з деяких, але не всіх об’єктів загальної
сукупності, яку ми плануємо досліджувати.
Попереднє дослідження даних
Дані
аналізуються з різних точок зору,
описуються та узагальнюються. На цьому
етапі можемо вносити різні корективи,
якщо потрібно в дані, обрати методи
для подальшого дослідження даних
і вони так само повинні бути адекватні
до сформульованих задач дослідження.
Оцінка невідомої величини
Можемо оцінити ті параметри, значення яких невідомо точно. Ця оцінка дає найбільш близьке до точного значення невідомої величини. На цьому етапі ми можемо оцінити помилку (ту розбіжність, яку ми отримуємо, якщо ми використовуємо нашу приблизну оцінку, замість точного)
Приклад оцінки невідомої величини
“Оцінити переможця майбутніх виборів”
“Оцінити кількість голосів, що будуть набрані партією”
“Оцінка
рівня інфляції в наступному році”
Перевірка статистичних гіпотез
Гіпотеза
- це певне твердження, яке може бути
вірним або ні. Базуючись на інформації,
яку ми маємо ми можемо підтвердити
сформульовану гіпотезу або її спростувати.
Сформулювання гіпотеза
“На майбутніх виборах переможе кандидат Іванов”
“Якщо інфляція залишиться на низькому рівні, то міжнародні інвестиції в країну збільшаться”.
Генеральна сукупність - це сукупність об’єктів що вивчається (люди, країни, регіони)
Вибірка - буль-яка підгрупа генеральної сукупності виділена для проведення дослідження.
Процес узагальнення отриманих результатів на всю генеральну сукупність - статистичних висновок
Ці три еатпи описують процес узагальнення результатів отриманих на прикладі вибірки на всю генеральну сукупність, весь цей процес називається статистичний висновок.
Репрезентативна вибірка - це вибірка у якій усі основні ознаки генеральної сукупності подані в такому ж пропорційному відношенні або з тією ж чистотою, як і в генеральній сукупності. (аудиторія Савіка. В пропорції до населення України)
В основі формування лежить принцип випадковості або рандомізації
Дві умови випадковості вибірки:
Найбільш важливим фактором є гомогенність – це степінь близькості елементів один до одного, якщо в генеральній сукупності кожен елемент в точно такий самий як і інший, то для отримання репрезентативної вибірки достатньо обрати будь-який елемент генеральної сукупності, в цьому випадку сукупність нацизвається цілком гологенною.
Генеральна сукупність в якій елементи відрізняються – цілком гетерогенна.
Щоб
отримати репрезентативну вибірку,
потрібно обрати всі елементи. У випадку
стратифікованого формування вибірки
підвищується гомогенність.
Припустимий відсоток помилки вибірки | Степінь впевненості 0,95 | Степінь впевненості 0,99 |
+-1 | 10 000 | 22 500 |
+-2 | 2 500 | 5 625 |
+-3 | 1 111 | 2 500 |
+-4 | 625 | 1 406 |
+-5 | 400 | 900 |
+-10 | 100 | - |
2 методи використання
РАЗ
Перший фактор:
Можемо задати рівень помилки вибірки, який ми згодні допустити і степінь впевненсоті, з якою будемо діяти. Наприклад, задаємо +-4, степінь впевненості 0,99. Означає, що будь-який вимір, який можемо зробити у вибірці, буде відхилятись не більше ніж на 4% від істиного значення генеральної сукупності.
Оптиування перед виборами і партія отримала 39%, помилка +-4. Означає, що голоса потраплять в інтервал від 39% до 43%
Точність резульату – помилка вибірки. Для точності результату краще менше значення помилки вибірки +-3, +-1.
Точніст
пронозу зростає тим більше чим
менша помилка вибірки.
1406 – розмір вибірки, стільки голосів, яких можемо опитати (на перетині +-4 та 0,99)
Якщо помилка вибірки зменшеться, то розмір вибірки збільшується +-3 та 0,99 – на перетині 2 500
Помилка
менша – розмір вибірки більший.
Другий фатор:
Степінь впевненості – означає імовірність того, що наша вибірка дійсно буде репрезентативною. Для обраної генеральної сукупності в рамках заданого степеня точності.
0,95
– означає, що їі 100% вибірки
даного об’єму, отриманих із однієї
і тієї ж генеральної
Чим вищий степінь впевненості - тим точніший буде результат.
Залежність
розміру вибірки від степеня
впевненості – чим вищий
Висновок: чим нищий рівень помилки і чим вищий ступень впевненості – тим краще для дослідження.
ДВА
Вже є вибірка, заданий розмір вибірки і тоді обираємо впевненість і розмір помилки.
Базова класифікація даних 3 способами:
Дані бувають:
Для полегшення представлення частот розподілу використовуємо певні числові характеритстики.
Описові або дискритивні статистики. Статистика – позначеня певної числової функції, що описує результати спостереження.
Частота використання 2 групи описової статистики:
Вказує на розташування центральних бо середніх значень змінної, навколо якого згуртовані вссі інші значення.
Воно пов’язане мінімальною та максимальною точкою.
Можемо сказати, що мінімальне значення не більше середнього і максимальне значення не менше середнього.
Мода (Мо) – це значення, що зустрічається найбільш часто.
Розподілення оцінок за симетср 3 4 4 5 3 4 3 5 4 4 4 4 – четвірка мода
Якщо
в розподілі значень змінної
зустрічається 2 або більше мод –
розподіл бімодальний або
Якщо частота приблизно однакова – то моди не існує
Для якісної змінної мода це єдиний спосіб визначення центральної тенденції.
Для
кількісної змінних у випадку неперервних
змінної спочатку модальний інтервал,
а вже потім модальне значення.
Медіана (Ме) – це значення змінної, що відповідає середній впорядкованості, ряду всіх значень.
Для того, щоб знайти Медіану, треба впорядкувати всі значення змінної від мінімального до максимального і визначення те значення, яке розташоване точно в середині впорядкованого ряду і є медіана.