Пеpвинна обpобка даних у психології. Представлення психодіагностичних даних

Автор: Пользователь скрыл имя, 25 Февраля 2013 в 21:59, лекция

Описание работы

До первинних описових статистик зазвичай відносять числові характеристики розподілу виміряної на вибірці ознаки. Кожна така характеристика відбиває в одному числовому значенні свій властивість розподілу множини результатів виміру: з точки зору їх розташування на числовій вісі або з точки зору їх мінливості.
Основне призначення кожної з первинних описових статистик – заміна множини значень ознаки, виміряної на вибірці, одним числом (наприклад середнім значенням як мірою центральної тенденції). Компактний опис групи за допомогою первинних статистик дає змогу інтерпретувати результати вимірів, зокрема, шляхом порівняння первинних статистик різних груп.
Отже переходимо до 1-го питання лекції: Міри центральної тенденції.
(слайд 3) Міра центральної тенденції – це число, яке характеризує вибірку за рівнем вираження вимірюваної ознаки.

Содержание

1. Міри центральної тенденції.
2. Вибір міри центральної тенденції.
3. Квантілі розподілу.
4. Міри мінливості.

Работа содержит 1 файл

Лекція 3.docx

— 66.37 Кб (Скачать)

Тема 3. Пеpвинна обpобка даних у психології. Представлення психодіагностичних даних

 

(слайд 2)

1. Міри центральної  тенденції.

2. Вибір міри центральної тенденції.

3. Квантілі розподілу.

4. Міри мінливості.

 

До первинних описових статистик зазвичай відносять числові характеристики розподілу виміряної на вибірці ознаки. Кожна така характеристика відбиває в одному числовому значенні свій властивість розподілу множини результатів виміру: з точки зору їх розташування на числовій вісі або з точки зору їх мінливості.

Основне призначення кожної з первинних описових статистик – заміна множини значень ознаки, виміряної на вибірці, одним числом (наприклад середнім значенням як мірою центральної тенденції). Компактний опис групи за допомогою первинних статистик дає змогу інтерпретувати результати вимірів, зокрема, шляхом порівняння первинних статистик різних груп.

Отже переходимо до 1-го питання лекції: Міри центральної тенденції.

(слайд 3) Міра центральної тенденції – це число, яке характеризує вибірку за рівнем вираження вимірюваної ознаки.

Існує 3 способи визначення «центральної тенденції», кожному з яких відповідає своя міра: мода, медіана та вибіркове середнє.

(слайд 4) Мода – це таке значення із множини вимірів, яке зустрічається найчастіше. Модальному інтервалу ознаки відповідає найбільший підйом (вершина) графіку розподілу частот.

Якщо графік розподілу частот має одну вершину, то такий розподіл називається унімодальним.

(приклад: серед 8 значень ознаки (3, 7, 3, 5, 7, 8, 7, 6) мода Мо=7 як значення, яке найчастіше зустрічається. Коли два сусідніх значення зустрічаються однаково часто, чим будь-яке інше значення, то мода є середнім цих двох значень. Розподіл може й не мати ні однієї моди: коли всі значення зустрічаються однаково часто, прийнято вважати, що розподіл немає моди).

Біномінальний розподіл має на графіку розподілу дві вершини, навіть якщо частоти цих двох вершин не однакові. Так виділяють велику та малу моду. В усій групі може бути й декілька локальних вершин розподілу частот. Так виділяють найбільшу моду і локальні моди.

Слід пам’ятати, що мода – це значення ознаки, а не його частота.

(слайд 5) Медіана – це таке значення ознаки, яке ділить впорядковану (ранговану) множину даних навпіл так, що одна половина усіх значень є менше медіани, а друга – більше. Таким чином, першим кроком при визначенні медіани є впорякування (ранжування) всіх значень за зростанням чи то зменшенням.

Потім медіана визначається таким чином:

  • Якщо дані містять непарне число значень (8 9 10 13 15), то медіана є центральним значенням, тобто Md=10;
  • Якщо дані містять парне число значень ( 5 8 9 11), то медіана є точка, яка лежить посередині між двома центральними значенням, тобто Md=(8+9)/2 =8,5;

(слайд 6) Середнє (Мх – вибіркове середнє, середнє арифметичне) – визначається як сума всіх значень виміряної ознаки, поділеної на кількість сумованих значень.

Якщо певна ознака Х виміряна в групі досліджуваних чисельністю N, ми отримаємо значення х1, х2, …..хі, ….. xN ( де і – поточний номер досліджуваного від 1 до N), Тоді середнє значення Мх визначається за формулою:

 

          1

Мх = ----- ∑ хі

         N

 

 

(слайд 7) Властивості середнього. Якщо кожному значенню змінної прибавити одне й теж саме число, то середнє збільшиться на це число (зменшиться на це число, якщо воно негативне):

 

          1

Мх = ----- ∑ (хі + c) = Мх + c

         N

 

Якщо кожне значення змінної помножити на одне й теж  саме число, то середнє збільшиться  в с разів (або зменшиться в с раз, якщо поділити на с):

 

          1

Мх = ----- ∑ (хі ∙ c) = Мх ∙ c

          N

 

(слайд 8) Надалі ми  неодноразово будемо звертатися  до такої величини, як відхилення від середнього: (хі - Мх ). З першої, ймовірної властивості середнього слідує ще одна важлива властивість: сума всіх відхилень від середнього дорівнює нулю.

 

∑ (хі - Мх) = 0

 

Відповідно, середнє відхилення від середнього також дорівнює 0.

 

Переходимо до наступного питання лекції: ВИБІР МІРИ ЦЕНТРАЛЬНОЇ  ТЕНДЕНЦІЇ

Кожна міра центральної тенденції володіє характеристиками, які роблять її цінною в певних умовах. Для номінативних даних єдиною мірою центральної тенденції є мода або модальна категорія – така градація номінативної змінної, яка зустрічається найчастіше.

Для порядкових та метричних  даних, розподіл яких унімодальний та симетричний, мода, медіана і середнє співпадають. Чим більше відхилення від симетричності, ти більше розходження між значеннями цих мір центральної тенденції. За цим розходженням можна судити про те, наскільки симетричний або асиметричний розподіл. Найбільш ймовірною і часто використовуваною мірою центральної тенденції є середнє значення. Але його використання обмежується тим, що на величину середнього впливає кожне окреме значення. Якщо будь-яке значення в групі збільшується на с, то середнє збільшується на с/К. Таким чином, середнє значення досить чутливе до «викидів» - екстремально малим або великим значенням змінної.

На величину моди і медіани  величина кожного окремого значення не впливає. Наприклад, якщо в групі  з 20 вимірів змінної найбільше  значення збільшиться втричі, то не зміниться ані мода, ані медіана. Величина середнього при цьому помітно  зміниться. Кажучи іншими словами, мода та медіана не чутливі до «викидів».

(приклад: якщо 9 осіб  мають місячний дохід від 5000 до 6000 гривень, із середнім 5600 гривень, а дохід десятого складає 15000 гривень, то середній дохід для 10 осіб складає 6540 гривень. Ця цифра не дає змогу судити про всю групу, і в якості центральної тенденції краще обрати моду або медіану).

Міри центральної тенденції  найчастіше всього використовуються для  порівняння груп за рівнем вираження  ознаки. Якщо дослідник при цьому  сумнівається, яку міру використовувати, то можна дати прості поради.

(слайд 9) Вибіркові середні  можна порівнювати, якщо виконуються  такі умови:

  • Групи досить велику, щоб судити про форму розподілу;
  • Розподіли симетричні;
  • Є відсутніми «викиди».

Якщо хоча б одна з  умов не виконується,  то слід обмежитися модою або медіаною. Альтернативою  є «наскрізнє ранжування представників порівнюваних груп та порівняння середніх, вирахуваних для рангів цих груп.

 

Переходимо до наступного питання лекції: Квантілі розподілу.

 

(слайд 10) Крім мір центральної тенденції в психології використовуються міри положення, які називаються квантілями розподілу. Квантіль – це точка на числовій вісі виміряної ознаки, яка ділить всю сукупність впорядкованих вимірів на 2 групи з відомим співвідношенням їх чисельності.

Часто використовуються;

  • Процентілі – це 99 точек – значень ознаки (Р1, …, Р99), які ділять впорядковану (за зростанням) множину спостережнь на 100 частин, ріних за чисельністю. Визначення конкретного значення проценті ля аналогічно визначенню медіани.

(приклад: при визначенні 10-го проценті ля, Р10  - спочатку усі значення ознаки впорядковуються за зростанням. Потім відраховується 10% досліджуваних, які мають найменше вираження ознаки. З 10 буде відповідати тому значенню ознаки, яке віддаляє ці 10% досліджуваних від решти 90%).

Квартілі – це 3 точки – значення ознаки (Р25, Р50, Р75), які ділять впорядковану (за зростанням) множину спостережень на 4 рівні за чисельністю частини. Перший квартіль відповідає 25-му процентілю, другий – 50-му процентілю або медіані, третій квартіль відповідає 75-му процентілю.

Процентілі і квартілі використовуються для визначення частоти прояву тих чи інших значень (або інтервалів) виміряної ознаки або для виділення підгруп і окремих досліджуваних, найбільш типових або нетипових для даної множини спостережень.

 

Наступне питання лекції стосується МІРИ МІНЛИВОСТІ.

 

(слайд 11) Міри центральної  тенденції відображають рівень  вираження виміряної ознаки. Однак  не менш важливою характеристикою  є вираження індивідуальних відмінностей  досліджуваних за виміряною ознакою. Міри мінливості застосовуються в психології для чисельного вираження величини між індивідуальної варіації ознаки.

Найбільш простою і  ймовірною мірою мінливості є  розмах, який вказує на діапазон мінливості значень. Розмах – це просто відмінність максимального та мінімального значення.

R = Xmax – Xmin

(cлайд 12) Дисперсія – це міра мінливості для метричних даних, яка пропорційна сумі квадратів відхилень виміряних значень від їх арифметичного середнього:

 

         N

         ∑ (хі - Мх)²

         і=1

 Чим більше мінливість в даних, тим більше відхилення значень від середнього, тим більше величинадисперсії. Величина дисперсії отримується при усередненні усіх квадратів відхилень:

             N

             ∑ (хі - Мх)²

          і=1

Дх = ------------------

               N

 

(слайд 13) Слід відрізняти  теоретичну (генеральну дисперсію)  – міру мінливості нескінченого  числа вимірювань (в генеральній  сукупності) та емпіричну (вибіркову)  – для реального виміряної  множини значень ознаки. Вибіркове  значення в статистиці використовується  для оцінки дисперсії в генеральній сукупності. Вищевказана формула для генеральної (теоретичної) дисперсії (Dх), яка, зрозуміло, не підраховується. Для підрахунку використовується формула вибіркової (емпіричної) дисперсії (Dх), яка відрізняється знаменником:

 

 

             N

              ∑ (хі – Мх)²

             і=1

Dх = ------------------

               N – 1

 

(слайд  14) Стандартне відхилення (сигма або середньоквадратичне відхилення) – позитивне значення квадратного кореня з дисперсії:

                       ∑ (хі – Мх)²

Ϭ = √ Dх = √ -----------------

                            N – 1

На практиці найчастіше використовують саме стандартне відхилення, а не дисперсію. Це пов’язане з  тим, що сигма виражає мінливість у вихідних одиницях виміру ознаки, а дисперсія – в квадратах  вихідних одиниць.

(слайд 15) Стандартизація (або ᶎ-перетворення даних) – це перевід вимірів в стандартну шкалу Z-шкалу із середнім Мᶎ=0 та Dᶎ=1. Спочатку для змінної, яка виміряна на вибірці, підраховують середнє Мх стандартне відхилення Ϭх. Потім усі значення змінної хі перераховуються  за формулою:

        хі – Мх

ᶎі = ------------

          Ϭх

В результаті перетворені  значення (ᶎ-значення) безпосередньо  виражаються в одиницях стандартного відхилення від середнього. Якщо для  однієї вибірки декілька ознак переведені в ᶎ-значення, то з’являється можливість порівняння рівня вираження різних ознак у того чи іншого досліджуваного.

(слайд 16) Асиметрія – ступінь відхилення графіка розподілу частот від симетричного виду відносно середнього значення. Якщо вихідні дані переведені в ᶎ-значення, то показник асиметрії вираховується за формулою:

 

(слайд 17) Ексцес – міра плоскої вершинності або гострого виділення графіку розподілу виміряної ознаки. Якщо вихідні дані переведені в ᶎ-значення, то показник ексцеса вираховується за формулою:

 

 

(слайд 18) Графічно представлення  асиметрії та ексцесу виглядає  таким чином:

 

X X

Рис. Розподіл частот з різними значеннями асиметрії та ексцесу



Информация о работе Пеpвинна обpобка даних у психології. Представлення психодіагностичних даних