Автор: Пользователь скрыл имя, 09 Апреля 2012 в 14:12, реферат
Помимо ответов на вопросы, относящихся к анализу одной переменной, маркетологов часто интересуют дополнительные вопросы о связи этой переменной с другими переменными.
• Как много мужчин среди приверженцев данной торговой марки?
Маркетолог, исследующий сферу туристических поездок за границу, предположил, что на желание путешествовать влияет возраст. Однако таблица сопряженности двух переменных (табл. 10) не выявила никакой связи.
Таблица 10. Зависимость желания совершить туристическую поездку за границу от возраста
Желание совершить туристическую поездку за границу |
Возраст | |
До 45лет |
45 лет и старше | |
Да |
50% |
50% |
Нет |
50% |
50% |
Итого |
100% |
100% |
Число респондентов |
500 |
500 |
Когда в качестве третьей переменной ввели пол, получили данные, представленные в табл. 11.
Таблица 11. Связь между желанием совершить туристическую поездку за границу, возрастом и полом
Желание совершить туристическую поездку за границу |
пол | |||
мужской |
женский | |||
До 45лет |
45 лет и старше |
До 45лет |
45 лет и старше | |
Да |
60% |
40% |
35% |
65% |
Нет |
40% |
60% |
65% |
35% |
Итого |
100% |
100 |
100% |
100% |
Число респондентов |
300 |
300 |
200 |
200 |
Среди мужчин до 45 лет 60% изъявили желание отправиться в турпоездку заграницу, а после 45 лет — всего лишь 40%. Обратная ситуация наблюдалась для женщин: в возрасте до 45 лет желающих отправиться посмотреть мир оказалось 35%, а после 45 лет — 65%. Поскольку связь между желанием путешествовать и возрастом различна для мужчин и женшин и с противоположной направленностью, связь между этими двумя переменными была скрыта, пока данные не учитывали переменную "пол", как это сделано в табл.10. Но при проверке влияния пола, как показано в табл. 11, проигнорированная связь между желанием путешествовать и возрастом была обнаружена для отдельных категорий: мужчин и женшин.
Никаких изменении в первоначальной связи. В некоторых случаях третья переменная не изменяет первоначально наблюдаемую связь, независимо от того, были ли исходные переменные взаимосвязаны. Это означает, что третья переменная никак не влияет на связь между двумя первыми переменными. Рассмотрим кросс-табуляцию двух переменных: размер семьи и частоту посещения ресторанов быстрого питания, представленную в табл.12.
Таблица 12. Связь частоты посещения ресторанов быстрого питания с размером семьи.
Частота посещения ресторана быстрого питания |
Размер семьи | |
небольшая |
большая | |
Большая |
65% |
65% |
Маленькая |
35% |
35% |
Итого |
100% |
100% |
Число респондентов |
500 |
500 |
Респондентов разделили (используя медиану) на две равные по размеру категории по 500 респондентов в каждой: небольшая и большая семья, Не наблюдалось никакой связи, Затем, по этому же принципу респондентов разделили на категории: семьи с большим и малым доходом. При введении в анализ третьей переменной получили табл. 13. И снова не наблюдалось никакой связи.
Таблица 13. Связь частоты посещения ресторанов быстрого питания с размером семьи и уровнем дохода
Частота посещения ресторана быстрого питания |
Доход | |||
Семьи с низким доходом |
Семьи с высоким доходом | |||
малая |
большая |
малая |
большая | |
Большая |
65% |
65% |
65% |
65% |
Маленькая |
35% |
35% |
35% |
35% |
Итого |
100% |
100% |
100% |
100% |
Число респондентов |
250 |
250 |
250 |
250 |
Можно построить таблицу
сопряженности больше, чем для
трех переменных, но интерпретация
полученных результатов достаточно
сложная. Кроме того, поскольку число
ячеек многократно увеличится, проблематично
оставить необходимое количество респондентов
или случаев в каждой ячейке. Как
правило, чтобы вычислить статистику
в каждой ячейке, должно быть, по крайней
мере, пять наблюдений. Таким образом,
кросс-табуляция —
СТАТИСТИКИ ТАБЛИЦ СОПРЯЖЕННОСТИ ПРИЗНАКОВ
Мы рассмотрим статистики, обычно используемые для оценки статистической значимости и тесноты связи переменных, содержащихся в таблице сопряженности. Статистическая значимость наблюдаемой связи обычно измеряется критерием хи-квадрат. Теснота связи важна с практической точки зрения. Обычно она имеет значение, если связь статистически значимая.
Тесноту связи можно измерить коэффициентом корреляции фи, коэффициентом сопряженности признаков, V-коэффициентом Крамера и коэффициентом «лямбда»
Критерий хи-квадрат (chi-square statistic), используемый для проверки статистической значимости наблюдаемых связей в таблицах сопряженности признаков. Он помогает определить наличие или отсутствие систематической связи между двумя переменными.
В данном случае нулевая
гипотеза утверждает, что между двумя
переменными не существует никакой
связи. Проверка нулевой гипотезы выполняется
вычислением частот распределения
признаков анализируемых
e=
где — итоговое число в ряду, — итоговое число в колонке, n— полный размер выборки.
Для данных табл. 15.3 ожидаемая
частота распределения
=7,50 =7,50
=7,50 =7,50
Тогда значение x2 вычисляют следующим образом:
x2=
Для данных табл.3 значение вычислили по формуле:
Чтобы определить, существует
ли между переменными
Распределение (chi-square distribution) представляет собой асимметричное распределение, форма которого зависит исключительно от числа степеней свободы.
Для таблицы сопряженности (табл. 3) число степеней свободы равно (2 — 1) х (2 — 1) = 1.
Вычисленное значение — 3,333. Так как оно меньше критического значения, равного 3,841, нулевую гипотезу об отсутствии связей между переменными нельзя отклонить. Это означает, что связь между переменными не является статистически значимой при уровне значимости, равном 0,05.
Статистику хи-квадрат
также можно использовать в проверках
степени согласия, чтобы определить,
согласуется ли определенная модель
с наблюдаемыми данными. Эти проверки
выполняют вычислением
Фи-коэффициент пропорционален корню квадратному из . Для выборки размером n эту статистику находят по формуле:
Фи-квадрат принимает значение, равное 0, если связь отсутствует, на что также указывает и значение хи-квадрат, равное 0. При сильной связи между переменными фи-коэффициент имеет значение 1 и все наблюдения находятся на главной или второстепенной диагонали. (В некоторых компьютерных программах фи-коэффициент принимает значение —1, а не +1, когда наблюдается отрицательная связь. В нашем случае фи-коэффициент равен:
=0,333
Таким образом, связь не очень сильна.
Коэффициент сопряженности признаков - Фи-коэффициент применяют только к таблице 2 х 2, а коэффициент сопряженности признаков С (contingency coefficient) используют для оценки тесноты связи в таблицах любого размера.
Коэффициент сопряженности признаков связан с следующим образом:
Значения коэффициента сопряженности находятся в диапазоне от 0 до 1. При отсутствии связи он равен нулю (т.е. переменные статистически независимы), но своего максимального значения (1) он никогда не достигает. Максимальное значение коэффициента сопряженности зависит от размера таблицы (числа рядков и колонок). Поэтому он используется только для сравнения таблиц одинакового размера. Значение коэффициента сопряженности для табл.3 следующее:
=0,316
Это значение коэффициента сопряженности указывает на слабую связь.
Другой статистикой, которую можно вычислить для любой таблицы, является V-козффициент Крамера (Cramer).
V-коэффициент Крамера (Cramer's V) — это модифицированная версия коэффициента корреляции фи (0 ), которую используют в таблицах, больших по размеру, чем 2x2.
Если для таблиц, больших, чем 2x2 , вычисляют фи-коэффициент, то он не имеет верхней
границы. V-коэффициент Крамера получают корректировкой фи-коэффициента или по числу рядов, или по числу колонок в таблице. Причем из двух значений выбирают меньшее. Корректировку осуществляют так, что значения V-коэффициента лежат в диапазоне от 0 до 1. Большее значение V-коэффициента указывает на более сильную связь, но не указывает, как связаны переменные. Для таблицы с r рядами и с колонками связь между V-коэффициентом Крамера и фи-коэффициентом выражается следующим образом:
V=
Значение V-коэффициент Крамера для табл. 3 равно: V==0,333
Таким образом, связь не очень сильна. В этом случае V = . Так всегда происходит для таблицы 2x2. Другой обычно рассчитываемой статистикой является коэффициент "лямбда".
Коэффициент "лямбда" используется в том случае, когда переменные измерены с помощью номинальной шкалы. Асимметрический коэффициент "лямбда" (asymmetric lambda) показывает выраженное в процентах улучшение при прогнозировании значения зависимой переменной при данном значении независимой переменной. Значения коэффициента "лямбда" лежат в пределах от 0 до 1.