Автор: Пользователь скрыл имя, 02 Ноября 2011 в 10:32, реферат
Цель и задачи исследования. Целью исследования является выявление зависимости между мировыми кассовыми сборами на зарубежные фильмы, появившиеся в широком прокате в период с 2006 по 2008 годы, и факторами, которые непосредственно влияют на данные сборы. В качестве таких факторов исследователи выбрали следующие:
количественные
Бюджет фильма
Количество известных актеров (известность будет оцениваться исходя из рейтингов)
Продолжительность показа фильма(надели)
Максимальное число кинотеатров
Введение..................................................................................................................3
Глава 1. Данные......................................................................................................5
Описание данных.........................................................................................5
Предварительный анализ данных..............................................................8
Графическое представление зависимости кассовых
сборов зарубежных фильмов от основных факторов....................................10
Глава 2. Поиск эконометрической модели..........................................................11
2.1 Линейная модель.........................................................................................11
2.2 Полулогарифмическая модель...................................................................16
2.3 Логарифмическая модель...........................................................................16
2.4 Оригинальная модель.................................................................................17
2.5 Анализ модели на устойчивость................................................................18
Глава 3. Оценка адекватности итоговой модели и возможные
способы ее улучшения...........................................................................................21
3.1 Улучшение эффективности оценок. Двухшаговая процедура...............21
3.2 Выводы.........................................................................................................23
Заключение.............................................................................................................24
Приложения............................................................................................................26
В логарифмической модели сразу бросается в глаза незначимость подавляющего большинства регрессоров. Таким образом, можно утверждать, что в данной модели лишь количественные переменные оказались значимыми. F-статистика указывает на значимость уравнения в целом.
В ходе работы над поиском модели авторами были сделаны следующие выводы:
2.4.
Оригинальная модель
С учетом корректировок, авторы проекта рассмотрели различные виды моделей. Были рассмотрены различные вариации смесей линейной, логарифмической и полулогарифмической моделей. В итоге, была найдена оригинальная модель:
LOG(SB) = C1 + С2*LNMAX +
С3*BUD + С4*TIME + С5*STATE
|
Интерпретация коэффициентов:
t-статистики, а также их вероятности, указывают на значимость данных регрессоров на уровне значимости α = 1%.
Видно, что все переменные модели являются значимыми. F- статистика указывает на значимость уравнения в целом. R-squared =0.817927 принял достаточно высокое значение.
Проведем
тесты на гетероскедастичность и
проверим модель на устойчивость.
2.5.Анализ модели на устойчивость
1. Тест Уайта а) no cross terms
White Heteroskedasticity Test: | |||
F-statistic | 17.89667 | Probability | 0.000000 |
Obs*R-squared | 78.97000 | Probability | 0.000000 |
Данный тест говорит, что гипотеза о гомоскедастичности принимается с минимально вероятностью.
b) cross terms
White Heteroskedasticity Test: | |||
F-statistic | 10.75239 | Probability | 0.000000 |
Obs*R-squared | 85.81287 | Probability | 0.000000 |
F-статистика, равная 10.75239 указывает на наличие гетероскедастичности на уровне значимости 1%.
По результатам
теста Уайта можно судить о наличии
гетероскедастичности.
2. Тест ранговой корреляции Спирмена.
Так как в
модели регрессии имеется более
одной объясняющей переменной, то
проверка гипотезы о наличии гетероскедастичности
может выполняться с
1) Проведем сначала
для переменной МАХ –
r =0,832 => r*((n-1)^0.5)
= 11,74 >1,96 => гетероскедастичность есть.
2) Теперь проведем данный тест для переменной BUD – бюджет фильма.
r =0,762 => r*((n-1)^0.5)
= 10,75 >1,96 => гетероскедастичность есть
3. Проведем тест Голдфелда-Квандта.
Упорядочим наблюдения
по возрастанию максимального числа кинотеатров
и оценим регрессию по первым 70 наблюдениям
и по последним 70 (то есть d = 60 = 0.3*n).
1) Проведем для переменной МАХ – максимальное число кинотеатров.
ESS1 = 121.67
ESS2 = 11,23
Следовательно, ESS1/ESS2 = 121.67/11.23 = 10.83
F(α=5%, 70, 70) = 1,45<10.83
=> гетероскедастичность есть.
2) Проведем для переменной BUD – бюджет фильма.
ESS1 = 126.57
ESS2 = 17.25
Следовательно, ESS1/ESS2 = 126.57/17.25 = 7.34
F(α=5%, 70, 70) = 1,45<7.34
=> гетероскедастичность есть.
3) Проведем для переменной TIME – продолжительность показа фильма (недели).
ESS1 = 107
ESS2 = 31.6
Следовательно, ESS1/ESS2 = 107/31.6 = 3.39
F(α=5%, 70, 70) = 1,45<3.39
=> гетероскедастичность есть.
4. Проведем тест
Глейзера.
Для этого надо
рассмотреть модели:
В первой из них получается следующее:
1.1. При γ = 2: |e| = 0,033205 – 0,000645*(ln(MAX))^2, причем коэффициент при ln(MAX))^2 получается незначим. Следовательно, гетероскедастичности нет.
1.2. При γ = 1: |e| = 2,51*10^(-13) + 6.79*10^(-15)*ln(MAX), причем коэффициент при ln(MAX) получается незначим. Следовательно, гетероскедастичности нет.
1.3. При γ = 0.5: |e| =
-0.154849 + 0,059711*(ln(MAX))^0.5, причем коэффициент
при ln(MAX))^0.5 получается незначим. Следовательно,
гетероскедастичности нет.
Во второй модели:
1.1. При γ = 2: |e| = 0,030035 + 6.88*10^(-18)*(BUD)^2, причем коэффициент при (BUD)^2 получается незначим. Следовательно, гетероскедастичности нет
1.2. При γ = 1: |e| = 2,52*10^(-13) + 1.05*10^(-21)*BUD, причем коэффициент при BUD получается незначим. Следовательно, гетероскедастичности нет
1.3. При γ = 0.5: |e| =
0.110889 + 1.86*10^(-5)*(BUD)^0,5, причем коэффициент
при (BUD)^0.5 получается незначим. Следовательно,
гетероскедастичности нет.
В третьей модели:
1.1. При γ = 2: |e| = 0,020276 – 0,000118*(TIME)^2, причем коэффициент при (TIME)^2 получается незначим. Следовательно, гетероскедастичности нет.
1.2. При γ = 1: |e| = 5,04*10^(-13) – 2.62*10^(-14)*TIME, причем коэффициент при TIME получается незначим. Следовательно, гетероскедастичности нет.
1.3. При γ = 0.5: |e| =
-0.037245 – 0.01151*TIME, причем коэффициент при
(TIME)^0.5 получается незначим. Следовательно,
гетероскедастичности нет.
Таким
образом, тест Глейзера всецело указывает
на отсутствие гетероскедастичности в
рассматриваемой модели.
Подводя
итог к анализу модели на устойчивость,
следует сказать, что все тесты
(а именно тест ранговой корреляции
Спирмена, тест Уайта и тест Голдфелда-Квандта),
кроме теста Глейзера, указали на явное
наличие гетероскедастичности в итоговой
модели. Следовательно, оценки МНК, которые
использовались до сих пор, неэффективны.
Можно, по меньшей мере, найти другие оценки,
которые имеют меньшую дисперсию и, тем
не менее, являются несмещенными, для получения
которых проведем двухшаговую процедуру.
Глава 3. Оценка адекватности итоговой модели и возможные
способы ее улучшения.
3.1 Улучшение
эффективности оценок: двухшаговая
процедура.
Предположим, что σi
– стандартное отклонение случайного
члена в наблюдении i – зависит от регрессоров
итоговой модели, то есть σi^2 = β(0) + β(1)*ln(MAX) + β(2)*BUD
+ β(3)*TIME + β(4)*STATE.
1) После МНК-оценки итоговой модели, получен вектор остатков е.
_ _
2) еi^2 = σi^2, где σi – оценка стандартного
отклонение случайного члена в наблюдении
i. Оценим β(0), β(1), β(2), β(3), β(4) из модели еi^2
= β(0) + β(1)*ln(MAX) + β(2)*BUD + β(3)*TIME + β(4)*STATE.
Dependent Variable: E_SQUARED | ||||
Method: Least Squares | ||||
Sample: 1 200 | ||||
Included observations: 200 | ||||
Variable | Coefficient | Std. Error | t-Statistic | Prob. |
C | 5.044190 | 0.414756 | 12.16182 | 0.0000 |
LNMAX | -0.566977 | 0.063126 | -8.981720 | 0.0000 |
BUD | 1.80E-09 | 2.33E-09 | 0.771953 | 0.4411 |
STATE | 0.015492 | 0.277927 | 0.055740 | 0.9556 |
TIME | -0.025700 | 0.016432 | -1.564020 | 0.1194 |
R-squared | 0.382477 | Mean dependent var | 0.917241 | |
Adjusted R-squared | 0.369810 | S.D. dependent var | 1.747325 | |
S.E. of regression | 1.387105 | Akaike info criterion | 3.516997 | |
Sum squared resid | 375.1918 | Schwarz criterion | 3.599455 | |
Log likelihood | -346.6997 | F-statistic | 30.19446 | |
Durbin-Watson stat | 2.027025 | Prob(F-statistic) | 0.000000 |
_
Следовательно,
получены оценки β(0), β(1), β(2), β(3), β(4). Теперь
найдем σi^2
= 5.044190 - 0.566977*
ln(MAX) + 1.80E-09*BUD + 0.015492*TIME - 0.0257*STATE.
3) Теперь найдем
эффективные оценки для С1, С2, С3, С4, С5 с
несмещенными стандартными ошибками.
Поделим каждое уравнение LOG(SBi) =
C1 + С2*LN(MAXi) + С3*BUDi + С4*TIMEi
+ С5*STATEi на соответствующую полученную
оценку σi, что может быть переписано
как LOG(SB)(1) = C1*υ + С2*LNMAX(1) + С3*BUD(1) + С4*TIME(1)
+ С5*STATE(1), где LOG(SB)(1) определяется как LOG(SBi)/ σi; LNMAX(1)
представляет собой LN(MAXi) / σi; υ –
новая переменная, i-ое наблюдение которой
равно 1/ σi; величина BUD(1) есть BUDi
/ σi; TIME(1) – это TIMEi/ σi; и
наконец, STATE(1) – то же, что и STATEi/ σi.
Dependent Variable: LNSB1 | ||||
Method: Least Squares | ||||
Sample: 1 200 | ||||
Included observations: 200 | ||||
Variable | Coefficient | Std. Error | t-Statistic | Prob. |
SIGMA_IN_MINUS1 | 9.796951 | 0.591720 | 16.55673 | 0.0000 |
LNMAX1 | 0.928406 | 0.079966 | 11.61003 | 0.0000 |
TIME1 | 0.078050 | 0.009215 | 8.469701 | 0.0000 |
BUD1 | 9.56E-09 | 1.15E-09 | 8.338204 | 0.0000 |
STATE1 | -0.188209 | 0.178312 | -1.055506 | 0.2925 |
R-squared | 0.992520 | Mean dependent var | 18.17673 | |
Adjusted R-squared | 0.992366 | S.D. dependent var | 8.113594 | |
S.E. of regression | 0.708884 | Akaike info criterion | 2.174433 | |
Sum squared resid | 97.99082 | Schwarz criterion | 2.256891 | |
Log likelihood | -212.4433 | Durbin-Watson stat | 2.159098 |