Автор: Пользователь скрыл имя, 02 Ноября 2011 в 10:32, реферат
Цель и задачи исследования. Целью исследования является выявление зависимости между мировыми кассовыми сборами на зарубежные фильмы, появившиеся в широком прокате в период с 2006 по 2008 годы, и факторами, которые непосредственно влияют на данные сборы. В качестве таких факторов исследователи выбрали следующие:
количественные
Бюджет фильма
Количество известных актеров (известность будет оцениваться исходя из рейтингов)
Продолжительность показа фильма(надели)
Максимальное число кинотеатров
Введение..................................................................................................................3
Глава 1. Данные......................................................................................................5
Описание данных.........................................................................................5
Предварительный анализ данных..............................................................8
Графическое представление зависимости кассовых
сборов зарубежных фильмов от основных факторов....................................10
Глава 2. Поиск эконометрической модели..........................................................11
2.1 Линейная модель.........................................................................................11
2.2 Полулогарифмическая модель...................................................................16
2.3 Логарифмическая модель...........................................................................16
2.4 Оригинальная модель.................................................................................17
2.5 Анализ модели на устойчивость................................................................18
Глава 3. Оценка адекватности итоговой модели и возможные
способы ее улучшения...........................................................................................21
3.1 Улучшение эффективности оценок. Двухшаговая процедура...............21
3.2 Выводы.........................................................................................................23
Заключение.............................................................................................................24
Приложения............................................................................................................26
Модель 1.2
После проведения поправки Уайта, видном, что значения t-статистик ADV и FANTA изменились в худшую сторону. Имеется 3 переменные, значимые на 1%ном уровне и 2 на 5%ном.
Можно
попробовать улучшить модель, например,
объединить какие-нибудь переменные в
одну. С этой целью был проведен тест Вальда
для различных комбинаций переменных.
В результате получаем, что наши фиктивные
переменные (наличие известного режиссера
и жанр Драма) можно объединить в одну
с вероятностью 96%:
Wald Test: | ||||
Equation: EQ03 | ||||
Null Hypothesis: | C(10)=C(11) | |||
F-statistic | 0.002325 | Probability | 0.961591 | |
Chi-square | 0.002325 | Probability | 0.961539 |
Тогда преобразуем модель и получим:
Dependent Variable: SB | ||||
Method: Least Squares | ||||
Date: 05/18/08 Time: 21:33 | ||||
Sample: 1 200 | ||||
Included observations: 200 | ||||
White Heteroskedasticity-Consistent Standard Errors & Covariance | ||||
Variable | Coefficient | Std. Error | t-Statistic | Prob. |
C | -87069553 | 20215003 | -4.307175 | 0.0000 |
BUD | 2.305249 | 0.284693 | 8.097312 | 0.0000 |
ACTOR | 5196709. | 8533302. | 0.608992 | 0.5433 |
TIME | 6224448. | 1185180. | 5.251902 | 0.0000 |
MAX | 15523.96 | 6294.407 | 2.466309 | 0.0146 |
ADV | 46580644 | 28230635 | 1.650003 | 0.1006 |
PRE | 78474336 | 37022691 | 2.119628 | 0.0354 |
CAR | 33955047 | 39851850 | 0.852032 | 0.3953 |
COM | -2039891. | 16004502 | -0.127457 | 0.8987 |
DIRECTOR+DRAMA | -4757396. | 10364242 | -0.459020 | 0.6468 |
FANTA | -43314302 | 25205750 | -1.718429 | 0.0874 |
FIGHT | -16736473 | 22624515 | -0.739749 | 0.4604 |
SEASON | -8673070. | 14056756 | -0.617004 | 0.5380 |
STATE | 2103983. | 13845266 | 0.151964 | 0.8794 |
THR | 3942840. | 16451922 | 0.239658 | 0.8109 |
R-squared | 0.762578 | Mean dependent var | 1.29E+08 | |
Adjusted R-squared | 0.744611 | S.D. dependent var | 1.81E+08 | |
S.E. of regression | 91357425 | Akaike info criterion | 39.57050 | |
Sum squared resid | 1.54E+18 | Schwarz criterion | 39.81787 | |
Log likelihood | -3942.050 | F-statistic | 42.44316 | |
Durbin-Watson stat | 2.144388 | Prob(F-statistic) | 0.000000 |
Модель 1.3.
Модель в целом улучшилась, но как можно увидеть, не сильно. Мы получаем все те же 3 значимых на 1 % уровне переменных, чуть более высокое значение F-статистики.
Оставим в модели только значимые переменные, исходя из данных таблицы 3. Матрица корреляций. Тогда получим следующую модель:
Dependent Variable: SB | ||||
Method: Least Squares | ||||
Date: 05/18/08 Time: 19:28 | ||||
Sample: 1 200 | ||||
Included observations: 200 | ||||
Variable | Coefficient | Std. Error | t-Statistic | Prob. |
C | -99094508 | 15921820 | -6.223818 | 0.0000 |
BUD | 2.206266 | 0.210093 | 10.50138 | 0.0000 |
ACTOR | 5031130. | 6695311. | 0.751441 | 0.4533 |
TIME | 6493387. | 1061351. | 6.118039 | 0.0000 |
MAX | 17223.45 | 6716.971 | 2.564169 | 0.0111 |
ADV | 33532608 | 21178691 | 1.583318 | 0.1150 |
PRE | 79713060 | 23092577 | 3.451891 | 0.0007 |
R-squared | 0.751875 | Mean dependent var | 1.29E+08 | |
Adjusted R-squared | 0.744161 | S.D. dependent var | 1.81E+08 | |
S.E. of regression | 91437831 | Akaike info criterion | 39.53459 | |
Sum squared resid | 1.61E+18 | Schwarz criterion | 39.65003 | |
Log likelihood | -3946.459 | F-statistic | 97.47240 | |
Durbin-Watson stat | 2.203367 | Prob(F-statistic) | 0.000000 |
Модель 1.4
Уравнение значимо в целом (значение F-статистики заметно улучшилось), однако существенных изменений не произошло.
Встает вопрос о причинах незначимости большей части факторов, что наталкивает на размышления, что в модели присутствует мультиколлинеарность между регрессорами.
Признаки мультиколлинеарности:
Как было сказано выше, была замечена высокая степень корреляции между бюджетом и максимальным числом кинотеатров.
Наконец, оставим только значимые переменные и устраним мультиколлинеарность между бюджетом и максимальным числом кинотеатров путем удаления из модели переменной MAX6. Тогда получим модель:
SB = -78172423.61 + 2.646035748*BUD
+ 6856290.327*TIME + 84581189.76*PRE
Dependent Variable: SB | ||||
Method: Least Squares | ||||
Sample: 1 200 | ||||
Included observations: 200 | ||||
White Heteroskedasticity-Consistent Standard Errors & Covariance | ||||
Variable | Coefficient | Std. Error | t-Statistic | Prob. |
C | -78172424 | 12606237 | -6.201091 | 0.0000 |
BUD | 2.646036 | 0.231912 | 11.40967 | 0.0000 |
TIME | 6856290. | 1210956. | 5.661882 | 0.0000 |
PRE | 84581190 | 36007708 | 2.348975 | 0.0198 |
R-squared | 0.739984 | Mean dependent var | 1.29E+08 | |
Adjusted R-squared | 0.736004 | S.D. dependent var | 1.81E+08 | |
S.E. of regression | 92884205 | Akaike info criterion | 39.55140 | |
Sum squared resid | 1.69E+18 | Schwarz criterion | 39.61737 | |
Log likelihood | -3951.140 | F-statistic | 185.9328 | |
Durbin-Watson stat | 2.146371 | Prob(F-statistic) | 0.000000 |
Модель 1.5.
Интерпретация коэффициентов:
на 6,8 млн. $.
Однако нельзя ограничиться только лишь линейной моделью с таким маленьким количеством регрессоров. Ее нельзя назвать «хорошей». Попробуем подобрать другую модель.
2.2. Полулогарифмическая модель
Полулогарифмическая модель отражает зависимость натурального логарифма кассовых сборов зарубежных фильмов LOG(SB) от качественных и количественных факторов. В этом случае каждый коэффициент в регрессии означает процентное изменение зависимого признака при изменении соответствующего параметра на единицу.
Включим все значимые переменных в регрессию:
LOG(SB) = C(1) + C(2)*BUD +
C(3)*ACTOR + C(4)*TIME + C(5)*PRE + C(6)*STATE
Dependent Variable: LOG(SB) | ||||
Method: Least Squares | ||||
Sample: 1 200 | ||||
Included observations: 200 | ||||
Variable | Coefficient | Std. Error | t-Statistic | Prob. |
C | 14.69211 | 0.359005 | 40.92449 | 0.0000 |
BUD | 2.05E-08 | 2.97E-09 | 6.893285 | 0.0000 |
ACTOR | 0.106593 | 0.122565 | 0.869690 | 0.3855 |
TIME | 0.125696 | 0.019151 | 6.563283 | 0.0000 |
PRE | 0.438768 | 0.418987 | 1.047211 | 0.2963 |
STATE | 0.283609 | 0.324320 | 0.874473 | 0.3829 |
R-squared | 0.466629 | Mean dependent var | 17.45343 | |
Adjusted R-squared | 0.452882 | S.D. dependent var | 2.250127 | |
S.E. of regression | 1.664361 | Akaike info criterion | 3.886300 | |
Sum squared resid | 537.3990 | Schwarz criterion | 3.985250 | |
Log likelihood | -382.6300 | F-statistic | 33.94480 | |
Durbin-Watson stat | 1.691427 | Prob(F-statistic) | 0.000000 |
Модель 2.1
Наличие
Приквелов стало незначимым фактором.
Уравнение в целом значимо, но
«важными» являются только 3 переменные
(с учетом константы), R-squared =0,466629, достаточно
низкое значение. Модель неудовлетворительна.
2.3. Логарифмическая модель.
В
классе логарифмических моделей
рассматривается зависимость
LOG(SB) = C(1) + C(2)*LOG(BUD)
+ C(3)*LOG(ACTOR) + C(4)*LOG(TIME) + C(5)*LNMAX + C(6)*ADV + C(7)*PRE
Dependent Variable: LOG(SB) | ||||
Method: Least Squares | ||||
Sample(adjusted): 3 200 | ||||
Included observations: 124 | ||||
Excluded observations: 74 after adjusting endpoints | ||||
White Heteroskedasticity-Consistent Standard Errors & Covariance | ||||
Variable | Coefficient | Std. Error | t-Statistic | Prob. |
C | 0.013331 | 2.303479 | 0.005787 | 0.9954 |
LOG(BUD) | 0.673259 | 0.147960 | 4.550281 | 0.0000 |
LOG(ACTOR) | 0.093061 | 0.200647 | 0.463807 | 0.6436 |
LOG(TIME) | 0.871371 | 0.153482 | 5.677336 | 0.0000 |
LNMAX | 0.555792 | 0.099926 | 5.562053 | 0.0000 |
ADV | 0.006813 | 0.142333 | 0.047867 | 0.9619 |
PRE | 0.250676 | 0.136061 | 1.842381 | 0.0680 |
R-squared | 0.831761 | Mean dependent var | 17.79726 | |
Adjusted R-squared | 0.823134 | S.D. dependent var | 1.844900 | |
S.E. of regression | 0.775882 | Akaike info criterion | 2.385162 | |
Sum squared resid | 70.43311 | Schwarz criterion | 2.544372 | |
Log likelihood | -140.8801 | F-statistic | 96.40671 | |
Durbin-Watson stat | 2.070781 | Prob(F-statistic) | 0.000000 |