Анализ рынка фильмов

Автор: Пользователь скрыл имя, 02 Ноября 2011 в 10:32, реферат

Описание работы

Цель и задачи исследования. Целью исследования является выявление зависимости между мировыми кассовыми сборами на зарубежные фильмы, появившиеся в широком прокате в период с 2006 по 2008 годы, и факторами, которые непосредственно влияют на данные сборы. В качестве таких факторов исследователи выбрали следующие:
количественные
Бюджет фильма
Количество известных актеров (известность будет оцениваться исходя из рейтингов)
Продолжительность показа фильма(надели)
Максимальное число кинотеатров

Содержание

Введение..................................................................................................................3
Глава 1. Данные......................................................................................................5
Описание данных.........................................................................................5
Предварительный анализ данных..............................................................8
Графическое представление зависимости кассовых
сборов зарубежных фильмов от основных факторов....................................10
Глава 2. Поиск эконометрической модели..........................................................11
2.1 Линейная модель.........................................................................................11
2.2 Полулогарифмическая модель...................................................................16
2.3 Логарифмическая модель...........................................................................16
2.4 Оригинальная модель.................................................................................17
2.5 Анализ модели на устойчивость................................................................18
Глава 3. Оценка адекватности итоговой модели и возможные
способы ее улучшения...........................................................................................21
3.1 Улучшение эффективности оценок. Двухшаговая процедура...............21
3.2 Выводы.........................................................................................................23
Заключение.............................................................................................................24
Приложения............................................................................................................26

Работа содержит 1 файл

Анализ мировых кассовых сборов зарубежных фильмов.doc

— 1.80 Мб (Скачать)
 

      В логарифмической модели сразу бросается  в глаза незначимость подавляющего большинства регрессоров. Таким  образом, можно утверждать, что в  данной модели лишь количественные переменные оказались значимыми. F-статистика указывает на значимость уравнения в целом.

      В ходе работы над поиском модели авторами были сделаны следующие выводы:

    • Ни в одной из исследуемых моделей фиктивные переменные ЖАНРА не стали значимыми, следовательно, скорее всего,  нужно сделать вывод, что выбор людей между «идти/не идти» на фильм не зависит от жанра фильма.
    • Так как во всех ранее рассмотренных моделях ни разу коэффициент перед переменной ACTOR не становился значимым, следовательно, стоит рассмотреть некие другие функциональные связи между зависимой переменной и данными переменными.
 

2.4. Оригинальная  модель 

      С учетом корректировок, авторы проекта  рассмотрели различные виды моделей. Были рассмотрены различные вариации смесей линейной, логарифмической и  полулогарифмической моделей. В  итоге, была найдена оригинальная модель:

LOG(SB) = C1 + С2*LNMAX + С3*BUD + С4*TIME + С5*STATE 

Dependent Variable: LOG(SB)
Method: Least Squares
Sample: 1 200
Included observations: 200
White Heteroskedasticity-Consistent Standard Errors & Covariance
Variable Coefficient Std. Error t-Statistic Prob. 
C 10.76499 0.290017 37.11852 0.0000
LNMAX 0.861893 0.044140 19.52620 0.0000
BUD 1.05E-08 1.63E-09 6.444951 0.0000
TIME 0.069719 0.011490 6.067834 0.0000
STATE -0.669748 0.194339 -3.446287 0.0007
R-squared 0.817927     Mean dependent var 17.45343
Adjusted R-squared 0.814192     S.D. dependent var 2.250127
S.E. of regression 0.969928     Akaike info criterion 2.801492
Sum squared resid 183.4482     Schwarz criterion 2.883950
Log likelihood -275.1492     F-statistic 218.9992
Durbin-Watson stat 2.003513     Prob(F-statistic) 0.000000
 

Интерпретация коэффициентов:

  • При увеличении максимального числа кинотеатров на один процентный пункт величина кассовых сборов фильма растет на 0,86%
  • При росте бюджета фильма на 1$ кассовые сборы растут на 0,00000105%
  • Каждая дополнительная неделя показа фильма вызывает рост кассовых сборов фильма на 6,9%

t-статистики, а также их вероятности, указывают на значимость данных регрессоров на уровне значимости α = 1%.

      Видно, что все переменные модели являются значимыми. F- статистика указывает на значимость уравнения в целом. R-squared =0.817927 принял достаточно высокое значение.

      Проведем  тесты на гетероскедастичность и  проверим модель на устойчивость. 

2.5.Анализ  модели на устойчивость

1. Тест Уайта  а) no cross terms

White Heteroskedasticity Test:
F-statistic 17.89667    Probability 0.000000
Obs*R-squared 78.97000    Probability 0.000000
 

Данный тест говорит, что гипотеза о гомоскедастичности принимается с минимально вероятностью.

                           b) cross terms

White Heteroskedasticity Test:
F-statistic 10.75239    Probability 0.000000
Obs*R-squared 85.81287    Probability 0.000000
 

F-статистика, равная 10.75239 указывает на наличие гетероскедастичности на уровне значимости 1%.

По результатам  теста Уайта можно судить о наличии гетероскедастичности. 

2. Тест ранговой  корреляции Спирмена.

Так как в  модели регрессии имеется более  одной объясняющей переменной, то проверка гипотезы о наличии гетероскедастичности может выполняться с использованием любой из них.

1) Проведем сначала  для переменной МАХ – максимальное  число кинотеатров.

    r =0,832 => r*((n-1)^0.5) = 11,74 >1,96 => гетероскедастичность есть. 

2) Теперь проведем  данный тест для переменной  BUD – бюджет фильма.

r =0,762 => r*((n-1)^0.5) = 10,75 >1,96 => гетероскедастичность есть 

3. Проведем тест  Голдфелда-Квандта.

Упорядочим наблюдения по возрастанию максимального числа кинотеатров и оценим регрессию по первым 70 наблюдениям и по последним 70 (то есть d = 60 = 0.3*n). 

1) Проведем для  переменной МАХ – максимальное  число кинотеатров.

ESS1 = 121.67

ESS2 = 11,23

Следовательно, ESS1/ESS2 = 121.67/11.23 = 10.83

F(α=5%, 70, 70) = 1,45<10.83 => гетероскедастичность есть. 

2) Проведем для  переменной BUD – бюджет фильма.

ESS1 = 126.57

ESS2 = 17.25

Следовательно, ESS1/ESS2 = 126.57/17.25 = 7.34

F(α=5%, 70, 70) = 1,45<7.34 => гетероскедастичность есть. 

3) Проведем для  переменной TIME – продолжительность показа фильма (недели).

ESS1 = 107

ESS2 = 31.6

Следовательно, ESS1/ESS2 = 107/31.6 = 3.39

F(α=5%, 70, 70) = 1,45<3.39 => гетероскедастичность есть. 
 

4. Проведем тест  Глейзера. 

Для этого надо рассмотреть модели: 

  • |e| = cons + β*(ln(MAX))^γ, где γ будем брать, равное 0,5, 1 и 2
  • |e| = cons + β*(BUD)^γ, где γ будем брать, равное 0,5, 1 и 2
  • |e| = cons + β*(TIME)^γ, где γ будем брать, равное 0,5, 1 и 2
 

В первой из них  получается следующее:

1.1. При γ = 2: |e| = 0,033205 – 0,000645*(ln(MAX))^2, причем коэффициент при ln(MAX))^2 получается незначим. Следовательно, гетероскедастичности нет.

1.2. При γ = 1: |e| = 2,51*10^(-13) + 6.79*10^(-15)*ln(MAX), причем коэффициент при ln(MAX) получается незначим. Следовательно, гетероскедастичности нет.

1.3. При γ = 0.5: |e| = -0.154849 + 0,059711*(ln(MAX))^0.5, причем коэффициент при ln(MAX))^0.5 получается незначим. Следовательно, гетероскедастичности нет. 

Во второй модели:

1.1. При γ = 2: |e| = 0,030035 + 6.88*10^(-18)*(BUD)^2, причем коэффициент при (BUD)^2 получается незначим. Следовательно, гетероскедастичности нет

1.2. При γ = 1: |e| = 2,52*10^(-13) + 1.05*10^(-21)*BUD, причем коэффициент при BUD получается незначим. Следовательно, гетероскедастичности нет

1.3. При γ = 0.5: |e| = 0.110889 + 1.86*10^(-5)*(BUD)^0,5, причем коэффициент при (BUD)^0.5 получается незначим. Следовательно, гетероскедастичности нет. 

В третьей модели:

1.1. При γ = 2: |e| = 0,020276 – 0,000118*(TIME)^2, причем коэффициент при (TIME)^2 получается незначим. Следовательно, гетероскедастичности нет.

1.2. При γ = 1: |e| = 5,04*10^(-13) – 2.62*10^(-14)*TIME, причем коэффициент при TIME получается незначим. Следовательно, гетероскедастичности нет.

1.3. При γ = 0.5: |e| = -0.037245 – 0.01151*TIME, причем коэффициент при (TIME)^0.5 получается незначим. Следовательно, гетероскедастичности нет. 

      Таким образом, тест Глейзера всецело указывает  на отсутствие гетероскедастичности в рассматриваемой модели.  

      Подводя итог к анализу модели на устойчивость, следует сказать, что все тесты (а именно тест ранговой корреляции Спирмена, тест Уайта и тест Голдфелда-Квандта), кроме теста Глейзера, указали на явное наличие гетероскедастичности в итоговой модели. Следовательно, оценки МНК, которые использовались до сих пор, неэффективны. Можно, по меньшей мере, найти другие оценки, которые имеют меньшую дисперсию и, тем не менее, являются несмещенными, для получения которых проведем двухшаговую процедуру. 

Глава 3. Оценка адекватности итоговой модели и возможные

способы ее улучшения.

3.1 Улучшение  эффективности оценок: двухшаговая процедура. 

Предположим, что σi – стандартное отклонение случайного члена в наблюдении i – зависит от регрессоров итоговой модели, то есть σi^2 = β(0) + β(1)*ln(MAX) + β(2)*BUD + β(3)*TIME + β(4)*STATE.  

1) После МНК-оценки  итоговой модели, получен вектор  остатков е.

                _                       _

2) еi^2 = σi^2, где σi – оценка стандартного отклонение случайного члена в наблюдении i. Оценим β(0), β(1), β(2), β(3), β(4) из модели еi^2 = β(0) + β(1)*ln(MAX) + β(2)*BUD + β(3)*TIME + β(4)*STATE. 

Dependent Variable: E_SQUARED
Method: Least Squares
Sample: 1 200
Included observations: 200
Variable Coefficient Std. Error t-Statistic Prob. 
C 5.044190 0.414756 12.16182 0.0000
LNMAX -0.566977 0.063126 -8.981720 0.0000
BUD 1.80E-09 2.33E-09 0.771953 0.4411
STATE 0.015492 0.277927 0.055740 0.9556
TIME -0.025700 0.016432 -1.564020 0.1194
R-squared 0.382477     Mean dependent var 0.917241
Adjusted R-squared 0.369810     S.D. dependent var 1.747325
S.E. of regression 1.387105     Akaike info criterion 3.516997
Sum squared resid 375.1918     Schwarz criterion 3.599455
Log likelihood -346.6997     F-statistic 30.19446
Durbin-Watson stat 2.027025     Prob(F-statistic) 0.000000

                             _

Следовательно, получены оценки β(0), β(1), β(2), β(3), β(4). Теперь найдем σi^2 = 5.044190 - 0.566977* ln(MAX) + 1.80E-09*BUD + 0.015492*TIME - 0.0257*STATE. 

3) Теперь найдем эффективные оценки для С1, С2, С3, С4, С5 с несмещенными стандартными ошибками. Поделим каждое уравнение LOG(SBi) = C1 + С2*LN(MAXi) + С3*BUDi + С4*TIMEi + С5*STATEi на соответствующую полученную оценку σi, что может быть переписано как LOG(SB)(1) = C1*υ + С2*LNMAX(1) + С3*BUD(1) + С4*TIME(1) + С5*STATE(1), где LOG(SB)(1) определяется как LOG(SBi)/ σi; LNMAX(1) представляет собой LN(MAXi) / σi; υ – новая переменная, i-ое наблюдение которой равно 1/ σi; величина BUD(1) есть BUDi / σi; TIME(1) – это TIMEi/ σi; и наконец, STATE(1) – то же, что и STATEi/ σi.  

Dependent Variable: LNSB1
Method: Least Squares
Sample: 1 200
Included observations: 200
Variable Coefficient Std. Error t-Statistic Prob. 
SIGMA_IN_MINUS1 9.796951 0.591720 16.55673 0.0000
LNMAX1 0.928406 0.079966 11.61003 0.0000
TIME1 0.078050 0.009215 8.469701 0.0000
BUD1 9.56E-09 1.15E-09 8.338204 0.0000
STATE1 -0.188209 0.178312 -1.055506 0.2925
R-squared 0.992520     Mean dependent var 18.17673
Adjusted R-squared 0.992366     S.D. dependent var 8.113594
S.E. of regression 0.708884     Akaike info criterion 2.174433
Sum squared resid 97.99082     Schwarz criterion 2.256891
Log likelihood -212.4433     Durbin-Watson stat 2.159098

Информация о работе Анализ рынка фильмов