Содержание к диссертации
Введение
Глава 1. Критерии оценки и факторы коммерческого успеха кинофильмов 16
1.1. Классификация и особенности экономико-математических моделей киноиндустрии 16
1.2. Подходы к оцениванию моделей спроса на кинофильмы 19
1.3. Критерии и детерминанты успеха кинофильма 25
1.4. Ограничения существующих исследований 36
1.5. Концептуальная модель коммерческого успеха кинофильмов 37
Глава 2. Описательный и сегментационный анализ рынка кинофильмов 41
2.1. Информационная база исследования 41
2.2. Методика измерения силы актерского состава и режиссера фильма 46
2.3. Формализация содержания кинофильмов на основе текстовой информации 51
2.4. Анализ соответствий между атрибутами кинофильмов и коммерческим успехом 57
2.5. Кластеризация кинофильмов по коммерческому успеху 68
Глава 3. Объясняющие мо дели ко ммерческого успеха кинофильмов 72
3.1. Робастные модели кассовых сборов 72
3.2. Модель кассовых сборов с латентными классами 80
Глава 4. Прогнозные модели коммерческого успеха и их диагностика 88
4.1. Требования к прогнозным моделям коммерческого успеха 88
4.2. Сегментационный подход к диагностике точности моделей 90
4.3. Построение и диагностика прогнозных моделей 93
4.4. Оценка вклада различных факторов в объяснение коммерческого успеха кинофильма 106
4.5. Подходы к прогнозированию кассовых сборов после выхода фильма в кинотеатральный прокат 110
Заключение 114
Список литературы
- Подходы к оцениванию моделей спроса на кинофильмы
- Методика измерения силы актерского состава и режиссера фильма
- Модель кассовых сборов с латентными классами
- Построение и диагностика прогнозных моделей
Подходы к оцениванию моделей спроса на кинофильмы
Многие эмпирические работы посвящены моделированию спроса на отдельные фильмы. Распространенным подходом является выражение кассовых сборов фильма (или числа зрителей фильма) как функции набора характеристик картины, среди которых могут быть бюджет, число экранов, на которых был показан фильм, интенсивность рекламы, наличие тех или иных наград, отзывы, сила актерского состава, рейтинги и другие переменные. Хотя в таких исследованиях часто получаются статистически значимые и интуитивно понятные результаты, растет осознание того, что спецификация подобных эконометрических моделей требует особого внимания в связи с такими проблемами, как тяжелые хвосты распределения выручки и потенциально эндогенные переменные в правой части уравнения. Праг и Касавант [Prag, Casavant, 1994] были одними из первых исследователей, которые рассмотрели детерминанты кассовых сборов. Их набор данных насчитывал 652 фильма, вышедших в прокат в США в течение большого количества лет. В качестве объясняющих переменных были использованы бюджет, качество (на основе отзывов критиков), «звездность» актерского состава, является ли фильм сиквелом или нет, получил ли фильм награды, жанр фильма и его рейтинг MPAA, указывающий, для аудитории какого возраста он рекомендован. В дополнение к этому, исследователи проанализировали подвыборку из 195 фильмов, для которых в дополнение к указанным выше переменным наблюдали данные по рекламе. С помощью регрессионного анализа были выявлены положительные эффекты бюджета, качества, «звездности» актерского состава, того факта, является фильм сиквелом или нет, а также наград фильма. Однако после включения затрат на рекламу только качество фильма оказалось статистически значимым. Затем они оценили влияние на маркетинговые затраты переменных бюджет, качество, «звездность» актерского состава, является фильм сиквелом или нет, награды, жанр и рейтинг. Они наблюдали положительное статистически значимое влияние бюджета, «звездности», наград и жанров «боевик» и «комедия». Авторы отметили, что это указывает на то, что бюджет, звездность и жанр влияют на кассовые сборы через рекламу. Их результаты говорят об эндогенности рекламы (фильмы, на которые делают ставку в прокате за счет того, что они обладают какими-то ненаблюдаемыми исследователем характеристиками, повышающими шансы много заработать, получают более высокие рекламные бюджеты). Кроме того, заметна проблема мультиколлинеарности (высокой коррелированности объясняющих переменных между собой: например, производственный и рекламный бюджеты сильно коррелированны).
Более позднее эконометрическое исследование спроса (и предложения) было проведено Эльберс и Элиашбергом [Elberse, Eliashberg, 2003], которые оценивали систему одновременных уравнений по еженедельным данным о кассовых сборах и количеству экранов кинотеатров, в которых были показаны фильмы. Рассматривались рынки США, Франции, Германии, Испании и Великобритании. Их набор данных включает 164 фильма, вышедших в 1999 году и попавших хотя бы на одну неделю в список 25 самых успешных кинолент в американских рейтингах. Они моделируют недельные кассовые сборы как функцию от количества экранов, на которых был показан фильм в эту неделю, и ряда других регрессоров. Меняющиеся во времени переменные включают среднее количество экранов за неделю, число конкурирующих фильмов и сезон, тогда как не меняющиеся во времени переменные включают в себя популярность звезд, снявшихся в фильме, популярность режиссера и рекламные затраты. Авторы также включают уравнение для предложения фильмов (количество экранов, на которых их показывают на конкретной неделе) как функцию от ожидаемой выручки за данную неделю. Ожидаемые кассовые сборы в первую неделю они замещают ценой фильма на виртуальной Голливудской Фондовой Бирже (Hollywood Stock Exchange), а для последующих недель используют экспоненциальное сглаживание. Результаты, полученные в данной работе, говорят о том, что несколько переменных, которые, как считается обычно, влияют на кассовые сборы напрямую, влияют на выручку через распределение кинотеатральных экранов между фильмами. Для рынков всех изученных стран количество экранов – главный фактор кассовых сборов, а ожидаемые кассовые сборы – ключевой фактор количества экранов. Они также показывают, что реклама – важнейший предиктор количества экранов в первую неделю показа, а «сарафанное радио» играет важную роль в последующие недели. Еще один вывод заключается в обратной связи между кассовыми сборами за рубежом и временным лагом между выходом фильма на родине и за границей. Таким образом, крайне важно не задерживать выход фильма на зарубежных рынках, так как эффект «сарафанного радио» быстро ослабевает.
Интересной особенностью спроса на кинокартины является то, как зрители взаимодействуют между собой, и как это отражается на закономерностях динамики кассовых сборов. В серии статей Дэ Вэни и Уоллс [De Vany, Walls, 1996, 1997, 1999, 2004] подробно изучают динамику спроса, эмпирические распределения кассовых сборов и прибыли, а также то, о чем говорят их результаты практикам, работающим в киноиндустрии. В одном из исследований Дэ Вэни и Уолс [De Vany, Walls, 1996] изучают эффекты информационных каскадов, вызванных обменом информацией о фильмах между потребителями. Используя выборку 300 фильмов, попадавших в Топ-50 в рейтинге журнала Variety, они описали происходящее на кинорынке с помощью физической модели Бозе-Эйнштейна, показав, что обмен информацией может способствовать появлению экстремально успешных и экстремально неудачных с коммерческой точки зрения кинокартин. Авторы показывают, что распределение кассовых сборов имеет более тяжелые хвосты по сравнению с логнормальным и, кроме того, нарушается закон Парето в точной форме, что подразумевает автокорреляцию в росте кассовых сборов, которую они интерпретируют как возрастающую отдачу от информации. В следующем исследовании тех же авторов [De Vany, Walls, 1997] изучается количество недель, проведенное каждым из 350 фильмов в списке Топ-50.
Методика измерения силы актерского состава и режиссера фильма
Перед построением объясняющих моделей для лучшего понимания имеющихся закономерностей была поставлена задача провести кластеризацию кинофильмов таким образом, чтобы различия между сегментами по коммерческому успеху были максимальны. Такая сегментация позволила бы выяснить, существуют ли сегменты, различающиеся средними кассовыми сборами и вероятностью коммерческого успеха, и, если существуют, то какие именно сегменты. В случае разделения выборки на сегменты, различающиеся кассовыми сборами, слишком сильное влияние оказывает производственный бюджет кинофильмов. Кроме того, с точки зрения инвестора полезнее выявление сегментов, различающихся относительным коммерческим успехом, поэтому зависимой переменной в нашем анализе будет рентабельность кинофильма, определяемая как не менее чем двукратное превышение кассовых сборов в США над производственным бюджетом фильма.
Для решения этой задачи был использован алгоритм CHAID (Chi-square automatic interaction detection, автоматическое обнаружение взаимосвязей на основе критерия хи-квадрат), на каждом шаге выбирающий переменную, которая позволяет разбить выборку на максимально различающиеся по значению зависимой переменной группы [Kass, 1980]. На дерево, построенное методом CHAID, было наложено ограничение по минимальному числу наблюдений в вершине: оно должно быть не менее 100. Получившееся дерево (см. Рисунок 5) позволило выделить 7 непересекающихся сегментов фильмов, описываемых с помощью их атрибутов.
Выяснилось, что в 7 крупных сегментах (доля каждого из них от 6,0% до 26,1% всей выборки) доля рентабельных кинофильмов варьируется от 7,9% до 46,4%. Таким образом, у инвестора может существовать возможность отсечь сегменты, в которых успех наименее вероятен, и вложить деньги в более привлекательные сегменты. Сегменты различаются жанром, бюджетом, силой актерского состава, а также типом фильма (игровой/неигровой), что указывает на высокую классифицирующую способность этих переменных в модели. Достаточно большой размер каждого сегмента говорит о наличии ряда фундаментальных факторов, ограничивающих переток капитала из одного сегмента в другой. Среди них:
Для оценки влияния характеристик фильма на его кассовые сборы уместно использовать робастный регрессионный анализ [Rousseeuw, Leroy, 2005], так как на рынке кинофильмов встречаются наблюдения, которые можно отнести к выбросам, однако с экономической точки зрения не все из них следует удалять -многим уместнее придать меньший вес. При оценке параметров робастной регрессии [Hamilton, 1992] вначале проводится первичный скрининг на основе расстояний Кука (Cook s distance) для исключения серьезных выбросов (расстояние Кука 1), затем проводятся итерации Хьюбера [Huber, 1964] до достижения сходимости весов и итерации Ли [Li, 1985] также до достижения сходимости. Под итерациями подразумевается получение весов для каждого наблюдения с последующим построением регрессии с использованием этих весов. Сходимость весов достигается тогда, когда максимальное изменение весов падает ниже определенного, близкого к нулю числа (мы использовали стандартное для пакета Stata значение, равное 10 14). Таким образом, использование робастного оценивания минимизирует чувствительность оценок параметров к наличию в выборке выбросов.
При взвешивании по методу Хьюбера, наблюдения с малыми остатками получают вес равный единице, тогда как наблюдения с большими остатками -меньший вес. Пусть et - остаток в і-м наблюдении, то есть разность между наблюдаемым и предсказанным значениями. Медианное абсолютное отклонение от медианного остатка М = med(\ei-med(ei)\) . Стандартизованный z-й остаток рассчитывается как ut=e/s, где s=M/0,6745. Веса Хьюбера рассчитываются по следующей формуле: Стандартные ошибки оценок параметров робастной регрессии рассчитываются на основе подхода, опирающегося на подход Стрита, Кэррола и Руперта [Street, Carroll, Ruppert, 1988].
Среди объясняющих переменных были категориальные переменные, перекодированные в дихотомические, в связи с чем требовалось выбрать эталонную категорию для каждой переменной и не включать соответствующую ей дихотомическую переменную в число регрессоров. Эталонными категориями были выбраны боевик (для жанра), animation/live action (для производственного метода), contemporary fiction (для художественного типа), недели 1-9 (для номера недели). Сравним между собой 3 вложенные модели, постепенно избавляясь от наименее значимых групп переменных (см. Таблицу 13).
Модель кассовых сборов с латентными классами
Таким образом, алгоритм Random Forest существенно лучше предсказывает коммерческий успех для фильмов, выходящих в широкий кинопрокат и имеющих высокий бюджет. Мы выявили эту закономерность на обучающей выборке, и она действительно проявилась на тестовой выборке: таким образом, мы можем на этапе построения модели предупредить пользователя модели о том, для каких фильмов ожидаемая точность прогноза ниже средней. Чем объясняется неоднородность качества предсказания? Можно выделить несколько возможных причин неоднородности качества предсказания:
1. Недостаточно факторов для объяснения коммерческого успеха в некоторых из сегментов. Данная проблема может быть решена только путем поиска дополнительных характеристик фильмов или использованием иных методов предсказания (например, экспертные оценки).
2. Влияние факторов на зависимую переменную различно в каждом из сегментов. Это может выражаться в том, что параметры взаимосвязи между зависимой и объясняющими переменными различаются между сегментами. Данная причина актуальна в большей степени для параметрических регрессий и может быть устранена путем построения отдельных моделей для каждого из сегментов.
Прогнозирование рентабельности
Для прогнозирования рентабельности (более чем двукратного превышения кассовыми сборами производственного бюджета) использовались те же методы, что и для прогнозирования кассовых сборов, за исключением пошаговой МНК-регрессии, которая была заменена пошаговой логистической регрессией.
Поскольку в каждом случае мы стремились удержать false positive rate (доля фильмов, классифицированных как успешные, которые на самом деле таковыми не являются) на достаточно низком уровне, мы оставили используемую по умолчанию вероятность 0,5 в качестве порогового значения, превышение которого означает, что фильм относится к категории успешных.
Число наблюдений, верно классифицированных как успешные, обозначим через TP (true positive), количество наблюдений, неверно классифицированных как успешные – через FP (false positive), количество наблюдений, верно классифицированных как неуспешные – через TN (true negative), а количество наблюдений, неверно классифицированных как неуспешные – через FN (false negative).
Использовались следующие показатели качества классификации: Accuracy = TP + TN (интерпретация: «В скольких процентах TP + TN + FP + FN случаев предсказание модели совпадает с реально наблюдаемым значением?»); отражающий, насколько модель лучше, чем случайное предсказание. Если AUC 0,5, то модель лучше, если менее 0,5, то хуже. Чем ближе AUC к 1, тем лучше классификационная модель. Результаты сравнения трех методов, примененных к прогнозированию переменной profit! (индикатор более чем двукратного превышения кассовыми сборами производственного бюджета) по описанным выше критериям приведены в Таблице 19.
Сравнительный анализ точности классификации с помощью различных методов (зависимая переменная – profit2) Метод Тестовая выборка (2011-2012 гг.) Обучающая выборка (1999-2010 гг.) Accuracy, Recall, Precision, % % % AUC Accuracy, Recall, Precision, % % % AUC Пошаговаялогистическаярегрессия 79,3 29,5 72,2 0,628 81,5 36,2 74,0 0,661 Многослойный перцептрон 70,1 13,6 30,0 0,514 76,0 26,2 54,6 0,597 Random Forest 83,3 40,9 85,7 0,693 82,6 31,5 90,5 0,653 Лучшим методом по всем показателям на тестовой выборке стал Random Forest (RF). Он обеспечил наибольшую долю верно классифицированных фильмов (83,3% на тестовой выборке). Причем с вероятностью 85,7%, если модель предсказывала успех фильма, он действительно оказывался успешен. Следует отметить, что долю верно классифицированных фильмов, превышающую 75% можно считать хорошим результатом, т.к. наивное предсказание без объясняющих переменных дало бы 74,7% верно классифицированных наблюдений на тестовой выборке (именно такова доля самой часто встречающейся категории фильмов по рентабельности – «нерентабельные»).
Далее была проведена диагностика однородности качества классификации для RF-модели. Минимальное количество наблюдений в вершине диагностического дерева было установлено на уровне 300, чтобы обеспечить стабильность сегментов. Результаты диагностики для Random Forest представлены на Рисунке 8.
Сегменты с различающейся долей верно классифицированных фильмов для алгоритма Random Forest (слева – для обучающей выборки, справа – средние значения для тех же сегментов для тестовой выборки)
Нами были получены 2 крупных, стабильных (относительные размеры в тестовой выборке близки к размерам на обучающей выборке), существенно отличающихся качеством классификации, сегмента. Фактором, максимально дифференцирующим точность классификации оказался производственный бюджет: рентабельность фильмов с бюджетом свыше 70,3 млн. долларов легче предсказать, вероятно, в связи с легко прогнозируемой низкой вероятностью окупить столь колоссальные затраты. Выявленные различия между сегментами сохраняются и на тестовой выборке (см. Таблицу 20), что говорит о возможности получать устойчивые результаты с помощью предложенного нами сегментационного подхода.
Для оценки чувствительности результатов сравнительного анализа методов к выбору критерия рентабельности, мы также взяли в качестве зависимой переменной profit1 (индикатор более чем однократного превышения кассовыми сборами производственного бюджета). Метод Random Forest вновь оказался лучшим по всем показателям (см. Таблицу 21).
Проведя диагностику однородности качества классификации, мы не обнаружили сегментов, различающихся долей правильно классифицированных наблюдений. Однако, ориентируясь на результаты диагностики двух других моделей кассовых сборов и рентабельности, можно рекомендовать с осторожностью использовать полученную модель для предсказания кассовых сборов в сегменте кинофильмов, выходящих менее, чем примерно в 1700 кинотеатрах и для предсказания рентабельности (по критерию более чем двукратного превышения кассовыми сборами производственного бюджета) в сегменте фильмов с бюджетом ниже 70 млн. долларов.
Во время построения каждого дерева в алгоритме Random Forest после каждого разбиения рассчитывается снижение суммы квадратов остатков, полученное благодаря переменной, по которой это разбиение было произведено (RSS,). Усреднив снижение суммы квадратов остатков модели по всем деревьям ансамбля для соответствующей переменной, получаем меру ее важности ARSS,. Далее, взяв переменную, дающую наибольшее среднее снижение остаточной суммы квадратов среди всех К регрессоров, нормировали показатели важности всех переменных относительно нее.
Построение и диагностика прогнозных моделей
С содержательной точки зрения гетероскедастичность выражается в росте вариации кассовых сборов фильма с ростом их производственного бюджета.
Устойчивость к наличию нетипичных для рынка наблюдений. Спрос и предложение в определенных сегментах кинорынка сильно ограничены (например, выполненные с помощью ручной анимации), поэтому используемые методы должны быть устойчивы к некоторым изменениям входных данных и малочувствительны к нетипичным наблюдениям. Кроме того, должна существовать возможность оценивать потенциал фильмов, часть характеристик которых не встречалась в исторических данных.
Переменные «метод производства», «жанр», «художественный тип», «источник сценария», «дистрибьютор» и некоторые другие имеют до 10 категорий, что существенно увеличивает число параметров модели в случае использования, например, множественной регрессии или нейронных сетей. Крайне желательно, чтобы алгоритм не был подвержен проблеме «переобучения», когда на обучающей выборке предсказание близко к наблюдаемым значениям, тогда как прогноз по тестовой выборке оставляет желать лучшего.
Еще одним крайне желательным свойством модели является возможность получения прогноза в случае, если значения одной или нескольких объясняющих переменных для рассматриваемого фильма пропущены. Например, мы можем не знать, в скольких кинотеатрах будет показан наш кинофильм, но все равно хотим получить прогноз. Решить подобную задачу под силу, например, некоторым алгоритмам, основанным на деревьях регрессии и классификации.
Помимо средних показателей точности предсказания очень важна, особенно в рассматриваемой нами предметной области, однородность точности оценки. Если существуют сегменты объектов, для которых модель систематически завышает или занижает предсказанное значение, такую модель нельзя признать удовлетворительной. Для проблемных сегментов разумно дополнять автоматическую классификацию кинопроектов экспертными оценками, более тщательным анализом кинофильма или просто использовать экспертную систему только для предсказания успеха фильмов из наиболее надежных сегментов.
Несмотря на активное развитие статистических методов, до сих пор не было предложено достаточно универсальных и приемлемых для использования в управленческих задачах подходов к диагностике и коррекции неоднородности качества оценки, в том числе и для прогнозных моделей коммерческого успеха кинофильмов. Мы предлагаем подход к диагностике и коррекции точности оценок в контексте рассматриваемой в работе задачи, основанный на применении деревьев классификации.
Методика выявления сегментов с высокой и низкой ошибкой предсказания для задачи классификации с обучением
Бинарные классификаторы, такие как логистическая регрессия, используют набор объясняющих переменных, чтобы предсказать класс, к которому принадлежит каждое наблюдение. Пусть Х1,...,ХМ - это объясняющие переменные, включенные в модель классификации; Yt - наблюдаемый класс, к которому принадлежит наблюдение / (0 или 1); Y, - предсказанный класс для данного наблюдения. Тогда переменная Q отражает, верно ли было классифицировано наблюдение:
Для выявления сегментов с высокой и низкой ошибкой предсказания для задачи классификации с обучением:
На обучающей выборке строится дерево классификации с использованием алгоритма CHAID [Magidson, 1994; Kass, 1980; McCarty, Hastak, 2007], в котором Q является зависимой переменной и ХХ,...,ХМ- объясняющие переменные. Выбираем уровень значимости, который считаем подходящим (в данном исследовании мы будем всегда выбирать 5% уровень значимости). Вершины дерева показывают сегменты, которые различаются долей верно классифицированных наблюдений. Если в дереве нет разбиений, то точность классификации, скорее всего, является однородной во всех сегментах наблюдений.
Если выявленные сегменты значимо различаются по уровню точности классификации (и со статистической, и с практической точек зрения), разбиваем набор данных на несколько достаточно крупных непересекающихся поднаборов в соответствии с информацией, полученной из вышеупомянутого дерева классификации. Методика выявления сегментов с высокой и низкой ошибкой предсказания для задачи регрессии
Регрессионные методы, такие как множественная регрессия, используют набор объясняющих переменных, чтобы предсказать значение непрерывной переменной для каждого наблюдения. Пусть X,,...,Хп - это объясняющие переменные, включенные в модель регрессии; Yt - наблюдаемое значение зависимой переменной для наблюдения /; Y, - предсказанное значение зависимой переменной для данного наблюдения. Тогда переменная APEt =
Для выявления сегментов с высокой и низкой ошибкой предсказания для задачи регрессии:
1. На обучающей выборке строится регрессионное дерево с использованием алгоритма CHAID, в котором APEi является зависимой переменной и X 1,..., X n – объясняющие переменные. Выбираем уровень значимости, который считаем подходящим (в данном исследовании мы будем всегда выбирать 5% уровень значимости). Вершины дерева показывают сегменты, которые различаются значением средней процентной ошибки (MAPE).
2. Если в дереве нет разбиений, то точность предсказания по критерию средней процентной ошибки, скорее всего, является однородной во всех сегментах наблюдений. Если выявленные сегменты значимо различаются по уровню точности классификации (и со статистической, и с практической точек зрения), то эту информацию следует принять во внимание при использовании экспертной системы. Хотя нами был выбран алгоритм CHAID, едва ли существуют доводы против применения других алгоритмов деревьев решений и выбора наилучшей сегментации (с точки зрения аналитика). В частности, другим популярным алгоритмом построения деревьев классификации является CART [Breiman, 1984]. Однако на каждом шаге этот алгоритм разбивает вершину на 2 дочерние, что, как правило, менее удобно с точки зрения интерпретации полученных в результате сегментов. CHAID может генерировать не только бинарные деревья, то есть из некоторых вершин может выходить больше двух ветвей, что обычно удобнее с точки зрения интерпретации и презентации. Указанные методы построения деревьев классификации и регрессии реализованы в широко распространенных статистических пакетах, таких как IBM SPSS Statistics, Statistica или SAS. Благодаря тому, что наши методики опираются на алгоритмы «машинного обучения», они лучше всего подходят для использования на достаточно больших наборах данных (включающих более 1000 наблюдений). Однако в качестве исключительно диагностического инструмента они могут быть также применены к меньшим наборам данных.
Отметим, что идея, на которой основаны предлагаемые автором методики, может использоваться для диагностики и коррекции неоднородности качества предсказания в любых задачах предсказания количественной зависимой переменной, при условии наличия достаточно большой обучающей выборки (в частности, методика применялась в области массовой оценки недвижимости [Antipov, Pokryshevskaya, 2012] и в анализе детерминант ухода клиентов телекоммуникационной компании [Antipov, Pokryshevskaya, 2010]). Кроме того, вместо процентной ошибки можно использовать симметричную абсолютную процентную ошибку, абсолютную ошибку или квадрат ошибки в зависимости от предмета интереса исследователя. В последнем случае, например, предлагаемый инструмент становится фактически тестом на гетероскедастичность, позволяющим на достаточно больших выборках и обнаруживать факт наличия гетероскедастичности практически любого вида, и описывать сегменты с различающимися квадратами остатков, чего не умеют классические тесты на гетероскедастичность.