Содержание к диссертации
Введение
Глава 1. Алгоритм матирования видео с использованием фона 12
1.1 Постановка задачи 12
1.2 Обзор существующих алгоритмов 14
1.3 Описание предложенного алгоритма
1.3.1 Восстановление фрагментов фона 23
1.3.2 Базовый алгоритм матирования изображений 24
1.3.3 Использование восстановленного фона 26
1.3.4 Обеспечение стабильности результата во времени
1.4 Экспериментальная оценка 33
1.5 Экспертная оценка 34
1.6 Программная реализация 38
1.7 Заключение 39
Глава 2. Методика сравнения алгоритмов матирования видео 41
2.1 Введение 41
2.2 Обзор существующих методов сравнения алгоритмов матирования 42
2.3 Набор тестовых видео
2.3.1 Цветовая электронная рирпроекция 45
2.3.2 Кукольная мультипликация
2.4 Экспертная оценка 49
2.5 Выбор метрики качества 52
2.6 Объективное сравнение 56
2.6.1 Открытое онлайн сравнение 56
2.7 Заключение 57 Стр.
Глава 3. Алгоритм построения стереоскопических ракурсов с помощью многослойного матирования 62
3.1 Постановка задачи 62
3.2 Обзор существующих алгоритмов 67
3.3 Описание предложенного алгоритма
3.3.1 Построение маски областей, подлежащих обработке 71
3.3.2 Построение многослойной карты диспарантности 72
3.3.3 Вычисление изображений слоев 74
3.3.4 Заполнение областей открытия 79
3.3.5 Сдвиг слоев и построение изображения ракурса
3.4 Программная реализация 83
3.5 Анализ результатов работы предложенного алгоритма 84
3.6 Заключение 86
Заключение 88
Список литературы
- Описание предложенного алгоритма
- Обзор существующих методов сравнения алгоритмов матирования
- Выбор метрики качества
- Вычисление изображений слоев
Введение к работе
Актуальность темы. В последние годы стереоскопическое видео стало неотъемлемой частью современного кинематографа. В России и в мире функционирует большое количество стереокинотеатров, а кинопроизводители ежегодно выпускают новые картины в стереоскопическом формате.
Как правило, стереоскопический фильм производится одним из четырех способов:
– Съемка с использованием стереоскопической камеры (камеры, позволяющей производить съемку сцены с двух или более ракурсов)
– Конвертация моноскопического фильма в стереоскопический формат. Процессконвертацииизмоноскопическоговстереоскопический формат подразумевает съемку фильма традиционным способом с использованием одной камеры и последующее его преобразование в стереоскопический формат путем ручной разметки кадров и применения специальных программных инструментов
– Компьютерная графика. Мультипликационные фильмы могут быть преобразованы в стереоскопический формат путем рендеринга с двух ракурсов
– Смешанный способ: комбинация материалов, полученных несколькими из вышеописанных способов
Важно отметить, что, несмотря на улучшение технических характеристик сте-реокамер, доступных на рынке, самым широко применяемым способом производства стереоскопических фильмов остается конвертация из моноскопического формата. Например, из 36 стереоскопических фильмов, вышедших на экраны кинотеатров в 2016 году, 24 были получены путем конвертации из моноскопи-ческого формата.
В ходе конвертации видео в стереоскопический формат требуется решить следующие подзадачи:
– Построение карты глубины (карты, сопоставляющей каждому пикселу изображения его удаленность от зрителя) кадров исходной видеопоследовательности
– Заполнение областей открытия. Фрагменты фона, которые были скрыты объектами переднего плана, могут стать видимы на стереоскопических ракурсах; информация о содержимом этих областей должна быть восстановлена
– Обработка полупрозрачных границ. Для формирования стереоскопического ракурса требуется выполнить сдвиг объектов переднего плана относительно фона. Зачастую такой сдвиг затруднен вблизи полупрозрачных границ (границ, пикселы вдоль которых являются смесью цветов двух или более объектов). Для корректной обработки таких областей требуется выполнить их декомпозицию на слои
Стоит отметить, что данные задачи актуальны не только для преобразования видео в стереоскопический формат, но и для преобразования видео, снятого с двух ракурсов, в многоракурсный формат, необходимый для воспроизведения на автостереоскопических мониторах.
Все вышеперечисленные задачи активно исследуются учеными (например, [—]). Данная диссертационная работа посвящена исследованию и разработке новых способов решения задачи обработки полупрозрачных границ для преобразования видео в стереоскопический формат. Данная задача, несмотря на внимание ученых, все еще не имела удовлетворительного решения на момент проведения исследования. В частности, как показано в главе 3 диссертации, существовавшие на тот момент методы были не в состоянии обработать области пересечения трех и более объектов.
Важно отметить, что применимость алгоритмов и методик, предлагаемых в главах 1-2 диссертации, не ограничивается лишь конвертацией видео в стереоскопический или многоракурсный формат. Данные алгоритмы и методики также применимы для решения и дальнейшего исследования задачи матирования изображений ивидео. Задача матированиясостоитвдекомпозиции исходного изображения или видео напередний план, фоникарту прозрачности. Такая задача часто возникает в процессе обработки изображений и видео. Корректное решение данной задачи позволяет заменять фон позади объекта или применять эффект только к фону или только к переднему плану (например, имитировать съемку с малой глубиной резкости). Актуальность данных приемов монтажа для современного кинематографа, насыщенного спецэффектами, сложно переоценить. Различными авторами было предложено множество алгоритмов как матирования изображений, так и матирования видео []. Несмотря на это, как можно видеть из открытого сравнения алгоритмов матирования изображений [], существующие на момент проведения исследования алгоритмы не способны корректно обработать всетестовые примеры, что дополнительно подтверждает актуальность темы данной диссертации.
Целью данной работы является исследование и разработка алгоритмов, позволяющих автоматизировать преобразование видеопоследовательностей, содержащих объекты с полупрозрачными границами, в стереоскопический формат, а также повысить визуальное качество итогового стереоизображения.
Для достижения поставленной цели были решены следующие задачи:
-
Разработка новых алгоритмов декомпозиции исходной видеопоследовательности на два и более слоев и их карты прозрачности.
-
Разработка методики получения эталонных данных и сравнения результатов работы алгоритмов матирования видео с эталоном.
Основные положения, выносимые на защиту:
1. Разработан новый алгоритм матирования видео, вычисляющий карту прозрачности текущего кадра эффективнее известных,за счет использования информациио восстановленном фонеисоседних кадрах. Предло-4
женный алгоритм превзошел 11 аналогов по результатам объективного сравнения с эталоном, а также экспертной оценки.
-
Разработан новый алгоритм построения стереоскопических ракурсов, позволяющий, за счет разделения кадра на множество слоев с учетом прозрачности объектов и порядка их перекрытия, точнее моделировать области перекрытия трех и более объектов с полупрозрачными границами, чем ранее существовавшие алгоритмы, выполняющие разделение на два слоя.
-
Предложено обобщение уравнения наложения слоев, моделирующее отражение объектом переднего плана света, исходящего от фона; на основе предложенного обобщения создана методика построения эталонных карт прозрачности для видеопоследовательностей, позволяющая избежать появления ложнопрозрачных пикселов, характерных для ранее существовавшей методики.
Все предложенные алгоритмы были реализованы и прошли экспериментальную апробацию.
Научная новизна:
-
Предложен новый алгоритм матирования видео, использующий восстановленный фон в качестве дополнительных входных данных.
-
Разработан новый алгоритм построения стереоскопических ракурсов, позволяющий моделировать области пересечения границ трех и более объектов путем декомпозиции исходного изображения на несколько слоев с учетом их прозрачности и порядка.
-
Предложено обобщение уравнения наложения слоев, моделирующее отражение объектом переднего плана света, исходящего от фона.
Практическая значимость. Предложенный алгоритм построения стереоскопических ракурсов был реализован в качестве программного инструмента, позволяющего получать стереоскопические изображения, обладающие более высоким качеством, чем результаты работы аналогов. Важно отметить, что данный программный инструмент не требует от пользователя дополнительных данных, помимо карты глубины. Такой инструмент может быть применен в киностудиях для удешевления процесса конвертации моноскопического видео в стереоскопический формат путем сокращения объемов ручного труда и повышения качества результата. Также такой инструмент применим для преобразования стереоскопического видео, состоящего из двух ракурсов, вмногоракурсный формат, необходимый для автостереоскопических мониторов.
Предложенный алгоритм матирования с использованием восстановленного фона был также реализован в виде программного инструмента, позволяющего решать задачу разделения видео на два плана с использованием неполной информации о восстановленном фоне. Помимо вышеупомянутых областей применения первого инструмента, данный инструмент может быть полезен в задачах обработки видео, не связанных со стереоскопией, например, замена заднего плана или применение спецэффекта только к переднему или только к заднему плану.
Предложенная методика получения эталонных карт прозрачности для видеопоследовательностей и методика сравнения последовательностей карт прозрачности с эталоном легли в основу открытого для новых участников сравнения алгоритмов матирования видео, доступного в сети Интернет по адресу . Данное сравнение позволило упорядочить результаты исследований авторов алгоритмов матирования и выявить ихсильные и слабые стороны. Сравнение продолжает наполняться результатами анализа новых алгоритмов матирования (в 2016 году три автора прислали результаты работы своих алгоритмов для анализа). Предложенное сравнение упоминается в 4 научных работах независимых авторов.
Mетодология и методы исследования. В диссертационной работе применялись методы линейной алгебры, теории алгоритмов, а также методы численного решения разреженных систем линейных алгебраических уравнений.
Апробация работы. Основные результаты работы докладывались на:
– 26th British Machine Vision Conference (Суонси, Великобритания, 2015 год)
– 2016 International Conference on 3D Imaging (Льеж, Бельгия, 2016 год). Представленная работа была отмечена наградой за лучшую статью конференции «Best Paper Award / Lumiere Award Europe»
– Семинаре Института Макса Планка (Саарбрюкен, Германия, 2016 год)
– XXII Международной научной конференции студентов, аспирантов и молодых ученых «Ломоносов-2015» (Москва, Россия, 13-17 апреля 2015)
– XXIII Международной научной конференции студентов, аспирантов и молодых ученых «Ломоносов-2016» (Москва, Россия, 11-15 апреля 2016)
Личный вклад автора заключается в выполнении основного объёма теоретических и экспериментальных исследований, изложенных в диссертационной работе, включая разработку теоретических моделей, методик и разработку и реализацию алгоритмов, анализ и оформление результатов в виде публикаций и научных докладов.
В работах [1—6] Д.С. Ватолину принадлежит постановка задачи и обсуждение результатов её решения. В работе [6] вклад А.А. Зачесова состоит в разработке алгоритма выбора вектора движения. В работах [; ] вклад Ю.А. Гитмана и А.А. Федорова состоит в помощи в подготовке экспериментальной установки для фотографирования полупрозрачного объекта и в анализе собранных данных с помощью алгоритмов, предложенных автором. В работе [] вклад Джу Ванга состоит в обсуждении полученных результатов.
Результаты научных исследований, представленных в диссертации, были получены в рамках гранта РФФИ № 15-01-08632.
Публикации. Основные результаты по теме диссертации изложены в 8 печатных изданиях, 3 из которых изданы в журналах, рекомендованных ВАК [—
(а) Исходное изображение
(б) Фон
(в) Передний план
(г) Карта прозрачности
Рис. 1 — Пример решения задачи матирования: исходное изображение (а) было разделено на фон (б), передний план (в) и карту прозрачности (г)
], 1 входит в международную базу цитирования Web of Science [1], 2 –– в тезисах докладов [; ].
Объем и структура работы. Диссертация состоит из введения, трех глав и заключения. Полный объём диссертации составляет 101 страницу, включая 23 рисунка и 2 таблицы. Список литературы содержит 63 наименования.
Описание предложенного алгоритма
Исследования в области матирования видео, в сравнении с областью матирования изображений, затруднены большим объемом входных данных, необходимых для работы алгоритмов матирования видео, и необходимостью обеспечить стабильность во времени результирующей карты прозрачности. Ввиду этого исследования в области матирования видео всегда отставали от прогресса в области матирования изображений. Несмотря на это, на сегодняшний день существуют 12 оригинальных методов матирования видео, а также объективная методика сравнения алгоритмов матирования видео, предложенная автором и описанная в главе 2. Первый из известных алгоритмов матирования видео был предложен в 2001 году [17]. В основе метода лежит алгоритм матирования изображений, описанный в работе [18]. В качестве дополнительных входных данных алгоритм использует набор тернарных масок (карт, задающих три области: гарантированный передний план, гарантированный задний план и неизвестная область, для которой требуется решить задачу матирования) для ключевых кадров, выбранных пользователем. Алгоритм выполняет распространение тернарной разметки ключевых кадров на остальные кадры видеопоследовательности с использованием метода оценки оптического потока. Затем алгоритм матирования изображений [18] независимо применяется к каждому кадру видеопоследовательности. С целью повышения качества итоговой карты прозрачности авторы предложили применять простой алгоритм восстановления неизвестных фрагментов фона и в дальнейшем использовать эти фрагменты в качестве источника дополнительных образцов пикселов фона для алгоритма матирования изображений. Серьезным недостатком метода восстановления фона, использованноговработе, является требование принадлежности всех объектов фона одной плоскости, что существенно ограничивает его применимость на практике. Также к недостаткам работы следует отнести независимое применение алгоритма матирования к кадрам видеопоследовательности, что неизбежно приводит к нестабильности результата во времени, и отсутствие данных об оценке результатов работы алгоритма с помощью объективных методов.
Работа 2004 года [19] развивает идею предыдущей работы. Авторы применили методы машинного обучения к эталонным данным для построения модели функции плотности совместного распределения градиента исходной видеопоследовательности и последовательности карт прозрачности. Полученная модель легла в основу нового слагаемого в функции стоимости, оптимизируемой алгоритмом матирования изображений [18]. Ввиду того, что вектор градиента вычислялся в пространственно-временном домене, новое слагаемое повысило стабильность результата во времени. Несмотря на элегантность идеи, следует отметить, что новое слагаемое никак не учитывает движение объектов, что ограничивает приме нимость метода видеопоследовательностями с медленным равномерным движением. Работа также не содержит результатов объективной оценки качества.
Авторы работы 2008 года [20] предложили обобщение алгоритма сегментации изображений GrabСut [21] для обработки видеопоследовательностей. В моделях переднего плана и фона, которые в исходном методе определяли вероятность принадлежности пиксела заданного цвета к переднему плану или фону соответственно, цвет пиксела был заменен следующим вектором признаков: цвет пиксела, вектор оптического потока между текущим и предыдущим кадром, вектор оптического потока между текущим и следующим кадром. Алгоритм последовательно производит сегментацию видеопоследовательности с использованием текущих моделей переднего плана и фона, а затем уточняет модели с помощью полученной сегментации на протяжении 10 итераций. Для инициализации моделей используется грубая маска переднего плана, предоставляемая пользователем, или же данная маска строится автоматически путем анализа поля векторов движения. Очевидным достоинством метода является возможность полностью автономной работы без дополнительного ввода со стороны пользователя. К недостаткам метода следует отнести низкое визуальное качество примеров работы метода, продемонстрированных в статье, и отсутствие данных об объективном сравнении метода с аналогами.
Алгоритм матирования видеопоследовательностей [22], предложенный в 2009 году, благодаря высокому визуальному качеству результатов его работы, был включен в профессиональный программный продукт для обработки видеопоследовательностей Adobe After Effects в виде инструмента Roto Brush. На первом шаге алгоритм выполняет бинарную сегментацию исходной видеопоследовательности с использованием множества локальных классификаторов, независимо примененных к небольшим перекрывающимся окнам вдоль границы объекта. Параметры обученных классификаторов переносятся на следующий кадр с помощью векторов оптического потока для обеспечения стабильности во времени результата сегментации. Затем для каждого кадра вычисляется карта прозрачности путем применения модифицированного алгоритма матирования изображений, предло 17 женного в [23]. Предложенная модификация состоит во внедрении дополнительного слагаемогов функцию стоимости, требующего близости карты прозрачности текущего кадра к карте прозрачности предыдущего кадра с поправкой на вектора движения. Отсутствие результатов объективной оценки качества компенсируется масштабной апробацией данного алгоритма в составе популярного коммерческого продукта.
В 2010 году был предложен алгоритм матирования видеопоследовательностей [24], обобщающий алгоритм матирования изображений [25]. Дополнительными входными данными алгоритма являются тернарные маски для ключевых кадров, которые затем переносятся на остальные кадры видеопоследовательности с использованием алгоритма вычисления оптического потока. Затем к каждому кадру применяется алгоритм матирования изображений [25], на последнем этапе которого матирующий лапласиан с окнами размером 33 пиксела, принадлежащими текущему кадру, заменен пространственно-временным матирующим лапласианом с окнами 3 3 3 пиксела, захватывающими два соседних кадра. Тем не менее, алгоритм формирования данных способен учесть лишь малое движение объектов в видеопоследовательности. Также в работе были представлены результаты объективного сравнения предложенного метода с результатами работы алгоритма матирования изображений, примененного независимо к каждому кадру видеопоследовательности. В качестве набора тестовых данных авторы использовали одну синтетическую видеопоследовательность, полученную методами компьютерной графики, с известной эталонной картой прозрачности. Критериями сравнения являлись: L2 расстояние результата до эталона и отношение модуля производной карты прозрачности по времени к модулю производной видеопоследовательности ddt AdtIdt(,I)=dI , (1.2) dt которое использовалось для оценки временной стабильности результата. По обоим критериям алгоритм превзошел свою базовую версию.
Обзор существующих методов сравнения алгоритмов матирования
Открытое сравнение алгоритмов матирования изображений, предложенное в [7], упорядочило результаты исследований в области матирования и способствовало дальнейшему развитию области. Авторы этого сравнения предложили методику получения эталонных карт прозрачности: объект, имеющий полупрозрачные составные части, фотографировался на фоне различных изображений, затем карта прозрачности и изображение переднего плана вычислялись путем решения системы линейных уравнений вида (2.1). С использованием предложенной методики авторы подготовили набор сложных тестовых изображений, предложили метрики качества, отвечающие особенностям субъективного восприятия изображений человеком в ряде частных случаев. Предложенное ими сравнение стало общепризнанным методом оценки качества алгоритмов матирования изображений.
Как показано в следующем разделе, методика получения эталонных карт прозрачности [7] склонна к формированию ложно полупрозрачных областей в частях объекта, отражающих свет от заднего плана. В данной главе эта методика обобщается на случай построения эталонных карт прозрачности для видеопоследовательности и модифицируется с целью устранить проблему ложнопрозрачных областей.
Несмотря на отсутствие аналогичного сравнения алгоритмов матирования видео, некоторые авторы в своих работах проводят самостоятельную объектив 43 ную оценку предлагаемого ими метода. Методики сравнения, примененные в данных работах, могут быть классифицированы по следующим критериям: – Способ получения эталонных карт прозрачности: цветовая электронная рирпроекция [28; 33], компьютерная графика [24] – Метрика пространственной ошибки: сумма абсолютных разностей [28], средняя квадратичная ошибка [24; 33] – Метрика временной стабильности: L2 расстояние между производной по времени вычисленной и эталонной карты прозрачности [33]; отношение модуля производной по времени вычисленной карты прозрачности к модулю производной по времени входного изображения [24; 29]; производная по времени пространственной ошибки [28] – Алгоритмы, с которыми проводится сравнение: только предлагаемый алгоритм, примененный к каждому кадру независимо [24; 28; 29]; конкурирующие подходы в области матирования видео [33] Стоит также отметить, что большинство научных работ, предлагающих алгоритмы матирования видео, не содержат результатов объективной оценки качества [17; 19; 20; 22; 26; 32; 46].
Проведение объективного сравнения алгоритмов матирования требует наличия набора разнообразных тестовых видео, схожих по свойствам с видео, встречающимися в повседневной жизни. Для проведения количественных оценок качества алгоритмов также потребуются эталонные карты прозрачности для тестовых видео.
Для получения эталонных карт прозрачности были применены две различные методики: (а) Кукольная мультипликация (б) Цветовая электронная рирпроекция Рисунок 2.1 — Карты прозрачности, полученные с использованием методов цветовой электронной рирпроекции и кукольной мультипликации. Карта, полученная с использованием кукольной мультипликации, имеет существенно большую детализацию. - Цветовая электронная рирпроекция (см. раздел 2.3.1) позволила получить карты прозрачности для произвольных объектов переднего плана, совершающих произвольные движения - Кукольная мультипликации (см. раздел 2.3.2) позволила получить эталонные карты прозрачности более высокого качества, чем цветовая электронная рирпроекция (см. рисунок 2.1) для ограниченного набора объектов и движений
Пять последовательностей с эталонной прозрачностью были подготовлены с использованием цветовой электронной рирпроекции и пять последовательностей — с использованием кукольной мультипликации. Затем эти последовательности были наложены поверх видеопоследовательностей заднего плана с использованием эталонных карт прозрачности.
Тернарные маски были созданы путем применения операций отсечения по порогу и математической морфологии к эталонным картам прозрачности. Были построены три типа тернарных масок, отличающихся шириной неизвестной области. В дальнейшем это позволило судить о том, как ширина тернарной маски влияет на качество работы алгоритмов матирования. Рисунок 2.2 — Проблема влияния монитора на освещение объекта и предлагаемое решение. (а) Плюшевая игрушка отражает свет от монитора. (б)
Шахматная доска и ее инверсия одинаково освещают игрушку. (в) Карты прозрачности, вычисленные из пары изображений (а) и пары изображений (б).
Цветовая электронная рирпроекция широко используется в киноиндустрии: актера снимают на однотонном (как правило, синем или зеленом) фоне, после чего специалист по визуальным эффектам заменяет задний план на новый с использованием специального программного обеспечения.
Для подготовки набора эталонных данных были использованы пять последовательностей, снятых на фоне зеленого экрана, содержащих объекты с существенной долей полупрозрачных элементов (волосы, дым, быстро движущиеся объекты). Данные видео были получены от Hollywood Camera Work [47]. Объекты переднего плана с соответствующими им картами прозрачности были получены с помощью программного инструмента The Foundry Keylight [48]. Так как на некоторых из этих видеопоследовательностей зеленый экран был неравномерно освещен, для обеспечения высокого качества результата процедура рирпроекции применялась не ко всему кадру целиком, а независимо к небольшим его фрагментам.
Рирпроекция позволила получить карты прозрачности для широкого набора объектов реального мира. Тем не менее, эта процедура не может гарантировать, что полученная карта прозрачности близка к истинной карте прозрачности, так как данный метод основан на предположении, что цвет экрана не содержится в объекте переднего плана. Чтобы получить карты прозрачности, наиболее близкие к истинным, была применена техника кукольной мультипликации.
Выбор метрики качества
Заметим, что из условий теоремы следует, что если для некоторых і ир ост(%р) = 1, то строка і матрицы W содержит единственный ненулевой элемент на главной диагонали, который равен 1. Значит, если (і,р) є М1, то fm(ip) = 0, где М1 = { (г,р):дст(ьр) = 1 } .
Рассмотрим множество М3, состоящее из компонент связности множества М"2, которое является морфологическим расширением на один пиксел по горизонтали и вертикали множества М2 = { (г,р) : otm(i,P) = 1 } . Заметим, что по построению элементы на главой диагонали х и у, отвечающие элементам из М2, не равны нулю; а из второго и третьего условия из (3.13) следует равенство нулю разностных производных для всех элементов / , которым соответствуют ненулевые элементы на главой диагонали х и у. Значит, f (. ) = f (. ), если суще-ствует є Є М3, такое что (і,р1) Є еи (г,р2) Є е. Иными словами, элементы / , принадлежащие одной компоненте связности М2, равны между собой.
Так как компоненты связности М2 могут быть ограничены только граница ми слоя или точками с ост р) = 1, а по условиям теоремы каждый слой содер жит хотя бы одну точку с xTO(jp) = 1, то каждый элемент М3 содержит точку с otm(hp) = 1. Значит, для любой (г,р) є 2 верно, что f m(ip) = 0. Очевидно, что M1 U 2 содержит все точки. Следовательно, / = 0, что противоречит первона чальному предположению. Таким образом, доказано, что матрица Гессе функции стоимости (3.6) положительно определена, и задача (3.8) всегда имеет единствен ное решение. Выполнение всех условий теоремы обеспечивается выбором констант, способом построения многослойной карты диспарантности (см. Раздел 3.3.2) и исключением слоев, не содержащих ни одного соответствующего им значения на исходной карте диспарантности, что гарантирует наличие хотя бы одного пиксела, отмеченного как передний план, на тернарной маске каждого слоя.
Оптимизационная задача (3.8) сводится к решению СЛАУ Однако для типичной карты диспарантности разрешения 1920 х 1080 такая СЛАУ будет иметь десятки миллионов неизвестных, и ее решение займет десятки минут на совре (а) Многослойная карта (б) Многослойная карта диспарантности до сдвига диспарантности после сдвига
Иллюстрация механизма возникновения трещин: (а) строка многослойной карты диспарантности, полученной на основе карты диспарантности, содержащей изменение значения диспарантности всего на одну градацию; после выполнения сдвига (б) в ходе построения левого ракурса на карте диспарантности образуется трещина в виде одного полупрозрачного пиксела. менном ПК. Так как цвет невидимых пикселов ( = 0) не может быть корректно вычислен предложенным способом, исключим из системы все невидимые пикселы, вокруг которых в радиусе w нет ни одного пиксела с = 0. Такое упрощение, согласно проведенным экспериментам, позволяет сократить число неизвестных примерно в десять раз.
Предыдущие два шага позволили разделить изображение на множество слоев таким образом, что объекты одного слоя имеют одинаковую z-координату. Теперь для создания стереоскопических ракурсов требуется заполнить области открытия и к каждому слою применить сдвиг, пропорциональный его диспарантно-сти. Однако текущее многослойное представление (см. уравнение (3.3)) никак не учитывает порядок наложения, что вызовет сложно разрешимые проблемы при сдвиге и последующем объединении слоев. Поэтому перейдем к представлению, моделирующему последовательное наложение слоев в порядке их удаления от зрителя: I0 = 0F0,0 = 0 Ii = (1 - 0) iFi + Ii-1,i = (1 - 0) i + i-1 (3.14) I =In.
Заметим, что такое представление может быть получено из модели последовательного наложения слоев, использованной во введении (см. уравнение (3.2)), путем ее переформулирования в терминах многослойной карты диспарантности. Несложно проверить, что переход от представления (3.3) к представлению (3.14) может быть выполнен по формуле: 0 =0 i (3.15) i = 1-ij -=10 j . Приведенная выше формула не определена для пикселов, находящихся под пикселами, суммарная прозрачность которых равна единице, то есть для пикселов, полностью скрытых от зрителя. Дополнительно построим многослойную маску U, на которой единицами будут выделены такие неопределенные пикселы (пример построения такой маски изображен на рисунке 3.5а-б). Дополнительно к маске U применяется расширение на 2 пиксела вдоль оси x только на те пикселы, прозрачность которых меньше 0.1. Такой шаг позволяет исключить из новых ракурсов плохо определенные пикселы, цвет которых мог быть вычислен неправильно. Построенная маска U отмечает те пикселы, цвет и прозрачность которых необходимо восстановить перед построением новых ракурсов.
В этой главе предлагаются два способа восстановления недостающей информации (то есть пикселов, выделенных на маске U): линейная интерполяция и копирование информации из кадра, содержащего недостающие фрагменты фона. Такая последовательность кадров может быть построена с помощью алгоритма восстановления фона (например, [13]) и должна быть предоставлена пользователем в качестве дополнительных входных данных.
Вычисление изображений слоев
Для каждого неизвестного пиксела u в слое i выполняется поиск ближайшего соседа слева (l) и справа (r), не отмеченных на маске U и принадлежащих тому же слою и горизонтальной линии, что и пиксел u. Цвет Fui и прозрачность iu пиксела u вычисляется как линейная комбинация его соседей: d(r,u) d(l,u) " d(r,u) + d(l,u)Щ + d(r,u) + d(l,u) " , d(r,u) d(l,u) Fli + d(r,u) + d(l,u) d(r,u) + d(l,u) где d(, ) обозначает Евклидово расстояние. Если для пиксела существует лишь левый или правый сосед, удовлетворяющий описанным выше критериям, то цвет и прозрачность пиксела устанавливаются равными соответствующим значениям соседа. Если сосед обрабатываемого пиксела, находящийся строго перед ним (в слое i - 1), не отмечен на маске U, то прозрачность и цвет пиксела u копируются из этого пиксела. Последний шаг позволяет предотвратить появление «трещин» на изображениях ракурсов (областей открытия шириной менее одного пиксела, возникающих из-за дискретности представления карты диспарантности; пример «трещины» изображен на рисунке 3.6). На рисунке 3.5 изображен пример применения описанного алгоритма восстановления.
Копирование информации из кадра, содержащего недостающие фрагменты фона. Зачастую фрагменты фона, скрытые объектами переднего плана на одном из кадров видеопоследовательности, могут быть видимы на других кадрах благодаря перемещению объектов или камеры. В таких случаях целесообразным является применение методов восстановления фона видеопоследовательности (например, [13]), так как качество их работы, как правило, существенно превосходит любые методы интерполяции, примененные к одному изображению. Пример работы такого метода изображен на рисунке 3.7. Кадр, содержащий недостающие фрагменты фона, и их карта диспарантности, построенные с помощью одногоизалгоритмоввосстановления фона видеопоследовательности, могут быть предоставлены вкачестве дополнительных входных данных предложенному (а) Кадр исходной (б) Результат применения алгоритма видеопоследовательности восстановления фона видеопоследовательности Рисунок 3.7 — Пример результата работы алгоритма восстановления фона видеопоследовательности. алгоритму. В таком случае алгоритм преобразует дополнительные данные в многослойное представление с помощью шагов, описанных выше (см. рисунок 3.8б). В случае, если полученное многослойное представление фона также содержит неизвестные пикселы, то они восстанавливаются с помощью линейной интерполяции. Последним шагом все неизвестные пикселы многослойного представления исходного кадра заменяются соответствующими им пикселами многослойного представления фона (см. рисунок 3.8).
Наличие многослойного представления исходного кадра, не содержащего неизвестных пикселов, в котором каждый слой отвечает единственному значению диспарантности, делает задачу построения нового ракурса тривиальной. Применим к каждому слою сдвиг: – pi-z — для формирования многослойного представления левого ракурса – -pi - z — для формирования многослойного представления правого ракурса (a) Многослойная карта (б) Многослойная карта (в) Результат объединения карт с диспарантности исходного кадра диспарантности недостающих помощью предложенного метода. с маской неизвестных пикселов фрагментов фона Рисунок 3.8 — Заполнение областей открытия путем копирования информации из кадра, содержащего недостающие фрагменты фона на примере одной строки: (а) исходная многослойная карта диспарантности и маска (изображена красным) областей, скрытых объектами переднего плана; (б) многослойная карта диспарантности недостающих фрагментов фона, построенная на основании дополнительных данных, предоставленных пользователем; (в) результат объединения двух карт с помощью предложенного алгоритма. В приведенных выше формулах i обозначает номер слоя, а p и z — параметры алгоритма, задаваемые пользователем, определяющие силу стереоэффекта и положение плоскости экрана. Сдвиг на нецелое число пикселов выполняется с помощью линейной интерполяции.
Заключительным шагом алгоритм объединяет многослойное представление ракурса в итоговое изображение ракурса согласно формуле (3.14).
Предложенный алгоритм был реализован в виде подключаемого модуля к MATLAB [61] с использованием языка C++11. Для операций с плотными матрицами программная реализация использует библиотеку Eigen [44], а для операций с разреженными матрицами — SuiteSparse [62]. Средняя скорость обработки кадра разрешения 1920 1080 пикселов компьютером, оснащенным процессором Intel Xeon CPU E3-1505M v5 и 64Гб оперативной памяти, составляет 26 секунд на вычисление многослойного представления и 8.3 секунды на построение изображения ракурса.
Изображения ракурсов, полученные с помощью предложенного алгоритма, были подвергнуты визуальному сравнению с результатами работы альтернативных подходов: 1. Алгоритм переноса размытия (была использована авторская реализация алгоритма, аналогичная описанной в статье [59]) 2. Алгоритм воссоздания размытия (была использована авторская реализация алгоритма, аналогичная описанной в статье [5]). Подходы сравнивались в условиях отсутствия дополнительной информации о фоне, поэтому для заполнения областей открытия использовалась линейная интерполяция.
Фрагменты ракурсов, построенных с помощью предложенного алгоритма и альтернативных подходов, представлены на рисунке 3.9. Рисунок позволяет сделать следующие наблюдения: метод переноса размытия зачастую порождает искажения, выглядящие как фрагменты фона, «прилипшие» к краям объекта переднего плана; применение метода воссоздания размытия приводит к искажениям вблизи пересечения краев трех и более объектов, так как сегментация на два слоя не может быть корректно выполнена для таких областей.
Также была произведена экспертная оценка визуального качества ракурсов, построенных с помощью предложенного метода, алгоритма переноса размытия и простейшей реализации алгоритма построения ракурсов, не выполняющей