Содержание к диссертации
Введение
1. Методы и алгоритмы компрессии видеоданных. Восприятие изображений зрительной системой человека 8
1.1. Современные методы и алгоритмы компрессии видеоданных 8
1.2. Компрессия видеоданных на основе использования 3D модели 15
1.3.Эффективность восприятия трехмерных объектов зрительной системой человека 24
1.4. Оценка погрешности восприятия формы объекта зрительной системой 35
1.5.Оценка погрешности восприятия текстуры объекта зрительной системой 40
1.6.Выводы по разделу 44
2. Метод компрессии видеоданных, основанный на замене изображений объектов в кадре их трехмерными моделями 47
2.1. Модель изображения 47
2.2. Использование 3D модели для компрессии межкадровой разности 50
2.3.Выводы по разделу 63
3. Распознавание объектов в задачах компрессии видеоизображений .. 64
3.1. Анализ современных алгоритмов распознавания объектов на примере изображений человеческого лица 65
3.2.Использование цветовой сегментации изображения для локализации лица в кадре 68
3.3.Метод активных контуров 73
3.4.Адаптация метода активных контуров для задачи локализации характерных элементов лица 76
3.5.Исследование алгоритма распознавания лица в кадре видеоизображения 80
3.6.Выводы по разделу 83
4. Адаптация трехмерной модели к реальному изображению и представление данных анимации 85
4.1. Анализ современных методов создания трехмерных моделей реальных объектов 85
4.2.Адаптация формы 3D модели к форме оригинального объекта в исследуемом алгоритме компрессии 89
4.3.Трекинг двшкения и определение формы и положения модели в новых кадрах последовательности 96
4.4.Алгоритм трассировки характерных элементов объекта в кадре и определение векторов анимации модели 98
4.5.Передача (сохранение) информации о движении на основе контрольных вершин 3D модели 104
4.6.Передача (сохранение) информации о движении по методу - дифференциальной кодово-импульсной модуляции 111
4.7.Выводы по разделу 122
5. Экспериментальное исследование предложенных алгоритмов в составе системы компрессии видеоизображений 124
5.1.Критерии сравнения алгоритмов компрессии видеоизображений .124
5.2.Методика проведения экспериментов и полученные результаты 125
5.3.Выводы по разделу 136
Заключение 138
Список литературы 142
- Компрессия видеоданных на основе использования 3D модели
- Использование 3D модели для компрессии межкадровой разности
- Анализ современных алгоритмов распознавания объектов на примере изображений человеческого лица
- Анализ современных методов создания трехмерных моделей реальных объектов
Введение к работе
Актуальность темы
В настоящее время, в связи с широким распространением цифровой техники, быстро растет объем передаваемой и хранимой информации. Особенно это касается данных, относящихся к визуальной информации, наиболее широко используемой в различных сферах человеческой деятельности. Хранение визуальной информации требует больших объёмов памяти, а для ее передачи необходимо наличие каналов с высокой пропускной способностью.
Таким образом, одной из наиболее актуальных задач в области обработки видеоданных становится разработка и совершенствование методов компрессии этих данных.
Особенностью большинства современных алгоритмов компрессии видеоданных является то, что они разработаны для компрессии произвольных изображений. Вместе с тем, если тип изображеїшй, для которых разрабатывается алгоритм компрессии, заранее известен, это обстоятельство может быть использовано для увеличения его эффективности. Другими словами, знание объектов, находящиеся в кадре, и способов их движения, дают возможность получить большую степень компрессии при сохранении необходимого качества изображения.
Целью работы является разработка и исследование алгоритма компрессии видеоданных, основанного на использовании априорной информации о структуре кадра видеоизображения и параметров объектов в кадре. Алгоритм включает в себя распознавание объекта в кадре
видеопоследовательности, нахождение его характерных элементов и использование полученной информации для переноса на трёхмерную модель и её дальнейшей анимации в соответствии с движением объекта в исходной видеопоследовательности. Решение этой задачи особенно интересно для компрессии видеоданных в условиях ограниченной пропускной способности коммуникационных каналов.
Задачи исследования:
Анализ существующих методов компрессии видеоданных. Выявление недостатков этих методов, в случае компрессии потокового видео с априорно известными объектами в кадре при условии обеспечения малых потерь в качестве и отсутствия эффекта накопления ошибок преобразования при многократной обработке.
Исследование особенностей визуального восприятия трехмерных объектов и определение допустимых искажений при обеспечении высокого визуального качества.
Разработка и исследование эффективного алгоритма для компрессии видеоданных на основе использования 3D модели, согласованного со зрительной системой человека.
Экспериментальное исследование предложенных алгоритмов и оценка их эффективности.
Методы исследования. Для достижения поставленной цели в диссертационной работе использовались методы цифровой обработки сигналов, теория дискретных сигналов, теория информации, математическая статистика, компьютерное моделирование.
Научная новизна:
Разработан и исследован метод компрессии видеоданных, основанный на замене изображений объектов в кадре их трехмерными моделями.
Проведен анализ эффективности применения современных методов компрессии видеоданных при обеспечении высокого визуального качества результирующих изображений.
Проведено экспериментальное исследование эффективности зрительной системы человека в условиях распознавания трехмерных тестовых объектов, алфавит которых задан и ограничен.
Определен уровень допустимых погрешностей для основных характеристик трехмерных объектов при их наблюдении.
Практическая ценность работы определяется тем, что предложенный алгоритм компрессии для видеоизображений с заранее определенными объектами в кадре позволяет получить больший выигрыш по сжатию, чем те, которые обеспечиваются известными методами компрессии двиисущихся изображений.
Положения, выносимые на защиту:
Метод компрессии видеоданных, основанный на замене изображений объектов в кадре их трехмерными моделями.
Алгоритм нахождения и определения параметров объектов в кадре видеоизображения
Алгоритм адаптации шаблонной трехмерной модели объекта к параметрам визуального объекта в кадре видеоизображения
4. Результаты исследования восприятия трехмерных объектов наблюдателем
Внедрение результатов работы. В учебном процессе Санкт-Петербургского государственного университета аэрокосмического приборостроения.
Апробация работы. Основные положения и результаты диссертации докладывались и обсуждались на VIII, IX, X научных сессиях ГУАП (г. Санкт-Петербург 2005, 2006, 2007), IV Международной конференции "Телевидение: передача и обработка изображений" ЛЭТИ (г. Санкт-Петербург 2005), IV Межвузовской конференции молодых учёных ИТМО (г. Санкт-Петербург 2007), ECVP (Европейская конференция зрительного восприятия) (2005).
Публикации. Материалы, отражающие основное содержание и результаты диссертационной работы, опубликованы в 8 печатных работах, из них 3 в журналах, входящих в список ВАК.
Компрессия видеоданных на основе использования 3D модели
Следствием использования данного подхода к компрессии изображений является появление специфических искажений, возникающих при увеличении коэффициента компрессии. Так, при высоких коэффициентах компрессии на восстановленных изображениях может наблюдаться ухудшение воспроизведения мелких деталей, а также появление регулярных блочных структур, обусловленных доменным представлением.
Наличие подобных искажений не позволяет в значительной степени увеличить коэффициент компрессии без больших потерь в качестве восстановленных изображений. Примеры оригинального и компрессированных изображений для формата h-264 при различных значениях коэффициента компрессии приведены на рис. 1.1. На рис. 1.2. приведен график зависимости величины пикового отношения сигнала к шуму (PSNR) от величины коэффициента компрессии.
Методы компрессии второй группы позволяют более полно учитывать свойства изображения и получать большую степень компрессии при сохранении визуального качества восстановленного изображения. Однако, применение данных методов к любому типу изображений часто затрудняется наличием большого количества разнообразных объектов, составляющих структуру кадра. Таким образом, для компрессии параметров межкадровой разности требуется наличие большой базы данных возможных шаблонов объектов в кадре, а также разработки алгоритмов высокой сложности, позволяющих определить тип объекта в кадре и провести адаптацию шаблона к свойствам фрагмента (объекта) в кадре изображения.
Однако, в случае наличия априорной информации о структуре кадра и типах объектов эффективность алгоритмов этой группы значительно возрастает и может значительно превосходить эффективность алгоритмов первой группы.
Таким образом, одним из основных направлений исследований в области компрессии является разработка методов компрессии, согласованных с содержанием видеоконтента с целью повышения эффективности их работы. В области компрессии видеоизображений реальных сцен, при условии обеспечения высокого качества результирующих изображений, процесс компрессии должен учитывать свойства зрительной системы человека как оконечного анализирующего устройства. Поэтому дополнительный интерес представляет детальное изучение работы зрительной системы при восприятии объектов реальных трехмерных сцен, с целью усовершенствования механизмов компрессии при сохранении высокого визуального качества.
В качестве пути улучшения работы алгоритмов компрессии видеоизображений в работе рассматривается сегментация кадра изображения с целью группировки пикселей по признаку их принадлежности к объектам кадрового пространства и использование априорно известных параметров каждой группы для повышения эффективности предсказания локальных смещений и кодирования межкадровых различий.
Рассмотренные в предыдущем подразделе принципы применимы ко всем типам изображений, но их недостатком является то, что они не учитывают всей специфики конкретной видеопоследовательности, тем самым не позволяя использовать её характеристики для увеличения степени компрессии данных.
Компрессия данных видеопотока на основе замены объектов в кадре их моделями позволяет более полно учесть свойства изображений для увеличения коэффициента компрессии всей видеопоследовательности в целом. Чтобы проиллюстрировать возможность применения данного подхода к решению вопросов компрессии изображений рассмотрим следующий пример. Пусть на вход кодирующего устройства поступает видеоизображение, примеры кадров которого представлены на рис. 1.3.
Для описания структуры кадра видеоизображения введем понятие сцены. Сцена - совокупность объектов в кадре изображения, их свойств и параметров изменения свойств. Для простоты рассмотрения ограничим структуру сцены двумя объектами:
1. Пусть на первом этапе объект в кадре не меняет своего ракурса относительно точки наблюдения и не изменяет своих характеристик во времени. В данном случае для кодирования межкадровой разности требуется передавать следующий набор параметров: 1. Для описания параметров формы объекта введем понятие 2D (двумерного) полигонального шаблона. 2D полигональный шаблон является разложением плоской 20-области на многоугольные элементы. Вершины полигональных частей этого шаблона называются узловыми точками или вершинами шаблона. Параметры распределения коэффициентов отражения описываются текстурой, спроецированной на 2D полигональный шаблон. Текстура представляет собой битовое изображение объекта, взятое из первого кадра видеопоследовательности. Перемещение объекта описывается векторами анимации 2D полигонального шаблона, которые описывают смещение и поворот объекта в текущем кадре видеопоследовательности относительно предыдущего кадра. Построение объекта в текущем кадре видеопоследовательности реализуется с помощью аффинных преобразований применяемых к 2D полигональному шаблону.
Использование 3D модели для компрессии межкадровой разности
Важной проблемой при адаптации трехмерной модели к оригинальному объекту в кадре видеопоследовательности становится отсутствие информации о третьем измерении, что затрудняет задачу адаптации формы модели по глубине и получение параметров текстуры объекта со стороны, закрытой от камеры.
Решение данной проблемы может быть осуществлено следующими способами: 1. Учитывая малую величину коэффициента эффективности зрительной системы при восприятии трехмерных объектов в качестве параметров глубины можно использовать значения шаблонной модели, полученные на этапе обучения алгоритма (реализация этого метода рассмотрена в главе 4) 2. Адаптация параметров глубины шаблонной модели на основе информации об отсканированных объектах, хранящихся в базе данных, в процессе которой в соответствие параметрам формы объекта во фронтальной проекции ставятся параметры глубины соответствующих моделей из базы данных. 3. Последовательная коррекция параметров глубины по мере получения информации о форме объекта из последующих кадров видеопоследовательности 4. Использование заранее заготовленной модели конкретного объекта в кадре, полученной путем сканирования или ручного моделирования в программных 3D пакетах. 5. Адаптация модели по глубине на основе использования видеоданных со второй дополнительной камеры, оптическая ось которой расположена ортогонально оптической оси основной камеры 6. Использование стерео алгоритмов (более подробно рассмотрено в главе 4) Рассмотрим достоинства и недостатки описанных методов: При реализации алгоритмов, использующих в своей работе изображение, поступающее с одной камеры, точность адаптации параметров глубины формы модели значительно ниже, однако, учитывая тот факт, что большую часть времени объект повернут лицом к камере, а также малую величину коэффициента эффективности зрительной системы, ошибка восстановления параметра глубины модели не является критичной для восприятия наблюдателем. Методы, требующие наличия двух и более камер для реализации алгоритма адаптации, позволяют получить полную информацию об объекте и построить модель, точнее адаптированную к оригинальному объекту. Однако, необходимость использовать вторую камеру усложняет оборудование, необходимое для реализации алгоритма или делает невозможным его использование в некоторых случаях (подобные решения невозможно использовать, например, в мобильных устройствах). На основе экспериментальных данных, показавших малую величину коэффициента эффективности зрительной системы наблюдателя при восприятии трехмерных объектов, а также на том, что большую часть времени изображение модели повернуто лицом к наблюдателю, в работе был использован первый способ, когда в качестве параметра глубины модели используется информация шаблонной модели без адаптации по глубине. Рассмотрим последовательность преобразований, применяемых к модели при ее адаптации к оригинальному изображению: Глобальная трансформация. Под глобальной трансформацией полигонального шаблона мы понимаем размещение в кадре адаптированной по форме полигональной модели в соответствии с положением оригинального объекта в кадре [40]. Данная процедура может быть реализована путем применения аффинных преобразований [42] перемещения, поворота и масштабирования в трехмерном пространстве к полигональному шаблону адаптированной модели.
Анализ современных алгоритмов распознавания объектов на примере изображений человеческого лица
К настоящему времени предложено множество методов для построения трехмерной оболочки реальных объектов в компьютере. Эти методы значительно различаются в точности построения формы, сложности используемого оборудования. Некоторые методы разрабатывались для получения моделей высокого разрешения для статичных изображений, в тоже время другие создавались для захвата динамичных сцен в низком пространственном разрешении. В этой главе проведен анализ методов, позволяющих построить форму объекта и проследить динамику его движения во времени, с целью выявления сильных и слабых сторон современных методов трассировки трехмерных объектов в реальном времени. Классификация алгоритмов построения 3D моделей.
В общем случае алгоритмы построения формы можно разделить на 2 категории: 1. Контактные методы 2. Бесконтактные методы. В основе методов контактного построения формы и захвата движения леишт идея использования набора сенсоров, закрепленных определенным образом на оригинальном объекте, для получения информации о форме и текстуре объекта, а также для измерения движения объекта. К контактным методам можно отнести магнитное и оптическое сканирование.
В случае реализации магнитного захвата движения используется набор датчиков на основе катушек, для которых можно определить их местоположение и ориентацию объекта в пределах магнитного поля [59].
Технология оптического захвата требует наличия нескольких отражающих маркеров размещенных на человеческом теле и основывается на вычислении позиции маркеров в пространстве, используя синхронизированные видеоданные с нескольких точек наблюдения [60].
В сравнении с контактными методами, бесконтактные методы не требуют размещения датчиков на поверхности объекта; они восстанавливают трехмерную форму объекта на основе данных видеозаписи его изображения. Эти методы могут быть разделены на активные и пассивные, в зависимости от того, были ли получены видеоданные при искусственно созданных или естественных условиях. Пассивные методы
Пассивные методы восстанавливают 3D форму из видеоданных, полученных при естественном освещении. Примером такого освещения является солнечный или комнатный свет. Эти методы обычно базируются на принципе триангуляции (разбивки на треугольники). На основе этого принципа и может быть восстановлено 3D положение точки в пространстве. Два фундаментальных компьютерных подхода, разработанных для решения проблемы машинного видения, стерео методы и нахождение формы по движению, базируются на этом принципе.
В случае стерео методов положение и ориентация камер в пространстве заранее известны, и на основе этих данных реализуется способ вычисления соответствия пикселей на изображениях с двух камер для 3-D реконструкции объекта. В [61] представлен подробный обзор состояния этих методов на сегодняшний день. Основной недостаток стерео методов заключается в том, что с их помощью трудно найти точное соответствие для пикселей на изображениях с двух камер в бесструктурных областях. Существующие стерео алгоритмы обеспечивают приблизительное восстановление формы, не обеспечивая высокой точности.
Методы нахождения формы по движению предполагают, что для набора характерных элементов изображения, их соответствие на различных изображениях определяется заранее, а мы вычисляем движение камеры и пространственное положение этих элементов. В [62] дают всесторонний обзор существующих методов, которые работают с твердыми телами, не меняющими свою форму. Более современные исследования [63, 64] обращаются к случаям нетвердых объектов, например, люди и животные. Проблема этих методов заключается в том, что соответствие пикселей может быть надежно вычислено только для хорошо заметных элементов. Поэтому методы нахождения формы по движению часто восстанавливают только грубую форму.
Активные методы восстанавливают трехмерную форму объекта, строя его отображение, на основе данных, полученных из отраженных от его поверхности волн в результате облучения объекта волнами различных типов. В этой области было предложено большое количество различных методов. Большинство подобных методов для работы используют световые волны, однако, возможно использование и других типов волн, например, ультразвука. Эти методы различаются способами управления волнами и методами восстановления формы по отраженному сигналу. К данной группе можно отнести следующие методы 1. Активный стерео метод. Активный стерео метод стремится скомпенсировать сложность, вызванную наличием низкого контраста в некоторых областях в пассивном стерео, проектируя на поверхность объекта структуру с высоким контрастом [65], например, произвольную точечную структуру [66]. Данная группа методов стремится проектировать постоянный шаблон освещения таким образом, что изменение интенсивности в пределах пространственных соседей было бы уникальным [71-72]. Этот подход выводит синтетические структуры на поверхность без внешнего физического воздействия. 2. Сканирование промодулированным во времени светом [67-70]. Данная группа методов использует уникальную кодировку лучей, применяя несколько шаблонов освещения, точнее временное изменение интенсивности каждого луча из светового источника делается уникальным. 3. Методы, основанные на вычислении глубины резкости. Эти методы [73, 74] возвращают расстояние от элемента на поверхности объекта до камеры, оценивая размер пятна рассеяния этого элемента на изображении в кадре. Основная идея этого метода заключается в получении набора изображений объекта при различных расстояниях между самим отображаемым объектом и линзой. Тогда глубина резкости для каждого пикселя может быть вычислена на основе размера пятна, получаемого от элемента объекта на различных изображениях
Анализ современных методов создания трехмерных моделей реальных объектов
Основываясь на данных, представленных на рис. 4.16, можно сказать, что эффективность предложенного алгоритма передачи движения заметно возрастает при увеличении длины последовательности и повышении плотности полигональной сетки модели. Анализ результатов применения предложенного алгоритма для моделей реальных объектов, характеризующихся сложной формой с высокой плотностью полигональной сетки позволяет говорить об эффективности предложенного в диссертационной работе подхода.
В разделе рассмотрен алгоритм адаптации шаблонной трехмерной модели к реальному объекту в кадре видеопоследовательности и вопросы трассировки и передачи движения объекта в кадре видеопоследовательности, основанные как на анимации трехмерной модели в соответствии с мимикой и движением объекта в кадре, так и на методе ДКИМ. 1. На основе набора моделей, полученных методом сканирования оригинальных объектов, методом главных компонент построена базовая шаблонная модель на основе параметров которой по предложенному алгоритму осуществляется построение персонифицированной модели, адаптированной по параметрам формы и текстуры к объекту в кадре видеоизображения. Использование метода главных компонент для представления параметров формы модели позволяет сократить объем данных, описывающих структуру полигональной сетки модели. 2. Показано, что в общем случае проблема трассировки сводится к вычислению параметра смещения { /„,}, определяющего правила движения модели и изменение её формы в соответствии с объектом в кадре. Для оценки движения в кадре видеопоследовательности его целесообразно разделить на два типа: глобальное движение всего объекта и локальное движение антропометрических точек, определяющих мимику. 3. Предложенный алгоритм кодирования анимации модели на основе векторов движения контрольных вершин на практике позволяет получить выигрыш в 3,5-300 раз относительно существующих алгоритмов. Эффективность предложенного алгоритма возрастает при работе с моделями сложной формы, характеризующихся высокой плотностью полигональной сетки
На основе полученных данных проведено исследование нескольких алгоритмов сохранения параметров анимации модели (ДКИМ и алгоритм, основанный на анимации контрольных вершин модели). Показано, что эффективность алгоритмов ДКИМ и анимации контрольных вершин возрастает с увеличением длительности последовательности кадров. Большая часть информации о модели (координаты вершин, вектора нормалей текстурные координаты и информация о гранях (полигонах)) при использовании этих алгоритмов передается в первом кадре. Таким образом, при короткой последовательности данные из первого кадра составляют большую часть информации посылки (файла) и общий объем данных мало отличается от объема данных получаемых при использовании других форматов. Однако, с увеличением длительности последовательности кадров доля первого кадра в общем объеме данных уменьшается и величина компрессии возрастает.
При использовании алгоритма контрольных вершин для компрессии данных анимации модели плотность полигональной сетки оказывает влияние на общий объем передаваемых данных лишь для коротких последовательностей. В случае длинных последовательностей (60 секунд и более) объем данных определяется в основном количеством контрольных точек модели и выравнивается для моделей различной степени сложности.