Введение к работе
Актуальность исследования. В 1964 году компанией AT&T через устройство «Picturephone Mod I» был осуществлён первый видеозвонок. Стоимость устройства была настолько высока, что оно не снискало популярности, и компания в конечном итоге свернула проект. Спустя почти 50 лет снова появился интерес к видеозвонкам. Skype, Viber, GoogleTalk, FaceTime и много других программ способны предоставить сервис видеочата. Для осуществления сеанса видеосвязи не нужно специального оборудования, как это было с устройствами серии «Picturephone». В современном мире необходимые ресурсы для осуществления видеозвонков доступны для обычного человека. Что же повлияло на развитие техноло-гийза прошедшие50лет, что позволило видеозвонкам стать популярными и доступными?
Конечно же, это в первую очередь развитие аппаратной составляющей оборудования. Производительность современных телефонов, которые уже называют смартфонами, находится на уровне пользовательских персональных компьютеров (ПК) 10–15 летней давности. С такой аппаратурой стало возможным исполнять программы такой же сложности, как и на обычных ПК. Именно поэтому большинство современных компаний предоставляют свои программы одновременно как для ПК, так и для смартфонов.
Во вторую очередь, развитие алгоритмической программной составляющих тоже не стоит на месте. Видео и аудио кодеки эволюционируют с такой же скоростью, как и аппаратура. Причём за последнее десятилетие наблюдается ускорение эволюции кодеков. Теперь очень часто встречается ситуация, когда программная составляющая продукта разрабатывается совместно с разработкой аппаратной составляющей, на которой продукт будет эксплуатироваться.
Хотя аппаратура теперь и является достаточно высокопроизводительной, не все компоненты общей системы коммуникации обладают такими же хорошими показателями. Как правило, система коммуникации состоит из передатчика, каналасвязииприёмника. Если приёмник ипередатчик — это смартфон, и его производительность нас устраивает, то канал связи — это по сути «чёрный ящик», в котором может находиться что угодно: от сетевых роутеров и маршрутизаторов до мощных серверов. Не все компоненты канала связи обладают достаточной производительностью. Также сам канал связи обычно является недостаточно широким в плане скорости
передачи информации, так как изначально был ориентирован на голосовое общение, объём которого в десятки раз меньше видео данных. Для того, чтобы вся система коммуникации была способна к соединению её абонентов и бесперебойному общению, необходима удовлетворительная работа каждой компоненты системы. Поэтому данные необходимо сжимать, чтобы повышать пропускную способность канала связи.
В связи со стремительным развитием встраиваемой аппаратуры, идёт тенденция к усложнению алгоритмов видеокодирования. Например, более простой алгоритм сжатия данных без потерь по Хаффману постепенно заменяется на более ресурсоёмкое, но значительно более эффективное арифметическое кодирование. Наряду с широко распространёнными видеокодеками на базе дискретного косинусного преобразования (ДКП) — например, XviD, VP9, H.264, Theora — появляются видеокодеки на основе дискретного вейвлет-преобразования (ДВП)—например, Dirac, Motion Wavelet, которые требуют больше ресурсов оборудования. Поэтому необходимо учитывать современное развитие оборудования и исследовать те направления видеокомпрессии, которые раньше на аппаратных платформах были слишком ресурсоёмкими.
На сегодняшний день Интернет является одной из самых быстрораз-вивающихся технологий. Большую часть трафика всемирной паутины составляет видео контент.Постатистическим данным компании Cisco (Cisco Visual Networking Index: Forecast and Methodology, 2014–2019), на 2014 год онлайн-видео занимало 64% всего контента интернета. По прогнозам компании к 2019 году эта цифра увеличится до 80%. Поэтому развитие алгоритмов компрессии видео данных является актуальным направлением исследований.
Проблемой передачи и хранения статических и динамических изображений занимаются многие учёные в мире. К ним можно отнести: A.S. Lewis и G. Knowles,A.Said иW.A. Pearlman,D.Taubman, J.M. Shapiro, G.J. Sullivan, T. Weigand, G. Bjntegaard, A. Norkin, M. Karczewicz, J.-R. Ohm, A. Alshin и E. Alshina и др. Среди наших отечественных исследователей в области кодирования и обработки статических и динамических изображений следует отметить В.П. Дворковича и А.В. Дворковича, С.В. Умняшкина, Д.С. Ватолина совместно с группой обработки и сжатия видео при МГУ, Ю.С Радченко, О.О. Евсютина и др.
Сжатие видео данных происходит в два этапа. На первом этапе устраняется временная зависимость между кадрами. В большинстве случаев для устранения межкадровой зависимости используются алгоритмы блоч-
ной компенсации движения. В результате получается поле векторов перемещений. На втором этапе происходит устранение пространственной зависимости внутри кадров. Для осуществления второго этапа часто используют кодеры статических изображений. Результатом данного этапа является разностное изображение. Далее по каналам связи передаются векторы перемещений и разностные изображения, по которым декодер сможет восстановить с некоторой погрешностью первоначальную видео последовательность.
Большинство алгоритмов блочной компенсации движения используют квадратную форму блоков. Выбранная форма блоков проста в реализации, а также обладает свойством: любой квадратный блок может быть построен из аналогичных маленьких квадратов. Такое свойство является востребованным в современных видеокодеках для реализации алгоритма блочной компенсации с переменным размером блоков. Однако квадратная форма блоков не всегда является эффективной для компенсации движения. Анализ строения зрения многих животных использовался многими учёными для реализации более совершенных алгоритмов компьютерного зрения. Как показывают исследования, светочувствительные клетки на сетчатке расположены в вершинах шестиугольников, что перекликается с задачей эффективной упаковки шаров на плоскости. Поэтому использование шестиугольной решётки пикселей потенциально эффективнее для задач компьютерного зрения, нежели расположение в квадратной решётке. Точно такую же идею можно применить для блочной компенсации движения, приняв за форму блоков правильный шестиугольник.
Целью диссертационной работы является повышение эффективности блочной компенсации движения для видеокодека на базе ДВП.
Для достижения поставленной цели необходимо было решить следующие задачи.
-
Адаптировать общую схему видеокомпрессии, основанную наблоч-ной компенсации движения, для применения блоков шестиугольной формы и ДВП.
-
Разработать метод блочной компенсации движения на основе бло-ковшестиугольной формы взамен традиционной квадратной формы блоков.
-
Интегрировать методы передачи разностного изображения и векторов перемещений.
4. Провести экспериментальное сравнение полученного метода видеокомпрессии на базе шестиугольной формы блоков с аналогичным методом на базе квадратной формы блоков.
Научная новизна диссертационного исследования заключается в следующем: впервые для задач видеокомпрессии были применены блоки шестиугольной формы.
Практическая значимость результатов работы заключается в том, что разработанный метод видеокомпрессии позволяет улучшить качественные характеристики видеокодеков, а также ускорить процесс кодирования видеопоследовательностей.
Степень достоверности результатов обеспечивается использованием для их получения общепринятых научных подходов и методов. Подбор эмпирических параметров и сравнения методов производились с помощью численных экспериментов на классах стандартных видеопоследовательностей, рекомендованных для тестирования видеокодеков. Анализ результатов и основные выводы были сделаны на основе широко распространённых метрик качества PSNR, BD-PSNR и BD-Rate.
Методы исследований.Входе работы над диссертацией применялись методы линейной алгебры, теории вероятностей и математической статистики, численные методы; теория цифровой обработки и кодирования данных. Экспериментальные исследования проводились с помощью численного моделирования на ПК с применением различных программных средств разработки.
Апробация работы. Основные результаты работы докладывались на 17-ой и 18-ой Всероссийских межвузовских научно-технических конференциях «МикроэлектроникаиИнформатика» (Москва, МИЭТ, 2010, 2011 гг.), на 16-ой Международной конференции «Цифровая обработка сигналов и её применение» (Москва, 2012 г.).
Материалы разработанного метода вошли в научно-исследовательскую работу «Анализ алгоритмов видеоаналитики и их адаптация для платформы МУЛЬТИКОР» [], а также использовались при анализе и реализации библиотеки стандарта компьютерного зрения OpenVX []. Предложенный в работе метод вейвлет-компрессии с блочной компенсацией движения на основе блоков шестиугольной формы запатентован [].
Результаты диссертационной работы были внедрены в программный пакет на предприятии АО НПЦ «ЭЛВИС» .
Личный вклад. Автором были лично проведены все исследования в данной работе, обработаны и интерпретированы полученные результаты.
8 выполненных в соавторстве работах все экспериментальные результаты
и основанные на них выводы и эмпирические параметры получены лично
автором.
Публикации. Основные результаты по теме диссертации изложены в
9 печатных трудах [1–,,] и одном отчёте по НИР, из которых:
3 изданы в журналах, рекомендованных ВАК [,,];
1 — в журнале, индексируемом в международной базе Scopus [];
3 — в тезисах докладов [1,,];
зарегистрирован один патент на изобретение [];
материалы разработанного метода использовались в отчёте о НИР [].
Основные положения, выносимые на защиту.
-
Предложенный метод вейвлет-видеокомпрессии на основе блоков шестиугольной формы позволяет повысить степень сжатия в среднем на 9% по сравнению с аналогичным методом на базе блоков квадратной формы.
-
Предложенный метод видеокодирования позволяет выполнять кодирование видеопоследовательностей на 20% быстрее по сравнению с методом на основе блоков квадратной формы.
-
Разработанный метод видеокомпрессии позволяет сжимать видеопоследовательности лучше в среднем на 7%, чем видеокодек на базе ДВП стандарта Dirac.
-
Использование векторных операций, реализованных в таких современных процессорах как отечественная вычислительная платформа «МУЛЬТИКОР», позволяет повысить быстродействие предложенного метода.
Объём и структура работы. Диссертация состоит из введения, четырёх глав, заключения и двух приложений. Полный объём диссертации составляет 137 страниц с 41 рисунком, 8 таблицами и 3 листингами кода. Список литературы содержит 103 источника.
1Умняшкин С.В., Александров А.А., Коплович Е.А. Алгоритм видеокомпрессии на основе дискретного вейвлет-преобразования с трёхслойной схемой кодирования векторов движения // Известия вузов. Электроника.–– 2008.–– Т. 5.–– С. 69–73.
2URL: