Содержание к диссертации
-
Аналитический обзор и систематизация методов повышения разрешения изображений.9
Анализ особенностей применения многокадровых методов повышения разрешения к видеопоследовательностям, формируемым в СВН 38
-
-
Исследование с использованием реалистичных тестовых
3. Формирование изображения высокого разрешения из видеопоследовательности низкого
Приложение А 152
Листинги программ 152
Введение к работе
Актуальность темы. Основной задачей систем видеоконтроля (СВК) является формирование качественного видеоизображения, обеспечивающего возможность анализа наблюдаемых объектов. Основным показателем, определяющим качество видеоизображений в СВК, является разрешение, характеризуемое воспроизведением мелких деталей наблюдаемой сцены.
Основным фактором, ограничивающим разрешение изображений, формируемых видеокамерами СВК, является количество элементов твердотельных матричных фотоприёмников (ПЗС или КМОП-матриц), используемых в видеокамерах в качестве фоточувствительных элементов. Использование в многоканальных СВК, таких, например, как системы видеонаблюдения (СВН), видеокамер с большим количеством элементов фотоприёмника имеет ряд существенных ограничений, таких, как ограничения используемых стандартов видеосигнала, ухудшение соотношения сигнал/шум, ограничения каналов передачи данных, ограничения объёмов устройств хранения видеоданных.
Одним из перспективных подходов для решения задачи повышения разрешения формируемых изображений является использование методов восстановления изображений высокого разрешения по видеопоследовательностям низкого разрешения. Восстановление осуществляется путём использования нескольких соседних кадров исходной видеопоследовательности для построения приближения идеального изображения наблюдаемой сцены. Для возможности осуществления такого восстановления необходимо наличие относительного движения камеры и наблюдаемой сцены. С 1980-х годов такие методы являются объектом исследований многих учёных, и исследования по их применению активно проводятся в таких областях, как медицина и аэрокосмические фотосъёмки.
В настоящее время многокадровые методы повышения разрешения в СВН не применяются [10,11]. Существующие многокадровые методы не учитывают особенности видеопоследовательностей, формируемых в СВН и, поэтому, непосредственное их применение к этим видеопоследовательностям не позволяет производить эффективное восстановление изображений высокого разрешения. В связи с этим развитие методов многокадрового сверхразрешения для использования их в СВН представляется актуальной задачей.
Цель работы. Целью диссертационной работы является разработка методов, алгоритмов и программных средств, предназначенных для многокадровой системы повышения разрешения СВН.
Решение этой задачи связано с выполнением следующих этапов исследования:
Анализ и систематизация существующих методов оценивания межкадровых движений и методов формирования изображений высокого разрешения по видеопоследовательностям низкого разрешения.
Разработка метода оценивания межкадровых движений, позволяющего получать оценку с субпиксельной точностью в широком диапазоне межкадровых движений.
Разработка метода формирования изображения высокого разрешения по видеопоследовательности низкого разрешения, минимизирующего погрешность восстанавливаемого изображения.
Разработка программного обеспечения многокадровой системы повышения разрешения, реализующего разработанные методы.
Предметом исследования является проблема повышения разрешения изображений, формируемых СВН, сверх пределов, накладываемых ограниченным количеством элементов (пикселей) фотоприемников видеокамер.
Методы исследований. Теоретические исследования выполнены с использованием аппарата цифровой обработки сигналов, теории численных методов, теории вероятностей, математической статистики, программирования.
Научная новизна. В диссертационной работе получены следующие новые научные результаты:
Показано, что в задаче повышения разрешения СВН с помощью многокадровых методов, применение существующих методов оценивания межкадровых движений не эффективно;
Разработан новый, комбинированный метод оценивания межкадровых движений. Метод использует блочный подход для грубой оценки межкадровых движений и дифференциальный подход Лукаса-Канаде для получения точной оценки;
Предложен новый критерий сравнения блоков для блочного метода, основанный на взаимной информации между сравниваемыми блоками;
Разработан метод адаптивного формирования окрестности точки при оценивании межкадровых движений, использующий правило пересечения доверительных интервалов и локальную полиномиальную аппроксимацию нулевого порядка;
Предложена математическая модель погрешности формируемого изображения высокого разрешения для метода деформации и слияния;
Предложен способ объединения оценок изображения высокого разрешения для метода деформации и слияния, минимизирующий среднеквадратическую погрешность формируемого изображения высокого разрешения.
Практическая значимость полученных в диссертационной работе результатов:
1. Комбинированный метод обеспечивает более низкое среднее значение и дисперсию погрешности определения смещения. В частности, средняя величина модуля погрешности определения смещения на 10-30% меньше, чем в блочном методе, и в 1.5-3 раза меньше, чем в дифференциальном методе; дисперсия модуля погрешности определения смещения 1.5-8 раз меньше чем в блочном методе и в 10-95 раз меньше, чем в дифференциальном методе.
Предложенный информационный критерий сравнения блоков в блочном методе позволяет на 10% - 20% уменьшить среднее значение и на 17% - 40% дисперсию погрешности определения межкадровых движений.
Использование адаптивного выбора размеров окрестности. рассматриваемой точки опорного кадра видеопоследовательности при оценивании межкадровых движений позволяет повысить точность оценивания на 13-20% по математическому ожиданию погрешности и на
18-30% по дисперсии погрешности определения межкадровых движений.
Разработанный способ объединения оценок для восстановления на основе деформации и слияния, минимизирующий среднеквадратичную погрешность восстанавливаемого изображения высокого разрешения, позволяет уменьшить дисперсию погрешности восстановленного изображения на 10-20%.
Разрешение изображения, восстановленного разработанным алгоритмом, в 1,5 раза превышает разрешение изображений, восстановленных методом деформации и слияния с объединением оценок по среднему или медианному значению.
Разработано прикладное программное обеспечение для анализа видеопоследовательностей в СВН.
Апробация результатов. Основные положения и результаты диссертации докладывались на 33-й и 34-й научно-технических конференциях (НТК) «Неделя науки СПбГПУ» (СПбГПУ, 2004, 2005),- 16-ой, 17-ой, 18-й и 19-й НТК "Экстремальная робототехника" (ЦНИИ РТК, 2005, 2006, 2007, 2008).
Публикации. По теме диссертации опубликовано 3 статьи, 5 текстов докладов и 2 тезисов докладов.
Структура диссертации. Диссертационная работа состоит из введения, четырёх глав, заключения, списка литературы (104 наименования), одного приложения. Основная часть работы изложена на 151 странице машинописного текста, содержит 41 рисунков и 17 таблиц.
Во введении обоснована актуальность задачи диссертационной работы, определена цель исследований. В первой главе приведён обзор многокадровых методов повышения разрешения. Вторая глава посвящена разработке метода оценивания межкадровых движений, учитывающего особенности видеопоследовательностей, формируемых в СВН. Третья глава посвящена разработке метода формирования изображения высокого разрешения из видеопоследовательности низкого разрешения. Четвёртая глава посвящена практическому применению разработанных методов оценки межкадровых движений и формирования изображения высокого разрешения для анализа видеопоследовательностей СВН. Демонстрируются практические результаты применения разработанных методов.
1. Аналитический обзор и систематизация методов повышения разрешения изображений
Проектируемые в настоящее время СВН имеют недостаточно высокое разрешение, которое не позволяет эффективно использовать их для решения задач автоматического или визуального распознавания образов, регистрируемых камерой. Применение в видеокамерах фотоприёмников с большим количеством элементов (пикселей) имеет ряд существенных ограничений. Поэтому особенно актуальным является применение методов цифровой обработки для повышения разрешения СВН.
В литературе имеется описание ряда методов повышения разрешения видеоизображений, однако сведения о них разрознены, а сами методы не учитывают специфики СВН. Поэтому актуальной является решаемая в настоящем разделе задача систематизации моделей и методов повышения разрешения кадров видеопоследовательностей и определения путей их развития для создания условий их эффективного применения в СВН.
В 1.1 приведён анализ модели формирования изображений в СВН и используемых в настоящее время методов однокадрового повышения разрешения видеопоследовательностей. В 1.2 проанализированы известные из литературных источников методы многокадрового восстановления изображений и показана целесообразность их применения в СВН. В 1.3 выполнена систематизация методов определения межкадровых движений в задаче восстановления изображений. В 1.4 систематизированы методы восстановления кадров высокого разрешения по последовательности кадров низкого разрешения.
1.1. Однокадровое восстановление изображений
Обоснование модели формирования и восстановления изображений в цифровых СВН является важным этапом разработки моделей и методов повышения разрешения кадров видеопоследовательностей.
Задача восстановления изображений заключается в нахождении оценки идеального изображения на основе имеющегося искаженного изображения или последовательности изображений, а также некоторой априорной информации о процессе формирования искаженного изображения.
Все методы восстановления видеоизображений могут быть разделены на два больших класса — однокадровые методы и многокадровые методы. Однокадровые методы используют при восстановлении только один искаженный кадр. Многокадровые методы используют тот факт, что соседние кадры видеопоследовательностей содержат обычно похожую, но в то же время не идентичную информацию. Для восстановления каждого кадра видеопоследовательности используются несколько последовательных кадров.
1.1.1. Однокадровая модель формирования изображения
Будем рассматривать изображение как двумерную функцию вида /(х,,х2). Значение функции в точке (х,,х2) характеризует яркость изображения и является неотрицательной скалярной величиной. Цифровое представление изображения будем рассматривать в виде дискретной функции 1(тх,т1), тх = 1,2,..., М,, т2 = 1,2,..., М2. Элементы цифрового изображения могут принимать дискретные значения от 0 до 27 -1, где Р - количество бит, используемых для представления яркости одного пикселя цифрового изображения. Обычно Р= 8 бит. Для удобства будем нормировать значения яркости цифрового изображения, т.е. элементы матрицы цифрового изображения могут принимать 21> дискретных значения из диапазона от 0 до 1.
Однокадровые модели формирования изображений рассмотрены во многих источниках [3,4,78,101]. Для характеристики деградации изображения в СВН целесообразно использовать модель, представленную на рисунке 1.1.
Рисунок 1.1— Однокадровая модель формирования изображения
Вектор-столбец Г = где М=М\М2, описывает идеальное цифровое изображение наблюдаемой сцены /(т},т2), тх е[1,2,..., М,], т2 е [1,2,..., М2], развернутое по столбцам. Модель учитывает аддитивный шум и размытие изображения вследствие расфокусировки или перемещения объекта. Результирующее искаженное изображение низкого разрешения представлено вектором-столбцом % — >> ёл/ Г и определяется следующим выражением: а = Ш + П, (1.1.1) где Н — матрица размером М*М, описывающая размытие, п = [п, ,п2,...,пЛ/ ]' — аддитивный шум.
Матрица Н, описывающая размытие формируемого изображения, может быть представлена в виде Н=Н1Н2. Здесь Н1 - матрица, описывающая искажения формируемого изображения, обусловленные расфокусировкой оптической системы видеокамеры. Эти искажения в пространственно- инвариантном случае моделируются следующей импульсной характеристикой [4]:
1 2 , 2^2 X 4-Х, < Г ж2 ' ' , (1.1.2)
ГУ 2 2 2
О, л:, +х2 >г где г — радиус размытия. Матрица Н2 описывает искажения, обусловленные движениями на наблюдаемой сцене и конечным временем накопления заряда на фотоприёмнике видеокамеры. Так, например, для горизонтального смаза эти искажения моделируются следующей импульсной характеристикой [4]:
И1(х],х2) = < (1.1.3) к 2(х],х2) = <а —>(х,), 0<х2<а
О, х2 <0,х2> а где а— длина смаза. Матрицы Н1 и Н2 имеют блочную структуру [78], элементы которых представляют собой отсчеты импульсных характеристик (1.1.2) и (1.1.3) соответственно.
1.1.2. Однокадровое восстановление
Задача восстановления изображений однокадровыми методами заключается в получении одиночного восстановленного изображения по одному исходному искаженному изображению наблюдаемой сцены. (1.1.4)
Если бы для матрицы Н в (1.1.1) существовала обратная матрица (Н)"1 и аддитивным шумом можно было бы пренебречь, то решение системы (1.1.1) имело бы следующий вид:
Мн Г в,
Однако обычно матрица Н не обратима. Решение может быть найдено с помощью псевдообращения матрицы Н. Основным недостатком такого подхода к восстановлению изображений является высокая ресурсоёмкость операций обращения, умножения и транспонирования матриц больших размеров. На практике чаще используются другие методы восстановления одиночных изображений, которые широко изучены и описаны в литературе [3,4,33,78]. К ним относятся такие методы, как инверсная фильтрация, оптимальная фильтрация Винера, итеративная фильтрация, байесовская фильтрация, восстановление методами регуляризации и другие.
В настоящее время в СВН методы однокадрового восстановления изображений практически не используются. Это объясняется тем, что при правильной настройке видеокамер, искажения вследствие расфокусировки или движения объектов незначительны. А повышение разрешения изображений выше пределов, накладываемых ограниченным количеством пикселей, однокадровыми методами без наличия дополнительной информации о наблюдаемой сцене не возможно. Поэтому в СВН из однокадровых методов применяются как правило только простые алгоритмы улучшения изображений, такие как алгоритмы подчеркивания границ и сглаживания шумов.
1.2. Многокадровое восстановление
В то время как область восстановления одиночных изображений является практически исчерпанной, цифровое видео предоставляет много новых задач для исследования в области цифровой обработки изображений [33,89]. Так как видео обычно представляет собой последовательность схожих, но не одинаковых изображений, это делает возможным использование информации о межкадровых движениях в процессе обработки видеопоследовательностей. Одним из направлений обработки видеопоследовательностей, представляющим большой интерес, являются методы многокадрового повышения разрешения.
2.2.1. Многокадровое повышение разрешения
Классические однокадровые методы восстановления изображений осуществляют компенсацию искажений, вносимых регистрирующей системой и формируют восстановленное изображение того же размера, что и исходное искаженное изображение. Повышение разрешения изображения осуществляется за счёт компенсации размытия искаженного изображения и имеет ограничения со стороны размеров пространственной решётки изображения. Из-за фундаментального ограничения разрешения изображения количеством пикселей термины разрешение и размер цифрового изображения оказываются тесно связанны. Так, разрешение изображения, сформированного цифровой камерой, выраженное в телевизионных линиях (твл), ограниченно следующей зависимостью [5]: где Я — разрешение по горизонтали (вертикали), в твл, % — количество пикселей в строке (столбце) изображения, &к=0,7^-0,75 — коэффициент Келла.
В большинстве изображающих систем, в частности в цифровых СВН, количество элементов фотоприёмника видеокамеры является основным фактором, ограничивающим разрешение формируемых видеоизображений.
Методы, направленные на получение изображения (или последовательности изображений) большего размера и разрешения из видеопоследовательности низкого разрешения, в литературе получили название методов многокадрового сверхразрешения. Преимуществом данных методов перед классическими однокадровыми методами восстановления изображений является возможность преодоления ограничений, накладываемых на разрешение ограниченным количеством элементов фотоприёмника регистрирующей системы (видеокамеры).
Таким образом, многокадровые методы повышения разрешения осуществляют восстановление потерянной в процессе регистрации изображения информации. Очевидно, что это возможно только при использовании дополнительной информации. В случае многокадрового восстановления получение дополнительной информации для восстановления изображения высокого разрешения достигается за счёт использования, информации от нескольких соседних кадров.
2.2.2. Многокадровая модель формирования изображения
В работах [37,39,71,76] предложены модели формирования, используемые при восстановлении изображений многокадровыми методами. В диссертационной работе за основу взята модель, описанная в [76]. Используемая модель формирования к-го кадра видеопоследовательности представлена" на рисунке 1.2. Искаженное изображение А:-го кадра, формируемое реальной изображающей системой, представлено вектором- столбцом к =[8к],Вкл>—>ёкм1 > гДе М-М\М2. Вектор-столбец f описывает цифровое изображение высокого разрешения размером И\ ХМ2, представленное в виде вектора-столбца Г = , где N=NN2,
Ы\=Ь\М\, Ыг=Ь2Мг, ЬХ2 Другими словами, f описывает идеальное неискаженное изображение, полученное дискретизацией наблюдаемой сцены с пространственной частотой дискретизации, удовлетворяющей условиям теоремы Котельникова. Предполагается, что наблюдаемая сцена имеет ограниченный пространственный спектр. Тогда модель формирования к-то кадра описывается в матричном виде следующим образом: gk=lmkмkf + nk, (1.2.1) где М* — матрица размером описывающая геометрические искажения и изменения наблюдаемой сцены, Щ - матрица размером Ь\М\Ь2М2КЬ\М\Ь1Ы2, описывающая размытие, Б - матрица размером (NN2)'^\N\L2N2, описывающая операцию децимации изображения до размеров И\ х-Ип.
Рисунок 1.2 - Модель формирования кадра низкого разрешения
Предполагается, что вектор f остаётся постоянным на протяжении всего процесса формирования кадров, используемых для восстановления многокадровым методом, а изменения на наблюдаемой сцене описываются матрицей МЛ. Эти изменения являются неизвестными, и их оценка является важным этапом в процессе восстановления изображения многокадровыми методами. Подобное описание хорошо согласуется с принципами восстановления изображений многокадровыми методами повышения разрешения, когда для каждого кадра находятся векторы смещения относительно выбранного опорного кадра, восстановление которого производится, а затем эти кадры накладываются на . общую пространственную решётку высокого разрешения с учётом найденных смещений для получения восстановленного изображения высокого разрешения. Матрица М^ описывает также геометрические искажения, вносимые изображающей системой. Основным источником геометрических искажений в изображающих системах на основе цифровых видеокамер (в частности, в цифровых СВН), являются искажения, вносимые оптической системой видеокамер. В связи с этим матрица М* может быть представлена как произведение где М1 - матрица, описывающая геометрические искажения, М2* - матрица, описывающая изменения на наблюдаемой сцене, произошедшие между моментами времени формирования 1-го (опорного) кадра и к-то кадра. Геометрические искажения определяются свойствами оптической системы и не изменяются в процессе формирования последовательности кадров, поэтому коррекция геометрических искажений может быть произведена после восстановления изображения высокого разрешения многокадровым методом.
Матрица Нд, описывающая размытие формируемого изображения, может быть представлена в виде Н^Н^Нг^Нз. Здесь Н1 — матрица, описывающая искажения формируемого изображения, обусловленные расфокусировкой оптической системы видеокамеры. Матрица Н2к описывает искажения к-то кадра, обусловленные движениями на наблюдаемой сцене и конечным временем накопления заряда на фотоприёмнике видеокамеры. Матрица Н3 описывает размытие, вносимое фотоприёмником. ПЗС-матрицы и КМОП-матрицы, используемые в цифровых видеокамерах в качестве фотоприёмников, осуществляют пространственную дискретизацию путём усреднения интенсивности по площади каждого элемента фотоприёмника. Импульсная характеристика фотоприёмника с размерами пикселей Т*Т может быть представлена следующим образом [31]:
1 I I т7 I I Т
II Т II т '
О, \х. > —, \х7 > —
1 (хх Л -тгеси — г Г2 ) (1.2.2) .'14 2 'I 2| 2
Матрица Б описывает операцию децимации изображения до размеров формируемых изображающей системой кадров Л^ хтУ2. Децимация осуществляется путём прореживания с шагом Ь\ по вертикали и с шагом Ь2 по горизонтали.
2.2.3. Восстановление многокадровыми методами повышения разрешения
Также как и в однокадровом случае, восстановление изображения высокого разрешения путём решения системы уравнений (1.2.1), как правило не производится. Применяемая на практике схема восстановления одиночного изображения методами многокадрового сверхразрешения представлена на рисунке 1.3.
Кадры исходной вид еопо след ов ательности низкого разрешения в " п - н еэ
Оценка межкадровых движений и наложение
ГШ
Ш^О-И Ш-Ш 1_!_1_и~Г
Ч. I .к г
Восстановленное изображение
Рисунок 1.3- Схема восстановления одиночного изображения высокого разрешения методами многокадрового сверхразрешения
Для восстановления изображения высокого разрешения используются несколько последовательных кадров из исходной видеопоследовательности. Восстановление производится на основе выбранного опорного кадра исходной видеопоследовательности. Восстановление производится в два этапа. На первом этапе осуществляется оценка межкадровых движений между выбранным опорным кадром и остальными кадрами. На втором этапе кадры исходной видеопоследовательности объединяются на общей пространственной решетке с учётом межкадровых движений. В результате получается изображение с количеством пикселей кМ\М2, неравномерно распределённых на новой пространственной решетке. Здесь М\И М2 — размер исходных кадров низкого разрешения, к — количество кадров, используемых для восстановления. Результирующее изображение высокого разрешения формируется вычислением значений интенсивностей в узлах новой пространственной решетки.
Таким образом, многокадровое повышение разрешения осуществляется в два этапа - оценивание межкадровых движений и формирование изображения высокого разрешения объединением кадров на общей пространственной решетке.
Необходимо отметить, что оценивание межкадровых движений является важным этапом алгоритмов многокадрового сверхразрешения. Поэтому следует сделать одно важное замечание относительно информации о межкадровых движениях и проблемы оценки межкадровых движений в контексте восстановления изображений многокадровыми методами повышения разрешения. При восстановлении изображений или видеопоследовательностей многокадровыми методами повышения разрешения предполагается, что межкадровые движения для обрабатываемых кадров являются субпиксельными, то есть величины этих движений не кратны размеру пикселя. Субпиксельные межкадровые движения позволяют получить дополнительную информацию, необходимую для восстановления изображения высокого разрешения. Межкадровые движения могут быть обусловлены изменениями на наблюдаемой сцене или движением регистрирующей видеокамеры. Если движения между кадрами отсутствуют или кратны размеру пикселя, то при объединении кадров на общей пространственной решетке высокого разрешения будет наблюдаться наложение пикселей от разных кадров друг на друга и дополнительная информация о пространственных изменениях будет отсутствовать.
1.3. Анализ методов оценивания межкадровых движений
Оценивание межкадровых движений является фундаментальной задачей обработки видеопоследовательности изображений и важным этапом в восстановлении изображений многокадровыми методами повышения разрешения. Поэтому анализ существующих методов оценивания межкадровых движений является важной задачей.
1.3.1. Соотношение трёхмерного движения и его двухмерной проекции.
Оптический поток
Движение объекта в трёхмерном пространстве может быть представлено трёхмерным полем скоростей. Двухмерная проекция этого движения на плоскость изображения называется проекционным движением или двухмерным полем скоростей.
Для восстановления изображений многокадровыми методами повышения разрешения целью является нахождение этого двухмерного поля движения. Оцениваемое движение обычно описывается полями мгновенных скоростей или векторов перемещения. Если допустить, что скорость движений между двумя соседними кадрами постоянна, то оба описания эквивалентны. Возможно также более общее описание поля движений, учитывающее также ускорение движения.
В изображающих системах доступной является только информация о пространственно-временных изменениях интенсивности света в плоскости изображения. Это не даёт непосредственной информации о проекционном движении. Пространственно-временные изменения интенсивности света в плоскости изображения зависят от взаимодействия освещения наблюдаемой сцены и объектов, изменения позиции и ориентации камеры, изменения фокусного расстояния оптической системы и т.п. Хотя эти пространственно- временные изменения интенсивности в плоскости изображения и несут информацию о проекционном движении, они не соответствуют точно двухмерному полю перемещений. Так, не все изменения интенсивности изображения соответствуют движению на наблюдаемой сцене, так же, как не все движения на наблюдаемой сцене приводят к изменению интенсивности в плоскости изображения. Например, изменение освещения наблюдаемой сцены приводит к изменениям в плоскости изображения, однако они не соответствуют каким либо движениям на наблюдаемой сцене.
Несмотря на описанные трудности, использование информации об изменении интенсивности во времени, тем не менее, позволяет построить аппроксимацию проекционного движения, известную также как оптический поток.
1.3.2. Классификация методов оценивания межкадровых движений
На основе произведенного анализа методов оценивания межкадровых движений была составлена их классификация, представленная на рисунке 1.4.
По количеству кадров видеопоследовательности, используемых для вычисления оптического потока рассматриваемого кадра, все методы могут быть разделены на две группы: методы, использующие два соседних кадра [26,47,48,58,63,64,99], методы, использующие большее количество соседних кадров [41,61,67,102].
МЕТОДЫ ОЦЕНИВАНИЯ МЕЖКАДРОВЫХ ДВИЖЕНИЙ
По кол-ву используемых кадров;
По используемой модели иежкадровьгх движений:
По области реализации:
По критерию оценки:
Методы использующие два соседних кадра
Методы использующие несколько соседних кадров
Методы, использующие непараметрическую модель межкадровых движений
Методы, использующие параметрическую модель межкадровых движений
Методы, реализуемые в частотной области
Методы, реализуемые в пространственной области
Дифференциальные методы
Методы, основанные на сравнении регионов
Методы, основанные на анализе Фурье-спектров
Рисунок 1.4- Классификация методов оценки межкадровых движений
По используемой модели межкадровых движений все методы могут быть разделены на методы, использующие непараметрическую модель движения [26,47,64], и методы, использующие параметрическую модель движения [58,99]. При непараметрической модели движения векторы межкадровых движений вычисляются независимо для каждого пикселя рассматриваемого кадра. При параметрической модели движения векторы межкадровых движений вычисляются для определённых сегментов рассматриваемого кадра, с учётом выбранной модели движения для сегментов, например, модель параллельного смещения и поворота, аффинная модель, перспективная модель. Сегментом может быть весь кадр, отдельные прямоугольные блоки или регионы произвольной формы.
По области реализации методы оценивания межкадровых движений могут быть разделены на методы, реализуемые в частотной области [58,99], и методы, реализуемые в пространственной области [26,47,64]. Методы, реализуемые в частотной области, используют свойство сдвига преобразования Фурье. Применение этих методов ограничено моделью параллельного смещения и поворота, а в качестве сегмента обычно используется целый кадр. Методы, реализуемые в пространственной области, допускают как параметрическую, так и непараметрическую модель движения.
В зависимости от критерия, по которому производится сопоставление кадров при вычислении межкадровых движений, все методы могут быть разделены на следующие группы: дифференциальные методы [47,52,64,66,67,83], методы, основанные на сравнении регионов [26,48,56], методы, основанные на анализе Фурье-спектров рассматриваемых кадров [58,99],
Дифференциальные методы и методы, основанные на сравнении регионов, используют предположение о постоянстве интенсивности точки вдоль траектории её движения и предположение о постоянстве оптического потока в некоторой окрестности рассматриваемой точки. Методы, основанные на анализе Фурье-спектров, используют свойство сдвига преобразования Фурье.
1.3.3. Дифференциальные методы оценивания межкадровых движений
Дифференциальные методы используют для оценивания величины межкадровых движений пространственно-временные производные интенсивности изображений. Эти методы основываются на уравнении оптического потока и дополнительных ограничениях на структуру оптического потока.
Основным предположением, используемым для оценивания межкадровых движений, является предположение о постоянстве интенсивности точки вдоль траектории её движения. Оно выражается в виде уравнения оптического потока [47]:
81 31 31 „ „ ,' = и + V, (1.3.1) д1 дхх дх2 где 1(х[,х2^) - яркость в плоскости изображения некоторой; точки с!х сЬс наблюдаемой сцены, —- = и и—- = V - составляющие скорости точки вдоль осей х и у соответственно.
Целью методов оценивания межкадровых движений является; определение горизонтальной и вертикальной составляющих и и V вектора скорости рассматриваемой точки. Таким образом, мы имеем для каждой рассматриваемой точки одно уравнение оптического потока с двумя; неизвестными - и и V. Поэтому необходимо использование дополнительной информации для определения составляющих и и у оптического потока. Обычно используют ограничения на структуру оптического потока.
ХорнБ. и ШункБ. [47] для решения данной проблемы ввели дополнительное ограничение, названное глобальным ограничением плавности, которое состоит в том, что точки, расположенные в малой окрестности, должны принадлежать одной и той же области изображения. Это означает, что оптический поток в произвольно малой области является постоянным, т.е. не существует участков изображения, на которых соседние точки движутся в разных направлениях. Это ограничение хорошо соответствует большинству реальных сцен и нарушается только на границах движущихся объектов. Глобальное ограничение плавности выражается в виде минимизации квадратов градиентов оптического потока: (1.3.2)
В итоге задача оценки движения сводится к минимизации ошибки, связанной с уравнением оптического потока (1.3.3)
Ы 81 81 -и+- V Н . и ограничением плавности, выраженным как *2 = (1.3.4)
Введя весовой коэффициент а, общая ошибка, которую необходимо минимизировать, выражается как 2 = +а2егс)ьсхдх2. (1.3.5)
На практике минимизация выполняется на данных, представленных в цифровом виде, поэтому интегрирование заменяется суммированием, а частные производные аппроксимируются конечными разностями.
Лукас Б. и Канаде Л. [64], а также другие авторы [52, 83] использовали в качестве целевой функции при оценивании вектора смещения некоторой точки изображения среднеквадратическую погрешность
Е= Е[/.(т)-/2( ш+с!)]2, (1.3.6) те А" где ш =[га,,т2]7 - координаты точки на изображении, (1 = [/,,с12| — смещение, которое необходимо определить, /((х) и/>(х) ~~ Два соседних кадра видеопоследовательности, межкадровые движения между которыми необходимо определить, X — окрестность рассматриваемой точки кадра /Хх), в пределах которой оптический поток считается постоянным. При минимизация этой погрешности используется следующее приближенное равенство, верное при небольшом смещении между соседними кадрами: /2 (т + а)« Л (ш) + а ~л (ш), (1.3.7) дт{ дт2 оператор градиента.
Необходимо отметить, что дифференциальные методы оценки межкадровых движений обладают рядом серьёзных недостатков, ограничивающих их применение в СВН. Вывод уравнения оптического потока производится в предположении о небольшом смещении точек наблюдаемой сцены между соседними кадрами. В цифровых СВН обычно частота кадров не превышает 6-12 кадров в секунду и смещения точек двигающихся объектов между соседними кадрами могут быть значительными. Дополнительные сложности создаёт необходимость численного дифференцирования искаженных аддитивным шумом изображений.
Изменения в освещённости наблюдаемой сцены приводят к нарушению предположения о постоянстве яркости точки вдоль траектории её движения и оптический поток не соответствует действительному проекционному движению. Для учёта данного факта НейджелХ. предложил использовать ограничение постоянства градиента интенсивности вдоль траектории движения рассматриваемой точки [67]: — = 0. (1.3.8)
Однако это предположение нарушается при таких межкадровых движениях, как поворот или приближение. Необходимость вычисления вторых частных производных приводит при наличии шума к дополнительным трудностям, снижающим точность оценки.
1.3.4. Блочные методы оценивания межкадровых движений
В методах, основанных на сравнении регионов, обычно в качестве сравниваемых регионов используются прямоугольные блоки, поэтому эти методы получили название блочных методов оценивания межкадровых движений [26]. Обозначим через /^т), /2(т) - два исходных кадра размерами М\У-М2 пикселей, т = [т,,т2]г. За смещение с!0 = [^ои^огГ рассматриваемой точки кадра /Хт) принимается смещение некоторой её окрестности (блока) /1(п»)|теХ . Для этого блока ищется наилучшее соответствие с блоком /2(т + с!)|теХ кадра /2(т), где А — с12 ]7 - смещение вдоль соответствующих координат. Поиск соответствия производится в пределах заранее заданной области поиска кадра /2(ш), размеры которой определяются исходя из максимально возможного значения смещения рассматриваемой точки, заданного априорно на основе свойств наблюдаемой сцены и условий регистрации (рисунок 1.5). Найденное наилучшее соответствие определяет смещение рассматриваемой точки между кадрами.
Целевая функция для поиска наилучшего соответствия блоков обычно строится на основе следующих критериев [32]:
1. Критерий минимума суммы абсолютных разностей между соответствующими элементами блоков: (10 =агтт Е|/,(т)-/2(т + с!)|. (1.3.9)
2. Критерий минимума среднего квадрата разности блоков: d 0 = arg min {/, (m) - /2 (m + d)}2. (1.3.10) d шеХ
3. Критерий максимума взаимной корреляц ионной функции между блоками:
I/. (т) d0 = argmax ^ j г. (1.3.11) Z/22(m + d)
Размеры окрестности (блока) точки, в пределах которой смещения всех точек предполагаются примерно одинаковыми, выбираются исходя из характера наблюдаемой сцены.
Для субпиксельной оценки межкадровых движений блочный метод применяют к интерполированным исходным кадрам [12, 13].
Сложность представляет поиск глобального экстремума целевой функции. При необходимости обеспечить высокую точность производиться полный перебор - вычисление целевой функции для всех возможных смещений в области поиска. Данный подход имеет максимальные вычислительные затраты, но гарантирует нахождение оптимального значения смещения. Для ускорения поиска используют методы трёх шагов [56], метод логарифмического поиска [48] и ряд других стратегий поиска наилучшего совпадения блоков [84,103,104], которые не гарантируют нахождение оптимального значения смещения, но сокращают вычислительные затраты.
1.3.5. Методы, основанные на анализе Фурье-спектров
Эти методы, также называемые методами фазовой корреляции, основываются на том, что сдвиг изображений в пространственной области соответствует фазовому сдвигу в частотной области. Впервые данный подход был описан в [58]. Предполагается, что межкадровые движения ограничены параллельным смещением так, что /(т) = /2(т+<1). (1.3.12)
Применив преобразование Фурье к обеим частям равенства (1.3.12) и использую свойство сдвига преобразования Фурье, получим ад = ад.ехр{у2я1Г11}, (1.3.13) где и = [г/,,н2]г - пространственные частоты. Отсюда ^^ = ехр{/2я1!ги}. (1.3.14)
Угол наклона фазовой плоскости (1.3.14) определяет смещение между кадрами У^(ш) и /2(ш) по осям.
В работе [99] кроме параллельного сдвига между кадрами допускается поворот кадров относительно друг друга. Для определения угла поворота кадров используется тот факт, что амплитудный Фурье-спектр не зависит от смещения и, при повороте изображения, спектр поворачивается на тот же угол. После определения угла поворота производится компенсация поворота одного из кадров. В результате получаются два кадра, имеющих параллельный сдвиг друг относительно друга. Величины сдвига по горизонтали и вертикали определяются описанным выше способом.
Область применения этих методов сильно ограничена из-за модели движения в виде глобального сдвига и поворота. При больших размерах кадров метод имеет относительно высокие вычислительные затраты.
1.3.6 Исследование характеристик блочного и дифференциального методов оценивания межкадровых движений
Среди рассмотренных методов оценивания межкадровых движений наибольший интерес с точки зрения применения в СВН представляют блочные и дифференциальные методы. Для более точного- определения достоинств и недостатков этих методов необходимо провести экспериментальные исследования.
В блочном методе будем использовать критерий минимума среднего квадрата разности сравниваемых блоков (1.3.10). Для исключения влияния на точность оценки способа поиска наилучшего совпадения блоков, будем использовать полный перебор в пределах области поиска. В качестве реализации дифференциального метода будем использовать алгоритм Лукаса-Канаде [64], как наиболее точный из дифференциальных методов по оценкам ряда исследователей [30, 62].
В различных исследованиях методов оценивания межкадровых движений [30,62,65] применялись разные метрики погрешности определения векторов межкадровых движений. Так как в данной работе исследование проводилось с точки зрения применения методов оценки межкадровых движений в многокадровых методах повышения разрешения, в качестве метрики погрешности оценки векторов межкадровых движений целесообразно использовать абсолютное значение погрешности: е(ш) = |у(ш) - У0(Ш)|, (1.3.15) где у(х) = [м,у]' И У0(х) = — измеренный и известный корректный векторы межкадровых движений точки с координатами ш = [т1,/и2]г текущего кадра тестовой видеопоследовательности.
Для исследования погрешности оценивания межкадровых движений необходимы тестовые видеопоследовательности с известными векторами межкадровых движений. Для исследований будем использовать синтезированные видеопоследовательности.
На рисунке 1.6 представлена схема исследований алгоритмов оценивания межкадровых движений. Из изображения высокого разрешения, на основе заданной величины межкадрового смещения у0(ш) и дисперсии аддитивного гауссого шума формируются два последовательных кадра тестовой видеопоследовательности в соответствии с моделью (1.2.1). Затем эти два кадра подаются на вход исследуемого алгоритма оценки межкадровых движений. Вычисленные векторы межкадровых движений используются для определения погрешности оценки межкадровых движений на основе выбранной метрики и истинных векторов межкадровых движений.
Рисунок 1.6 - Схема исследования алгоритмов оценки межкадровых движений
На рисунке 1.7 приведены полученные в результате исследования экспериментальные зависимости математического ожидания модуля погрешности оценки межкадровых движений от дисперсии аддитивного гауссова шума для блочного и дифференциального метода. Полученные экспериментальные значения аппроксимированы полиномами третьего порядка, построенными по методу наименьших квадратов. Из графика видно, что исследуемые алгоритмы имеют примерно одинаковую устойчивость к искажению исходных кадров аддитивным гауссовым шумом.
Рисунок 1.7 — Зависимость математического ожидания модуля погрешности оценки межкадровых движений от дисперсии аддитивного гауссова шума
На рисунке 1.8 приведены экспериментальные зависимости математического ожидания абсолютной величины погрешности оценки межкадровых движений от величины межкадровых смещений для блочного и дифференциального методов. Экспериментальные значения аппроксимированы полиномами третьего порядка, построенными по методу наименьших квадратов. При межкадровых движениях, превышающих 1 пиксель, модуль погрешности оценки 'межкадровых движений дифференциальным методом превышает модуль погрешности оценки межкадровых движений блочным, методом и резко возрастает с увеличением величины межкадровых движений. При этом модуль погрешности оценки межкадровых движений блочным методом остается примерно постоянной с ростом межкадровых движений.
Рисунок 1.8 — Зависимость математического ожидания модуля погрешности оценки межкадровых движений от величины межкадровых движений
На основании проведённых экспериментов можно сделать следующие выводы об исследованных методах. Блочные методы оценивания межкадровых движений обладают высокой устойчивостью к большим значениям межкадровых движений. Дифференциальные методы имеют лучшую точность при небольших значениях межкадровых движений. Однако дифференциальные методы являются очень не устойчивыми к большим значениям межкадровых движений. Этот недостаток практически исключает непосредственное использование дифференциальных методов для оценки межкадровых движений реальных видеопоследовательностей, для которых характерны как небольшие, так и значительные значения межкадровых движений.
1.4. Анализ методов формирования изображений высокого разрешения по видеопоследовательностям низкого разрешения
Целью методов формирования изображений высокого разрешения является восстановление одиночного или последовательности изображений высокого разрешения на основе видеопоследовательности низкого разрешения и известных межкадровых движениях для этой видеопоследовательности с субпиксельной точностью. Суть работы этих методов сводится к объединению нескольких кадров исходной видеопоследовательности низкого разрешения на общей пространственной решетке высокого разрешения с учётом межкадровых движений и вычислению значений интенсивности в узлах этой пространственной решетки.
1.4.1. Классификация методов формирования изображений высокого разрешения по видеопоследовательностям низкого разрешения
На основе произведенного анализа методов формирования изображений высокого разрешения была составлена их классификация, представленная на рисунке 1.9.
По области реализации эти методы могут быть поделены на два класса - методы, реализуемые в частотной области [53,54,55,92] и методы, реализуемые в пространственной области [36,38,39,57]. Методы, реализуемые в частотной области, являются достаточно простыми и требуют относительно небольших вычислительных затрат, однако область их применения ограничивается простейшими моделями движения. Методы, реализуемые в пространственной области, предоставляют большую гибкость в выборе модели межкадровых движений. Однако эти методы требуют больших вычислительных затрат, чем методы, реализуемые в частотной области.
Рисунок 1.9 — Классификация методов формирования изображений высокого разрешения
Методы, реализуемые в пространственной области, в зависимости от принципа формирования изображения высокого разрешения могут быть разделены на методы интерполяции неравномерно расположенных отсчётов [38,53], методы деформации и слияния [35], вероятностные методы [46,57,81] и методы, основанные на теории множеств [77,85,90].
1.4.2. Методы, основанные на преобразовании Фурье
Эти методы относятся к методам, реализуемым в частотной области. Использование свойств преобразования Фурье даёт этим методам ряд преимуществ. Эти свойства хорошо известны и изучены, поэтому методы, реализуемые в частотной области, являются простыми для понимания и реализации. Наличие алгоритмов быстрого преобразования Фурье делает эти методы относительно не требовательными к вычислительным мощностям. Однако использование преобразования Фурье является причиной основного недостатка этих методов - допускается межкадровые движения только в виде параллельного сдвига.
Впервые метод, основанный на преобразовании Фурье, был описан в [92]. Восстановление изображения высокого разрешения сводится к вычислению дискретных преобразований Фурье исходных изображений низкого разрешения, составлению матриц, определяющих соотношение между элементами дискретного преобразования Фурье исходных изображений и отсчётами неизвестного непрерывного преобразования Фурье наблюдаемой сцены, и решению системы линейных уравнений относительно отсчётов неизвестного непрерывного преобразования Фурье наблюдаемой сцены. Затем с помощью обратного дискретного преобразования Фурье получается восстановленное изображение высокого разрешения.
Помимо ограничений по модели межкадровых движений, данный метод имеет ещё ряд недостатков. Предполагается идеальная дискретизация наблюдаемой сцены дельта-функциями, а реальные регистрирующие системы характеризуются пространственным (конечный размер элемента ПЗС-матрицы) интегрированием. Также данный метод не позволяет учитывать искажение кадров аддитивным шумом.
Расширение описанного метода, учитывающее шум и размытие на исходных кадрах, предложено в [54]. Предполагается, что все исходные кадры имеют одинаковое размытие и искажены аддитивным гауссовым шумом с одинаковой дисперсией. Решение формулируется методом наименьших квадратов. Позже этот метод был развит в [55], где предполагается различное размытие для исходных кадров.
1.4.3. Интерполяция неравномерно расположенных отсчётов
В данных методах сначала производится наложение всех изображений исходной последовательности низкого разрешения , на общую пространственную решетку высокого разрешения с учетом межкадровых движений. В результате получается составное изображение, состоящее из большего числа неравномерно распределённых отсчётов, используемых в качестве узлов интерполяции. Затем по этим неравномерно распределённым отсчётам вычисляют значения яркости в узлах пространственной решётки высокого разрешения. Таким образом формируется изображение высокого разрешения.
Так, Кларк Д. в своей работе [38] показал, что если для функции Д?), дискретизированной на неравномерной сетке {?„}, существует непрерывное обратимое преобразование у(?) такое, что у(?п ) = пТ и /(?)) имеет спектр, ограниченный частотой о)0= п /Т, то функция может быть восстановлены с помощью следующего выражения: (1.4.6)
Данное выражение получено на основе ряда Котельникова для восстановления функции с ограниченным спектром идеальным фильтром низких частот. На практике, использование данной формулы требует знания значений функции /(/) во всех точках, в которых необходимо восстановить значение функции/^). Поскольку аналитическое выражение для /(О обычно не известно, используют интерполяцию между известными точками у^п).
Предложенный подход был распространён автором на двумерный случай. Однако, если в одномерном случае, зная значения /(/,) в точках {/„}, мы могли интерполировать их для нахождения у(() в любой точке, то в двумерном случае построение такого непрерывного и. обратимого отображения не тривиально. Если в одномерном случае существует только одно такое непрерывное и обратимое преобразование, полученное интерполяцией у^п) = пТ, то в двумерном случае может быть бесконечное количество таких отображений. Трудность заключается в том, что не существует общей схемы упорядочения неравномерно распределённых точек в двумерном пространстве по аналогии с последовательным упорядочением в одномерном: случае с сохранением соседства точек. Ещё одним существенным недостатком данного метода является то, что количество пикселей восстанавливаемого изображения должно быть равно суммарному количеству пикселей исходных кадров. Таким образом, если размер исходных кадров ./Vх М, а необходимо восстановить изображение размером 27Ух2М, то должны использоваться четыре исходных кадра и наличие большего количества кадров не позволит получить более качественное восстановление.
Другой подход к интерполяции неравномерно расположенных отсчётов был предложен в работе [53]. Авторы распространили идею, описанную в [92] на более общий случай, допускающий не только параллельный сдвиг между кадрами. Они представили исходные Я кадров размером Л^ *Л[2 как КМкадров размером 1x1 пиксель каждый. Для кадров размером Л^хД^ пикселей любая модель движения может быть представлена как параллельный сдвиг соответствующих кадров размером 1 х 1 пикселей. Тогда, используя одноточечное преобразование Фурье и свойство сдвига преобразования Фурье, они получили систему линейных уравнений, аналогичную (1.4.5). Основным недостатком, препятствующим применению метода, является большая размерность получаемой системы уравнений даже при относительно небольших размерах обрабатываемых кадров.
Ещё одним подходом к интерполяции неравномерно расположенных отсчётов является использование триангуляции. Под триангуляцией понимают планарный граф, получающийся при соединении узлов интерполяции отрезками, такой, что нельзя добавить ни одного нового отрезка без нарушения планарности (то есть без пересечения отрезками друг друга) [6]. При этом граница триангуляции будет, очевидно, оболочкой множества узлов интерполяции. Значения пикселей новой пространственной решетки высокого разрешения при этом определяются таким образом, чтобы эти точки лежали на треугольниках получившегося планарного графа. Триангуляция широко используется в компьютерной графике для построения трёхмерных поверхностей. Основным недостатком такого подхода является то, что в нём не учитывается возможное искажение узлов интерполяции аддитивным шумом.
1.4.4. Метод деформации и слияния
Этот метод был предложен ЧангомМ. и Боултом Т. [35]. Согласно предложенному ими методу, после определения векторов межкадровых движений для всех кадров относительно выбранного опорного кадра, восстановление изображения высокого разрешения производится в три этапа.
Первый этап - деформация. Выбранный опорный кадр увеличивается с помощью интерполяции до размеров пространственной решётки восстанавливаемого изображения высокого разрешения. Остальные кадры исходной видеопоследовательности также интерполируются и деформируются к опорному кадру с учётом вычисленных векторов межкадровых движений.
Второй этап - слияние. Деформированные и интерполированные кадры рассматриваются как множественные оценки изображения высокого разрешения. Далее эти кадры объединяются для получения изображения высокого разрешения. Авторы метода объединяли кадры путём вычисления среднего для каждого пикселя или выбором медианного значения. Как отмечали авторы в своей работе [36], медианная фильтрация даёт несколько лучший результат, чем усреднение. Разработка более сложных способов объединения деформированных кадров ими не производилась.
Третий этап - устранение размытости. Производится устранение размытости восстановленного изображения высокого разрешения одним из известных методов, широко описанных в литературе [33,78], например, с помощью фильтра Винера.
1.4.5. Метод максимума апостериорной вероятности
Метод является вероятностным методом многокадрового восстановления изображений высокого разрешения [46,57,81]. Метод применяется, когда апостериорная плотность распределения вероятностей наблюдаемой сцены может быть задана.
Метод максимума апостериорной вероятности ищет оценку ^ изображения высокого разрешения Г, для которой апостериорная вероятность максимальна: *мар =агёшах[Р{Г | ,ё2,}] (1-4.9) (1.4.10)
Используя формулу Байеса, выражение (1.4.9) можно переписать как fMAP = arg шах ^{ёрёг'-'чёл:}
Максимум этого выражения для fMA[) не зависит от gk, отсюда fMAP = aigmax[P{gl,g2,...,gjc\f}P{f}]. (1.4.11)
Так как логарифм является монотонно возрастающей функцией, то это эквивалентно нахождению map = ^rg max[log ^{gj, g2,...,gK |f} + logP{f}]. (1.4.12)
Максимизация апостериорной вероятности требует, таким образом, максимизации суммы двух слагаемых. Первое слагаемое, называемое логарифмической функцией правдоподобия, определяет, в статистическом смысле, ограничения, связывающие исходные данные с идеальным изображением наблюдаемой сцены, которые необходимо оценить. Второе слагаемое, logP{f}, описывает информацию относительно формы идеального изображения наблюдаемой сцены.
Основным недостатком вероятностных методов являются относительно большие вычислительные затраты, не позволяющие применять их в приложениях, требующих оперативного получения восстановленного изображения.