Содержание к диссертации
Введение
ГЛАВА 1 Анализ методов получения и реконструкции карт глубины 12
1.1 Методы сканирования трехмерных сцен 14
1.2 Причины возникновения искажений при оценке структуры трехмерной сцены 22
1.3 Методы интерполяции 26
1.3.1 Методы на основе синтеза текстур 27
1.3.2 Методы, основанные на решении дифференциальных уравнений в частных производных 29
1.3.3 Интерполяция на основе поиска похожих блоков 31
1.3.4 Гибридные методы интерполяции 35
ГЛАВА 2 Реконструкция карты глубины на основе интерполяции и адаптивной медианной фильтрации 38
2.1 Метод реконструкции карт глубины 39
2.3 Интерполяция 41
2.3 Адаптивный медианный фильтр 49
Выводы 58
ГЛАВА 3. Исследование эффективности разработанного метода реконструкции карт глубины 59
3.1. Критерии оценки качества реконструкции изображений 59
3.2 Порядок проведения вычислительного эксперимента 62
3.3 Анализ результатов исследования 64
Выводы 84
ГЛАВА 4. Применение разработанного метода восстановления карт глубины в задачах реконструкции трехмерных сцен 85
4.1 Методика сканирования 85
4.2 Применение разработанного метода 99
Выводы 104
Заключение 105
Библиографический список 106
- Методы на основе синтеза текстур
- Адаптивный медианный фильтр
- Порядок проведения вычислительного эксперимента
- Применение разработанного метода
Методы на основе синтеза текстур
В настоящее время активно проводятся исследования методов получения трехмерных моделей из набора двухмерных изображений для решения задач компьютерного зрения, результаты которых применяются во множестве областей науки и техники: системы навигации и управления в робототехнике, диагностика состояния здоровья в медицине, контроль качества в промышленности, распознавание лиц и объектов в системах безопасности и т.д.[101].
Для решения задач трехмерной реконструкции используется множество различных сенсоров и методов сканирования [69]. Например, лазерное сканирование позволяет получить модель с высоким уровнем точности, однако требует специальных лабораторных условий и процесс сканирования занимает длительное время. В робототехнике для получения информации о геометрии сцены используются сонары, которые позволяют быстро получать модель окружающей обстановки с малым уровнем точности. Все методы сканирования трехмерных сцен можно разделить на две группы: активные и пассивные[69]. В первом случае требуется подсветка объектов, пассивные методы работают при естественном освещении[28].
Пассивные методы. К данной группе методов относится система из двух камер, разнесенных на некоторое расстояние друг от друга, так называемая стереокамера. Идея, лежащая в основе построения карты глубины по стереопаре очень проста. Для каждой точки на одном изображении выполняется поиск парной ей точки на втором изображении. А по паре соответствующих точек выполняется триангуляция[27] и определяются координаты их прообраза в трехмерном пространстве. Зная трехмерные координаты прообраза, глубина вычисляется, как расстояние до плоскости камеры.
Ректифицированные изображения Парную точку нужно искать на эпиполярной линии. Соответственно, для упрощения поиска, изображения выравнивают так, что бы все эпиполярные линии были параллельны сторонам изображения (обычно горизонтальны). Более того, изображения выравнивают так, что бы для точки с координатами (x0, y0) соответствующая ей эпиполярная линия задавалась уравнением x = x0, тогда для каждой точки соответствующую ей парную точку нужно искать в той же строчке на изображении со второй камеры[27]. Такой процесс выравнивания изображений называют ректификацией, пример ректифицированных изображений приведен на рисунке 1.2.
После того как изображения ректифицированы, выполняется поиск соответствующих пар точек. Для каждого пикселя левого изображения с координатами (x0, y0) выполняется поиск пикселя на правом. При этом предполагается, что пиксель на правом изображении должен иметь координаты (x0-d,y0), где d — величина называемая несоответствие/смещение. Поиск соответствующего пикселя выполняется путем вычисления максимума функции отклика(рис. 1.3), в качестве которой может выступать, например, корреляция окрестностей пикселей. В результате получается карта смещений.
Карта смещений используется для получения карты глубины (рис. 1.4). Из-за обратной зависимости глубины и смещения, разрешающая способность систем стерео зрения, обратно пропорциональна расстоянию до сканируемой сцены[29]. Недостатком данного метода является необходимость фотографирования сцены с некоторым смещением, при сильном изменении положения и ориентации камеры, процесс ректификации становится затруднительным, кроме того данный метод чувствителен к условиям освещенности сцены и ее изменениям между моментами съемки[101]. Рисунок 1.4 – Полученная карта глубины
Фотометрический метод. В стереофотометрическом методе обрабатывается набор изображений, полученных при освещении объекта различными источниками света[54]. Таким образом, для каждого пикселя получается набор значений интенсивности, и для них составляется таблица с указанием вектора нормали к поверхности. Таблица строится с помощью предварительно выполняемой процедуры фотометрической калибровки. Стереофотометрический метод обеспечивает высокую скорость вычислений в контролируемой лабораторной среде. В работе [56] сообщается об успешных результатах даже при работе с зеркально отражающими поверхностями при использовании трех сбалансированных источников света. Однако, если окружающая среда недостаточно управляема, то для трехмерных измерений вместо вычисления формы по освещенности лучше применять структурную подсветку. Этот подход в последнее время стал преобладающим в прикладных задачах.
Для повышения достоверности и точности реконструкции были разработаны тринокулярные и многовидовые стереокамеры[51, 52, 95, 98]. Они позволяют уменьшить число ошибок в определении трехмерной структуры объектов за счет отсечения части ложных соответствий, но все также не дают 100% точности.
Существует множество альтернативных методов пассивного сканирования, которые могут применяться для решения специфических задач. При этом эти методы накладывают некоторые ограничения, как например монотонный задний фон для выделения контуров объекта находящегося на переднем плане. В работе [52] предложен метод который сканирует объект с определенно числа камер(ракурсов), конечная форма объекта определяется анализом полученных контуров объекта на каждом снимке. В работе [92] представлен метод, позволяющий получить геометрию объекта путем наблюдения изменения контуров объекта при смещении камеры.
Оценка геометрических параметров по фокусу. Оптические системы визуализации требуют достаточно большой диафрагмы, такой чтобы сенсор получал необходимое количество света [56]. Соответственно, захваченных изображений продемонстрирует ограниченную глубину резкости; только предметы близкие к фокусной плоскости появятся в резком контрасте, удаленные объекты вместе размыты. Этот эффект может быть использован для восстановления глубины, за счет увеличения диаметра отверстия для дальнейшего уменьшения глубины резкости. Наяра и Накагава [83] проводили оценку алгоритмов форма-из-фокуса, собирая фокусный стек путем изменения одного элемента (объектив, датчик, или объект). Для определения плоскости наилучшей фокусировки, и соответствующего расстояния от камеры использовалась мера качества фокусировки [60].
Адаптивный медианный фильтр
Одними из первых методов интерполяции использовали алгоритмы на основе синтеза текстур[32, 45, 46, 50, 58, 68, 84]. Текстура генерировалась путем копирования информации с границы поврежденной области в ее центр. Например, в работе [32] используется модель случайных полей Маркова для нахождения распределения пикселей на границе поврежденной области и реконструкции этой области. Однако данный метод работал только на определенном наборе изображений с однотонными текстурами, в противном случае восстанавливаемое изображение выглядело неестественно.
В работе [45] был предложен расширенный вариант алгоритма быстрого синтеза текстуры за счет использования малых блоков текстур и распространения их на искаженный участок. В работе [53] Heeger и Bargen представили метод восстановления поврежденных областей путем копирования текстуры небольшими блоками из похожей области, определяемой пользователем.
В работах [57, 63] было предложено использование методов Principal Component Analysis(PCA) и Vector Quantization(VQ) для ускорения определения наиболее подходящего блока при восстановлении дефектной области.
Время работы большинства методов интерполяции может измеряться от нескольких минут до нескольких часов, в зависимости от размеров изображения и поврежденной области. Для ускорения процесса восстановления - в 2001 году Oliveira и соавторы [84] предложили алгоритм интерполяции на основе использования пространственной обработки. Восстановление производилось за счет диффузии путем свертки с Гауссовым ядром, используя одно из следующих весовых ядер, которые учитывают только информацию о соседних пикселях[84].
Количество итераций определяется пороговым значением изменений между соседними итерациями, либо может быть указано пользователем. Данный метод не способен восстанавливать текстуру или линейные структуры и приводит к расфокусировке изображения, однако хорошо пригоден для восстановления малых участков, прост в реализации, быстро работает и позволяет сохранять основную цветную информацию на изображении. Пример работы интерполяции на основе синтеза текстур представлен на рисунке 1.9.
Существует множество методов интерполяции на основе синтеза текстур, которые могут восстанавливать области с определенными параметрами: монотонные, области с градиентом или текстурированные которые состоят из повторяющихся блоков. Однако данная группа интерполяции требует ручной установки параметров и указания как восстановить конкретную область. Эти методы направлены на исправление очень маленьких погрешностей на изображениях, и не способны работать на больших областях.
Методы, основанные на решении дифференциальных уравнений в частных производных
Метод интерполяция, основанный на решении дифференциальных уравнений в частных производных(Partial Differential Equations, PDE), был предложен в работах Bertalmio и соавторов[35, 36]. Результат обработки карты глубины показан на рисунке 1.10.
Результат восстановления карты глубины интерполяцией на основе решения дифференциальных уравнений в частных производных В основе данной группы методов лежит итеративный процесс восстановления дефектов изображения путем диффузии изображения из исходной неискаженной области. Процесс диффузии описывается следующим выражением[36]:
Лапласиана применяемый к градиенту. Основным недостатком такого подхода является невозможность восстановления больших текстурированных областей из-за появления значительного уровня размытия в процессе диффузии, что приводит к искажениям резких перепадов яркости на изображении. На рисунке 1.6(в) хорошо видно сильное размытие границ объектов при восстановлении больших участков изображения.
Продолжением идеи Bertalmio является работа [94], в которой представлен алгоритм Total Variation(TV), который использует выражение Эйлера-Лагранжа и анизотропную диффузию, основанную на силе градиента в реконструируемой области. Изображение восстанавливается с помощью функционала[94]:
Минимизация данного функционала эквивалентна соединению уровней изображения с наименьшим среднеквадратическим отклонением. Данная модификация лучше сохраняет линейные структуры на изображении, но все также не решает проблему расфокусировки. В работе [40] модель Total Variation была расширена до модели Curvature Driven Diffusion(CDD), путем добавления информации о градиенте в каждой точке изображения, что снижает, но не исключает эффект размытия.
Подводя итог можно сделать вывод, что общим недостатком методов на основе решения дифференциальных уравнений в частных производных является размытие резких перепадов яркости и неспособность восстанавливать текстуру или изогнутые контура объектов, поэтому данные методы в основном применимы при удалении царапин и небольших дефектов на изображении.
Метод интерполяции, основанный на поиске похожих блоков(Ехетр1аг-based method, ЕВМ), был предложен Criminisi и соавторы в [41]. Работа данной группы методов заключается в вычислении приоритета для каждого пикселя границы «исходное изображение/искаженная область» с последующим поиском наиболее похожего квадратного блока на исходном изображения и копировании его в поврежденную область.
Порядок восстановления пикселей является одним из важнейших моментов данного метода и определяется величиной приоритета пикселей, находящихся на границе «исходное изображение/искаженная область». Приоритет зависит от значений градиента в точке D(p) и доверия(количества известной информации) C(p) в окрестности пикселя, и вычисляется следующим образом [5]:
Порядок проведения вычислительного эксперимента
Оценка эффективности обработки изображений, в том числе и карт глубины, представляет актуальную задачу, которая в настоящее время еще не решена[28]. Проблема состоит в том, что критерии качества, которые используются для анализа одномерных и двумерных сигналов (отношение сигнал/шум, среднеквадратическая ошибка и т.д.) не всегда дают хороший результат при оценке карт глубины, поскольку необходимо учитывать искажения геометрической формы полученных трехмерных объектов сканируемой сцены.
К наиболее употребляемым количественным оценкам качества изображения относятся [38, 59, 85, 97]: средняя разность, нормированная корреляция, качество корреляции, максимальная разность, среднеквадратичная погрешность, максимальная среднеквадратичная погрешность, нормированная абсолютная погрешность, нормированная среднеквадратичная погрешность, отношение сигнал/шум, пиковое отношение сигнал/шум.
Для оценки среднего уровня наличия дефектов при сканировании сцены с помощью инфракрасной локации была использована база данных «Berkley 3-D Object dataset(B3DO)» из работы [61], состоящая из 849 пар цветное изображение/карта глубины, с разрешением 640х480 пикселей. Исследования показали, что на полученных картах глубины площадь дефектов может составлять в среднем 20-35% от площади изображения(рис. 3.1а). Если не учитывать область несоответствия углов обзора камеры и проектора(«черная рамка» на карте глубины), то средний уровень потерь находится на уровне 5-15%(рис. 3.1б). 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95
При обработке данных разработанным методом интерполяции, установлено, что максимальное отношение площади дефектов к площади изображения не должно превышать 15% без учета «черных рамок». В настоящее время не существует общепризнанных критериев оценки качества реконструкции карт глубины. Рассмотрим часто используемые в области цифровой обработки изображений объективные критерии оценки качества изображения. К таким критериям относятся: среднеквадратичная ошибка (MSE) и пиковое отношение сигнал/шум (PSNR).
MSE определяется как математическое ожидание квадрата разности неискаженных и восстановленных значений карты глубины. Меньшему значению MSE, соответствует лучшее качество реконструкции. Выражения для расчета среднеквадратичной ошибки имеет вид [97]:
PSNR используется для сравнения уровня шумов на паре изображений и измеряется в децибелах(дБ). Большему значению PSNR, соответствует лучшее качество реконструкции. PSNR вычисляется с помощью следующего выражения[97]:
Критерий максимальной ошибки (МАХ) используется в тех случаях, когда выдвигается требование высокой точности представления не изображения в целом, а каждого значения пикселя [59]: (3.5)
Порядок проведения вычислительного эксперимента Для оценки качества реконструкции карт глубины требуются эталонные карты глубины, которые крайне затруднительно получить для сцен с объектами сложной формы. Поэтому с использованием программного обеспечения Blender 2.69 были смоделированы трехмерные сцены и получен тестовый набор пар цветное изображение/карта глубины.
После чего на эталонных картах глубины были смоделированы дефектные области, повторяющие естественные дефекты появляющиеся при использовании методов инфракрасной локации. Они были смоделированы таким образом, чтобы сравнить эффективность методов реконструкции при различных условиях: восстановление дефектов на границах объектов, плоских поверхностях, углах и т.д.
Для расчета численной оценки в данной работе используются: PSNR, MSE, RMSE, MAE, MAX. Исследование эффективности проводилось путем сравнения шести методов реконструкции, по данным критериям. В литературе нет четких указаний по выбору параметров обработки каждым методом и даны только некоторые рекомендации. Ниже приведено обоснование выбора параметров при обработке карт глубины.
PDE интерполяция: максимальное количество итераций установлено равным 100, как правило решение сходится раньше. На рисунке ниже показано изменение значений яркости в зависимости от номера итерации для карты глубины с 10% площади занимаемой дефектами. 1800 1600 1400 1200 1000
ЕВМ интерполяция: В работе [41] указано, что размер блока выбирается в зависимости от максимальной площади дефектного участка. Однако при реконструкции карт глубины данное правило не работает из-за низкого качества исходной карты глубины. Была проведена обработка тестового набора карт глубины с различными размерами блока, анализ результатов которой показал, что при размере блока 7х7 пикселей достигается наилучший результат реконструкции карт глубины. При меньшем значении границы объектов принимали пилообразную форму, при большем, появлялись заметные артефакты.
Разработанный метод: путем анализа тестового набора карт глубины, принято решение выбрать размер блока 5х5 пикселей и весовой коэффициент равный 3. При данных параметрах разработанной алгоритм интерполяции показывал наилучший результат реконструкции. Для адаптивного медианного фильтра, согласно рекомендациям из работы [1], были выбраны параметры R = 9 и а = 0.01, которые инвариантны в широком классе изображений. 3.3 Анализ результатов исследования
Из-за отсутствия эталонных карт глубины естественных сцен, необходимых для объективной оценки качества реконструкции изображений, первым шагом выступает визуальный анализ восстановленных карт глубины. На рисунках 3.3-3.6 представлены четыре тестовые пары цветное изображение/карта глубины и результаты реконструкции методами интерполяции (а – цветное изображение, б – исходная карта глубины, в – метод на основе синтеза текстур, г – PDE интерполяция, д – EBM интерполяция, е – разработанный метод). Изображения выбраны в силу различных геометрических особенностей: расположения дефектных областей, наличия линейных структур и перепадов яркости на цветных изображениях.
Рисунки 3.3-3.4 характеризуются множеством резких перепадов яркости на цветном изображении, рисунок 3.5 – множеством кривых линий. На рисунке 3.6 присутствуют участки с монотонными значениями яркости в области дефектов карты глубины. На данных картах глубины присутствует «черная рамка», которая является следствием различия углов обзора камеры и проектора системы структурированного света.
Из рисунка 3.3 видно, что применение PDE интерполяции для восстановления обширных участков изображения приводит к размытию карты глубины и не позволяет восстановить все дефекты. Результаты восстановления протяженных тонких участков на границах объектов методами ЕВМ, PDE и методом на основе синтеза текстур выглядят практически идентично, но на рисунке 3.3(д) заметны незначительные артефакты в центе карты глубины. Разработанный метод не только не приводит к эффекту размытия, но и точнее восстанавливает контуры объектов.
Применение разработанного метода
Нелинейные параметры внутренней калибровки, такие как коэффициенты дисторсии, также имеют важное значение, хотя и не могут быть включены в линейную модель, описываемую матрицей внутренней калибровки. Большинство современных алгоритмов калибровки камеры определяет их вместе с параметрами линейной части модели. Параметры внутренней калибровки относятся только к камере, но не к сцене, поэтому они изменяются только в том случае, когда меняются соответствующие настройки камеры.
Параметры внешней калибровки RJ (где R — вектор 3 1 или матрица 3 3 поворота, г — вектор 3 1 переноса) — параметры внешней калибровки, определяющие преобразование координат, переводящее координаты точек сцены из мировой системы координат в систему координат, связанную с камерой. Или, что эквивалентно предыдущему определению, параметры внешней калибровки задают положение камеры в мировой системе координат Параметры внешней калибровки связаны непосредственно с фотографируемой сценой, поэтому (в отличие от параметров внутренней калибровки) каждой фотографии соответствует свой набор этих параметров.
При использовании камеры свет из снимаемой сцены фокусируется и захватывается. Этот процесс уменьшает число измерений у данных, получаемых камерой, с трх до двух (свет из трхмерной сцены преобразуется в двухмерное изображение). Поэтому каждый пиксель на полученном изображении соответствует лучу света исходной сцены. Во время калибровки камеры происходит поиск соответствия между трхмерными точками сцены и пикселями изображения.
В случае идеальной камеры-обскуры для задания такого соответствия достаточно одной матрицы проекции. Однако в случае более сложных камер искажения, вносимые линзами, могут сильно повлиять на результат. Таким образом, функция проецирования принимает более сложный вид и часто записывается как последовательность преобразований, например:
Классический подход — алгоритм Roger Y. Tsai, состоящий из двух этапов, на первом определяются параметры внешней калибровки, на втором — внутренней калибровки и дисторсии.. «Новая гибкая технология калибровки камеры», которая была разработана в [112] и основана на использовании плоского калибровочного объекта в виде шахматной доски.
Автокалибровка — получение калибровочных данных непосредственно по изображениям, без использования специальных калибровочных объектов.
Калибровка камеры с помощью шаблонов(а – внутренняя калибровка камеры по шаблону, б – внешняя калибровка камеры) Внешняя калибровка проектора камеры системы. (a) объект планарной калибровки снимается с четырех углов печатного шахматного образца с помощью камеры. Прогнозируемая шахматная доска отображается в центре плоскости калибровки. Физические и прогнозируемые углы вручную обнаруживаются и указаны кружками красный и зеленый, соответственно. (b) внешняя калибровка камеры и проектор. Просмотр усечения для камеры показан красным цветом и отображение усечения для проектора - зеленым цветом. Обратите внимание, что реконструкция первого изображения одной печатной шахматной доски, используемая при калибровке камеры, отображается с красной сеткой, тогда как восстановленная проектируемая шахматная доска отображается зеленым цветом.
Поиск соответствий необходим для получения плотного облака точек. Для каждого элемента светового шаблона необходимо найти соответствие на изображении сцены, освещенной соответствующим шаблоном. Уменьшить вычислительную сложность алгоритма поиска соответствий позволяют предварительная ректификация шаблона и изображения, а так же использование ограничений эпиполярной геометрии.
В пассивной системе сканирования при получения карты глубины по изображениям с нескольких камер необходимо найти соответствия на парах снимков. Для этих целей используются информация о цвете, краях, взаимной корреляции окрестностей точек, а так же дескрипторы высокого уровня: SURF, SIFT и подобные[20, 21]. В общем случае задача устойчивого нахождения соответствий на паре стереоизображений в настоящее время не решена. Значительные трудности вызывает нахождение соответствий на изображениях поверхности с однородными или повторяющимися текстурами. Использование контролируемой подсветки в активных сканерах позволяет решить задачу поиска соответствий. Поиск соответствий для двух изображений заменяется поиском соответствий шаблона и изображения сцены. По найденным соответствиям строится карта диспаритета[27].
Расчет карты глубины производится на основе найденных соответствий методом триангуляции. Задача триангуляции сводится к задаче решения треугольника. Оптический центр камеры, оптический центр проектора и точка сканируемой поверхности формируют треугольник, как показано на рисунке 4.3. Если камера и проектор калиброваны, то положение оптических центров камеры и проектора известны, следовательно возможно построить прямую направленную из оптического центра камеры к реконструируемому пикселю изображения. Пересечение двух прямых дает искомую точку X на сканируемой поверхности. На рисунке 4.3 пояснена концепция пространственной триангуляции. Картинная плоскость проектора
Для получения карты глубины в данной работе используется устройство Microsoft Kinect(технические характеристики указаны в таблице 4.1), объединяющее в себе инфракрасный излучатель, камеру с ИК-фильтром и RGB камеру. Оценка расстояния до различных точек сцены производится с помощью измерения относительного смещения точек, проецируемых проектором на изображении с инфракрасной (ИК) камеры.
Радиус действия 0.8-3.5 м Можно выделить ряд преимуществ использования данного типа устройств: использование инфракрасного света при построении карты глубины снижает зависимость от условий освещенности сцены (т.е. сканирование возможно даже в полной темноте); получение цветного снимка сцены(соответствующего карте глубины), который может быть использован при фильтрации и восстановлении информации о глубине сцены; возможность получения трехмерной модели сцены в реальном времени; само устройство Microsoft Kinect дешево по отношению к другим типам сканеров, имеет хорошую скорость и точность сканирования, и может применяться при решении широкого круга задач.
Из-за ошибок измерений, набор данных представляет большое количество теневых точек. Это усложняет оценку облака точек функции 3D. Некоторые из этих выбросов могут быть отфильтрованы по выполнении статистического анализа окрестности каждой точки. Удаление выбросов может быть основано на вычислении распределения и расстояния до соседей во входных данных. Для каждой точки, вычисляется среднее расстояние от нее до всех своих соседей, предполагая что распределение является гауссовым со средним и стандартным отклонением, все точки, у которых средние расстояния находятся вне интервала определяется глобальными расстояния среднего и стандартного отклонения можно рассматривать как выбросы и удаляются из набора данных.
Фильтрация и удаление выбросов необходимы ввиду наличия ложных соответствий на карте глубины, что приводит к наличию выбросов (дефектов) в облаке точек. Поэтому, при сканировании поверхностей сложной формы требуется постобработка с целью восстановления дефектных областей карты глубины. Именно на данном этапе применяется разработанный метод восстановления карт глубины.
Облако точек представляет собой набор вершин в трехмерном пространстве и является одним из базовых понятий в системах технического зрения. В общем виде оно состоит из элементов с координатами +, в системе с началом координат как правило в центре сенсора, это означает, что каждая точка показывает расстояние по трем независимым осям в трехмерном пространстве от устройства до каждой точки сцены.
Регистрация. При получении сканов с нескольких ракурсов, каждый из них будет находиться в своей системе координат. Для их объединения в единую систему координат и получения полной информации о геометрии объекта необходимо применять трансформацию твердого тела(Rigid Body Transformation). Процесс совмещения пары массивов точек в одну систему координат называется регистрацией. Опишем проблему вычисления трансформации твердого тела для объединения двух облаков точек состоящих из N элементов.