Введение к работе
Актуальность темы. Использование методов компьютерного зрения в целях визуальной локализации мобильных систем в окружающем пространстве, в том числе автономных роботов, транспортных средств и т.д., является востребованным в областях навигации, картографирования, создания систем дополненной реальности и в других приложениях. Актуальность тематики визуальной навигации подтверждается тем, что она соответствует таким пунктам перечня критических технологий Российской Федерации, как «8. Нано-, био-, информационные, когнитивные технологии» и «Технологии информационных, управляющих, навигационных систем», а также приоритетному направлению развития науки, технологий и техники Российской Федерации «3. Информационно-телекоммуникационные системы».
В связи с сегодняшней доступностью цифровых камер, их удешевлением, повышением разрешения, а также увеличением производительности вычислительных элементов, как на стационарных, так и на портативных платформах, методы компьютерного зрения интенсивно используются при построении мобильных систем, решающих задачи автоматической локализации и навигации в окружающем пространстве. Использование методов компьютерного зрения в указанных целях может быть весьма эффективным в связи с тем, что изображения несут большой объем информации о среде. В то же время использование изображений для решения задач сенсорной локализации и навигации связано и с определенными трудностями, к основным из которых относится априорная неопределенность в содержании визуально воспринимаемых сцен, ракурса съемки, а также, возможно, внутренних параметров камер, в связи с чем задача определения относительной ориентации камер одновременно с реконструкцией трехмерной организации сцены может быть классифицирована как наиболее сложный тип задач структурной идентификации моделей.
В последние два десятилетия появилось множество исследований, базирующихся на построенной для цифровой камеры геометрической модели формирования изображений и связей между ними как в случае одного или двух ракурсов, так и в случае многоракурсной съемки. По имеющемуся набору сопоставленных ключевых точек, выделенных на последовательности изображений, с помощью ряда существующих методов можно восстановить с точностью до масштабного коэффициента трехмерные смещения камеры, а также оценить трехмерное расположение выделенных ключевых точек. В зависимости от налагаемых ограничений на внутренние параметры камеры, структуру наблюдаемой сцены, количество сопоставленных точек, а также на возможные типы перемещений могут применяться отдельные специфические методы. Однако, на данный момент, отсутствует общий критерий для автоматического выбора метода решения этой задачи, особенно в случае динамической сцены, когда на изображениях присутствует множество независимо перемещающихся объектов.
Целью исследования является разработка методов структурной идентификации моделей собственного перемещения камеры и трехмерной структуры сцены и расширение условий их применимости на случай динамических сцен.
Основные задачи исследования
-
Разработка критериев для структурной идентификации моделей межкадрового геометрического преобразования при смещении камеры и реконструкции трехмерной информации о сцене.
-
Увеличение быстродействия и надежности методов сопоставления при работе с видеоизображениями, полученными при перемещении камеры.
-
Разработка методов оценки структуры динамических сцен по результатам отождествления сопряженных точек на изображениях, полученных с разных ракурсов.
Методы исследования: методы вычислительной математики, линейной алгебры, теории вероятностей и математической статистики, теории алгоритмов, теории информации, компьютерного моделирования, обработки и анализа изображений.
Научная новизна исследования
-
-
Выведены аналитические выражения, уточняющие критерий минимальной длины описания для решения задач идентификации моделей межкадрового геометрического преобразования и трехмерной структуры динамических сцен.
-
Предложен новый инкрементный метод определения ракурса съемки путем оптимизации сопоставления с последовательностью опорных кадров.
-
Впервые разработан метод оценивания геометрических межкадровых преобразований для случая динамических сцен с автоматическим определением параметров пространственных преобразований, описывающих перемещение множества ключевых точек на паре изображений.
Практическая значимость исследования
Использование разработанных критериев, методов и алгоритмов в решении задач автономной навигации и картографировании, а также при создании систем дополненной реальности позволяет расширить применимость систем компьютерного зрения на случай динамических сцен, снизить объем требуемой априорной информации, в том числе при выполнении калибровки камер. Предложенные и реализованные алгоритмы инкрементного уточнения ракурса съемки по видеопоследовательностям позволяют производить оценку положения камеры в масштабе реального времени при их выполнении на мобильных процессорах, что существенно расширяет сферу применения данной технологии.
Реализация результатов работы
Результаты диссертационной работы были использованы в НИР, проводимых на кафедре Компьютерной фотоники и видеоинформатики СПбНИУ ИТМО: «Разработка теории обучаемых систем анализа изображений и распознавания образов на основе принципа репрезентационной минимальной длины описания» по гранту Президента Российской Федерации для государственной поддержки молодых российских ученых (МД-2040.2010.9) и «Разработка теории анализа изображений на основе принципа репрезентационной минимальной длины описания» (проект №2.1.2/3912) по аналитической ведомственной целевой программе «Развитие научного потенциала высшей школы» по заказу Федерального агентства по образованию (2009-2011), а также в проекте «Разработка алгоритмов для определения позиции привязки виртуальных объектов на видеоряде», выполненном лабораторией филиала корпорации «LG Electronics Inc.» в Санкт-Петербурге в 2012 году.
Использование результатов работы подтверждено двумя актами, приложенными к диссертации.
Достоверность и обоснованность результатов диссертационной работы обеспечивается корректностью применяемых методов исследования, математической строгостью преобразований при получении доказательств утверждений и аналитических зависимостей, а также соответствием теоретических положений и результатов экспериментальной проверки.
Личный вклад автора
Все основные результаты получены лично автором или при его непосредственном участии.
Апробация работы
Основные результаты работы докладывались на XXXIX научной и учебно-методической конференции СПбГУ ИТМО (Санкт-Петербург, 2010), Первой международной конференции «Автоматизация управления и интеллектуальные системы и среды» (Приэльбрусье, Нальчик, 2010), XL научной и учебно-методической конференции СПбНИУ ИТМО (Санкт- Петербург, 2011), VI Всероссийской научно-практической конференции «Перспективные системы и задачи управления» (Таганрог, 2011), IAPR Conference on machine vision applications (Nara, Japan, 2011), The 3rd International topical meeting on optical sensing and artificial vision (Saint Petersburg, 2012).
Публикации
Основные научные результаты диссертации опубликованы в 8 научных работах, среди которых 2 статьи опубликованы в ведущих рецензируемых изданиях, входящих в перечень ВАК, а также получено 2 свидетельства о государственной регистрации программ для ЭВМ.
Структура и объем диссертации
Диссертация состоит из введения, четырех глав, заключения и списка цитируемой литературы. Она содержит 121 страницу машинописного текста, 34 рисунка и 7 таблиц. Список цитируемой литературы содержит 100 наименований.
Похожие диссертации на Теоретико-информационные критерии и методы оценивания трехмерной структуры сцены и смещений камеры в мобильных системах компьютерного зрения
-