Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Модели и методы распознавания динамических образов на основе пространственно-временного анализа последовательностей изображений Фаворская, Маргарита Николаевна

Модели и методы распознавания динамических образов на основе пространственно-временного анализа последовательностей изображений
<
Модели и методы распознавания динамических образов на основе пространственно-временного анализа последовательностей изображений Модели и методы распознавания динамических образов на основе пространственно-временного анализа последовательностей изображений Модели и методы распознавания динамических образов на основе пространственно-временного анализа последовательностей изображений Модели и методы распознавания динамических образов на основе пространственно-временного анализа последовательностей изображений Модели и методы распознавания динамических образов на основе пространственно-временного анализа последовательностей изображений
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Фаворская, Маргарита Николаевна. Модели и методы распознавания динамических образов на основе пространственно-временного анализа последовательностей изображений : диссертация ... доктора технических наук : 05.13.17 / Фаворская Маргарита Николаевна; [Место защиты: Сиб. федер. ун-т].- Красноярск, 2011.- 326 с.: ил. РГБ ОД, 71 11-5/239

Содержание к диссертации

Введение

ГЛАВА 1 Анализ существующих методов и систем обработки и распознавания динамических объектов по последовательностям изображений 14

1.1 Изображение как носитель разнородной информации 14

1.2 Классификация задач распознавания изображений 18

1.3 Классификация методов оценки движения 22

1.3.1 Анализ сопоставительных методов оценки движения 23

1.3.2 Анализ градиентных методов оценки движения 27

1.4 Классификация групп признаков 32

1.5 Анализ методов сегментации движущихся объектов 38

1.6 Методы интерпретации событий и определения жанра сцены 44

1.7 Системы обработки и распознавания динамических объектов 54

1.7.1 Коммерческие аппаратно-программные комплексы 55

1.7.2 Экспериментально-исследовательские программные комплексы 63

1.8 Постановка задачи пространственно-временной обработки последовательностей изображений 66

1.9 Выводы по главе 69

ГЛАВА 2 Модели обработки и распознавания статических и динамических образов 72

2.1 Модель обработки и распознавания статических образов 72

2.2 Модель обработки и распознавания динамических образов 93

2.3 Дескриптивная теория распознавания изображений 101

2.4 Расширение дескриптивной теории распознавания изображений 109

2.5 Обобщенные модели поиска целевых признаков при обработке и распознавании динамических объектов в сложных сценах ИЗ

2.6 Выводы по главе 117

ГЛАВА 3 Нахождение и оценка локальных признаков движения динамических регионов 119 -

3.1 Условия и ограничения усовершенствованного метода обработки последовательностей изображений 120

3.2 Оценка локальных признаков движения 121

3.2.1 Стадия инициализации 123

3.2.2 Оценка пространственно-временного объема данных 127

3.2.3 Классификация динамических регионов 135

3.3 Способы нахождения локальных движений регионов 137

3.3.1 Нахождение и отслеживание особых точек сцены 137

3.3.2 Оценка движения на основе 3D тензора потока 144

3.4 Уточнение границ движущихся регионов 146

3.5 Выводы по главе 150

ГЛАВА 4 Сегментация динамических объектов в сложных сценах . 155

4.1 Модель многоуровневого движения в сложных сценах 155

4.2 Модели оценки движения на плоскости 159

4.3 Исследование свойств группы Ли 163

4.4 Изоморфизмы и гомоморфизмы группы 169

4.5 Модель предыстории движения объектов в последовательностях изображений ... 174

4.6 Сегментация сложной сцены на пространственные объекты 178

4.6.1 Предсегментация 181

4.6.2 Сегментация 188

4.6.3 Пост-сегментация 194

4.7 Отображение 3D движения точки на видеопоследовательностях 196

4.8 Выводы по главе 200

ГЛАВА 5 Распознавание динамических объектов, активных действий и событий сложной сцены 203

5.1 Построение контекстной грамматики: 203

5.1.1 Формирование деревьев грамматического разбора 204

5.1.2 Синтаксический анализ последовательности изображений 210

5.1.3 Синтаксический анализ сцены 213

5.2 Построение видеографа сложной сцены 217

5.3 Распознавание динамических образов 224

5.4 Распознавание событий сцены 230

5.4.1 Способ выявления активных действий 231

5.4.2 Построение видеографа событий 236

5.5 Распознавание событий и жанра сцены 239

5.5.1 Распознавание событий сцены 239

5.5.2 Распознавание жанра сцены 243

5.6 Выводы по главе 244

ГЛАВА 6 Построение систем обработки и распознавания последовательностей изображений и экспериментальные исследования 247

6.1 Экспериментальный программный комплекс «SPOER» 247

6.2 Работа модулей экспериментальной системы «SPOER» 249

6.2.1 Модуль предварительной обработки 249

6.2.2 Модуль оценки движения 251

6.2.3 Модуль сегментации 253

6.2.4 Модуль распознавания объектов 256

6.2.5 Модуль распознавания активных действий 258

6.3 Результаты экспериментальных исследований 259

6.4 Прикладной проект «Визуальная регистрация государственных номерных знаков автотранспортных средств при многопоточном движении» 271

6.5 Прикладной проект «Система идентификации моделей кор-пусов холодильников по изображениям» 278

6.6 Программная система «Алгоритмы обработки и сегментации ландшафтных изображений. Идентификация объектов» 285

6.7 Выводы по главе 291

Заключение 294

Библиографический список 304

Введение к работе

Актуальность работы. Существует класс задач, где особую важность приобретает информация о структуре и движении объектов сцены (видеонаблюдение в закрытых помещениях, в местах большого скопления людей, управление движением робототехнических комплексов, наблюдение за движением транспортных средств и т.д.). Последовательности изображений являются сложным информационным ресурсом, структурированным в пространстве и во времени и объединяющим исходную информацию в виде многомерных сигналов, форму ее представления в компьютере и физические модели динамических объектов, явлений, процессов.

Анализ пространственно-временных данных позволяет выявлять не только статические, но и динамические признаки объектов наблюдения. В этом случае задачу распознавания можно определить как классификацию совокупностей состояний или как классификацию траекторий, решение которой не может быть найдено классическими методами распознавания, т.к. временные переходы могут порождать преобразования изображений, не описываемые известными аналитическими зависимостями. Также наряду с задачей распознавания динамических объектов возникают задачи распознавания активных действий объектов и событий сцены, например, для выявления несанкционированных действий в местах скопления людей или определении жанра сцены для индексации в мультимедийных базах данных. Если рассматривать задачу распознавания объектов и событий по последовательностям изображений в виде единого процесса, то наиболее целесообразным является системный иерархический подход с элементами параллельной обработки на каждом уровне.

Первые работы исследователей из США, Швеции, Франции, Японии по обработке последовательностей изображений и распознаванию динамических объектов были опубликованы в конце 1980-х гг. Позже аналогичные работы стали появляться и в России: в Москве (МГУ, МФТИ), С-Петербурге (СПбГУ, ГУАП), Самаре (СГАУ), Рязани (РГРУ), Новосибирске (НГУ), Томске (ТГПУ) и других городах. Следует отметить особый вклад выдающихся российских ученых, занимающихся в данной области, таких, как академик РАН, д.ф.-м.н. Ю. И. Журавлев, член-корреспондент РАН, д.т.н. В. А. Сойфер, д.т.н. Н. Г.Загоруйко, д.т.н. Л. М. Местецкий, д.т.н. В. П. Пяткин, д.т.н. Б. А. Алпатов и другие. На сегодняшний день достигнуты значительные успехи при построении систем видеонаблюдения, систем аутентификации личности по изображениям и т. д. Однако существуют нерешенные проблемы при распознавании динамических образов из-за сложности и многообразия поведения объектов реального мира. Таким образом, данное направление нуждается в совершенствовании моделей, методов и алгоритмов распознавания динамических объектов и событий по последовательностям изображений в различных диапазонах электромагнитного излучения.

Целью диссертационной работы является повышение эффективности распознавания динамических объектов, их активных действий и событий в сложных сценах по последовательностям изображений для систем наружного и внутреннего видеонаблюдения.

Достижение цели предполагает решение следующих основных задач:

Провести анализ методов оценки движения и нахождения признаков движения объектов по набору последовательных изображений, методов сегментации динамических объектов и семантического анализа сложных сцен, а также подходов к построению систем распознавания и слежения за динамическими объектами различного целевого назначения.

Разработать модели распознавания статических и динамических образов, основываясь на иерархической процедуре обработки временных рядов, в частности, последовательностей изображений.

Разработать метод оценки движения динамических структур по пространственно-временной информации, полученной в различных диапазонах электромагнитного излучения, позволяющий выбирать методы сегментации в зависимости от характера движения и, тем самым, выполнять адаптивное распознавание динамических образов.

Создать модель многоуровневого движения динамических структур в сложной сцене, позволяющую на основе полученных одометриче-ских данных строить траектории движения динамических структур и выдвигать гипотезы о существовании визуальных объектов на основе анализа предыстории движений.

Разработать комплексный алгоритм сегментации, учитывающий совокупность выявленных признаков динамических структур при произвольных направлениях перемещений и перекрытий проекций объектов, основываясь на модели многоуровневого движения в сложных сценах.

Разработать метод распознавания динамических образов, представленных в терминах формальной грамматики и видеографа сцены, на основе метода коллективного принятия решений, а также методы распознавания активных действий и событий в сложной сцене, использующие графы активных действий и событий (расширяющие видеограф сложной сцены) и байесовскую сеть.

На основе разработанных методов и моделей спроектировать экспериментальные системы различного назначения, предназначенные для обработки последовательностей изображений объектов, характеризующихся фиксированным и произвольным набором 2і>проекций, и распознавания динамических образов в сложных сценах.

Методы исследований. При выполнении диссертационной работы использовались методы теории распознавания образов, дескриптивной теории распознавания изображений, теории обработки сигналов, методы векторного анализа и тензорного исчисления, а также теория групп, теория формальных грамматик.

Научная новизна диссертационной работы состоит в разработке нижеприведенных теоретических положений, совокупность которых является новым научным достижением в области распознавания динамических образов на основе пространственно-временного анализа последовательностей изображений.

  1. Построена новая модель преобразования динамических изображений, отличающаяся расширенными иерархическими уровнями сегментации (по локальным и глобальным векторам движения) и распознавания (объектов и их активных действий), позволяющая находить целевые признаки для статических сцен с движущимися объектами и динамических сцен на основе понятия максимального динамического инварианта.

  2. Расширена дескриптивная теория распознавания изображений введением четырех новых принципов: учет цели распознавания на начальных стадиях анализа, распознавание поведения динамических объектов, оценка предыстории, переменное количество объектов наблюдения, что позволяет повысить качество распознавания движущихся объектов за счет повышения информативности исходных данных.

  3. Впервые разработан адаптивный пространственно-временной метод оценки движения в синхронных последовательностях видимого и инфракрасного диапазонов электромагнитного излучения, позволяющий извлекать признаки движения на различных иерархических уровнях, сочетая достоинства обоих типов последовательностей изображений.

  4. Разработана новая модель многоуровневого движения, позволяющая проводить декомпозицию сцены на отдельные уровни, не ограничивающаяся общепринятым разделением на передний план и фон, что позволяет выполнять более достоверную сегментацию изображений объектов в сложных перспективных сценах.

  5. Обоснован и построен новый обобщенный алгоритм сегментации динамических объектов с применением множества признаков, включающих предыстории поведения, и позволяющий отслеживать как динамику отдельных визуальных объектов, так и взаимодействия объектов в сцене (перекрытия проекций, появление/исчезновение объектов из ПОЛЯ зрения видеодатчика) на основе групповых преобразований и впервые предложенном анализе общей части проекций объекта (взятых из двух соседних кадров) с применением интегральных и инвариантных оценок.

  6. Модифицирован метод коллективного принятия решений, отличающийся нахождением признаков межкадровых проекций объекта и позволяющий учитывать предысторию наблюдений для распознавания активных действий и событий на основе байесовской сети, а также предложены четыре вида псевдо-расстояний для нахождения меры сходства динамических образов с эталонными динамическими образами в зависимости от представления динамических признаков.

Практическая значимость. Предложенные в диссертационной работе методы и алгоритмы предназначены для практического применения при мониторинге автотранспортных средств при многополосном движении в рамках государственного проекта «Безопасный город», в системах автоматизированного контроля различных технологических производственных процессов по видеопоследовательностям, в системах наружного видеонаблюдения и видеонаблюдения в закрытых помещениях, а также в системах идентификации объектов на аэрофотоснимках и распознавании ландшафтных изображений. На основе диссертационных исследований разработаны программные комплексы обработки и распознавания динамических объектов, применяемые в различных сферах деятельности.

Реализация результатов работы. Семь разработанных программ зарегистрированы в Российском реестре программ для ЭВМ (перечень прилагается в списке основных работ автора).

Получены акты о передаче и использовании алгоритмического и программного обеспечения для распознавания корпусов холодильников на сборочной линии (ОАО КЗХ «Бирюса», г. Красноярск), для идентификации изображений объектов на ландшафтных изображениях (Концерн радиостроения «Вега», ОАО КБ «Луч», г. Рыбинск Ярославской области), для сегментации лесной растительности по набору последовательных аэрофотоснимков (ООО «Альтекс Геоматика», г. Москва), для обнаружения пластин государственных регистрационных знаков автотранспортных средств в видеопоследовательностях при многопоточном движении и повышении качества их отображения (УГИБДД ГУВД по Красноярскому краю, г. Красноярск).

Разработанные алгоритмы и программное обеспечение используются в учебном процессе при проведении занятий по дисциплинам «Интеллектуальная обработка данных», «Компьютерные технологии в науке и образовании», «Теоретические основы цифровой обработки изображений», «Распознавание образов», «Нейронные сети», «Алгоритмы обработки изображений», «Алгоритмы обработки видеопоследовательностей», «Анализ сцен и машинное зрение» в Сибирском государственном аэрокосмическом университете имени академика М.Ф. Решетнева (СибГАУ).

Достоверность полученных в диссертационной работе результатов обеспечивается корректностью используемых методов исследования, математической строгостью выполненных преобразований, а также соответствием сформулированных положений и выводов результатам их экспериментальной проверки.

Основные положения, выносимые на защиту:

1. Модель обработки и распознавания динамических образов в сложных сценах, существенно расширенная иерархическими уровнями сегментации и распознавания не только объектов, но и их активных действий.

  1. Расширение дескриптивной теории распознавания изображений для временных рядов (последовательностей изображений) за счет повышения информативности анализируемых данных не только в пространственной области, но и по временной составляющей.

  2. Адаптивный пространственно-временной метод оценки движения на основе тензорных представлений локальных 3D объемов в синхронных последовательностях видимого и инфракрасного диапазонов электромагнитного излучения.

  3. Модель многоуровневого движения в сложных сценах, расширяющая декомпозицию перспективных сцен на отдельные уровни для более достоверного анализа траекторий движения объектов.

  4. Обобщенный алгоритм сегментации динамических объектов, позволяющий на основе групповых преобразований и предложенных интегральных и инвариантных оценок выявлять перекрытия проекций объектов, появление/исчезновение объектов из поля зрения видеодатчика.

  5. Методы распознавания динамических образов на основе модифицированного метода коллективного принятия решений и нахождения псев-до-расстояний в метрических пространствах, а также активных действий и событий в сложных сценах.

Апробация работы. Основные положения и результаты диссертационных исследований докладывались и обсуждались на 10 международной конференции «Pattern Recognition and Image Analysis: Modern Information Technologies», (S.-Petersburg, 2010), международном конгрессе «Ultra Modern Telecommunications and Control Systems ICUMT2010» (Moscow, 2010), XII международном симпозиуме по непараметрическим методам в кибернетике и системному анализу (Красноярск, 2010), II международном симпозиуме «Intelligent Decision Technologies - IDT 2010» (Baltimore, 2010), III международной конференции «Automation, Control and Information Technology - ACIT-ICT'2010» (Novosibirsk, 2010), 10-й, 11-й и 12-й международных конференциях и выставках «Цифровая обработка сигналов и ее применение» (Москва, 2008 - 2010 гг.), X международной научно-технической конференции «Теоретические и прикладные вопросы современных информационных технологий» (Улан-Удэ, 2009 г.), IX международной научно-технической конференции «Кибернетика и высокие технологии XXI века» (Воронеж, 2008), всероссийской конференции «Модели и методы обработки изображений» (Красноярск, 2007 г.), на X, XI и XIII международных научных конференциях «Решетневские чтения» (Красноярск, 2006, 2007, 2009 гг.), а также на научных семинарах Государственного университета аэрокосмического приборостроения (С-Петербург, 2009 г.), Института вычислительного моделирования СО РАН (Красноярск, 2009 г.), Института систем обработки изображений РАН (Самара, 2010).

Публикации. По результатам диссертационного исследования опубликовано 53 печатных работы, из них 1 монография, 26 статей (из них 14

статей - в изданиях, включенных в список ВАК, 2 статьи - в изданиях, перечисленных в «Thomson Reuters: Science Citation Index Expanded I Conference Proceedings Citation Index»), 19 тезисов докладов, 7 свидетельств, зарегистрированных в Российском реестре программ для ЭВМ, а также 3 отчета по НИР.

Личный вклад. Все основные результаты, изложенные в диссертации, включая постановку задач и их математические и алгоритмические решения, получены автором лично, или выполнены под его научным руководством и при непосредственном участии. Были защищены две диссертации на соискание ученой степени кандидата технических наук, при выполнении которых автор был официальным научным руководителем.

Структура работы. Работа состоит из введения, шести глав, заключения, библиографического списка. Основной текст диссертации содержит 326 страниц, изложение иллюстрируется 63 рисунками и 23 таблицами. Библиографический список включает 232 наименования.

Классификация задач распознавания изображений

Специфика обработки, и распознавания изображений не позволяет воспользоваться напрямую методами цифровой обработки сигналов и классической теории распознавания образов. Несмотря на то, что задача создания математической теории распознавания изображений была поставлена достаточно давно, крупных успехов в данном направлении не достигнуто и в настоящее время [17, 18, 33, 35, 36, 39]. Подавляющее большинство методов и алгоритмов работы с изображениями являются эвристическими, пригодными для решения практических задач (достаточно узкого круга) и действующими в рамках установленных авторами ограничений. Отсутствие такой теории не только препятствует систематизации разработки, выбора и применения алгоритмов распознавания изображений, но и получению обоснованных оценок эффективности разработанных алгоритмов. Можно отметить, что некоторый практический выход из данной ситуации существует. Известны тестовые базы статических изображений реального мира, базы текстур, базы рукописных цифр, тестовые видеопоследовательности, которые позволяют эмпирическим способом показать работоспособность предлагаемых алгоритмов и сравнить их характеристики (чаще всего, это точность распознавания, ошибки распознавания и быстродействие) с алгоритмами других авторов.

Внутри многообразия эвристических методов обработки и распознавания изображений вырастают некие обобщенные структуры, которые основаны на более продуманных математических подходах. Так, например, большинство исследователей соглашаются с допустимыми преобразованиями изображений, представленных аффинной группой. Это относится как к анализу статических изображений, так и аффинной модели перемещения движущихся объектов. Алгоритмы, использующие проективную группу преобразований, применяются сравнительно редко, поскольку требуют нахождения восьми параметров, процесс определения которых сложен, трудоемок и не всегда целесообразен с точки зрения практических результатов. Обычно считается, что рассматриваются сцены, рельеф которых изменяется незначительно по сравнению с их общей глубиной относительно видеокамер, наблюдающих эти сцены, так что перспективу можно аппроксимировать простыми аффинными моделями формирования изображения. Однако движение объектов в пространстве может быть не только поступательным и «удобно направленным» с точки зрения распознавания, но и возвратно-поступательным, вращательным (круговым, спиральным), произвольным. В этих случаях аффинная модель действует лишь на некоторых ограниченных временных участках. Задача определения движения объекта по некоторой последовательности изображений называется сопровождением объекта [105]. В типичной задаче сопровождения известна модель движения объекта и некоторый набор измерений, не обязательно, относящихся к рассматриваемому объекту, поскольку источниками данных может быть шум или другой объект. Движущийся объект имеет определенное внутреннее состояние, которое измеряется на каждом кадре. Если динамика объекта и измерения линейны, то задача имеет решение. При наличии даже слабой нелинейной динамики задача в общем случае не имеет решения, и возможна лишь вероятностная интерпретация на основе модели смеси распределений. Важной особенностью линейных динамических моделей является то, что все функции условного распределения вероятностей имеют нормальное распределение и описываются га-уссианами. В простейшей динамической модели изменение состояний заключается в умножении предыдущего состояния на известную матрицу, которая может зависеть от номера кадра, с последующим прибавлением случайной переменной с нормальным распределением, нулевым средним значением и известной дисперсией. Модель с хаотичным перемещением пикселей описывается уравнением броуновского движения и лежит в основе фрактального подхода, используемого для анализа текстур [45, 109, 177]. Модели поступательного и вращательного движения с постоянной скоростью, постоянным ускорением и периодическим движением объектов, применяемые для высокоуровневого анализа видеопоследовательностей, требуют дальнейших исследований.

На рис. 1.1 приведена схема классификации основных типов задач распознавания для статических изображений, статических сцен с элементами движения и последовательностей изображений (некоторые задачи, как, например, подзадача «Вычисление признаков объектов» относится ко всем трем типам задач, но на схеме указан базовый вариант для задачи статических изображений). Следует отметить, что последний случай является самым сложным, поскольку комплексным образом включает в себя большинство типов задач распознавания, обладает большей информативной структурой (дополнительный анализ многоуровневого движения) и при этом к нему предъявляются наиболее жесткие требования по производительности (работа в реальном режиме времени). Такие особенности анализа видеопоследовательностей делают непригодными использование ряда разработанных и хорошо зарекомендовавших себя в других случаях методов распознавания. Перейдем к обзору известных методов, основное внимание уделяя анализу последовательностей изображений.

Модель обработки и распознавания динамических образов

Для эффективного поиска экстремума функционала следует строить такие модели изображений, которые, с одной стороны, отображают многообразие изображений, с другой стороны, допускают направленный поиск экстремума. Если функционал можно представить в виде суммы функций, зависящих от отдельных частей изображения, то глобальный экстремум можно определить методом динамического программирования без полного перебора всех возможных преобразований.

Вторая группа методов предполагает построение некоторой функции от изображения E (IR,w), в которой параметры w являются переменными и подстраиваются в процессе обучения. Выбирается некоторый функционал от величин I и такой, что значения параметров w обеспечивают этому функ-ционалу экстремум только тогда, когда функция Е (I ,w) обладает свойствами максимального инварианта от изображения 1R относительно параметра 3 по всем значениям j. Предполагается, что максимальный инвариант E$(IR) существует. При этом выбирается некоторый класс аппроксимирующих функций Е (Is,w0), где w0 - неизвестный начальный вектор коэффициентов. Мера отклонения устанавливается в виде некоторой выпуклой функции от изображения Е (I ,w) и максимального инварианта Ep(lR): Так как вследствие случайного характера изображений Iй мера отклонения также случайна, качество аппроксимации целесообразно оценивать- математическим ожиданием выбранной меры отклонения. Наилучшее приближение выбранной функции E (lR,w) к максимальному инварианту соответствует такому выбору вектора w=w , при котором математическое ожидание меры отклонения достигает минимума. Например, в качестве функции Е (I ,w) можно рассмотреть некоторую гиперповерхность, построенную таким образом, что изображениям из обучающей последовательности, принадлежащим одному образу, соответствует определенный отрезок или несколько отрезков на оси Е , а изображениям из различных образов сопоставляются не связанные отрезки на той же оси в пространстве признаков.

Особенность алгоритмов данной группы состоит в том, что в процедуре адаптации выбираются различные аппроксимирующие функции, виды функционалов и способы нахождения экстремумов этих функционалов. Основная трудность, возникающая при использовании методов второй группы, состоит в выборе аппроксимирующей функции E (IR,w). Такой подход дает хорошие результаты только для тех задач распознавания, для которых параметр Р либо постоянен, либо претерпевает малые изменения.

Характерной особенностью методов третьей группы является то, что в них максимальный инвариант находится не относительно изображения IR, а относительно преобразования q 1R, т.е. относительно изображений, подвергнутых дополнительным преобразованиям qeQ. Данную группу методов можно разделить на две подгруппы, в одну из которых входят методы, характеризуемые тем, что преобразования являются взаимно однозначными преобразованиями, в другую — методы, для которых преобразования Q не являются взаимно однозначными. К первой подгруппе можно отнести метод, особенность которого заключается в том, что для каждого конкретного значения параметра р в качестве преобразования q выбирается преобразование, обратное отображению «Sj/F( )p. Иными словами для каждого конкретного " изображения IR необходимо определять значение параметра р, что не всегда возможно. Эти методы отличаются низкой помехоустойчивостью, т. к. преобразованию q подвергается уже зашумленное изображение, а параметры преобразования определяются по данным, в которых полезный сигнал невозможно отделить от шума. Обычно в качестве преобразований SPPF рассматри- 1 ваются преобразования сдвигов и поворотов изображения объекта, а параметр р-для каждого изображения определяется путем измерения сдвигов центра изображения и поворотов его оси инерции. Масштабные изменения учитываются путем нормализации- по дисперсии характерных точек изображения.

Ко второй подгруппе методов следует отнести методы, использующие искусственные нейронные сети. Отличительная особенность этих методов состоит в том, что преобразования q eQ вначале выбираются случайно, а затем после некоторого отбора, строятся новые более сложные преобразования q"eQ", использующие в качестве исходного материала результат преобразований q eQ , причем сложность преобразований определяется количеством слоев нейронной сети. На основании полученного сложного преобразования путем взвешивания результатов строится решающее правило, по возможности мало зависящее от параметра р\ При этом полной инвариантности решающего правила относительно параметра р достичь нельзя, т.к. объем и содержание преобразований всегда ограничен и нет гарантии, что по случайно выбранным преобразованиям можно построить инвариантную решающую функцию.

Таким образом, рассмотренный общий подход к проблеме распознавания изображений демонстрирует ряд трудностей, которые связаны, прежде всего, с автоматической оценкой преобразований по материалам обучения, а также с нахождением максимального инварианта. Первую трудность часто обходят априорным заданием допустимых преобразований. Для преодоления второй трудности можно использовать методы минимизации риска в заданном классе функций. Однако не существует метода распознавания, полностью исключающего эвристические предпосылки такие, как эвристический выбор класса функций, эвристический выбор модели изображения, эвристический выбор пространства признаков.

Оценка пространственно-временного объема данных

На стадии инициации требуется выявить локальные динамические регионы , которые претендуют на роль визуальных объектов. Пришаличии подвижной видеокамеры все объекты г сцены характеризуются! признаками движения. В этом; случае стадию инициализации (выявление неподвижного»фона) следует опустить, и сразу перейти к оценке, пространственногвременных объемов данных и последующему выявлению уровней движения Вл сцене. Рассмотрим случай неподвижной видеокамеры.

Примем, что в сцене имеются несколько подвижных объектов интереса; а остальная статическая информация относится к фону сцены и в дальнейших измерениях не участвует. При этом процедуру выявления объектов интереса следует периодически повторять, поскольку объекты могут появляться и исчезать из поля зрения камер, и метеоусловия также могут изменяться: К, данному этапу предъявляются требования по возможности быстрой, но грубой оценки динамических регионов. Известен ряд широко распространенных методов вычитания фона, начиная от простейших (пиксельное сравнение соседних кадров) и до методов составления смеси на основе гауссовых распределений. Особенностью предлагаемого подхода является обобщенный анализ последовательностей изображений в различных диапазонах излучения.

Поскольку одним из важнейших свойств систем видеонаблюдения является постоянное функционирование в течение всего времени суток, целесообразно наряду с видеокамерами, работающими в видимом диапазоне, одновременно использовать тепловизоры, формирующих тепловое изображение сцены с более низким разрешением, чем обычное визуальное изображение. Тепловизоры обнаруживают изменения тепловой энергии объектов, они инвариантны к изменениям освещенности сцены, являясь более эффективными при слабом освещении, чем цветные видеокамеры, а также не чувствительны к теням на изображении. Однако обычные видеокамеры способны регистрировать объекты, имеющие одинаковую тепловую энергию с энергией фона, с гораздо большей точностью при допустимом уровне освещенности, чем это могут делать тепловизоры. Совместное использование последовательностей изображений обоих типов позволяет скомпенсировать нежелательные факторы и добиться большей эффективности функционирования алгоритмов.

Простейший алгоритм вычитания фона сводится к выбору начального кадра видеопоследовательности, затем для каждого последующего кадра применяется пороговая функция к модулю разности яркостей каждого пиксела начального и текущего изображения. При необходимости для устранения шума к полученному бинарному изображению можно применить медианный фильтр или операции математической морфологии. Изменяя порог и параметры последующей фильтрации, можно регулировать чувствительность алгоритма и уровни ошибочной классификации пикселов объекту или фону. Достоинствами данного алгоритма является исключительная простота реализации и высокая производительность. Несмотря на эти достоинства, существует ряд проблем, которые делают этот алгоритм практически неприменимым на практике. Точное обнаружение и подавление теней от движущихся объектов является одной из главных проблем алгоритмов вычитания фона, для чего целесообразно использовать последовательности, полученные из инфракрасного диапазона излучения. Усовершенствованная модель фона изображения, содержащего объекты интереса на переднем плане, связана с одновременной выборкой N кадров и построении усредненных изображений Imed для обоих видов последовательностей. Для каждого пиксела с интенсивностью It{x,y), где х, у - координаты пиксела, вычисляются взвешенные средние значения \ь(х,у) и отклонения а На основе статистической модели фона, полученной из инфракрасной последовательности (выражения (3.1) и (3.2)), можно получить маску регионов интереса по Для выявления регионов интереса из инфракрасной последовательности можно применять оператор морфологического сжатия размером 5x5 эле in ментов к маске D и алгоритм связывания регионов. Любой регион, занимающий площадь менее 0,1% от всего изображения, отбрасывается. В идеале можно построить аналогичную маску D для видеопоследовательности. Однако регионы изображения, соответствующие маске Dvs, могут содержать нежелательные артефакты, связанные с тенями или шумом на цветном изображении. Поэтому внутри регионов, выявленных маской /У5, можно использовать дополнительное вычитание фона на основе цвета и интенсивности. Для каждого региона визуального изображения, соответствующего региону Z)75, анализируется интенсивность пикселей и строится маска Dh включающая пикселы, статистически более яркие, чем пикселы фона. Аналогичным образом анализируются компоненты нормализованного (гіЗ-пространства с целью построения маски Dc пикселей, отличающегося по цвету от цвета фона. Интенсивность интересующего региона можно оценить с помощью выражений (3.1) и (3.2), а цветность - непосредственно из исходного набора N кадров визуальной последовательности без использования весовых коэффициентов, вычисляемых из выражения (3.3). Периодическое обновление регионов также может происходить в соответствии с формулами (3.4). Далее происходит наложение масок Dj и Dc с последующим применением оператора морфологического сжатия размером 5x5 элементов аналогично тому, как это выполняется для инфракрасной последовательности. На рис. 3.1 приведены иллюстрации входного изображения инфракрасной последовательности (рис. 3.1 а) и видеопоследовательности (рис. 3.1 б), а также маски /У5 и Dvs (рис. 3.1 в и 3.1 г соответственно) и результат выделения регионов по простейшему методу порогового вычитания фона на основе анализа соседних кадров (рис. 3.1 д). При этом маска D получена только для интенсивностей пикселов без учета их цветности.

Модель предыстории движения объектов в последовательностях изображений

Легко показать, что евклидово пространство Э1Е является топологическим пространством, на котором замыкание М множества М определяется как совокупность всех точек, принадлежащих М или являющихся предельными для М. Пусть G и G - две линейно связанные топологические группы пространства ЧЯ , соответствующие проекциям одного и того же объекта на двух соседних кадрах, причем группа G односвязна и локально связна. Пусть /- некоторый локальный, гомоморфизм группы G в группу G . Тогда можно. продолжить- локальный гомоморфизм / в гомоморфизм ф всей группы- G в группу G единственным образом. Продолжение гомоморфизма/понимается-в том смысле, что /иф совпадают на некоторой окрестности W единицы группы.G. Действительно, в окрестности W функции/и ф совпадают, а т. к. функция/непрерывна; то«функция непрерывна всюду. Если группа G односвязна и локально связна, а функция/есть некоторый локальный изоморфизм, то гомоморфизм ф является изоморфизмом. Таким образом, подгруппы G, G ,... , представляющие собой проекции одного и того же объекта в ортогональной плоскости, близкие в силу малого межкадрового смещения, являются, либо изоморфными при постоянном направлении и скорости относительного движения, либо гомоморфными при смене направления движения. Более того, выявленные зоны смещения проекции также являются компактными подгруппами, по степени изменения которых можно судить о характере движения отдельных частей объектов (регионов).

Далее, при перекрытиях проекций нескольких объектов во временном ряду можно проследить порождение локальных гомоморфизмов проекций объектов заднего плана в глобальный гомоморфизм вплоть до полной потери проекции. Очевидно, что аналогичная ситуация наблюдается при появлении или исчезновении проекции объекта из ограниченного поля зрения датчика.

Интересным моментом с точки зрения распознавания ситуаций в сцене являются допустимые переходы между группами преобразований. Поскольку 2)-изображения имеют двойственную природу, т. е. отображают изменения проекции отдельного объекта и визуальное пересечение нескольких объектов (взаимодействие объектов), то переходы между группами преобразований расширяются (рис. 4.3) и требуется найти критерии, которые бы при изменении групп преобразований фиксировали активные действия и события в сцене [103].

Гомоморфное отображение сохраняет операцию умножения в группе, однако не является взаимно однозначным отображением [58]. При этом модель движения нельзя представить в общем случае аналитической зависимостью, и параметры движения не сохраняются. Глобальные гомоморфные преобразования можно интерпретировать как пересечения изображений или появление / исчезновение объектов из поля зрения камеры. Локальные гомоморфные преобразования ассоциируются с визуальными регионами, имеющими произвольный набор проекций и входящими в состав изображений антропогенных объектов.

В главе 3 было показано, что с помощью структурного тензора, построенного на основе межкадровой разницы, хорошо определяются зоны движения визуального объекта. В силу незначительности перемещений такие зоны возникают у краев объекта в направлении перемещения и, наоборот, такие зоны отсутствуют в направлении, перпендикулярном вектору скорости. Рассмотрим процесс порождения таких зон на геометрических примитивах и покажем, каким образом можно использовать свойства групп Ли для идентификации изменений 3/)-пространственного положения одиночного объекта по временной последовательности его 2)-изображений, а также изменений взаимного расположения объектов в сложной сцене. На рис. 4.4 приведены примеры движения геометрических примитивов. По изменениям местоположений межкадровой разницы примитивов можно найти направления их смещения в последовательностях кадров п—»и+1—»и+2— п+Ъ и т. д. (рис. 4.5). На рис. 4.6. представлена межкадровая разница из реальной видеопоследовательности при проведении экспериментов по локализации и распознаванию государственных знаков номерных пластин автотранспортных средств в рамках программы «Безопасный город». Построим оценки общей части проекций объектов в течение п последовательных кадров. Интегрированными оценками являются форма контура Кс общей части проекции между условно соседними кадрами (т. е. кадрами, взятыми из видеопоследовательности и кратными положительному целому числу), представленная в виде множества граничных пикселов или множества нормализованных векторов, и площадь общей части 5е. Данные показатели хорошо описывают изоморфные преобразования изображений техногенных объектов, включая сдвиги, повороты, зеркальные отображения, однородные и неоднородные масштабные изменения [68, 69, 70], а также допустимые проективные преобразования относительно направляющей прямой.

Такие инвариантные (к изменчивости формы объектов) оценки, как корреляционная функция общих частей проекций F 0 и структурные константы группы Ли clJk позволяют оценить степень изменчивости w выявить характер движения наблюдаемых объектов. Более подробно остановимся на методе нахождения структурных констант группы. Структурные константы группы Ли образуют тензор. Поскольку функции/в выражении (4.9) по условию трижды непрерывно дифференцируемы, то их можно разложить в ряд Тейлора следующим образом:

Одновременный анализ интегрированных и инвариантных оценок позволяет установить случаи перекрытия проекций или исчезновения / появления объектов в поле зрения видеодатчика. Так, если все четыре параметра Кс, 5е, For и c Jlc претерпевают значительные изменения, то это говорит о. «срыве» сопровождения объекта. Дальнейшее принятие решений связано с получением дополнительных сведений о наблюдаемой сцене (наличие динамических и статических визуальных объектов, их местоположение и. т. д.). Конкретные правила, в соответствии с которыми классифицируются группы преобразований для техногенных и антропогенных объектов, составляются на этапе обучения системы.

Похожие диссертации на Модели и методы распознавания динамических образов на основе пространственно-временного анализа последовательностей изображений