Введение к работе
Актуальность темы. Анализ изображений и распознавание образов — одно из наиболее динамично развивающихся направлений искусственного интеллекта. Интерес к данной области обусловлен, в первую очередь, высокой практической значимостью задач распознавания в различных сферах деятельности человека — в медицине (различные виды диагностики), в системах обеспечения безопасности (видео наблюдение, биометрическая идентификация), на производстве (контроль качества, автоматизированная сборка). Стремительное развитие аппаратных возможностей устройств извлечения, обработки, передачи и хранения информации требует постоянного совершенствования существующих и разработки новых методов анализа изображений и распознавания образов. При этом актуальным является построение систем информативных признаков, на основе которых производится распознавание, исследование устойчивости данных признаков к наличию шумов на изображении, и разработка методов их классификации.
Среди задач анализа изображений можно выделить в отдельный класс задачи, связанные с распознаванием лиц. Под распознаванием лиц принято понимать широкий спектр задач: обнаружение лица на изображении (детекция, первичный этап многих задач анализа лиц), поиск заданного лица среди изображений базы лиц (идентификация), определение идентичности лица на различных фотографиях (верификация), локализация антропометрических признаков лица (координат уголков глаз, центров зрачков, построение контуров бровей, носа, губ и овала лица) и последующее распознавание эмоций, определение характера человека, определение пола и оценка возраста.
Исследователи в области распознавания лиц выделяют три основные проблемы: условия регистрации изображения, эмоции и мимика, возрастные изменения лица. Так, например, в интеллектуальных системах видеонаблюдения важной задачей является идентификация лиц, в которой необходимо сопоставить найденные в кадре лица с изображениями лиц в базе данных. При этом, изображения лиц, поступающие с камеры, зачастую являются низкого качества, и существующие алгоритмы идентификации лиц не обеспечивают приемлемой точности идентификации. В диссертационной работе при решении задач распознавания фронтальных лиц предлагается использовать знаковые представления изображений, представляющее собой компактное описание изображений с помощью отношения квазипорядка на множестве пикселей, за счет которого обеспечивается устойчивость результатов работы алгоритмов к изменению условий регистрации изображений. Предложенный подход оказался эффективным — на общедоступных тестовых коллекциях изображений построенные алгоритмы демонстрируют высокие показатели полноты и точности распознавания, которые сопоставимы с современными аналогами, и для некоторых задач превосходят современный уровень.
Цели и задачи исследования. Целью настоящей диссертационной работы является исследование знакового представления изображений и разработка основанных на нем общих методов классификации изображений, в частности, новых алгоритмов детекции и идентификации лиц.
В связи с поставленной целью сформулированы следующие задачи: 1) исследование свойств знакового представления изображений;
анализ устойчивости знакового представления к аддитивному шуму на изображении;
разработка методов классификации изображений, основанных на знаковом представлении;
разработка эффективных алгоритмов детекции и идентификации лиц;
разработка комплекса программ для статистической оценки показателей качества предложенных алгоритмов распознавания лиц и сравнения их с современными аналогами на общедоступных тестовых наборах данных.
Методы исследований основываются на теории отношений, теории вероятностей, теории графов, теории групп, теории информации, теории распознавания образов.
Научная новизна. При решении поставленных в диссертационной работе задач получены следующие новые научные результаты, выносимые на защиту:
введено новое понятие знакового представления изображений, обладающее устойчивостью к изменению условий регистрации изображения, и исследованы его свойства;
исследована геометрическая структура множества знаковых представлений и найдены теоретические оценки меры устойчивости знакового представления изображений;
разработаны новые методы классификации знаковых представлений, основанные на функциях расстояния, определяемых с помощью классических функционалов теории информации, которые позволяют повысить разделяющую способность классификаторов;
на основе предложенных методов классификации знаковых представлений разработаны общие алгоритмы классификации знаковых представлений, позволяющие эффективно с точки зрения качества распознавания решать задачи детекции и идентификации лиц, а также другие актуальные задачи распознавания образов.
Практическая ценность. Разработанные в рамках диссертационной работы методы и алгоритмы классификации знаковых представлений могут быть использованы при разработке систем распознавания образов и анализа изображений, комплексов видео наблюдения, систем контроля доступа и биометрической идентификации. В частности, алгоритмы детекции и идентификации лиц, построенные на основе разработанных алгоритмов классификации знаковых представлений, реализованы в виде динамически подключаемых программных модулей на языках C++ и Python для операционной системы GNU/Linux. Построенные алгоритмы обнаружения нечетких дубликатов изображений позволяют повысить качество представления результатов поиска в мультимедийных информационно-поисковых системах посредством объединения в группы схожих результатов, а также в разы сократить объем памяти, необходимой для хранения больших коллекций.
Разработанный экспериментальный комплекс программ для оценки показателей качества алгоритмов детекции и идентификации лиц может быть использован для сравнительного анализа различных алгоритмов решения соответствующих задач на общедоступных тестовых коллекциях изображений.
Апробация работы. Практические и теоретические результаты диссертации использованы в инициативном научно-исследовательском проекте РФФИ №08-07-00129 «Исследование многомасштабного знакового представления образов в задачах анализа биометрической информации при разработке систем информационной безопасности», в научно-исследовательском проекте «Поиск портретных изображений по содержанию» в рамках конкурса научных проектов Яндекс «Интернет-математика 2007», при разработке программного комплекса «Модуль интеллектуального анализа данных для систем видео наблюдения» для компании «Деветел».
Основные положения и результаты работы представлялись и обсуждались на международных и Всероссийских конференциях, в том числе на 14-й Всероссийской конференции «Математические методы распознавания образов» (Суздаль, 2009), 9-й международной конференции «Распознавание образов и анализ изображений» (Нижний Новгород, 2008), Российском семинаре по оценке методов информационного поиска (2007, 2008, 2009), конференции молодых ученых в рамках «Российской летней школы по информационному поиску» (Екатеринбург, 2007).
Публикации. По теме диссертации опубликовано 22 работы, из них 5 работ в изданиях, входящих в «Перечень ведущих научных журналов и изданий, выпускаемых в Российской Федерации», утвержденный ВАК.
Структура и объем диссертации. Диссертационная работа состоит из введения, четырех тематических глав, заключения, списка литературы и приложений. Общий объем основного текста — 148 страниц, включая 32 рисунка. Список литературы изложен на 16 страницах и содержит 105 наименования.