Содержание к диссертации
Введение 4
Глава 1. Анализ состояния предметной области. Постановка задач
исследования 8
Основные понятия и общая постановка задачи поиска изображений на основе содержания 8
Архитектура CBIR-систем 10
Признаки изображений, используемые в CBZR-системах 15
Признаки цвета 16
Признаки текстуры 18
Признаки формы 27
1.4. Сравнительный анализ современных С/Я-систем 33
1.4.1. Анализ результатов ранее проведенных исследований
CBIR-систем 33
1.4.2. Сравнительный анализ демо-версий современных CBIR-систем.. 38
1.5. Постановка задач исследования 48
Глава 2. Исследование алгоритмов сегментации изображений 50
Постановка задачи сегментации изображений 50
Классификация алгоритмов сегментации изображений 51
Анализ подходов к классификации алгоритмов сегментации изображений 51
Обобщенная классификация алгоритмов сегментации изображении 57
2.3. Исследование критериев оценки качества сегментации 59
Классификация критериев оценки качества сегментации 59
Супервизорные критерии оценки качества сегментации 60
Исследование супервизорных критериев оценки качества сегментации 62
Результаты сравнения супервизорных критериев оценки качества сегментации 72
2.4. Сравнение алгоритмов сегментации 73
Анализ предшествующих работ по сравнению алгоритмов сегментации изображений 73
Методика сравнения алгоритмов сегментации изображений 74
Результаты сравнения алгоритмов сегментации изображений... 75
2.5. ВЫВОДЫ 76
Глава 3. Исследование вычислительных моделей, описывающих
механизм восприятия изображений человеком 78
Основные понятия 78
Вычислительные модели внимания 81
Классификация вычислительных моделей внимания 81
Вычислительные модели восходящего внимания 82
Исследование WK-алгоритма 87
Исследование степени субъективности внимания человека 90
Алгоритм нахождения прото-объекта 96
Описание алгоритма нахождения прото-объекта 96
Сравнение WK-алгоритма и алгоритма нахождения прото-объекта 99
3.5. Выводы 103
Глава 4. Модель системы поиска изображений по визуальному
сходству 105
4.1. Общая характеристика системы 105
Формирование запроса 105
Извлечение признаков 106
Измерение сходства изображений 107
4.2. Анализ результатов поиска разработанной модели
СВ/К-системы 108
Критерии оценки эффективности поиска изобраэюений 108
Тестовое множество изобраэюений 111
Шкала релевантности 113
Методика автоматической оценки качества результатов поиска 114
Эксперимент 1. Поиск по глобальному признаку цвета 115
Эксперимент 2. Поиск по признаку цвета уровня прото-объекта (объект на изображении-запросе находится автоматически) 115
Эксперимент 3. Поиск по признаку цвета уровня прото-объекта (объект на изображении-запросе задает пользователь) 116
A3. Сравнительный анализ результатов экспериментального
ИССЛЕДОВАНКЯ РАЗРАБОТАННОЙ МОДЕЛИ СЖ/?-СИСТЕМЫ 117
Сравнение результатов проведенных экспериментов 117
Анализ совпадений изображений, верно найденных различными методами поиска 119
Комбинирование поиска по глобальному признаку цвета и признаку цвета прото-объекта 124
Анализ изображений, найденных разными методами 127
4.4. Сравнение результатов комбинированного поиска изображений с
результатами других исследований по поиску изображений 132
Сравнение с РОМИП2008 132
Сравнение результатов комбинированного поиска изображений с известными демо-версиями CBlR-систем 136
Сравнение с системой IMARS 137
4.5. Выводы 139
Заключение 140
Литература 141
Приложения 154
Приложение 1. Результаты экспериментов 154
Приложение 2. Акты внедрений 163
Введение к работе
Актуальность темы. В настоящее время задачи оцифровки и хранения больших объемов визуальной информации имеют законченные технические решения, вполне удовлетворяющие требованиям пользователей, в то время как в области разработки методов решения задач поиска и семантической классификации изображений ситуация оказывается прямо противоположной. Отметим, что до последнего времени наиболее часто использовался поиск визуальной информации, опирающийся на индексирование текстовых описаний, ассоциированных с изображением (например, поиск картинок на Яндекс и Google). При очевидной необходимости организации доступа к коллекции изображений посредством поиска по текстовой информации, ассоциированной с изображениями, данный подход представляется недостаточным. Действительно, существующая неоднозначность при установлении соответствия между визуальным содержанием и текстовым описанием снижает показатели точности и полноты поиска, а целом ряде случаев оказывается весьма трудным или вообще невозможным составить словесное описание изображения (например, абстрактные картины).
В начале 80-х годов для преодоления недостатков поисковых систем на основе текста были начаты разработки методов поиска изображений по содержанию (в зарубежной литературе для обозначения данного подхода используется аббревиатура CBIR - Content-based image retrieval). В СіШ?-системах изображения индексируются по их визуальному содержимому (по цвету, текстуре, форме и т.д.). Изучением различных аспектов рассматриваемой проблемы занимались многие исследователи, в том числе: F. Long, Н. Zhang, D. Feng, R.C. Veltkamp, M. Tanase, Y Rai, Th. S. Huang, S.-F. Chang, L.-J. Hove, Y. Xhnang, X. Liu, Y. Pan, I. Naqa, M. Wernick, Y. Yang, N.P. Galatsanos, Th. Deselaers, A.B. Белков, H. Васильева, A. Дольник, И. Марков.
Анализ современных тенденций развития систем поиска изображений показывает, что наиболее популярным оказывается подход, основанный на использовании тех или иных алгоритмов анализа изображений. Например, одним из последних нововведений Google стало введение новых типов изображений, которые Google автоматически классифицирует. На текущий момент данная поисковая система распознает следующие типы изображений: портреты, фотографии, гравюры, карандашные рисунки и схемы, «клипарт». В апреле 2009 года запущен поиск похожих изображений Google Similar Images', на первом этапе используется традиционный способ поиска по текстовому запросу, а затем в качестве запроса используется одно из найденных изображений и осуществляется поиск по визуальному сходству. В поисковой системе Яндекс в конце 2008 года стал возможен поиск портретов, а ранее был запущен поиск картинок по преобладающему цвету, поиск фотографий и механизм выявления дубликатов.
В настоящее время известны демо-версии систем поиска изображений по содержанию (MFIRS, CIRES, Tiltomo, INRIA, Retrievr и др.). Проведенный
анализ качества поиска в перечисленных системах показывает, что качество поиска в них существенно ниже по сравнению с системами поиска изображений по текстовым аннотациям. Так, из 20-ти первых найденных изображений запросу соответствует не более 16% изображений (при поиске по текстовым аннотациям в системе Яндекс аналогичный показатель равнялся 51%).
Следует отметить, что задача поиска изображений по содержанию по своей постановке формально близка к задаче распознавания образов, однако по своей сути эти задачи не являются идентичными. В задаче распознавания образов основной целью является отнесение входного изображения к одному из заранее известных классов, в то время как в задаче поиска изображений по содержанию изначально явного требования к идентификации класса входного изображения не ставится, но требуется найти изображения, обладающие визуальным сходством с запросом.
Анализ базовых принципов, используемых в современных С5/і?-системах, показывает, что в большинстве из рассмотренных систем поиска изображений по содержанию поиск ведется по признакам, извлекаемым из всего изображения (глобальные признаки). Кроме того, при поиске изображений пользователь зачастую интересуется вполне конкретным объектом, присутствующим на изображении, и, соответственно, результатом поиска должны быть изображения, содержащие искомый объект.
В тоже время в научной литературе описаны результаты исследования механизмов восприятия человеком изображений, согласно которым внимание человека в процессе анализа изображений концентрируется не на всем изображении, а на некоторых вполне конкретных областях изображения. При этом выбор области (или нескольких областей), привлекающей внимание человека, в большей степени обусловлен свойствами данной области, но в меньшей степени высокоуровневыми когнитивными процессами (модель восходящего внимания).
В этой связи представляется целесообразным проведение исследований возможности использования моделей восходящего внимания для нахождения области изображения, приблизительно соответствующей объекту, разработка методов поиска изображений, механизм которых подобен механизму восприятия изображений человеком. При этом можно ожидать, что использование информации, извлекаемой из данных областей, позволит повысить качество поиска CBIR-систем по сравнению с широко используемым поиском по глобальным признакам изображений. Отметим, что в последнее время модели визуального внимания привлекли внимание ряда исследователей, в том числе: Аксёнов С. В., О. Marques, L. М. Маугоп, G. В. ВогЪа, К R. Gamba.
Цель работы - разработка методов поиска изображений по содержанию, основанных на использовании модели восходящего внимания.
Задачи исследования. Для достижения указанной цели в работе поставлены и решены следующие задачи:
Анализ современного состояния проблемы поиска изображений по содержанию и обзор информационных признаков изображений, используемых в СШЯ-системах.
Построение универсальной классификации алгоритмов сегментации изображений, позволяющей однозначно классифицировать все известные на сегодняшний день алгоритмы сегментации изображений.
Анализ критериев качества сегментации и выделение критериев, которые целесообразно использовать для оценки качества алгоритмов сегментации изображений.
Анализ известных моделей восходящего визуального внимания и исследование степени субъективности внимания человека.
Разработка алгоритма автоматического нахождения объекта на изображении, привлекающего внимание человека.
Разработка методов поиска изображений с использованием информации об объекте и проведение экспериментальной проверки их работоспособности.
Разработка на основе предложенных методов поиска изображений прототипа С5//?-системы.
Методы исследований. Выполненные разработки и их научно-техническое обоснование базируются на использовании методов цифровой обработки изображений и распознавания образов, статистической обработки информации.
Научная новизна результатов исследования.
Универсальная классификация алгоритмов сегментации изображений, позволяющая однозначно классифицировать все известные на сегодняшний день алгоритмы сегментации изображений.
Результаты исследований супервизорных критериев оценки качества сегментации изображений, позволившие обосновать выбор критерия, обеспечивающего наиболее объективную оценку качества сегментации.
Алгоритм автоматического нахождения прото-объекта.
Методы поиска изображений, основанные на использовании признаков прото-объекта.
Практическая значимость работы и внедрение её результатов. Разработанные методы повышения эффективности поиска графической информации реализованы в виде макетных версий программ. Научные результаты, полученные в диссертационном исследовании, используются в ООО «Институт информационных датчиков и технологий» при разработке систем технического зрения. Общетеоретические результаты вошли в учебные программы дисциплин «Методы обработки многомерных сигналов», «Методы обработки и анализа сигналов в информационных системах», «Интеллектуальные информационные системы», «Представление знаний в интеллектуальных информационных системах».
На защиту выносятся:
Универсальная классификация алгоритмов сегментации изображений, позволяющая однозначно классифицировать все известные на сегодняшний день алгоритмы сегментации изображений.
Результаты исследований супервизорных критериев оценки качества сегментации изображений.
Алгоритм автоматического нахождения прото-объекта.
Методы поиска изображений с использованием признаков прото-объекта.
Прототип СШЯ-системы, реализующей методы поиска изображений на основе признаков прото-объектов.
Апробация результатов. Основные результаты и положения работы докладывались и обсуждались на следующих научных конференциях:
3-й Международной конференции «Информационно-математические технологии в экономике, технике и образовании» (Екатеринбург, ноябрь 2008);
7-й Всероссийской конференции с международным участием «Новые информационные технологии в исследовании сложных структур» (Томск, сентябрь 2008);
Международной научно-практической конференции «СВЯЗЬ-ПРОМ 2008» в рамках 5-го Евро-Азиатского форума «СВЯЗЬ-ПРОМЭКСПО 2008» (Екатеринбург, май 2008);
Международной научно-практической конференции «СВЯЗЬ-ПРОМ 2009» в рамках 6-го Евро-Азиатского форума «СВЯЗЬ-ПРОМЭКСПО 2009» (Екатеринбург, февраль 2009);
10-й всероссийской конференции «Математические методы распознавания образов» (Суздаль, сентябрь 2009);
3-й Российской конференции молодых учёных по информационному поиску, проводившейся в рамках III Российской летней школы по информационному поиску RuSSIK 2009 (Петрозаводск, сентябрь 2009).
Результаты диссертационного исследования были включены в
инновационный проект, представленный на конкурсе, проводимом в 2009
году Фондом содействия развитию малых форм предприятий в
научно-технической сфере. По результатам конкурса представленный проект
стал победителем программы «Участник Молодежного
Научно-Инновационного Конкурса» («УМНИК»).
Публикации. По теме диссертации опубликовано 10 работ, в том числе 2 работы в изданиях, рекомендованных ВАК.
Структура и объем работы. Общий объём диссертации - 163 страницы, в том числе 11 страниц приложений. Диссертация иллюстрирована 121 рисунком, 46 таблицами.