Содержание к диссертации
Введение
ГЛАВА 1 Аналитический обзор современных методов распознавания изображений 9
1.1 Обучение с учителем. Искусственные нейронные сети. Метод опорных векторов 9
1.2 Компактные целостные представления. Снижение размерности. Метод главных компонент 15
1.3 Обнаружение локальных признаков. Сверточные нейронные сети 22
1.4 Использование пространственных отношений при распознавании. Констелляционные модели 30
1.5 Методы оценки эффективности распознавания 36
1.6 Выводы по первой главе 39
ГЛАВА 2 Разработка модели репрезентации объекта на изображении 41
2.1 Математический аппарат модели 41
2.2 Структура локального эквивариантного детектора модели 48
2.3 Трансформирующий автоэнкодер как элементарная единица иерархической модели 55
2.4 Обучение модели в потоке данных 61
2.5 Выводы по второй главе 65
ГЛАВА 3 Разработка комплекса алгоритмов обучения и распознавания изображений 67
3.1 Алгоритм выделения локальных признаков 67
3.2 Алгоритм оптического трекинга 72
3.3 Алгоритм обучения трансформирующего автоэнкодера 83
3.4 Алгоритм распознавания изображений 86
3.5 Выводы по третьей главе 91
ГЛАВА 4 Результаты исследования и экспериментальные данные 94
4.1 Планирование эксперимента 94
4.2 Оценка эффективности работы трансформирующего автоэнкодера 96
4.3 Оценка эффективности распознавания изображений 106
4.4 Локализация объектов в композитных сценах 110
4.5 Выводы по четвертой главе 112
Заключение 113
Список литературы
- Обнаружение локальных признаков. Сверточные нейронные сети
- Использование пространственных отношений при распознавании. Констелляционные модели
- Трансформирующий автоэнкодер как элементарная единица иерархической модели
- Алгоритм обучения трансформирующего автоэнкодера
Введение к работе
Актуальность темы.
Распознавание визуальных образов представляет собой один из важнейших компонентов систем управления и обработки информации, автоматизированных систем и систем принятия решений. Задачи, связанные с классификацией и идентификацией предметов, явлений и сигналов, характеризующихся конечным набором некоторых свойств и признаков, возникают в таких отраслях как робототехника, информационный поиск, мониторинг и анализ визуальных данных, исследования искусственного интеллекта. В настоящий момент в производстве широко используются системы распознавания рукописного текста, автомобильных номеров, отпечатков пальцев или человеческих лиц, находящие применение в интерфейсах программных продуктов, системах безопасности и идентификации личности, а также в других прикладных целях.
Однако, актуальной проблемой, признанной научным сообществом, остается распознавание изображенных объектов под действием аффинных трансформаций, способных значительным образом изменить форму изображения, не влияя при этом на принадлежность объекта к категории распознавания. Попытки решения этой проблемы, фигурирующей в теории распознавания образов под названием проблемы инверсии, предпринимались в таких методах как SIFT и ORB, а также многослойных сверточных сетях, однако в настоящий момент эти методы предлагают частичные решения, обеспечивающие устойчивость к ограниченному подмножеству преобразований.
Актуальность данной проблемы особенно высока в отраслях, где распознавание образов применяется в естественной среде (видеонаблюдение, анализ данных камер мониторинга, робототехнические зрительные системы),
где зрительный сенсор может иметь произвольный ограниченный угол обзора по отношению к искомому объекту.
Объектом исследования являются системы компьютерного зрения, осуществляющие классификацию и идентификацию объектов на изображении.
Предметом исследования являются математические модели и алгоритмы распознавания изображений.
Целью исследования является разработка метода распознавания визуальных образов, способного решать проблему инверсии для различных отраслей применения, распознавая трехмерные объекты окружающего мира с учетом их инвариантных преобразований.
Задачи исследования:
-
Разработка модели репрезентации объекта с помощью иерархии признаков, устойчивых к инвариантным преобразованиям.
-
Разработка алгоритмической базы для представленной модели, включающей в себя алгоритм выделения признаков и алгоритм распознавания изображений. Реализация алгоритмического комплекса в виде программы для ЭВМ.
-
Оценка производительности разработанного метода и критериев достижения поставленной цели.
-
Оценка эффективности разработанного метода в сравнении с современными альтернативными методами распознавания.
Методы исследования.
Для решения поставленных задач использовались методы компьютерного зрения, теории оптимизации, математической статистики, теории искусственных нейронных сетей, вероятностных моделей, теории планирования эксперимента.
Научная новизна диссертационной работы состоит в следующем:
-
Разработана математическая модель, способная инкапсулировать изображенные объекты с помощью иерархии локальных эквивариантных признаков, устойчивых к пространственным преобразованиям.
-
Разработан алгоритм обучения репрезентациям на базе модели эквивариантного представления объектов базе потока визуальных данных без участия экспериментатора.
-
Предложен алгоритм идентификации и классификации объектов, использующий модель эквивариантного представления объектов, обученную на потоковых данных.
Практическая значимость разработанной модели заключается в способности обрабатывать изображения объектов инвариантным образом, обеспечивая устойчивое распознавание в условиях различных углов зрения, а также различных видов визуального шума (размытие, окклюзия, частичное перекрытие).
Использование предложенной в данной работе модели позволяет добиться повышения эффективности систем компьютерного зрения и принятия решения за счет использования компактных иерархических представлений, требующих значительно меньшей вычислительной нагрузки по сравнению с альтернативными методами. Особенности представленной модели позволяют использовать ее как для решения узкоспефицичных задач, таких как распознавание лиц, с использованием предварительного обучения, так и для обобщенного анализа данных - для выявления закономерностей при видеонаблюдении и самообучения обнаруженным структурам.
Положения, выносимые на защиту:
-
Математическая модель объекта на изображении, представляемого с помощью иерархии локальных эквивариантных признаков.
-
Алгоритм обучения модели на базе потока визуальных данных, позволяющий решать такие задачи компьютерного зрения, как генерация объектов, построение связей между объектами и обучение модели без участия экспериментатора с высокой робастностью к пространственным преобразованиям входных данных.
-
Алгоритм распознавания объектов, способный решать проблемы инверсии и вариативности за счет использования локально-связного ансамбля эквивариантных признаков.
Апробация работы.
Основные результаты работы докладывались на следующих конференциях: III международная научно-практическая конференция «Новейшие исследования в современной науке: опыт, традиции, инновации», г. Москва, VIII международная научно-практическая конференция: «Современные концепции научных исследований», г. Москва, XI международная научно-практическая конференция «Научное обозрение физикоматематических и технических наук в XXI веке», г. Москва.
Публикации. По теме диссертации опубликовано 8 работ, в том числе 5 статей в журналах, рекомендованных ВАК при Министерстве образования и науки Российской Федерации, получено 1 свидетельство о государственной регистрации программы для ЭВМ.
Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения и двух приложений. Полный объем диссертации составляет 130 страниц с 28 рисунками и 7 таблицами. Список литературы содержит 106 наименований.
Обнаружение локальных признаков. Сверточные нейронные сети
Один из основных подходов, наиболее широко использовавшийся в области распознавания изображений, представляет собой применение классических моделей-классификаторов, обучающихся с учителем. Для обучения таких моделей используются маркированная выборка данных, состоящая из массива изображений и соответствующего им массива меток, определяющих категорию, к которой относится изображение. В процессе обучения массив данных разделяется на две неравные части — обучающую выборку и тестовую выборку, затем с помощью специфичного для конкретного алгоритма правила обучения параметры модели настраиваются с использованием обучающей выборки таким образом, чтобы получив в качестве входных данных изображение, модель на выходе производила бы метку соответствующего класса. Этот подход представлен множеством моделей, среди которых наиболее широко используемыми является регрессионная модель, искусственная нейронная сеть (многослойный перцептрон), метод опорных векторов, а также деревья принятия решений и моделиансамбли, представляющие собой сочетания некоторых перечисленных моделей [82,5].
Многослойные перцептроны, обучающиеся методом обратного распространения ошибки, широко используются для распознавания различных категорий изображений, таких как рукописные цифры [16], почерк [3], человеческие лица [25] и данные зрительных сенсоров робототехнический систем [70]. Модель многослойного перцептрона представляет собой совокупность искусственных нейронов — вычислительной единицы модели — объединенных в уровни (слои), заданные в иерархическом порядке.
Искусственный нейрон представляет собой модель биологического нейрона (нервной клетки), представленную одним или несколькими входами, одним выходом и функцией активации [31]. Помимо этого, каждый вход искусственного нейрона имеет ассоциированный коэффициент или вес. Поведение нейрона строится следующим образом: пусть имеется т + 1 входов, значения которых равны х0,х1 ...хт, а значения их весов равны а)0,а)1 ...а)т, при этом первый входной элемент, как правило, представляет собой фиксированное значение смещения х0 = 1. Тогда выходное значение нейрона представляет собой значение функции активации от взвешенной суммы его входных значений:
При объединении искусственных нейронов в сеть входные значения нейрона слоя / представляют собой выходные значения нейронов предыдущего слоя 1 — 1. При этом нейроны первого (входного) слоя получают в качестве входных значения непосредственно данные, подлежащие распознаванию, которые в случае распознавания изображения представляют собой значения интенсивности составляющих его пикселей (точечных элементов). Выходной слой сети может варьироваться в зависимости от задачи, но классическая архитектура подразумевает формирование его числом нейронов, равному количеству классов распознавания, при этом выходное значение каждого нейрона нормируется по интервалу {ОД}, и представляет собой вероятность принадлежности входного изображения к соответствующему классу. Как отмечают исследователи, такие многослойные нейронные сети способны инкапсулировать любую математическую функцию с помощью произвольного набора нейронов [55,18].
Поскольку сформулировать аналитически правило классификации изображений по категориями распознавания зачастую представляется затруднительным, способность обучаться на базе выборки делает нейронные сети и родственные им модели подходящими для распознавания естественных изображений окружающего мира, отличающихся нечеткой структурой и множеством вариаций в пределах класса.
Обучение сети методом обратного распространения состоит в следующем: пусть имеется некоторая неизвестная функция распознавания д : X -»Y, аргументом которой являются изображения хп Є X, представленные в виде вектора длины п, а значениями функций — множество классов (категорий) у Є Y. Обучающая выборка представляет собой подмножество значений этой функции D = {(х0, у0), (х1( ух),..., (xm, ym)}.
Задача обучения модели распознавания заключается в отыскании такой функции h : X -» Y , которая бы аппроксимировала функцию д на всей ее области определения, в том числе значениях, не включенных в D, и представляет собой приложение теории оптимизации.
Пусть h(x) — выходное значение сети, полученное путем последовательной активации нейронов каждого слоя, а д(х) — значение аппроксимируемой функции для одного и того же изображения. Далее выполняется шаг обратного распространения, заключающийся в вычислении частной производной для каждого нейрона сети по отношению к его весам: дЕ _ дЕ doj dnetj дшц до; duet; дшц где Е = - (h(x) — д(х))2 — среднеквадратичное отклонение сети. Далее на каждом шаге обучения веса нейронов инкрементируются значениями частных производных в соответствии с методом градиентного спуска. Вариации обучающего алгоритма включают в себя исключительные дополнительных параметров регуляризации в целях защиты от переобучения, и использование различных оптимизаторов — метода Ньютона, метода имитации отжига, L-BFGS и других [2].
Многослойные перцептроны демонстрируют успешные результаты при использовании их для распознавания изображений некоторых отдельных ограниченных категорий, таких как символы естественного языка, рукописные цифры и почерк [55]. В настоящее время в большинстве приложений, использующих прямое обучение с учителем для распознавания изображений, нейронные сети вытеснены методом опорных векторов, предлагающим более эффективное с точки зрения объема вычислительных ресурсов решение.
Метод опорных векторов рассматривает каждый экземпляр данных (изображение) как точку в n-мерном пространстве, где п соответствует размерности данных или общему числу пикселей изображения. Каждая из точек принадлежит к некоторому классу (категории). При этом задача распознавания представляется в виде задачи по нахождению такой гиперплоскости в «-мерном пространстве, которая бы отделяла все точки, соответствующие изображениям данного класса, от остальных, не принадлежащих ему. Предполагая, что таких гиперплоскостей может существовать много, метод опорных векторов ставит целью отыскание плоскости, расстояние до которой от ближайшей точки максимально в пределах множества возможных вариантов — т.н. оптимальную
Использование пространственных отношений при распознавании. Констелляционные модели
Для случая, когда трехмерные объекты Р и Q, принадлежащие различным классам Y1,Y2 дают схожие проекции, так, что р « q, аналогичное поведение наблюдается для функции идентификации детектора. Т.е. D7(p) « D7(q).
С учетом вышеперечисленных свойств, очевидно, что существуют такие сочетания изображений и трансформаций, для которых теоретически невозможно построить точный эквивариантный детектор (такой, что / - 0). Фактор вариативности объектов увеличивает среднее значение ошибки в пределах класса за счет того, что отклонения трехмерных форм объектов могут негативным образом сказываться на различимости их проекций — изображений. Можно предположить существование отрицательной корреляции между размером и разнообразием объекта/изображения и точностью восстановления трансформации. Таким образом, репрезентация целого объекта при помощи единственного эквивариантного детектора представляется задачей, превосходящей по сложности задачу распознавания, и избыточной с точки зрения поставленной цели.
Локальные дискриминативные эквивариантные детекторы представляют собой основной элемент предлагаемой модели представления объектов на изображении. Первый уровень модели представлен детекторами D/ , которые могут реагировать на участки изображений в различной пространственной ориентации. Ансамбли детекторов и их значения на первом уровне для каждого отдельного изображения различны, но при этом служат материалом для обучения высокоуровнего детектора D7 , отыскивающим представление для композиций детекторов первого уровня. Таким представлением является трехмерная карта признаков — детекторов первого уровня, размещенных на ней в соответствии с данными эквивариантных трансформаций. Функция идентификации детектора второго уровня, таким образом, определяет окончательную принадлежность объекта к категории.
Более подробное описание модели включает в себя рассмотрение ее основного элемента — эквивариантного детектора. 2.2 Структура локального эквивариантного детектора модели
Для реализации элементарной единицы модели представления объекта — локального эквивариантного детектора, автором разработана и представлена модель специфической нейронной сети — трансформирующего автоэнкодера, являющегося подвидом более общего класса нейронных сетей снижения размерности (автоэнкодеров). Особенностью трансформирующего автоэнкодера является способность формировать не только устойчивые к вариативным изменениям компактные представления участков изображения, но и проводить оценку параметров аффинной трансформации, которой подвергается изображенный объект. Далее рассмотрим архитектуру и принципы работы трансформирующего автоэнкодера.
Трансформирующий автоэнкодер представляет собой нейронную сеть, обучающуюся методом обратного распространения ошибки. В основе его лежит следующий принцип: выходной уровень сети структурно равен входному, а в качестве эталонных значений для обучения используются значения на входе автоэнкодера — таким образом, нейронная сеть обучается предсказанию тех же самых данных, что и получает на входе. Функция, инкапсулируемая такой сетью, в общем случае является тривиальной и представляет собой с = /(х) = х, однако в случае автоэнкодера на сеть накладывается дополнительное ограничение — наличие «бутылочного горла» в одном из промежуточных (скрытых) слоев, т.е. слоя с числом нейронов меньшим, чем во входном слое. Нейроны такого слоя (для простейшего случая автоэнкодера может существовать один скрытый компактифицированный слой), таким образом, представляют собой репрезентацию входных данных. Учитывая использование нелинейных функций активации нейронов и множества слоев автоэнкодера, такое представление может быть компактным и точным, в отличие от линейного метода главных компонент (см. 1.2). Так, для случая, когда входные данные представляют собой сравнительно небольшие изображения х Є Д28х28=784, их репрезентация может быть представлена скрытым слоем размера порядка 30, т.е. с = /(х) Є R30 [38]. В отличие от классических многослойных перцептронов, имеющих однородную структуру в пределах слоя, трансформирующий автоэнкодер представляет собой гетерогенную сеть, состоящую из нескольких сетей меньшего размера. Каждая такая сеть носит название капсулы и инкапсулирует представление конкретной визуальной сущности, представляя, таким образом, один параметризованный признак объекта. Все капсулы автоэнкодера имеют одинаковую структуру, и характеризуются следующими особенностями:
1. Каждая капсула включает в себя один решающий нейрон р, принимающий значение в диапазоне [ОД], соответствующие вероятности того, что объект присутствует на изображении, и некоторое количество нейронов инстанцирования (зависит от трансформации, которым обучается сеть), кодирующих позицию, или параметры инстанцирования объекта в пространстве.
2. Обучение трансформирующего автоэнкодера происходит следующим образом: входные данные представляют собой исходное изображение, выходные — изображение, подвергнутое трансформации Т. В ходе обучения автоэнкодер предсказывает трансформированное изображение, сравнивая его с выходными данными и вычисляя ошибку как среднеквадратическое отклонение или кросс-энтропию.
3. Во время обучения автоэнкодеру не сообщаются параметры инстанцирования исходного объекта. Вместо он получает на входе значения трансформации Т (например, для случая сдвига в плоскости — значения Лх и Лу), и добавляет их к выходным значениям нейронов инстанцирования.
4. Автоэнкодер обучается компактному коду, соответствующему размером числу нейронов инстанцирования (как правило, для аффинных трансформаций — 2-9 измерений) каждой капсулы. Обученный автоэнкодер может извлекать представления изображений прямым распространением; при результат сети складывается из суммы результатов отдельных капсул. Поскольку каждая капсула содержит решающий нейрон, реагирующий на присутствие соответствующей визуальной сущности, то «лишние» капсулы деактивируются значением р, близким к нулю, и таким образом, не вносят свой вклад в общее представление автоэнкодера.
Основная функциональная часть архитектуры, позволяющая трансформирующему автоэнкодеру формировать осмысленный код в условиях трансформаций — это добавление значения трансформаций к значениям нейронов инстанцирования. Таким образом учитель сообщает сети информацию о том, как изменяются параметры позиционирования объекта на изображение. Рассмотрим ситуацию, когда параметры позиционирования представляют собой координаты объекта на плоскости или матрицу аффинной трансформации. При обучении трансформирующего автоэнкодера на таких параметрах происходит следующее: в случае, когда объект на изображении сдвинут, автоэнкодер активирует тот же набор капсул, что и для оригинального изображения, но выходное значение нейронов инстанцирования для них инкрементируется значением, в точности равным величине сдвига. Таким образом, капсула кодирует пространственное положение объекта в компактной форме, соответствующей выбранному представлению координат (для трехмерных трансформации это матрица размера 3 X 3). Таким образом, архитектура сети позволяет получить не только компактное представление объекта, но и явно задать для автоэнкодера смысловое значение каждого элемента кода.
Трансформирующий автоэнкодер как элементарная единица иерархической модели
Так, если для точек изображения р± = /(х;,У/) и р2 — Кхк Уі)расстояния до оригинальных точек объекта равны соответственно Zt и Z2, то для построения трехмерной карты признаков может использоваться любая такая метрика Z , что оценки параметров камеры, зафиксировав / в качестве произвольной константы и пользуясь альтернативными методами оценки карты смещений. Предлагаемым в данной работе методом является расчет оптического потока для двух соседних кадров видеофрагмента.
В качестве возможных модификаций алгоритма может использоваться оценка вероятности трекинга для пар соседних кадров. Рассмотрим для каждых соседних кадров видеофрагмента IjJj+i вероятность P(Rj,RJ+1) того, что некоторый участок изображения R, присутствующий в кадре /; может быть отслежен с помощью оптического трекинга в кадре /;+1. Можно предположить, что в рамках рассматриваемой модели эта вероятность прямо пропорциональна положению участка изображения R в иерархии. Следовательно, в ситуации, когда алгоритм распознал составной объект в кадре Ij, существует высокая вероятность, что этот же объект — а следовательно, и его составные элементы — будут присутствовать в кадре IJ+1. Для формального выражения этой эвристики используеися цепь Маркова с внешним влиянием (со стороны высших уровней модели).
Выходными данные алгоритма оптического трекинга является последовательность идентичных фрагментов локальных признаков и значений трансформаций между ними. Демонстрация полученных последовательностей приведена на рисунке 3.4).
Предложенный алгоритм оптического трекинга позволяет решить задачу формирования выборки для обучения локальных детекторов модели. Из полученных последовательностей фрагментов формируется выборка, представляющая собой множество исходных фрагментов х, множество результатов трансформаций t и соответствующих им значений трансформаций s, при этом трансформации slls2l...sm получены из информации о движении камеры или объекта в кадре. На полученной выборке обучается трансформирующий автоэнкодер. Обучение происходит в онлайн-режиме — каждые последующие кадры могут использоваться в качестве расширения выборки, поступая на вход автоэнкодера. Обученный автоэнкодер функционирует в качестве эквивариантного детектора, реагируя на изображения, сходные с присутствующими в выборке, и определяя трансформацию, которой они подвержены.
Преимущества представленного алгоритма заключаются в способности извлекать данные для обучения без участия человека и не требуя наличия предварительно промаркированной выборки. Эта способность представляет ценность для автоматических (и автономных) систем обработки информации, имеющих доступ к потоковым данным видеокамер и потоковых сенсоров наблюдения.
Разработанный алгоритм обучения трансформирующего автоэнкодера представляет собой модифицированный вариант широко использующегося алгоритма обратного распространения ошибки. В силу специфических характеристик трансформирующего автоэнкодера, автором предложены дополнительные шаги алгоритма, включающие в себя использование критерия разреженности, использование пермутаций элементов выборки для увеличения разнообразия обучающего материала и формирование более устойчивой функции, инкапсулируемой автоэнкодером, а также использование критерия точности репрезентации, применяемого для дополнительной оценки достижения автоэнкодером достаточных результатов реконструкции и распознавания.
Дана выборка трансформирующего автоэнкодера, состоящая из локальных фрагментов изображений (х, t) и значений трансформаций 5, которые в общем случае могут быть параметризированы произвольным образом. При обучении трансформирующего автоэнкодера ставится следующая цель: при получении на входе фрагмента изображения х{ и трансформации st произвести на выходе трансформированный фрагмент изображения h, такой, что ht = tt.
Алгоритм обучения трансформирующего автоэнкодера
Трансформирующий автоэнкодер демонстрирует существенно более качественную оценку позиции объектов. Существенное превосходство над классическими методами компьютерного зрения объясняется тем, что алгоритм POSIT требует для оценки позиции наличия маркеров, которые могут быть спроецированы на объект с помощью методов эпиполярной геометрии. Так, оценка позиции человеческого лица, как правило, производится только для ограниченного пространства трансформаций, в условиях, когда глаза и рот находятся в поле зрения камеры. Для изображений, незначительно отклоняющихся от фронтальных, эффективность трансформирующего автоэнкодера сравнима с альтернативными методами.
Было проведено исследование эффективности простейшей двухуровневой модели (см. рисунок 2.1) на трех категориях изображений человеческих лиц: обычные фотографии лиц, фотографии с искусственным зашумлением при помощи окклюзии и размытия. Эффективность модели рассчитывалась при помощи показателей точности и полноты и сравнивалась с аналогичными показателями альтернативных методов распознавания. В качестве альтернатив для сопоставления выбирались распространенные алгоритмы распознавания, использующиеся как академической среде, так и для решения прикладных задач.
Поскольку в качестве одного из основных преимуществ рассматриваемой модели позиционируется эквивариантность — способность к идентификации объектов на изображении в различных ориентациях — то экспериментальные выборки сгруппированы следующим образом: рассматривается некоторая исходная позиция объекта с координатами вращения (углов Эйлера) (0,0,0), при этом в группу, характеризующуюся значениями ((pmin Pmax), входят изображения объектов, подвергшихся трансформации вращения ((pi,(pj,(pk), такой, что для любого ер Є ((pi, q)j, (рк) верно неравенство (ртіП (р Ц та%.
Тестирование распознавания лиц проводилось путем сопоставления методом Виолы-Джонса [92], классификатора SVM в сочетании с вычислением гистограммы ориентированных градиентов [72] и сверточной сети, обученной на выборке ImageNet. Обученные модели были предоставлены библиотеками Caffe [46] и OpenCV [6].
Метод Виолы-Джонса подразумевает наличие отдельной стадии обучения для каждой ориентации. В рамках эксперимента использовалась предобученная модель, продемонстрировавшая сопоставимые результаты для фронтальной и профильной ориентации лиц, но крайне низкие результаты в промежуточных состояниях. При использовании классического метода распознавания (SVM) в сочетании с методами снижения размерности и повышения инвариантности (гистограмма ориентированных градиентов) для классификатора характерно снижение точности по мере включения в выборку изображений различных ориентаций. Такое поведение связано с тем, что модель в процессе обучения пытается выработать признаки, одинаково подходящие для всех изображений в выборке, в результате получая равномерно распределенные невысокие значения точности. Среди сопоставимых методов авторская модель уступает только
108 глубокой сверточной сети, способной к обучению различных (не смешивающихся) локальных признаков для различных ориентаций объекта.
Некоторые примеры результатов распознавания лиц приведены в приложении A. Следует отметить, что в отличие от метода Виолы-Джонса, авторский метод позволяет выделить комплексную структуру головы человека, не ограничиваясь участком, содержащим глаза и рот. Такой эффект является следствием использования признаков деталей контура лица.
Сравнение результатов распознавания изображений лиц, подвергнутых воздействию шума размытия производилось с помощью методов SVM+HOG, глубокой сверточной сети и алгоритма случайного леса [59]. Выборка производилась на базе CVLAB Dataset и включала в себя объекты, представленные с различных углов. Шум размытия представляет собой размытие по Гауссу со значением о = 0.5 ... 2.5.
Таблица 4.5: Показатели точности распознавания размытых лиц для групп различных ориентаций, %
При воздействии эффектов размытия дисперсия результатов по отношению к ориентации объекта снижается. Экспериментальные показатели согласуются с результатами по распознаванию «чистых» лиц.
В качестве завершающей группы эксперимента использовались изображения человеческих лиц под воздействием шума окклюзии (частичного перекрытия). Шум окклюзии сгенерирован при помощи случайного размещения на изображениях лиц непрозрачных геометрических фигур. При генерации шума окклюзии параметры размещения фигур подобраны таким образом, чтобы оставлять открытой минимум две трети площади изображения.
Как демонстрируют результаты, окклюзия представляет собой существенное препятствие для алгоритмов распознавания, использующих компактные целостные представления, таких как случайный лес и SVM+HOG — для некоторых групп ориентаций наблюдается падения точности распознавания до 10%. Методы, использующие локальные признаки, представленные сетью CaffeNet и авторским методам, менее чувствительно к частичному перекрытию локальных областей изображения. В таких ситуациях производительность представленного метода приближается к показателям основного конкурента — сверточной сети.
В данном эксперименте проверялась способность алгоритма с помощью многоуровневой модели анализировать сцены, содержащие множество объектов, и автономно (без наличия учителя) классифицировать их между собой. В качестве выборки использовались открытые данные, содержащие видеозаписи камер наблюдения за дорожным трафиком. Оценка производительности алгоритма производилась следующим образом: экспериментатором подсчитывалось количество объектов в кадре Q, аналогичным образом вручную производилось из разбиение по группам G, затем эти значения сопоставлялись со значениями Q и С, найденными алгоритмом.