Содержание к диссертации
Введение
Оценка качества цифровых изображений 1..1..
Субъективные критерии качества 1..1..
Объективные критерии качества 1..3..
Эталонные критерии оценки качества изображений 1..5..
Неэталонные критерии оценки качества изображений 2..0..
Краткие выводы 2..3..
Неэталонный алгоритм оценки качества изображений 2..5..
Алгоритм неэталонной оценки качества изображений 25
НОДКПС
Общая схема алгоритма 2..5..
Оценка параметров обобщенного распределения Гаусса 2..8..
Распределение энергии коэффициентов по частоте 3..3..
Пространственные искажения 3..5..
Извлечение признаков 3..6..
Оценка качества изображения 3..7..
База изображений LIVE 3..8..
Расчет коэффициентов корреляции 4..2..
Апробация работы метрики НОДКПС 4..3..
ГЛАВА 3. Анализ работы продложенных неэталонных алгоритмов в задаче оценки качества зашумленных и сжатых изображений 4..9..
3.1. Тестовые изображения 4..9..
3.2. Модели искажений 5..1..
3.2.1. Гауссовский шум 5..1..
3.2.2. Сжатие изображений с использованием алгоритма JPEG 5..2..
3.3. Применение неэталонной оценки в задаче фильтрации полутоновых изображений 5..5..
3.4. Применение неэталонной оценки в задаче подавления артефактов блочности 6..0..
3.5. Применение неэталонной оценки в задаче фильтрации цветных изображений 6..4..
3.6. Краткие выводы 6..9..
ГЛАВА 4. Анализ работы неэталонного алгоритма оценки качества в задачах детектирования и распознавания объектов на телевизионных изображениях 7..0..
4.1. Вводные замечания 7..0..
4.2. Анализ алгоритма в задачах детектирования 7..2..
4.2.1. Алгоритм детектирования лиц Виолы-Джонса 7..2..
4.2.2. База изображений для эксперимента детектирования лиц 7..9..
4.2.3. Подготовка данных для эксперимента 7..9..
4.2.4. Оценка изображений 8..8..
4.2.5. Проведение исследований по внешней базе изображений 8..9..
4.3. Анализ алгоритма в задаче распознавания лиц 9..1..
4.3.1. Алгоритмы распознавания людей на основе информации о
лице 9..1..
4.3.1.1. Алгоритм на основе метода главных компонент 9..1..
4.3.1.2. Алгоритм на основе линейного дискриминантного анализа со случайными значениями импульсов 9..3..
4.3.1.3. Метод сравнения гистограмм локальных бинарных паттернов 9..4..
4.3.3. Эксперимент по способности человека распознавать лица 9..9..
4.4. Результаты тестирования алгоритмов распознавания 1..0..3..
4.5. Краткие выводы
Заключение
Список литературы
- Эталонные критерии оценки качества изображений
- Распределение энергии коэффициентов по частоте
- Применение неэталонной оценки в задаче подавления артефактов блочности
- База изображений для эксперимента детектирования лиц
Введение к работе
Актуальность темы
Цифровая обработка визуальной информации в настоящее время охватывает различные виды инфокоммуникационных приложений и расширяет их спектр. Сюда относятся как традиционные приложения (вещательное, промышленное, охранное телевидение), так и относительно новые приложения (видеоконференцсвязь, техническое зрение, цифровое кино, телевидение высокой и сверхвысокой четкости, ЗО-телевидение).
В соответствии с современной классификацией предложенной В.П. Дворковичем и А.В. Дворковичем цифровая обработка телевизионных и компьютерных изображений включает в себя следующие основные области:
- коррекция изображения, их «препарирование», т.е. сознательное разделение
на части цифровыми средствами, видоизменение этих частей и их обратная
«сборка»;
оценка параметров изображений с целью контроля качества их передачи и приема;
преобразование и кодирование изображений для хранения и передачи по каналам связи;
- компьютерная графика, а также визуализация информации, т.е. представление
массивов данных в виде различных изображений, что очень эффективно, так
как облегчает решение многих задач, сложных именно своей абстрактностью.
Важность разработки подобных алгоритмов также можно объяснить
происходящим в настоящее время переходом к цифровому телевещанию, вызванным развитием в России стандартов DVB первого и второго поколений. Постановлением Правительства Российской Федерации от 3 декабря 2009 г. № 985 утверждена федеральная целевая программа «Развитие телерадиовещания в Российской Федерации на 2009-2015 годы».
Значительный вклад в данную область науки и техники внесли как отечественные ученые М.И. Кривошеев, В.А. Сойфер, М.К. Чобану, А.С. Крылов, Д.С. Ватолин, А.С. Конушин, Б.А. Алпатов, Ю.С. Бехтин, Ю.С. Радченко, так и зарубежные - S. Mitra, R. Gonzalez, R. Woods, Z. Wang, A. Bovik, H. Sheikh, E. Simoncelli, J. Astola, K. Egiazarian, R. Szeliski, R. Lukac и др.
Алгоритмы обработки, сжатия и кодирования визуальной информации неизбежно вносят искажения различного типа, что делает актуальным вопрос об оценке параметров этих искажений и объективного оценивания качества искаженного изображения. На современном этапе развития все методы оценки качества классифицируются на две большие категории.
-
Субъективные критерии оценки качества изображений. Оценка качества изображения в данном случае осуществляется человеком (оценки MOS по рекомендации ITU-R ВТ.500-11).
-
Объективные критерии оценки качества изображений. Оценка качества изображения производится алгоритмически. Такой алгоритм может использовать оригинал изображения для оценки качества, то есть быть эталонным, или может определять качество без наличия неискаженной копии изображения, то есть быть неэталонным.
Исторически сложилось так, что объективные методы для оценки качества основывались на простых математических выражениях, таких как среднеквадратическая ошибка, пиковое отношение сигнал/шум (ПОСШ) и коэффициент структурного подобия (КСП). В связи с необходимостью к унификации исследований в данной области в последние годы были предложены две общедоступные тестовые базы изображений с экспертными оценками MOS: LIVE (LIVE Image Quality Assessment Database, University of Texas at Austin, USA) и TID2008 (Tampere Image Database, Tampere, Finland).
Задача неэталонной оценки качества изображений вызывает в последние годы повышенный интерес исследователей. Большая часть предлагаемых неэталонных алгоритмов разработана для конкретных типов априори известных искажений в изображении (блочность, размытие), что не всегда удобно для использования в практических приложениях. Поэтому разработка неэталонных критериев оценки качества изображений без использования априорной информации о типе искажения сегодня представляет собой актуальную научно-техническую задачу.
Основной целью работы является разработка и исследование универсального неэталонного алгоритма оценки качества изображений, позволяющего контролировать параметры систем обработки и анализа видеоданных.
Объектом исследования являются алгоритмы оценки качества изображений, применяемые в радиотехнических системах фильтрации и сжатия визуальной информации и современных системах охранного телевидения.
Предметом исследования является разработка алгоритма на основе дискретного косинусного преобразования (ДКП), с целью эффективного решения задачи неэталонной оценки качества изображений.
Задачи диссертационной работы:
проведение анализа существующих алгоритмов и методик оценки качества цифровых изображений;
разработка и реализация неэталонного алгоритма оценки качества изображений на основе дискретного косинусного преобразования;
проведение исследований по оценке корреляции между разработанным неэталонным алгоритмом и результатами субъективной экспертизы оценки качества;
проведение анализа использования предложенной метрики оценки качества в задачах фильтрации, сжатия, детектирования и распознавания объектов на изображениях.
Методы исследования. При решении поставленных задач использовались современные методы цифровой обработки изображений, математического анализа, теории вероятностей, математической статистики. Для практической реализации алгоритмов применялись современные численные методы и среда моделирования MATLAB.
Научная новизна полученных результатов
В рамках данной работы получены следующие новые научные результаты.
- Разработан универсальный алгоритм неэталонной оценки качества
изображений, основанный на использовании статистики коэффициентов
дискретного косинусного преобразования.
Проведена оценка корреляции предложенной неэталонной метрики качества со средними оценками экспертов. Для тестовой базы изображений LIVE среднее значение коэффициента корреляции равно 0,92, а для базы TID2008 -0,84, что соответствует современным результатам и сопоставимо с популярными эталонными критериями.
Найдены пороговые значения параметров для ряда задач обработки и распознавания изображений.
Практическая значимость полученных результатов
-
Неэталонный характер работы предложенного алгоритма позволяет использовать его в широком спектре практических приложений, где, как правило, исходное (эталонное) изображение не доступно. При этом достигаемое значение коэффициента корреляции: 0,86-0,98 (LIVE), 0,7-0,9 (TID2008) соответствует используемым на практике эталонным критериям.
-
Разработанный алгоритм основан на использовании дискретного косинусного преобразования, для вычисления которого в настоящее время предложены быстрые алгоритмы. Кроме того, ДКП применяется на этапе кодирования в ряде стандартов сжатия изображений и видеопоследовательностей, таких как JPEG, MotionJPEG, Н.26х и интегрировано в современные аппаратные платформы обработки изображений, что позволяет использовать алгоритм оценки качества на этапе кодирования изображений.
-
Проведенный анализ использования предложенного алгоритма в ряде прикладных задач может быть использован в системах обработки и передачи визуальной информации, цифрового телевидения, классификации и распознавания образов и в других задачах цифровой обработки изображений и технического зрения.
Разработанные методы и алгоритмы требуют для их практической реализации относительно небольших вычислительных ресурсов, что позволяет использовать их для обработки телевизионных изображений в системах реального времени.
Результаты работы внедрены в соответствующие разработки ООО «Проектный сервис», г. Ярославль, ООО «Клаудс механике», г. Москва. Отдельные результаты диссертационной работы внедрены в учебный процесс ЯрГУ им. П.Г. Демидова в рамках дисциплин «Цифровая обработка изображений», «Основы телевидения и видеотехники». Получено свидетельство на программный продукт, зарегистрированное в Реестре программ для ЭВМ.
Личный вклад автора. Выносимые на защиту положения предложены автором в ходе выполнения научно-исследовательских работ на кафедре динамики электронных систем Ярославского государственного университета им. П.Г. Демидова. Практическая реализация методов и моделирование на ЭВМ проводилась коллективом исследователей при личном участии автора.
Достоверность полученных научных результатов обусловлена применением адекватного математического аппарата, подтверждается их согласованностью с результатами проведенного компьютерного моделирования и сопоставлением полученных результатов с научными данными, известными из российской и зарубежной литературы.
Апробация работы. Результаты работы докладывались и обсуждались на следующих научно-технических конференциях:
12-15-я международная конференция «Цифровая обработка сигналов и ее применение» DSPA (Москва, 2010-2013);
65-66-я научная сессия, посвященная Дню Радио (Москва, 2010-2011);
18-я международная научно-техническая конференция «Радиоэлектроника, электротехника и энергетика» (Москва, 2012);
Всероссийская научная конференция студентов и аспирантов «Молодые исследователи - регионам» (Вологда, 2009-2011);
64-я региональная научно-техническая конференция студентов, магистров и аспирантов вузов (Ярославль, 2011).
Публикации. По теме диссертации опубликовано 19 научных работ, из них 2 статьи в журналах, рекомендованных ВАК, 16 докладов на научных конференциях, свидетельство о регистрации программы для ЭВМ.
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка использованных источников, содержащего 91 наименование. Она изложена на 120 страницах машинописного текста, содержит 48 рисунков и 10 таблиц.
Основные научные положения и результаты, выносимые на защиту
-
Алгоритм неэталонной оценки качества на основе дискретного косинусного преобразования, среднее значение коэффициента корреляции которого с субъективными экспертными оценками по базе LIVE равно 0,92, а по базе TID2008 - 0,84.
-
Результаты эксперимента по оценке корреляции между разработанной неэталонной метрикой и значениями стандартных эталонных метрик ПОСШ и КСП. Коэффициент корреляции достигает значения в 0,95-0,99 для изображений с различной степенью детализации, при этом его среднее значение составляет 0,98.
-
Зависимости по оценке параметров ряда алгоритмов обработки и распознавания изображений от предложенного неэталонного критерия.
Эталонные критерии оценки качества изображений
Задача неэталонной оценки качества изображений вызывает в последние годы повышенный интерес исследователей. Большая часть предлагаемых неэталонных алгоритмов разработана для конкретных типов априори известных искажений в изображении (блочность, размытие), что не всегда удобно для использования в практических приложениях. Поэтому разработка неэталонных критериев оценки качества изображений без использования априорной информации о типе искажения сегодня представляет собой актуальную научно-техническую задачу [1].
Причины возникновения шумов на изображении различны. Например, в процессе получения изображения с помощью фотокамеры с ПЗС матрицей основными факторами, влияющими на величину шума, являются уровень освещенности и температура сенсоров [2]. В процессе передачи изображения могут искажаться помехами, возникающими в каналах связи. Например, при передаче изображения с использованием беспроводной связи оно может быть искажено в результате разряда молнии или других возмущений в атмосфере. Аддитивный гауссовский шум, рассматриваемый в работе, характеризуется добавлением к каждому пикселю изображения случайной величины, имеющей нормальное распределение, как правило, с нулевым средним значением [3]. Такой тип шума обычно возникает на этапе получения изображений.
Кроме того, цифровые изображения требуют для хранения довольно большого объема памяти, а для их передачи требуется значительное время, поэтому для уменьшения размера изображений нередко используются алгоритмы сжатия, которые также приводят к возникновению определенных артефактов (блочность, звон, размытие). К методам линейных ортогональных преобразований, которые в последнее время широко применяются в области цифровой обработки изображений, относится метод дискретного косинусного преобразования (ДКП) [1], основанный на использовании ортогональной системы дискретных косинусных функций возрастающих частот. ДКП применяется на этапе кодирования в ряде стандартов сжатия изображений и видеопоследовательностей, таких как JPEG, Motion JPEG и H-265.
Кроме того, для обработки и восстановления изображений в настоящее время используется широкий диапазон систем и устройств. При этом на практике нередко возникает необходимость производить сравнение указанных систем и устройств (при разработке, оптимизации), но в то же время современные системы передачи характеризуются отсутствием стороннего наблюдателя, который мог бы оценить качество получаемого изображения. Поэтому на сегодняшний день наиболее актуальной задачей является разработка объективных алгоритмов оценки качества изображений. В то же время обычно исследователи исходят из некоторых естественных идей и используют простые критерии, которые на практике, как правило, недостаточно хорошо согласуются с субъективными экспертными оценками.
Значительный вклад в данную область науки и техники внесли как отечественные ученые М.И. Кривошеев, В.А. Сойфер, М.К. Чобану, А.С. Крылов, Д.С. Ватолин, А.С. Конушин, Б.А. Алпатов, Ю.С. Бехтин, Ю.С. Радченко, так и зарубежные – S. Mitra, R. Gonzalez, R. Woods, Z. Wang, A. Bovik, H. Sheikh, E. Simoncelli, J. Astola, K. Egiazarian, R. Szeliski, R. Lukac и др. [1-44].
Важность разработки подобных алгоритмов также можно объяснить происходящим в настоящее время переходом к цифровому телевещанию, вызванным присоединением России к общеевропейской системе DVB. Для того чтобы в максимально сжатые сроки охватить всё население страны цифровым телерадиовещанием, постановлением Правительства Российской от 3 декабря 2009 г. № 985 утверждена федеральная целевая программа «Развитие телерадиовещания в Российской Федерации на 2009–2015 годы». В настоящее время экспертами в области цифровой обработки изображений предложено большое число критериев оценки качества, однако большинство разработанных методов имеют существенный недостаток – они требуют наличия изображения-оригинала (эталона), необходимого для проведения оценки. На практике же зачастую приходится сталкиваться с ситуациями, когда эталонное изображение недоступно. В этом случае возникает необходимость в создании неэталонных критериев, способных оценивать качество изображения «вслепую».
До последнего времени в цифровой обработке сигналов в основном использовались неэталонные алгоритмы, работающие только с определенным, априорно известным типом искажений (например, блочностью или размытием). Однако в настоящее время разработаны также метрики, не ограниченные каким-либо одним типом повреждений в изображении. В данных критериях используется процедура обучения алгоритма на одной или нескольких базах изображений и/или классификаторы искажений.
Дополнительно способствует разработке неэталонных алгоритмов оценки качества бурное развитие мультисервисных сетей передачи информации, наблюдающееся в России в последние годы. В таких сетях неэталонные критерии могут использоваться для определения качества сжатых изображений и видеопоследовательностей [1-3].
Обзор существующих критериев оценки качества изображений и видеопоследовательностей показал, что универсальных решений в данной области на настоящий момент не существует. Однако ряд альтернативно развиваемых проектов показал правильность и высокую значимость выбранного направления исследований.
Распределение энергии коэффициентов по частоте
Наиболее точной мерой качества изображений на сегодняшний день является результат субъективного визуального анализа. Однако проведение такого рода экспертиз не всегда удобно, поскольку занимает достаточно много времени и требует привлечения большого количества людей, поэтому в настоящее время актуальной является разработка численных алгоритмов определения качества.
Существуют два основных вида экспертных оценок: абсолютные и сравнительные [1,3]. В первом случае наблюдатель должен оценить качество изображения по какой-то заранее определенной шкале. В ряде методик процесс оценки облегчается тем, что наблюдателю предлагается набор эталонных изображений. Существуют и другие методики, когда наблюдатель вынужден принимать решение только на основании своего ощущения.
На результаты субъективных экспертных оценок влияют характер рассматриваемых изображений, а также условия проведения эксперимента. Если наблюдатель когда-либо ранее видел подобные изображения, то он склонен более строго оценивать погрешности, поскольку имеет сложившееся представление о структуре изображения. С другой стороны, в незнакомом изображении искажения могут оказаться незамеченными до тех пор, пока наблюдателю не будет на них указано. Ясно, что условия эксперимента должны в максимальной степени соответствовать наблюдениям в реальной обстановке. Поэтому международный союз электросвязи принял нормативный документ, носящий рекомендательный характер, целью которого является обеспечение одинаковых условий проведения экспертиз в разных лабораториях – ITU-R BT.500-11 [8]. В рекомендации ITU-R BT.500-11 кроме прочего описаны применяемые в настоящее время шкалы оценки качества изображения, выбор которых зависит от цели исследования.
Одной из наиболее распространенных методик оценки является мера DMOS (difference mean opinion score), которая вычисляется как разность между средней оценкой оригинала и средней оценкой текущего искаженного изображения (MOS). Как следует из определения, для оценки используется одностимуляционный метод, при котором оригинальное изображение входит в набор предлагаемых эксперту изображений и оценивается наряду с остальными. Оценка производится по шкале качества, согласно которой наблюдатель должен оценить общее качество изображения, изменяющееся от «очень плохого» до «очень хорошего».
Очень хорошо. Результатом экспертных оценок является линейное отображение значения, определенного по шкале качества, в диапазон оценок от 1 до 100. Считается, что для получения надежной оценки качества изображения необходимо опросить не менее двадцати наблюдателей [8,9]. Несмотря на точность и интерпретируемость результатов субъективной экспертизы качества, ее сложность и дороговизна делают более привлекательной разработку объективных критериев.
Задача объективной оценки качества изображений неразрывно связана с разработкой алгоритмов, которые могли бы автоматически, количественно определить качество оцениваемого изображения. Т.к. конечным потребителем визуальной информации является человек, то актуальной является разработка таких критериев, которые позволили оценить качество изображения так, как оценил бы его человек.
Все алгоритмы объективной оценки качества можно условно разделить на две большие группы: эталонные, требующие для своей работы наличия исходного, неискаженного изображения, и неэталонные, работа которых осуществляется только с использованием оцениваемого, как правило, искаженного, изображения. При этом более актуальной является задача разработки как раз неэталонных алгоритмов оценки качества, что обусловлено возможностями их применения на практике: там, где исходное, неискаженное изображение, как правило, недоступно.
Иногда в отдельную группу также выносят так называемые частично-эталонные алгоритмы, которые для своей работы требуют наличия не самого эталонного изображения, а некоторой априорной информации (например, информации о характеристиках канала передачи). Адекватность работы объективных алгоритмов оценки качества, а также их сравнение, осуществляется путем измерения корреляции с экспертными оценками (т.е. результатами субъективной экспертизы качества). Для этого на практике используются различные статистические коэффициенты, такие как коэффициент ранговой корреляции Спирмена, линейной корреляции Пирсона, величину среднеквадратической ошибки. При этом высокое значение коэффициентов линейной корреляции и корреляции Спирмена свидетельствует об адекватности работы алгоритма (о его высокой согласованности с субъективными оценками). Принципы работы алгоритмов оценки качества проиллюстрированы на рис. 1.2.
Различные подходы к объективной оценке качества изображений Для объективной оценки качества изображений в настоящее время используются алгоритмы, моделирующие некоторые характеристики зрительной системы человека (ЗСЧ) [10-13], осуществляющие извлечение определенных параметров изображения [15,16] и учитывающие статистические характеристики естественных изображений [17].
Применение неэталонной оценки в задаче подавления артефактов блочности
На сегодняшний день алгоритмы детектирования и распознавания объектов являются важной составляющей многих информационных систем. Особенно большое значение им уделяется в области охраны и безопасности.
Под задачей распознавания лиц понимают как выявление в потоке людей интересующих личностей из оперативной базы данных, так и сопоставление лица каждого человека, попавшего в кадр, персональным данным из общей базы данных [45, 46].
В Российской Федерации электронные комплексы обеспечения безопасности и охраны правопорядка внедряются в рамках программы «Безопасный город» [45]. Общая структура данной системы приведена на рис. 4.1. Кроме того, обычные паспорта будут со временем заменены на биометрические с чипом, содержащим изображение лица. Данные изображения из чипов впоследствии могут использоваться для поиска в базе данных.
Рассмотрим более детально процесс идентификации человека по изображению его лица. На первом этапе входной цифровой сигнал должен быть обработан алгоритмом автоматического обнаружения лиц. Система автоматического обнаружения лиц решает следующую задачу: по произвольному изображению на входе системы определить имеются ли на этом изображении лица, и если да, то указать, где находится каждое лицо и каков его размер. Алгоритмы выделения лиц находят применение в системах технического зрения, робототехнике, системах видеонаблюдения и контроля доступа, в интерфейсах взаимодействия человек-компьютер. Основными требованиями, которые предъявляются к подобному классу алгоритмов, являются: высокий процент выделенных лиц, работа в режиме реального времени, робастность по отношению к внешним факторам.
Работа большинства алгоритмов выделения лиц на изображениях заключается в сканировании входного изображения окном, имеющим определенную форму и различный масштаб, и в определении к какому классу относится изображение внутри этого окна («лицо» либо «не лицо»). Таким образом, задача выделения лиц на изображениях сводится к построению классификатора, эффективно разделяющего классы «лиц» и «не лиц» [46]. Результатом работы таких алгоритмов являются либо изображение с наложенными простейшими геометрическими фигурами, содержащими лицо (прямоугольник, овал, набор точек), либо индексный файл, содержащий координаты и размеры лиц на изображении. Этот результат передается на вход алгоритма распознавания.
Данный раздел состоит из двух основных частей. Первая часть посвящена анализу работы алгоритма неэталонной оценки качества в задаче детектирования лиц. Описывается подготовка тестовых баз изображений, искажённых шестью типами искажений (гауссовский шум, импульсный шум, размытие изображения вследствие медианной фильтрации, размытие изображения при воспроизведении сцен движения или быстро движущихся объектов, JPEG и JPEG2000). Приводится описание эксперимента по определению порога степени искажения изображения, при котором человек ещё способен распознать характерные черты лица человека. Анализируется зависимость уровня детектирования лиц от оценки изображения неэталонным алгоритмом оценки качества.
Вторая часть данного раздела посвящена влиянию искажений на уровень распознавание лиц. Приводится описание трёх алгоритмов распознавания. Анализируется изменения уровня распознавания после фильтрации модифицированным прогрессивно-переключающимся медианным фильтром.
Имея алгоритмы для оценки качества изображения и классификатор определения типа искажения в изображении, можно построить систему, которая бы автоматически оценивала качество изображения. При этом изображение может быть искаженно одним из шести типов искажения: гауссовский шум, импульсный шум типа «соль и перец», блочность и размытие границ (в случае сжатия изображения алгоритмом JPEG) [43], звон и размытие границ (JPEG2000) [25], размытие изображения вследствие медианной фильтрации (МФ), размытие изображения при воспроизведении сцен движения или быстро движущихся объектов (Motion Blur).
Необходимо получить зависимость уровня детектирования лиц от степени искажения изображений. Степень искажения изображений будем оценивать с помощью неэталонных алгоритмов. Для детектирования лиц на искаженных изображениях будем использовать алгоритм, предложенный
П. Виолой и М. Джонсом [14]. Данный алгоритм на сегодняшний день де– факто признан стандартом в задаче выделения лиц. Он является одним из лучших по соотношению показателей эффективность распознавания/скорость работы. Также этот алгоритм обладает низкой вероятностью ложного обнаружения лица. Алгоритм Виолы–Джонса хорошо работает и распознает черты лица под небольшим углом до 30 градусов. Их алгоритм состоит из трех этапов:
1. Переход к интегральному изображению. Интегральное изображение позволяет быстро вычислять признаки изображения, которые используются классификатором. Основная причина использования признаков вместо значений пикселей заключается в том, что признаки позволяют закодировать полученную в результате обучения информацию. К тому же системы, работающие с признаками, гораздо быстрее систем, оперирующих со значениями пикселей. Предлагаемый алгоритм использует три вида простых признаков. Значение двух-прямоугольного признака вычисляется как разность между суммами значений пикселей, принадлежащих двум прямоугольным областям. Области имеют одинаковую длину и ширину и ориентированы вертикально или горизонтально, как показано на рис. 4.2.
База изображений для эксперимента детектирования лиц
Алгоритм на основе МГК рассматривает классы по отдельности, и при преобразовании отличия между классами могут быть утеряны. Линейный дискриминантный анализ (ЛДА) выполняет сокращение размерности пространства с учетом разделения на классы [48, 82, 83]. Величины, относящиеся к одному классу, группируются в единый кластер, различные классы разделяются как можно сильнее.
Распознавание лиц осуществляется методом, используемом в алгоритме на основе МГК. Производится вычисление расстояния до ближайшего изображения из тестового набора и сравнение его с порогом К2. На основе полученной информации выносится решение. Метод сравнения гистограмм локальных бинарных паттернов
Описанные выше методы демонстрируют хорошие результаты в ситуации достаточного освещения видеосцены или, когда в базе присутствует, по крайней мере, 10 изображений каждого человека [88].
Основная идея метода сравнения гистограмм локальных бинарных паттернов (ЛБП, LBP) заключается в том, чтобы не рассматривать все изображение в качестве вектора высокой размерности, а описать только локальные свойства объекта. Извлеченные признаки будут иметь низкую размерность [90].
Формальное определение оператора LBP [85]: Далее строится гистограмма распределения локальных микропаттернов, таких как края, пятна и т.д. Сравнение гистограмм может проводиться различными способами: пересечение гистограмм; метод максимального правдоподобия; критерий хи-квадрат; метод сравнения с порогом K3. Подобный алгоритм позволяет зарегистрировать мелкие детали на изображении, но оказывается неустойчивым к масштабированию. Поэтому оператор ЛБП был усовершенствован для использования переменного числа соседей. Идея состоит в том, чтобы использовать произвольное число пикселей, лежащих на круге переменного радиуса (рис. 3.2) [85].
Алгоритм использует переключающуюся схему, включающую процедуру предварительного обнаружения импульсов и процедуру фильтрации изображения. При этом импульсный детектор принципиально отличается от детектора в рассмотренном выше прогрессивном переключающемся медианном фильтре. Его действие основано на сравнении значения пикселя в центре окна фильтрации с максимальным и минимальным значениями среди всех пикселей внутри окна [53]. При этом, если значение пикселя совпадает с максимальным или минимальным значением внутри окна фильтра, то пиксель считается шумовым, иначе – неискаженным. Далее проводится собственно сама процедура фильтрации, с учетом информации, полученной на этапе предварительного детектирования.
Рассмотрим этапы обработки цифрового изображения модифицированным переключающимся медианным фильтром более подробно. Алгоритм предварительного обнаружения (рис. 4.17) импульсов использует два изображения. Первое представляет собой поврежденное полутоновое изображение {xi}, где xi отображает значение пикселя в позиции і = (і і, h). Второе представляет бинарное изображение {/}}, где бинарное значение fi показывает, является ли пиксель в позиции / импульсом или нет, т.е. ft = 0 означает, что пиксель в позиции / не искажен, а fi = 1 означает, что пиксель в позиции / - импульс. В начале полагается, что все пиксели изображения - «хорошие», т.е. ft = 0. Полученное бинарное изображение {fi} предварительного обнаружения импульсов. В ходе процедуры фильтрации (рис. 4.18) используются две последовательности изображений. Первая представляет собой последовательность полутоновых изображений {{хг- )}, {хг- )},..., {xf },...}, где {xf } - входное, зашумленное изображение, а х\п) отображает значение пикселя в позиции і на изображении после п-й итерации. Вторая последовательность - последовательность бинарных изображений {{Уі(0)}ЛУі(1)}/"ЛУі(и)}5 "}, где бинарное значение / =0 означает, что пиксель с координатами / не искажен, а / =1 - что пиксель с координатами і является импульсом. Начальное изображение {/ } равно результату процедуры предварительного детектирования {/
Схема процедуры фильтрации алгоритма МППМФ На п-й итерации (я = 1,2,- ), для каждого пикселя х\п х, сначала вычисляются медианные значения mf X) в окне WF х WF (где WF нечетное, не меньшее трех) с центром вокруг пикселя. Медианы вычисляются, используя только пиксели, идентифицированные на этапе предварительного детектирования как неискаженные (f n X) = 0), находящиеся в пределах окна фильтрации. Пусть М отмечает число всех пикселей с f(n 1) = 0 в окне WF х WF. Если М четное, то медиана вычисляется как среднее арифметическое между двумя средними элементами отсортированных данных. Если М 0, то:
Для определения зависимости способности человека распознавать объекты от степени искажения запоминаемого объекта был подготовлен эксперимент. На основе базы FERET [91] было составлено 20 наборов похожих друг на друга людей (рис. 4.19): 10 мужчин и 10 женщин. Для исключения влияния запоминания фона и характерных объектов все изображения были откадрированы с помощью алгоритма выделения лиц. В каждом наборе было лицо наиболее похожее на оставшиеся три. Данное изображение называется якорным.
Якорные изображения были искажены импульсным шумом (рис. 4.20) и гауссовское размытием (рис. 4.21). Для каждого искажения были выбраны четыре степени искажения таким образом, чтобы на двух последних степенях человек мог с трудом запомнить изображение.
Во время эксперимента испытуемому показывалось якорное изображение в одной из степени искажения в течение двух секунд. После десятисекундного перерыва на экран выводился весь набор неискажённых изображения. Испытуемый должен был выбрать правильное изображение.
Каждому из 100 испытуемых были показаны все 20 наборов в различных комбинациях уровней и типа искажений.
Для эксперимента была подготовлена специальная программа, написанная на языке JavaScript. Результаты сохранялись в формате CSV для последующей обработки. В результате было получено 100 файлов CSV, которые были обработаны в специально написанной программе.