Содержание к диссертации
Введение
ГЛАВА 1. Обзор существующих методов и систем распознавания печатных текстовых символов 9
1.1 Общая характеристика подходов к распознаванию печатных текстовых символов 9
1.1.1 Сравнение шрифтовых и шрифтонезависимых подходов 10
1.1.2 Анализ структуры кириллического и латинского алфавитов 14
1.1.3 Классификация шумов при распознавании текстовой информации 18
1.2 Технологии обработки и распознавания печатных текстовых символов 21
1.2.1 Анализ цветовых моделей 23
1.2.2 Улучшение качества изображений 28
1.2.3 Сегментация изображений 34
1.2.4 Применение нейронных сетей для распознавания текстовой информации 41
1.3 Анализ существующего программного обеспечения распознавания
печатных символов 45
1.4 Выводы 47
ГЛАВА 2 Разработка методов и алгоритмов обнаружения наложенных текстовых символов 50
2.1 Предварительная обработка изображения 52
2.1.1 Обработка изображения во временной области 53
2.1.2 Адаптивная пространственная обработка изображения 55
2.2 Сегментация изображений 60
2.2.1 Цветовое адаптивное преобразование изображения 61
2.2.2 Формирование контурного представления изображения 68
2.2.3 Выделение объектов представления изображения 70
2.3 Пост-обработка масочного представления изображений 72
2.3.1 Первичная обработка масочного представления изображения 73
2.3.2 Вторичная обработка масочного представления изображения 77
2.4 Формирование образов текстовых символов 80
2.4.1 Формирование контурного представления с реконструкцией 81
2.4.2 Формирование образов текстовых символов 84
2.5 Выводы 85
ГЛАВА 3 Экспериментальные исследования 88
3.1 Функционирование системы распознавания наложенных текстовых символов на изображениях со сложной фоновой структурой 89
3.2 Экспериментальное исследование алгоритмов обработки изображения 90
3.3 Экспериментальное исследование алгоритмов формирования текстовых зон 101
3.4 Исследование качества распознавания образов текстовых символов 107
3.5 Выводы 111
Заключение 114
Библиографический список
- Общая характеристика подходов к распознаванию печатных текстовых символов
- Технологии обработки и распознавания печатных текстовых символов
- Предварительная обработка изображения
- Функционирование системы распознавания наложенных текстовых символов на изображениях со сложной фоновой структурой
Введение к работе
Актуальность работы. Современная вычислительная техника достигла такого уровня развития, что в большинстве своём участвует в различных аспектах жизни человека. Машинные методы распознавания — технология, нашедшая применение в целом классе прикладных решений. Наиболее удачной с коммерческой точки зрения и массово востребованной технологией является технология оптического распознавания текстовых символов. Распознавание текстовых символов применимо для обыденного использования (распознавание текста со сканированного материала), использования в профессиональной видео-корректорской сфере (обработка и распознавание субтитров в видеопоследовательностях) [93, 117, 146], специализированного применения в охранной сфере (распознавание номерных знаков транспортных средств, пересекающих контрольно-пропускные пункты, учет подвижного состава при транспортных перевозках), в мультимедийных библиотеках (индексация и поиск цифрового видео) [86, 90, 96, 98-100, 125] и других различных сферах деятельности [111, 120,130, 131,133, 134,144].
Эффективная индексация и поиск цифрового видео является наиболее важной функцией видео базы данных и мультимедийных библиотек [126, 131]. Ключевым элементом для поиска необходимой записи является текст, появляющийся в видеопоследовательности. Существуют два вида текста в видеопоследовательностях: текст сцены (фона) и искусственный (наложенный) текст. Наложенный текст зачастую является носителем важной информации [112, 115]. Поэтому возникает необходимость определения местонахождения, а также извлечение с последующим распознаванием наложенного текста в видеопоследовательности со сложной фоновой структурой изображений. Такие видеопоследовательности, а также статические изображения со сложной структурой фона могут содержать наложенный текст различного вида (несколько вариаций шрифта и цветового оформления). Особое значение для
качества распознавания текстовых символов имеет четкое выделение образа текстового символа.
Целью диссертационной работы является разработка методов и алгоритмов для создания системы распознавания наложенных текстовых символов в статических и динамических изображениях со сложной фоновой структурой.
Поставленная цель предопределила необходимость решения следующего комплекса задач:
- Провести анализ подходов для построения систем оптического
распознавания текстовых символов, а также методов обнаружения текстовых
символов на изображениях со сложной фоновой структурой.
Провести анализ методов улучшения качества изображения.
Разработать адаптивный алгоритм сглаживания фонового изображения с одновременным устранением цветовых искажений в предполагаемых текстовых областях.
Разработать методы и алгоритмы обнаружения наложенных текстовых символов в изображениях со сложной фоновой структурой.
- Разработать методы и алгоритмы выделения образа наложенного
текстового символа в статических и динамических изображениях.
- На основе разработанных алгоритмов создать компоненты (модули) для
проектирования систем распознавания наложенных текстовых символов в
статических изображениях и видеопоследовательностях со сложной фоновой
структурой.
- Разработать тестовое программное обеспечение и провести анализ
свойств разработанных алгоритмов, а также исследование их эффективности
при решении поставленных задач на тестовых выборках.
Методы исследования. При выполнении диссертационной работы использовались методы теории информации, теория обработки сигналов, теория математической морфологии, методы объектно-ориентированного - программирования.
Научная новизна диссертационной работы состоит в следующем:
Разработан гибридный метод обнаружения наложенных текстовых зон произвольной ориентации на статических и динамических изображениях со сложной фоновой структурой, использующий цветовое и контурное представления изображения, подвергнутого пространственной и структурной обработке.
Разработан метод выделения образов предполагаемых текстовых символов, имеющих сложную многоуровневую цветовую организацию, в обнаруженных текстовых зонах, который основан на реконструированном контурном представлении, а также цветовом и яркостном распределениях.
Разработан адаптивный алгоритм фильтрации изображения, в котором подбор размера и формы окна фильтрации, а также самого фильтра происходит на основе карт яркостной разницы, предложена модификация медианного фильтра для повышения степени сглаживания изображения.
Разработаны алгоритмы для проведения морфологической обработки, где действия зависят от маски обработки и выполняемой операции (позволяющие значительно сократить количество элементных проверок), также однопроходный алгоритм формирования окаймляющего прямоугольника для фрагмента изображения с расчетом плотности распределения элементов фрагмента.
Реализация результатов работы. Разработанный программный комплекс распознавания номерных знаков транспортных средств (GateKeeper) Версия 1.3 зарегистрирован в Российском реестре программ для ЭВМ г. Москва, 22 апреля 2004 г. (свидетельство №2004610994). Программа фильтрации и морфологической обработки двумерных изображений {FNX Image Processor). Версия 1.9.2 зарегистрирована в Российском реестре программ для ЭВМ г. Москва 11 июля 2007 (свидетельство №2007613017).
Разработанные алгоритмы и программное обеспечение используются в учебном процессе при проведении занятий по дисциплинам «Интеллектуальная обработка данных» и «Компьютерные технологии в науке и образовании» в Сибирском государственном аэрокосмическом университете.
Основные положения, выносимые на защиту:
Метод обнаружения текстовых зон произвольной ориентации на изображениях и видеопоследовательностях со сложной фоновой структурой на основе гибридного подхода.
Метод выделения образов текстовых символов, имеющих сложную многоуровневую цветовую организацию, с применением контурной реконструкции и анализа цветового и яркостного распределений.
Адаптивный алгоритм предварительной обработки изображений на основе карт яркостной разницы.
Апробация работы. Основные положения и результаты диссертации докладывались и обсуждались на 41-й научно-практической конференции студентов, аспирантов и молодых учёных, посвященной Всемирному дню авиации и космонавтики (Красноярск 2003г.), Всероссийской научно-практической конференции «Решетневские чтения» (Красноярск 2003, 2004, 2005, 2006 гг.), Всероссийской научной конференции студентов, аспирантов и молодых учёных «Наука. Технологии. Инновации» (Новосибирск 2003, 2006 гг.), конференции-конкурсе работ студентов, аспирантов и молодых ученых «Технологии Microsoft в информатике и программировании» (Новосибирск 2004 г.), Второй Всероссийской научно-практической конференции студентов «Молодёжь и современные информационные технологии» (Томск 2004 г), Региональном смотре-конкурсе программных проектов «^оД-Парад - 2004» (Красноярск 2004 г.), Третьей Всероссийской конференции творческой молодежи, посвященной дню космонавтики «Актуальные проблемы авиации и космонавтики» (Красноярск 2007 г.).
Публикации. По результатам диссертационного исследования опубликовано 20 печатных работ, из них 7 статей, 11 тезисов докладов, 2 свидетельства, зарегистрированных в Российском реестре программ для ЭВМ.
Структура работы. Работа состоит из введения, трех глав, заключения, списка литературы и приложения.
Общая характеристика подходов к распознаванию печатных текстовых символов
Отметим, что почти бесконечное разнообразие печатной продукции изготавливается при помощи ограниченного набора оригиналов символов, которые группируются по стилю (набору художественных решений). Группа оригиналов символов, включающая все алфавитные знаки, цифры и стандартный набор служебных символов, называется гарнитурой. Однако часто используется другое ассоциативное название гарнитуры - шрифт. Поскольку шрифт является основным атрибутом печатных текстов, он является основой для классификации существующих методов распознавания печатных символов. Известны два базовых решения: шрифтовый {multifont) и шрифтонезависимый {omnifont) подходы. В случае шрифтовых алгоритмов растровое изображение накладывается на шаблон и, соответственно, наиболее подходящим шаблоном является тот, у которого наименьшее количество точек отличается от исследуемого изображения. В свою очередь шрифтонезависимые алгоритмы идентифицируют символ по правилам его написания. В этом случае эталон, с которым производится сравнение, содержит в себе эвристическую информацию о правилах написания символа.
Шрифтовые или шрифтозависимые подходы используют априорную информацию о шрифте, которым напечатаны символы. Это означает, что ОРС-системе должна быть предъявлена полноценная выборка текста, напечатанного данным шрифтом. Программа измеряет и анализирует различные характеристики шрифта и заносит их в свою базу эталонных характеристик. По окончании этого процесса ОРС-система, использующая шрифтовые алгоритмы, готова к распознаванию конкретного шрифта. К недостаткам данного подхода можно отнести следующее: алгоритм должен заранее знать шрифт, который ему предоставляют для распознавания, т.е. он должен хранить в базе различные характеристики этого шрифта. В связи с этим для работы программы распознавания необходим блок настройки на конкретный шрифт. Качество распознавания текста, напечатанного произвольным шрифтом, будет прямо пропорционально корреляции характеристик этого шрифта с характеристиками шрифтов, имеющимися в базе эталонов. Таким образом, данный фактор ограничивает универсальность таких алгоритмов и увеличивает ресурсоёмкость в связи с необходимостью хранения большого количества эталонов. С другой стороны, у шрифтового подхода имеется преимущество, благодаря которому его активно используют. Оно заключается в том, что, имея детальную априорную информацию о символах, можно построить весьма точные и надежные алгоритмы распознавания. В общем случае при построении шрифтового алгоритма распознавания надежность распознавания символа является интуитивно ясной и математически точно выразимой величиной. Эта величина определяется как расстояние в каком-либо метрическом пространстве от эталонного образа символа, предъявленного программе в процессе обучения, до образа символа, который программа пытается распознать. Использование множества эталонов одного конкретного по значению образа символа также повышает степень распознавания в случае незначительного искажения фрагмента распознаваемого образа, иными словами шрифтозависимые алгоритмы обладают хорошей помехоустойчивостью.
Шрифтонезависимые подходы не обладают априорными знаниями о символах, поступающих к ним на вход. Алгоритмы, основанные на шрифтонезависимом подходе, измеряют и анализируют различные характеристики (признаки), присущие буквам как таковым безотносительно шрифта и абсолютного размера (кегля), которым они напечатаны [84]. В предельном случае для шрифтонезависимого алгоритма процесс обучения может отсутствовать. В этом случае характеристики символов измеряет, кодирует и помещает в базу эталонов программы сам человек. Однако на практике, случаи, когда такой путь исчерпывающе решает поставленную задачу, встречаются редко. Наиболее общий путь создания базы характеристик заключается в обучении программы на выборке реальных символов. К недостаткам данного подхода можно отнести следующее. Реально достижимое качество распознавания получается ниже, чем у шрифтовых алгоритмов. Это связано с тем, что уровень обобщения при измерениях характеристик символов гораздо более высокий, чем в случае шрифтозависимых алгоритмов. Фактически это означает, что различные допуски и огрубления при измерениях характеристик символов при работе шрифтонезависимых алгоритмов могут быть в 2-20 раз больше по сравнению с шрифтовыми алгоритмами. В случаях повреждения или искажения фрагмента распознаваемого образа степень точности распознавания сильно падает, из чего следует, что данные алгоритмы обладают низкой устойчивостью к помехам. Основными достоинствами этого подхода являются следующие: универсальность, технологичность и удобство в процессе использования программы. Универсальность означает применимость этого подхода в случаях, когда потенциальное разнообразие символов велико. Под технологичностью понимается то, что процесс обучения шрифтонезависимых алгоритмов обычно является более простым, т.е. обучающая выборка не фрагментирована на различные классы (по шрифтам, кеглям и т.д.). При этом отсутствует необходимость поддерживать в базе характеристик различные условия совместного существования этих классов, что в свою очередь снижает ресурсоёмкость системы. Проявлением технологичности является также тот факт, что часто удается создать почти полностью автоматизированные процедуры обучения. Удобство в процессе использования программы подразумевает следующее: пользователь не обязан знать что-либо о текстовой информации, которую он хочет ввести в компьютер и уведомлять об этих знаниях систему.
Технологии обработки и распознавания печатных текстовых символов
Для обнаружения текста в видеопоследовательностях или в изображениях со сложной фоновой структурой существуют два основных подхода [89, 102, 142, 149]. Первый подход основан на использовании контурной информации изображения. Использование контурной информации является достаточным для определения текста в сложном изображении, потому что каждый текстовый символ обладает достаточно чётко выраженной контурной структурой. В работе [114] М. Смит (М Smith и Т. Kanade) предложил алгоритм обнаружения текста в единичных кадрах видеопоследовательности. Его сущность заключается в том, что область, которая включает много контуров, рассматривается как текст. Недостатком данного алгоритма является то, что он сильно зависит от размера текста. Таким образом, при применении данного алгоритма возможно обнаружение текста только с определенным размером шрифта. В статье Т. Сато (Т. Sato и др.) [127,137] предлагается слияние обнаруженных контуров при помощи сглаживающих фильтров в предполагаемые текстовые блоки. М. Кэй (М. Cai и др.) предложил подход нахождения текста для видео, основанного на обнаружении контуров в цветовой модели YUV [89]. В. Вью (V. Wu и др.) предложил алгоритм, основанный на градиенте изображения [140,141,143]. Пиксели, которые имеют большой градиент, рассматривают как штрихи. Эти штрихи группируются в блоки текста на основе эмпирических правил.
Второй подход обнаружения текста основан на использовании цветовой информации. Цветовая информация используется для обнаружения текста в некоторых специализированных приложениях. Ю. Шонг (Y. Zhong) и др. [148] предложили алгоритм определения местоположения текста в цветном полиграфическом покрытии компакт-диска, которое в 90-х гг. XX в. имело монотонный фон. Данный алгоритм настраивается на одноцветную и определенную пространственную вариацию текстовых областей. В работе К. Джайн (К. Jain) [106] привел алгоритм для локализации текстовых зон, который предназначался для обработки газетных рекламных объявлений, вебстраниц, изображений и видео. Предложенный К. Джайном алгоритм основан на связанном компонентном анализе. Следует отметить, что данный алгоритм требует, чтобы текст или фон был одноцветным. В статье [139] предлагается использование цветных моделей текста и его фона для обнаружения заголовков и надписей видео новостей.
Однако методы обработки изображения могут существенно различаться в зависимости от того, каким путем изображение было получено - синтезировано системой машинной графики, путем оцифровки черно-белой или цветной фотографии или видео. Ввод изображения в 0С7?-систему возможен двумя путями: программным и аппаратным. Под программным способом понимается открытие файла (графического или видео формата). Аппаратный ввод, в свою очередь, подразумевает получение данных с внешнего источника. Роль внешнего источника могут выполнять сканер, ТВ-тюнер, фреймграббер, платы видеомонтажа или устройства, использующие универсальные порты ввода для цифровой видеоаппаратуры [6, 10].
Работа любой ОСЯ-системы из сферы документооборота происходит в два основных этапа. На первом этапе выполняется анализ графического изображения, переданного сканером, определяются области распознавания, области таблиц, картинок, в тексте выделяются строки и отдельные символы. На втором этапе выполняется распознавание отдельных символов. При рассмотрении специализированных OCR-систем (систем, работающих с изображениями, которые имеют сложный фон) необходимо выделить дополнительный «нулевой» этап - это улучшение качества изображения, т. е. предварительная обработка.
Под изображением обычно понимается информация, организованная в виде числовой матрицы, воспроизводящая свойства изображаемого объекта (сцены). Формально получение изображения заключается в определении функциональной зависимости цвета точек изображений от их координат CL=f{x,y). В зависимости от множества значений, которые может принимать элемент изображения J{x,y), различают следующие виды изображений: бинарное, полутоновое и цветное. Бинарное изображение имеет два уровня цвета (яркости) - черный и белый, J[x,y)e(0,l)- Полутоновые и цветные изображения обладают большим количеством градаций. При рассмотрении полутоновых и цветных изображений необходимо также учитывать глубину цвета
Предварительная обработка изображения
В связи с тем, что поставленная задача предполагает выполнение работ в пространственной и во временной областях, необходимо учитывать различные виды шумов (искажения изображения), которые могут присутствовать как на статическом, так и динамическом фоне изображения. Проведение фильтрации изображения строится в зависимости от цели решаемой задачи. Для статического изображения проводится только пространственная фильтрация. Для динамического изображения (видеопоследовательности) необходимо также учитывать возможные временные искажения. На практике для решения задачи шумоподавления в видеопоследовательности обычно используется сочетание пространственного и временного методов шумоподавления, так называемый 3)-фильтр. Таким образом, ставится задача разработки временного фильтра для видеопоследовательности (динамических изображений) и адаптивного пространственного фильтра для обработки статических изображений (в том числе отдельно взятых кадров).
Основная задача временной обработки изображения заключается в уменьшении искажений и отличий между кадрами в предполагаемых текстовых областях. Принимая во внимание положение о том, что текст на изображении в видеопоследовательности должен находиться на некотором временном отрезке (достаточном для того, чтобы человек смог прочитать текст). Исходя из данного положения и анализа различных видеопоследовательностей, содержащих наложенные текстовые элементы, экспериментально установлено, что минимальное время нахождения текста на изображениях видеопоследовательности составляет не менее 0,25 сек. Количество кадров в секунду может варьироваться в зависимости от стандарта вещания или формата оцифрованного сигнала. Наиболее часто в ходе оцифровки видео применяются следующие значения для частоты кадров, а именно 23,976 кадров/с и 29,970 кадров/с. Для перевода из временной характеристики в кадровое представление используется следующая формула: где К- количество кадров; Fps - частота кадров в секунду; / - время (с).
Рассчитаем количество кадров при временной продолжительности 250 мс. При частоте кадров 23,976 получаем значение 5,9952 кадров, а при частоте кадров 29,970 - 7.4925 кадров. Таким образом, для стабилизации цветовых значений в текстовых зонах целесообразно проводить фильтрацию изображений из видеопоследовательности в следующем порядке: фильтрация по временной компоненте, фильтрация в пространственной компоненте.
Для фильтрации по временной компоненте было решено использовать фильтрацию по порогу яркости - пороговая стабилизация цветов изображения. Данная фильтрация позволяет улучшить характеристики в предполагаемых текстовых областях, а также предоставляет возможность при необходимости зафиксировать участки с сильными отклонениями. Для стабилизации изображения предлагается следующее решение. При рассмотрении последовательности кадров задается первый кадр, который считается «ключевым» и формируется матрица яркости C(i,j). Затем анализируется последовательность кадров за сравнительно небольшой промежуток времени (2-5 кадров). Для каждого вновь поступающего кадра фоновое изображение корректируется в соответствии со следующей формулой: где Qey(/j) - матрица яркостей точек ключевого кадра; Ccur(ij) - матрица яркостей точек текущего кадра; Cnew(ij) - матрица яркостей точек последующего кадра; у - порог изменения яркости; 5 - коэффициент коррекции.
Пороговая стабилизация цветов изображения позволяет при необходимости сгладить различия между двумя изображениями. В свою очередь это положительно сказывается на обнаружении и ведении учёта текстовых зон в связи с тем, что в видеопоследовательности фоновое изображение, на котором находится текст, может значительно изменяться на каждом кадре.
Функционирование системы распознавания наложенных текстовых символов на изображениях со сложной фоновой структурой
На основе предлагаемых методов и алгоритмов было разработано тестовое программное обеспечение. Для построения системы ОРС возникает необходимость решения ряда подзадач, а именно: считывание данных, нахождение текста на изображении, определение области обработки (текстовой зоны), выделение текстовых символов (с учетом категорий символов) и их распознавание. Учитывая необходимость выполнения указанных действий, предлагается построение модульной системы распознавания наложенных текстовых символов из видеопоследовательности [38]. Схема функционирования системы распознавания наложенных текстовых символов представлена на рис.3.1.
Модули системы реализованы в виде библиотеки специальных компонентов (их основные функции приведены в таблице 3.1), реализация которых выполнена в среде разработки DELPHI:
А VI Reader - предназначен для работы с видео файлами. Представляет собой набор кадров, закодированных некоторым форматом сжатия (например, Xvid, DivX, х264 и т.п. [72]). Основное назначение данного модуля - это покадровое считывание;
Filter Engine - предназначен для фильтрации изображения. Включает в себя временной фильтр цветовой стабилизации, адаптивный пространственный фильтр, набор пространственных фильтров, а также блок функций для применения морфологической обработки; Search Engine - предназначен для обнаружения текстовых зон и выделения образов предполагаемых текстовых символов; Psevdo 3D Analysis - предназначен для перевода образа в бинарное представление для нейронной сети; Hemming Network- предназначен для распознавания образов.
Для улучшения качества обнаружения наложенных текстовых символов оригинальное изображение, подаваемое на вход системы, подвергается предварительной обработке. Предварительная обработка изображения осуществляется как в пространственной области, так и во временной области (для видеопоследовательности). Для выяснения наиболее приемлемых параметров обработки изображений, содержащих наложенный текст, проводились исследования соответствующих алгоритмов. Отдельным пунктом можно вынести проведение исследования в области морфологической обработки бинарного изображения.
Основная задача временной обработки изображения заключается в уменьшении значимой разницы между кадрами для текстовых зон. Для достижения этой цели было разработано тестовое программное обеспечение на основе предлагаемого алгоритма. Цель проведения эксперимента состояла в выяснении наиболее оптимальных параметров для различных категорий изображения. Процесс проведения экспериментов с использованием разработанного программного обеспечения происходил по схеме, представленной на рис. 3.2. После открытия файла с видеопоследовательностью (посредством модуля AVI Reader) происходит считывание и декодирование кадра, после чего формируется карта яркости кадра. Если на рассматриваемом кадре встречается наложенный тест, то задаются области с текстовыми зонами. Для этих областей происходит расчет распределения блоков с учётом значений. Далее применяется наложение пространственного фильтра (модуль Filter Engine) и происходит измерение отклонений в анализируемых областях. После этого изменяются параметры временной фильтрации (из заранее составленной схемы проведения эксперимента) и опять происходит замер отклонений. Такой процесс продолжается до тех пор, пока не закончится видео файл. По завершении процесса формируются массивы данных, на основе которых и проводится подбор коэффициентов коррекции.
Для человека наиболее заметны искажения темных тонов цвета. В связи с этим установку коэффициентов для коррекции изображения целесообразно ставить в зависимость от динамического диапазона яркости. В ходе проведения экспериментов были определены значения коэффициентов для проведения корректировки в зависимости от освещенности (значения канала яркости) изображения. Значение коэффициента коррекции для темных изображений (яркость в диапазоне 1-84) можно принять равным 4-6,5%, для изображений средней яркости (значения от 85 до 170) - 2.5-3,5% и для изображений, обладающих высокой яркостью (значения от 171 до 255) -1-2.2%.
Задача пространственной обработки изображения (фильтрация) заключается в том, что необходимо как можно качественней сгладить участки изображения, не находящиеся в текстовой зоне, при том условии, что искажения в области наложенных текстовых символах должны быть минимальными. Для проведения исследования сглаживания изображения на основе разработанных компонентов было создано тестовое программное обеспечение. Данное ПО позволяет рассчитать значение средней гладкости изображения как для единичного статического изображения, так и для фрагмента видеопоследовательности (который выбирается пользователем).