Введение к работе
Актуальность проблемы. На сегодняшний день на рынке коммерческих программных продуктов существует множество систем автоматического ввода бумажных документов в компьютер. Многие из этих систем имеют чрезвычайно высокую точность распознавания тех видов документов, для которых они предназначены. В то же время каждый год появляются десятки публикаций в изданиях самого высокого уровня, посвященных проблеме распознавания текстовой информации. Дело в том, что большинство систем накладывают на качество и структуру обрабатываемых документов определенные, зачастую довольнц жесткие требования. До сих пор не существует систем, способных с' высокой точностью обрабатывать, например, произвольные банковские чеки без ограничения на форму чека, аккуратность письма и т.п., хотя почти любая система без труда справляется со страницей печатного текста или формой для анкетирования, аккуратно заполненной печатными буквами.
Значительная часть документов, которые требуется автоматически обрабатывать - это различные формы, заполненные от руки и содержащие раздельные или слитное письмо без ограничений на аккуратность.
Таким образом, задача распознавания рукописного текста(РРТ) является актуальной сегодня и проблема не будет закрыта в ближайшие десятилетия. Более того, можно сказать, что эта задача как научная проблема и как информационная технология, находиться на подъеме, благодаря большому интересу к этой области в коммерческих кругах, среди компьютерных компаний, в научном сообществе.
гас НАЦИОНАЛЬНАЯ f БИБЛИОТЕКА |
Существ\ют две различные постановки задачи распознавания символов, различие которых связано со способом получения изображения. Изображение символа может быть получено при сканировании документа, содержащего рукописный текст. В этом случае входными данными для задачи распознавания являются матрицы точек, соответствующие изображениям букв, и возникает задача «офф-лайн1» распознавания. Другой способ получения изображения - это использование специальных устройств, таких, как графический планшет. При этом изображение записывается в память компьютера в процессе написания символов; входными данными для задачи являются траектории движения пера, представляющие собой последовательности координат пера. Такая 'задача называется задачей «он-лайн» распознавания. В работе рассматривается задача «офф-лайн» распознавания.
Большинство существующих методов решения «офф-лайн» задачи распознавания символов включает три основных этапа: предобработка, формирование набора признаков или структурного представления и классификация. Набор признаков формируется по следующим видам информации, полученным на этапе предобработки: бинарная матрица, сглаженный граничный контур и скелет изображения Такой подход позволил достичь высокой точности распознавания напечатанных и аккуратно написанных символов
Стили написания произвольных рукописных символов широко варьируются. В отличие от печатных, рукописные символы из одного класса имеют совершенно различные структуры скелетов, граничные
Термины «odH/кіашт и «оіі-ілїгн» раиюзннмниезаимстяавани из англоязычная литер&луры которые t оригинале иучот как off-line handwritten recognition к on-Jine handwritten recognition
контура и тем более бинарные матрицы. Этот факт накладывает ограничение на использование вышеуказанного подхода к распознаванию произвольных рукописных символов.
В то же время, анализ существующих технологий свидетельствует о следующем факте: на сегодняшний день точность «он-лайн» методов выше точности «офф-лайн» методов.
Восстановление траектории движения пера по бинарному изображению символа сделало бы возможным применение «он-лайн» методов к «офф-лайн» задаче.
Среди существующих методов решения «офф-лайн» задачи распознавания рукописных символов метод, основанный на восстановлении траектории написания символа по его бинарному изображению, занимает важное место. В последнее время этому подходу посвящено большое количество публикаций. Данный подход можно рассматривать как попытку сведения задачи «офф-лайн» распознавания к «он-лайн» задаче с последующим применением существующих методов «он-лайн» распознавания.
Обзор и анализ опубликованных работ показывает, что до сих пор не создана технология восстановления траектории, способная восстановить траекторию написания символов с высокой точность и сделать возможным применение «он-лайн» алгоритмов к «офф-лайн» задаче.
Цель диссертационной работы состоит в разработке метода восстановления траектории движения пера по статическому изображению символа. Созданный метод должен обладать высокой точностью и
скоростью восстановления и способностью выявлять изображения, для которых восстановление траекторию невозможно. Основные задачи исследования:
Анализ существующих методов и систем восстановления траектории пера;
Создание технологии восстановления траектории пера по изображению рукописного символа, обладающей высокой точностью и высокой скоростью обработки символов;
Интегрирование высокоточных методов «он-лайн» распознавания с модулем восстановления траектории;
Создание программного комплекса, реализующего разработанную технологию и проведение экспериментов на тестовой базе изображений и траекторий рукописных символов.
Научная новизна работы заключается в следующем: 1. Разработаны алгоритмы восстановления траектории написания и давления пера на бумагу по статическому изображению символа, обладающие высокой точностью и скоростью обработки.
На основе разработанных алгоритмов построен блок предобработки изображений символов и блок восстановления траектории пера. Выполнены эксперименты по тестированию созданной системы на базе, состоящей из 10000 изображений.
Разработаны прототип системы распознавания символов, включающий блок восстановления динамической информации и блок «он-лайн» распознавания.
Научная значимость полученных результатов заключается в разработке новых эффективных методов восстановления траектории движения пера по изображению рукописного символа или слова.
Практическая значимость полученных результатов состоит в том, что на основе предложенных алгоритмов стало возможным строить новые и улучшать существующие блоки распознавания рукописных символов в системах автоматической обработки документов. Кроме того, разработанная технология позволяет создать более точные методы распознавания слитного текста и более точные методы идентификации личности по подписи в режиме «офф-лайн».
Основные результаты работы докладывались на научных конференциях МФТИ (Долгопрудный, 2002-2003 г.г.), на 11-й Всероссийской конференции «Математический методы распознавания образов» (ММРО-2003), на научных семинарах Института Автоматизации Проектирования РАН, Вычислительного Центра РАН, - кафедры информатики МФТИ, компаний Крок, Abbyy Software House, Istari Technologies LLC.
По теме диссертации опубликовано 7 печатных работ.
Диссертационная работа состоит из введения, шести глав и заключения.