Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Адаптивные алгоритмы распознавания текстов Титов Юрий Васильевич

Адаптивные алгоритмы распознавания текстов
<
Адаптивные алгоритмы распознавания текстов Адаптивные алгоритмы распознавания текстов Адаптивные алгоритмы распознавания текстов Адаптивные алгоритмы распознавания текстов Адаптивные алгоритмы распознавания текстов
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Титов Юрий Васильевич. Адаптивные алгоритмы распознавания текстов : диссертация ... кандидата технических наук : 05.13.01 / Титов Юрий Васильевич; [Место защиты: Ин-т систем. анализа РАН].- Москва, 2007.- 115 с.: ил. РГБ ОД, 61 07-5/5246

Введение к работе

Актуальность работы. В современном мире каждый день переводится с бумаги в электронную форму огромное количество различных документов печатные тексты, платежные поручения, таможенные или налоговые декларации, бюллетени для голосования, различные анкеты и множество других Активно используются тысячи различных систем электронного документооборота практически во всех сферах деятельности При современных объемах потоков документов подобные операции немыслимы без автоматизированной обработки

Во всех системах электронного документооборота и системах ввода печатных текстов одним из ключевых этапов является распознавание текстовых символов - перевод информации из графической формы - результата сканирования — в текстовую форму Несмотря на многолетнюю историю развития алгоритмов распознавания и существование большого количества алгоритмов, хорошо распознающих четко напечатанные тексты, задача распознавания в более сложных случаях далека от решения Возникает задача дальнейшего увеличения точности распознавания документов низкого качества В частности, существующие алгоритмы обеспечивают относительно невысокую по сравнению с человеком точность распознавания текстов с графических изображений, полученных сканированием с малыми разрешениями Стоит отметить класс задач, в которых имеющееся графическое изображение невозможно улучшить путем увеличения разрешения сканирования или изменением параметров сканирования К таким задачам относятся уже созданные ранее электронные архивы документов в виде растровых изображений, электронные библиотеки, факсимильные сообщения и пр

Таким образом, разработка новых высокоточных алгоритмов распознавания текстов, равно как улучшение уже существующих, представляется актуальной задачей

Цели и задачи исследования. Целью диссертации является развитие методов и программных средств распознавания отсканированного текста, использующих преимущества адаптивного распознавания

Для достижения поставленных целей были сформулированы и решены следующие задачи

  1. исследование преобразования символов при сканировании с целью получения модели возникающих искажений,

  2. разработка улучшенных алгоритмов построения идеального образа распознаваемого символа,

3) разработка алгоритмов сравнения распознаваемых символов с
эталоном, улучшение существующих алгоритмов адаптивного
распознавания с целью повышения финальной точности распознавания

Методы исследования. В работе используются методы теории искусственного интеллекта, теории вероятности, теории построения алгоритмов и систем

Результаты, выносимые на защиту:

модель искажения символов при сканировании,

использование уплотненных взвешенных растров в качестве идеальных образов в адаптивном распознавании;

алгоритм адаптивного распознавания, использующий динамическое построение функций сравнения с эталоном

Научная новизна работы. В диссертации получены следующие новые научные результаты

проведен анализ алгоритмов адаптивного распознавания, и предложены уточненные методы решения на основе идеальных образов,

проведено исследование искажений образов при сканировании и предложена модель для расчета вероятности возникновения ошибки заданной величины при сканировании бинарного образа с последующей бинаризацией,

введено понятие уплотненных взвешенных растров и обоснована необходимость их применения,

разработан новый алгоритм поиска характерных фрагментов в рамках адаптивного распознавания при сравнении схожих образов, позволяющий заметно повысить точность распознавания в указанных ситуациях, и применимый для произвольных алфавитов, включая кириллицу и латиницу

Теоретическая и практическая ценность работы. В диссертации разработан алгоритм распознавания текстов, использующий особенности начертания шрифтов Особое внимание уделялось увеличению точности распознавания низкокачественных распознаваемых образов печатных текстов. Разработанный алгоритм является развитием уже существующих и проверенных на практике адаптивных алгоритмов распознавания.

Результаты исследований подтвердили, что использование разработанного алгоритма позволяет существенно улучшить точность распознавания в случае наличия схожих символов

Среди результатов исследований изложенных в диссертации — модель искажения изображений во время сканирования применительно к текстовым символам Данные результаты могут быть полезны специалистам в области распознавания

Реализация результатов. Приведенный в работе алгоритм реализован в качестве составной части программы распознавания текстов OCR Cognitive Cuneiform В классе печатных документов среднего качества точность распознавания символов возрастает с 99 6-99 7% до 99 7-99 8%

Кроме того, в процессе работы над диссертацией были улучшены существующие и разработаны новые программные компоненты, предназначенные для исследовательской деятельности в области распознавания текстов Полученный инструментарий можно активно использовать в дальнейших исследованиях в данной области

Апробация работы. Результаты диссертации и материалы исследований докладывались на четырнадцатой международной конференции «Математика Компьютер Образование», Пущино, Россия, 22-27 января 2007 г

Кроме того, результаты исследований и разработки, отраженные в работе, представлялись на семинарах Института системного анализа РАН

Публикации. По материалам диссертации опубликовано 4 работы (в том числе 3 публикации в ведущих рецензируемых научных изданиях, рекомендованных ВАК, 1 публикация в трудах научных конференций) и получен 1 патент

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка иллюстраций, списка литературы (50 наименований), и двух приложений. Общий объем работы составляет 115 страниц, включая 3 таблицы и 54 иллюстрации

Похожие диссертации на Адаптивные алгоритмы распознавания текстов