Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка алгоритмов распознавания рукописных символов на основе аналитических свойств изображения Сорокин, Андрей Игоревич

Разработка алгоритмов распознавания рукописных символов на основе аналитических свойств изображения
<
Разработка алгоритмов распознавания рукописных символов на основе аналитических свойств изображения Разработка алгоритмов распознавания рукописных символов на основе аналитических свойств изображения Разработка алгоритмов распознавания рукописных символов на основе аналитических свойств изображения Разработка алгоритмов распознавания рукописных символов на основе аналитических свойств изображения Разработка алгоритмов распознавания рукописных символов на основе аналитических свойств изображения
>

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Сорокин, Андрей Игоревич. Разработка алгоритмов распознавания рукописных символов на основе аналитических свойств изображения : диссертация ... кандидата физико-математических наук : 05.13.17 / Сорокин Андрей Игоревич; [Место защиты: Воронеж. гос. ун-т].- Воронеж, 2010.- 184 с.: ил. РГБ ОД, 61 10-1/1192

Введение к работе

Актуальность исследования

Цифровая обработка изображений является актуальным разделом исследований в области теоретической информатики, как в сфере фундаментальных наук, так и в сфере практических приложений. Известными примерами возникновения задачи обработки изображений в сфере фундаментальной науки являются астрономия, физика элементарных частиц, фотография. Практическое применение данной задачи связано с радиолокацией, медициной, географией, криминалистикой, широким спектром задач учёта, обработки и систематизации данных. Можно с уверенностью констатировать, что в настоящее время цифровая обработка изображений проникла во все области человеческой деятельности. В связи с этим общая задача обработки изображений распадается на весьма широкий класс подзадач. Одной из таких подзадач является задача распознавания машинописного и рукописного текста. За последние годы достигнут существенный прогресс в распознавании стандартизированного (машинописного) текста. Разработаны алгоритмы и ряд программных продуктов, позволяющих с высокой степенью точности распознавать машинописный текст. Иначе обстоит дело с алгоритмами и программными комплексами для распознавания рукописного текста. Так, существующие программные продукты предназначены, в основном, для ввода специальных форм или анкет, заполненных от руки и решения иных узко специализированных задач.

В то же время рукописный текст является наиболее естественным для человека способом сохранения и дальнейшего использования информации. С использованием современных средств вычислительной техники, глобальных сетей и средств обмена сообщениями роль рукописного текста в повседневной коммуникации возрастает значительно. Простейшими примерами являются почтовые адреса на конвертах, школьные задания, медицинские справки и заключения, заполненные от руки анкеты и формы, подписи на документах и банковских чеках, человеческое общение посредством письма. Большое значение проблема распознавания рукописного текста имеет в архивном деле. В настоящее время достаточно сложно оценить общее количество существующих рукописных архивных документов, которые уже сейчас требуют перевода в цифровой формат и распознавания. Например, на начало 2009 года в Государственном архиве Российской Федерации насчитывалось более 1 миллиона дел по истории Российской империи и истории России только периода Временного правительства. При этом большая часть документов является письменными источниками, написанными, как правило, каллиграфическим почерком.

Однако перевод рукописных документов в электронную форму путём прямого набора текста оператором с бумажного носителя сложен и подразумевает использование значительных человеческих ресурсов и специализированных программных оболочек. По этой причине существует реальная потребность в создании автоматизированных систем распознавания

рукописных документов, не требующих больших трудозатрат со стороны оператора.

Весь спектр перечисленных проблем, а также возникающие новые технологические задачи определяют актуальность разработки алгоритмов и методов цифровой обработки рукописных текстов, что и является предметом исследования настоящей работы.

Цели и задачи исследования

Целью диссертационного исследования является разработка и теоретическое обоснование алгоритмов, предназначенных для распознавания рукописных символов и текстов на основе развития методов распознавания печатных текстов и развитие новых алгоритмов решения данной задачи. Для достижения цели в диссертации решаются следующие задачи.

  1. Разработка алгоритмов распознавания изображения на основе синтеза символов из простейших геометрических объектов.

  2. Построение алгоритмов распознавания рукописных символов и текстов на основе методов, развитых для машинописных текстов.

  3. Разработка алгоритмов сегментации рукописных и машинописных текстов.

  4. Создание программной оболочки распознавания рукописных и печатных текстов на основе разработанных алгоритмов.

Методы исследования

Выполненные теоретические исследования основаны на использовании теории интегральных преобразований, теории вероятностей и математической статистики, методов аналитической геометрии, теории множеств, теории размерности, теории кривых, теории обобщённых функций. Экспериментальные исследования основаны на разработанных программных оболочках, написанных на языках программирования высокого уровня и на сравнении результатов с данными, имеющимися в литературе.

Научная новизна и значимость работы

Научная новизна работы заключается в разработке алгоритмов и создании программного комплекса (на основе разработанных алгоритмов) для распознавания рукописных текстов.

1 В работе впервые разработаны:

  1. алгоритмы распознавания прямых и окружностей без использования пространства «аккумулятора» для хранения параметров изображения двойственного исходному;

  2. быстрый алгоритм поиска окружностей на изображении на основе метода инверсий;

  3. алгоритм моделирования и распознавания кириллических рукописных символов с использованием алгебраических кривых;

  4. алгоритм выделения и классификации алгебраических кривых на изображении;

  5. алгоритм распознавания рукописных и печатных символов на основе дескрипторов функций длины хорды;

1.6 алгоритм определения угла наклона рукописных и печатных текстов на основе анализа диаграмм Вороного.

  1. Для разработанных алгоритмов в диссертации представлены теоретические обоснования.

  2. Доказана лемма о структурных элементах, используемых для фильтрации «скелета» изображения.

  3. Доказана лемма о структуре обобщённой диаграммы Вороного.

  4. Разработанные алгоритмы объединены в пакет прикладных программ для распознавания рукописных и печатных текстов. Практическая ценность работы заключается в применении

разработанного пакета прикладных программ для распознавания рукописных и печатных текстов. Разработанные алгоритмы могут быть применены в программно-аппаратных комплексах распознавания текстов на оптически сканированных изображениях, в том числе, для автоматизированного распознавания архивных документов и индивидуальных пакетов рукописного ввода информации, управления процессом обучения рукописному письму, в криминалистике для выделения характерных признаков почерка.

На часть разработанных программных продуктов получены свидетельства об официальной регистрации программ: «распознавание примитивов на изображении», «определение параметров центральных кривых второго порядка на изображении».

Соответствие диссертации паспорту научной специальности

Указанная область исследования соответствует формуле специальности 05.13.17 - «Теоретические основы информатики» (физико-математические науки), а именно:

пункту 5 «Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях разработка и исследование методов и алгоритмов анализа текста, устной речи и изображений»;

пункту 7 «Разработка методов распознавания образов, фильтрации, распознавания и синтеза изображений, решающих правил. Моделирование формирования эмпирического знания».

Структура и объём диссертации

Основное содержание работы изложено в шести главах. Работа содержит 153 страниц машинописного текста, 58 рисунков и 4 таблицы. Список цитируемой литературы включает в себя 92 наименования.

Публикации

По результатам проведённых исследований и практических разработок опубликовано 10 работ. Из них 1 в журнале Вестник Воронежского госуниверситета серия «Системный анализ и информационные технологии», рекомендованном ВАК для публикации материалов диссертации. Диссертационная работа содержит результаты, полученные соискателем, опубликованные в совместных статьях.

Апробация работы

Результаты исследований докладывались на: VII-й Международной научно-методической конференции «Информатика: проблемы, методология, технологии» (г. Воронеж, 8-9 февраля 2007 г.), VIII-й Международной научно-методической конференции «Информатика: проблемы, методология, технологии» (г. Воронеж, 7-8 февраля 2008 г.), XVI-й Международной конференции «Математика. Компьютер. Образование - 2009» (г. Пущино, 19-24 января 2009), ІХ-й Международной научно-методической конференции «Информатика: проблемы, методология, технологии» (г. Воронеж, 12-13 февраля 2009 г.), Х-й Международной научно-методической конференции «Информатика: проблемы, методология, технологии» (г. Воронеж, 11-12 февраля 2010 г.)

Основные положения, выносимые на защиту

  1. Теоретические основы алгоритмов и алгоритмы распознавания прямых и окружностей без использования пространства «аккумулятора», двойственного исходному изображению.

  2. Теоретические основы быстрого алгоритма поиска окружностей на изображении методом инверсий.

  3. Теория алгоритма и алгоритм моделирования и распознавания рукописных символов алгебраическими кривыми.

  4. Алгоритм выделения и классификации алгебраических кривых на изображении.

  5. Применение дескрипторов функций длины хорды к распознаванию рукописных символов русского языка.

  1. Алгоритм сегментации рукописных и печатных текстов на основе анализа диаграмм Вороного.

  2. Теория и алгоритм определения угла наклона рукописных и печатных текстов на основе анализа диаграмм Вороного.

  3. Объединенный пакет программных оболочек для анализа и распознавания рукописных символов

Похожие диссертации на Разработка алгоритмов распознавания рукописных символов на основе аналитических свойств изображения