Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Алгоритмизация распознавания сканированного рукописного текста на основе интеграции марковского моделирования и процедур обработки изображений Мозговой Алексей Александрович

Алгоритмизация распознавания сканированного рукописного текста на основе интеграции марковского моделирования и процедур обработки изображений
<
Алгоритмизация распознавания сканированного рукописного текста на основе интеграции марковского моделирования и процедур обработки изображений Алгоритмизация распознавания сканированного рукописного текста на основе интеграции марковского моделирования и процедур обработки изображений Алгоритмизация распознавания сканированного рукописного текста на основе интеграции марковского моделирования и процедур обработки изображений Алгоритмизация распознавания сканированного рукописного текста на основе интеграции марковского моделирования и процедур обработки изображений Алгоритмизация распознавания сканированного рукописного текста на основе интеграции марковского моделирования и процедур обработки изображений Алгоритмизация распознавания сканированного рукописного текста на основе интеграции марковского моделирования и процедур обработки изображений Алгоритмизация распознавания сканированного рукописного текста на основе интеграции марковского моделирования и процедур обработки изображений Алгоритмизация распознавания сканированного рукописного текста на основе интеграции марковского моделирования и процедур обработки изображений Алгоритмизация распознавания сканированного рукописного текста на основе интеграции марковского моделирования и процедур обработки изображений Алгоритмизация распознавания сканированного рукописного текста на основе интеграции марковского моделирования и процедур обработки изображений Алгоритмизация распознавания сканированного рукописного текста на основе интеграции марковского моделирования и процедур обработки изображений Алгоритмизация распознавания сканированного рукописного текста на основе интеграции марковского моделирования и процедур обработки изображений Алгоритмизация распознавания сканированного рукописного текста на основе интеграции марковского моделирования и процедур обработки изображений Алгоритмизация распознавания сканированного рукописного текста на основе интеграции марковского моделирования и процедур обработки изображений Алгоритмизация распознавания сканированного рукописного текста на основе интеграции марковского моделирования и процедур обработки изображений
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Мозговой Алексей Александрович. Алгоритмизация распознавания сканированного рукописного текста на основе интеграции марковского моделирования и процедур обработки изображений: диссертация ... кандидата Технических наук: 05.13.01 / Мозговой Алексей Александрович;[Место защиты: Воронежский государственный технический университет], 2016.- 158 с.

Содержание к диссертации

Введение

1 Анализ существующих методик и пути повышения эффективности оптического распознавания рукописного текста 14

1.1 Особенности оптического распознавания рукописного текста 14

1.2 Сравнительный анализ существующих математических моделей описания изображения рукописного слова и механизмов извлечения символов 21

1.3 Пути повышения эффективности алгоритмов распознавания рукописного текста, интегрированных в рамках системы поддержки принятия решений 44

1.4 Цель и задачи работы 46

2 Предварительная обработка изображений и выбор модели распознавания 48

2.1 Алгоритмизация предварительной обработки изображений 48

2.2 Алгоритм извлечения рукописных слов из сканированного изображения 64

2.3 Модель распознавания рукописных слов на основе скрытых марковских моделей 69

2.4 Выводы по второй главе 76

3 Распознавание слитного рукописного текста с применением скрытых марковских моделей 78

3.1 Алгоритм перевода изображения символа в векторную форму с использованием преобразования Хафа 78

3.2 Разработка алгоритма преобразования рукописного слова в набор символов методом «сканирующего» окна 83

3.3 Разработка алгоритма решения задачи взаимного «поглощения» марковских моделей 88 3.4 Решение задачи формирования базы моделей рукописных слов для задач автоматического распознавания рукописного текста 94

3.5 Выводы по третьей главе 100

4 Описание разработанной подсистемы распознавания рукописного текста и результаты эксперимента . 101

4.1 Последовательность распознавания рукописного текста в общем виде 101

4.2 Подпрограммы обработки рукописного текста 104

4.3 Система поддержки принятия решений по результатам анализа изображений, содержащих информационные потоки 111

4.4 Результаты эксперимента по распознаванию рукописного текста с использованием скрытых марковских моделей 118

4.5 Сравнение результатов 124

Заключение 129

Список литературы

Введение к работе

Актуальность темы исследования. Количество областей применения для алгоритмов и методик распознавания рукописного текста значительно: оцифровка рукописных статей, обработка чеков из чековых книжек, оцифровка архивных документов, распознавание почерков, прием страховых заявлений, прием квитанций о коммунальных и иных платежах, регистрация автомобилей при постановке на учет и снятии с него, обработка документов о дорожно-транспортных происшествиях, прием заявлений граждан в организациях самоуправления и многочисленных конторах по обслуживанию жилого фонда, прием рекламных объявлений, регистрация населения в паспортных столах, прием запросов в любых коммерческих фирмах, предоставляющих услуги населению, регистрационные палаты всех видов, прием всех видов заявлений и анкет в кадровых агентствах, учебных заведениях, военных комиссариатах и т. д., обработка почтовых отправлений, регистрация приезжих и беженцев, подготовка документов в нотариальных конторах, прием таможенных деклараций, прием визовых заявлений, распознавание сфотографированных записок, анализ (перевод) текста непосредственно из видеоряда в реальном времени.

На большом количестве предприятий идёт внедрение электронного документооборота, которое не может обойтись без оцифровки уже существующих или вновь создаваемых документов, часть из которых может быть представлена в рукописном виде. На данный момент перевод рукописных документов в цифровую форму возможен исключительно в ручном режиме, что занимает достаточно продолжительное время и не исключает появления ошибок.

Ввод текстовой информации рукописным способом является наиболее удобным и естественным для человека. При этом не требуется наличия технически-сложных устройств и, что существенно, специальных технических знаний по работе с этими устройствами. В компании ABBYY в 1997 году была разработана технология FlexiCapture, для задач распознавания рукопечатного (написанного от руки печатными буквами) текста.

Спустя двадцать лет не существует полно функциональной подсистемы распознавания написанного рукописного текста. Исследования в основном сосредоточены на очистке изображений от шумов, решении проблемы сегментации и т.д. Достаточно хорошо разработаны методики так называемого «online распознавания» - распознавания рукописного текста «на лету», когда распознавание происходит в процессе написания. Однако подобные методики не могут быть использованы в работе программного обеспечения, использующего сканированные документы. Методика распознавания сканированных документов разработана недостаточно. Определённые успехи достигнуты лишь при распознавании цифр и рукописных печатных символов.

В настоящее время разработками в области распознавания рукописного текста также активно занимается университетская группа исследователей Белграда (Сербия), отдел распознавания зрительных образов Украинского

института проблем искусственного интеллекта, New York University, Indian Statistical Institute (Kolkata, India), Московский физико-технический институт.

Невозможность сегментации рукописных слов на отдельные буквы делает бесполезным большой задел существующих наработок по распознаванию отдельных символов. Именно поэтому разработка новых алгоритмов, позволяющих обрабатывать слова целиком, а также новых подходов к формированию и использованию словарей целых слов является на сегодняшний день крайне актуальным направлением научной деятельности. Высокая вариативность в написании рукописных слов не позволяет достигнуть полной автоматизацию процесса распознавания, в связи с чем востребованы разработки по интеграции систем поддержки принятия решений (СППР) с автоматическими системами.

Работа выполнена в рамках основного научного направления Воронежского института высоких технологий «Моделирование информационных технологий; разработка и совершенствование методов и моделей управления, планирование и проектирование технических, технологических, экономических и социальных процессов и производств (№ гос. регистрации 01.2005.2305)» НИР «Разработка технологий создания многоуровневых web-ориентированных систем нового поколения» ФЦП «Научные и научно-педагогические кадры инновационной России (контракт №П481).

Цель и задачи работы. Целью работы является разработка и повышение эффективности средств анализа и обработки информации, извлекаемой из изображений, на примере задачи распознавания рукописного текста на основе системы поддержки принятия решений с применением марковского моделирования.

В рамках указанной цели решались следующие задачи:

анализ существующих методов и подходов к распознаванию рукописного текста и оценка применимости математического аппарата скрытых марковских моделей (СММ) для систем анализа и обработки информации, извлекаемой из сканированных изображений;

разработка специального математического и алгоритмического обеспечения для повышения эффективности систем анализа и обработки изображений;

разработка методики структурного синтеза словаря моделей для систем распознавания рукописных слов с использованием марковского моделирования;

разработка системы поддержки принятия решений по результатам анализа сканированных изображений;

разработка подсистемы распознавания рукописных слов, основанной на использовании СММ и системы поддержки принятия решений.

Научная новизна. Научная новизна выполненной работы заключается в разработке новых средств анализа изображений на основе компьютерных методов обработки информации. Разработаны новые методики, алгоритмы и

процедуры для систем поддержки принятия решений на основе анализа изображений. В контуре систем принятий решений и анализа изображений разработано новое алгоритмическое обеспечение для распознавания рукописного текста.

В диссертации получены следующие основные результаты, характеризующиеся научной новизной:

алгоритм извлечения символов марковской цепи из изображения, отличающийся применением преобразования Хафа к участкам изображения, извлекаемым с использованием сканирующего окна, позволяющий извлекать из элементов рукописных слов специфические признаки;

алгоритм построения и использования вектора наблюдений, расширяющий область применения скрытых марковских моделей за счёт сокращения размера алфавита символов наблюдений;

алгоритм извлечения рукописных слов из изображения, отличающийся поиском связанных друг с другом точек рекурсивным методом с последующим объединением областей связанных точек в отдельные слова по определённому набору правил, позволяющий извлекать слова с «плавающей» базовой линией;

методика синтеза рукописных слов для создания словаря моделей рукописных слов, отличающаяся применением трёхбуквенных сочетаний, позволяющих учесть вариативность межбуквенных соединений;

структурная схема системы поддержки принятия решений по результатам анализа изображений, отличающаяся возможностью гибкой параметрической настройки, а также применением процедуры ранжирования результатов анализа, полученных с использованием марковского моделирования, позволяющая по мере адаптации к параметрам задачи замещать ЛПР.

Практическая значимость работы.

Значимость работы заключается в том, что разработанные модели, алгоритмы и процедуры, представленные в диссертации, дополняют и расширяют теоретический ракурс исследования проблемы анализа и обработки изображений.

Разработанные структурные схемы систем анализа и обработки изображений применимы для широкого круга задач анализа информационных потоков символов, извлекаемых из изображений, в том числе для систем поддержки принятия решений. Предложенная модель рукописного слова расширяет возможность применения математического аппарата СММ к задаче распознавания рукописного текста. Алгоритм извлечения рукописных слов из изображения позволяет автоматизировать процесс подготовки графических объектов к последующему распознаванию. Предложенная предварительная обработка изображений рукописных слов, учитывающая особенности в их написании, позволяет увеличить эффективность применения алгоритмов скелетизации. Возможность создания словаря больших размеров из синтезированных слов расширяет область применения моделей целых слов.

Разработанные алгоритмы объединены в пакет прикладных программ, которые позволяют распознавать рукописные слова, извлечённые из сканированного изображения. Основные возможности пакета прикладных программ апробированы на практике. Созданная библиотека рукописных слов может быть использована при апробации различных алгоритмов распознавания.

Результаты работы внедрены в процесс документооборота производственно-технической деятельности Нововоронежской АЭС, использованы в учебном процессе кафедры информационных систем и технологий ВИВТ по курсу «Методы принятия решений» и подтверждены актами внедрения.

Методология и методы исследования. Данная диссертационная работа выполнена с использованием методов системного анализа, теории обработки изображений, теории распознавания образов, теории цепей Маркова, компьютерных методов обработки информации, методов объектного программирования.

Тематика работы. Содержание диссертации соответствует следующим пунктам паспорта специальности 05.13.01 - Системный анализ, управление и обработка информации: п. 5 «Разработка специального математического и алгоритмического обеспечения систем анализа, оптимизации, управления, принятия решений и обработки информации»; п. 9 «Разработка проблемно-ориентированных систем управления, принятия решений и оптимизации технических объектов; п. 12 «Визуализация, трансформация и анализ информации на основе компьютерных методов обработки информации».

Апробация результатов работы. Результаты диссертационной работы докладывались на международной молодежной научной школе «Теория и численные методы решения обратных и некорректных задач» (Воронеж, 2012 год), международной конференции «Системный анализ и информационные технологии» САИТ-2013 (Красноярск, 2013 год), международной научно-технической конференции «Искусственный интеллект. Интеллектуальные системы» ИИ-2013 (Украина, Крым, пос. Кацивели, 2013 год), 56-ой научной конференции МФТИ: Всероссийская научная конференция «Актуальные проблемы фундаментальных и прикладных наук в современном информационном обществе» (Москва, 2013 год), всероссийской конференции "Перспективные исследования и разработки в области информационных технологий и связи" (Воронеж, 2014 год).

Публикации. В процессе диссертационного исследования было опубликовано четырнадцать статей в научных журналах, включая четыре статьи в журналах, рекомендованных ВАК России для публикации научных результатов диссертационных работ, и одна монография.

В работах, опубликованных в соавторстве и приведённых в конце автореферата лично соискателем предложено: в [6] - алгоритм, компенсирующий искажения путём сдвига вертикальных элементов изображения.

Получено свидетельство о государственной регистрации программ для ЭВМ «Программа для распознавания рукописного текста на основе

математического аппарата скрытых марковских моделей» №2013660839, дата гос. регистрации 20 ноября 2013г.

Структура и объём диссертации. Диссертационная работа состоит из введения, четырёх глав, заключения, списка сокращений и условных обозначений, списка литературы, списка иллюстративного материала, приложений с листингами подпрограмм и результатами экспериментов. Работа объёмом 146 страницы машинописного текста содержит 68 рисунков, 4 таблицы и список литературы, включающий 135 наименований.

Сравнительный анализ существующих математических моделей описания изображения рукописного слова и механизмов извлечения символов

Распознавание текста на изображениях – очень актуальная тема для исследований, которая позволяет решать ряд научных и прикладных задач. Современные методы распознавания символов используются для решения широкого круга задач, как офисных, так и специализированных, например, распознавание изображений маркировки оборудования и др. Существует много методов для распознавания текста: метод структурных фреймов, метод биоалгоритмов анализа изображений, метод геометрических моментов, метод дескрипторов Фурье, метод вейвлет-преобразования, метод главных компонент, метод шаблонов и др. Однако, вопросы, которые связаны с распознаванием рукописного текста, особенно для систем с большой нагрузкой, исследованы не до конца.

Условно разделив текстовую информацию на печатную и рукописную и проанализировав достижения в области её оптического распознавания, несложно заметить, что качество распознавания печатных символов значительно лучше качества распознавания символов рукописных. Хотя источником информации в обоих случаях является человек, очевидно, что машина лучше оперирует данными, изначально введёнными с клавиатуры. На первый взгляд, это не кажется таким уж удивительным, но если вспомнить, что первые попытки научить машину (далее компьютер) мыслить, в том числе делать индуктивные выводы при анализе образов, были предприняты ещё в пятидесятых годах прошлого века, то разница в результатах становиться не такой очевидной. А ведь работа с первой моделью нейросети – перцептроном [2] была начата Френком Розенблаттом примерно в то же время, что и создание Джоном Маккарти символьного языка программирования Лисп [3]. Оказалось, что значительно проще написать программу, пользуясь ограниченным набором логически связанных операторов, и «научить» компьютер, например, играть в шахматы лучше ведущих гроссмейстеров, чем «научить» тот же компьютер мыслить хотя бы на уровне, позволяющем однозначно трактовать сочетания нескольких штрихов рукописного текста.

Первый патент на метод оптического распознавания был выдан более восьмидесяти лет назад. С тех пор качество распознавания печатных текстов постоянно улучшается и в данный момент находится на вполне приемлемом уровне. Иначе обстоит дело с распознаванием рукописного текста. Прямое копирование методик, применяемых для печатных символов, не даёт значимого результата, а попытки альтернативных подходов наталкиваются на многочисленные препятствия. Хорошим результатом на сегодня считается преодоление пятипроцентного порога в количестве ошибочно идентифицированных символов. Это равнозначно появлению в каждой строке текста двух-трёх ошибок, что недопустимо по причине больших трудозатрат на их последующее выявление и исправление. Помимо того, что весь текст можно поделить на рукописный и печатный, рукописный текст, в свою очередь, также делится на две большие категории по методу извлечения из него информации для последующего распознавания. Это распознавание текста в процессе его написания «на лету» и распознавание текста, извлечённого из изображения. И в том и другом случаях могут применяться одинаковые методики, хотя и с разным успехом.

Если провести анализ способов написания рукописного и печатного текстов, то можно убедиться, сто они сильно отличаются.

Каждое слово рукописного текста представляет собой комбинацию линий, которые получаются при движении пишущего узла от момента начала его движения по бумаге до момента завершения. Информация, полученная в процессе этого движения: траектория движения, скорость, сила нажатия на пишущий узел (при наличии такой возможности) и т.д. – используется для распознавания написанного текста. Отрезки линий внутри траектории движения могут использоваться вместе с информацией об их длине, либо рассматриваться как отрезки фиксированного размера. Это зависит от подхода, который будет использоваться в дальнейшем для распознавания написанного. Чаще других применяются методы опорных векторов (SVM-based approach) и скрытые марковские модели. Метод опорных векторов применялся, например, для группы романских [4], арабских [5], тайских [6] языков и арабских цифр [7]. Скрытые марковские модели использовались при распознавании тайского [6], английского [8], арабского [9] и многих других языков.

Информация о характере движения пишущего узла позволяет значительно улучшить результаты распознавания, что происходит не только потому, что мы получаем информацию, которая является дополнительной к оптической информации. Также, улучшению способствует факт неоднократного прохождения пишущего узла по одной и той же траектории.

Алгоритм извлечения рукописных слов из сканированного изображения

Предварительная обработка изображений является одним из важнейших элементов системы распознавания образов. От качества предварительной обработки зависит качество результата всей поставленной задачи. Главной целью предварительной обработки является получение результата, подходящего для применения в конкретной области. При этом не важно, чтобы результат хорошо выглядел «на глаз», главное – это удобство его последующей обработки.

Существует большое количество разнообразных подходов в осуществлении предварительной обработки [88]. Всё множество используемых методов можно разделить на методы обработки в частотной и пространственной областях [89]. Под пространственной областью понимается плоскость изображения с координатами [x,y]. Манипуляции производятся непосредственно с точками изображения. Возможно преобразование, как самих точек, так и массива точек в некоторой окрестности. Для работы с массивами точек используются маски определённого размера (так называемые «апертуры»). Операции с отдельными точками позволяют менять яркость изображения, бинаризировать, получать его негатив и т.д. Увеличение размера апертуры позволяет производить более нетривиальные преобразования. Преимуществом методов пространственной обработки является высокая скорость выполнения преобразований, недостатком – низкая эффективность и ограниченная функциональность.

Основная идея обработки изображения в частотной области заключается в вычислении свёртки изображения, преобразованного в частотный сигнал с определённым фильтром [115]. Подобный подход часто используется в задачах уменьшения шума на изображении и увеличении его контрастности. В спектре шума содержатся относительно более высокие пространственные частоты, поэтому даже простая операция усреднения может привести к значительному сокращению уровня шума. К этим методам относится сглаживающая частотная фильтрация, гомоморфная фильтрация, частотное увеличение резкости и т.д.

Для решения задачи распознавания рукописного текста часто применяется морфологическая обработка изображения [92]. Морфология предназначена для описания формы и структуры исследуемого объекта и использует пространственное представление изображения. Для отделения структуры символа от его графического представления используется один из приёмов морфологической обработки, так называемая «скелетизация».

Скелетизация символа – это процесс уменьшения его толщины до одного пикселя [114]. Преобразование такого типа применимо в качестве первого этапа процесса оптического распознавания. Такое преобразование можно использовать не только для упрощения последующей векторизации. Полученные «скелеты» символов в рамках данной работы повторно восстанавливаются до необходимой толщины с целью её выравнивания для всех символов и увеличения, таким образом, эффективности распознавания. Применение подобного подхода необходимо из-за различия в почерках, а именно – в размерах символов. После выполнения нормализации – приведения изображений слов к одинаковым линейным размерам – толщина элементов символов разных почерков может различаться в несколько раз.

Самая существенная проблема при работе алгоритмов скелетизации – это появление на результирующем «скелете» посторонних, не несущих значимой информации элементов [92]. Наличие искажений подобного рода меняет представление о символе, уменьшая эффективность его последующего распознавания. Данный эффект проявляется при использовании любого метода распознавания. 2.1.3 Ошибки выполнения скелетизации

Большинство алгоритмов скелетизации основано на итеративном утонении символа [114]. Изображение преобразуемого объекта представляется в виде двумерного массива из нолей и единиц, где единица обозначает пиксель символа, а ноль – пиксель фона. «Единицы» массива последовательно проверяются на соответствие определённым условиям, и по результатам проверки принимается решение о необходимости их обнуления. Чаще всего проверочная маска имеет размер 3х3, где в центре находится проверяемый пиксель с восемью соседями.

На рисунке 2.1 показан результат работы одного из самых популярных алгоритмов скелетизации – алгоритма Зонга-Суня [90]. Его популярность обусловлена простотой реализации в сочетании с хорошим качеством получаемых «скелетов». В приведённом примере алгоритм завершился после выполнения 17 итераций. Необходимо отметить, что подобные погрешности преобразования в той или иной степени проявляются при работе всех известных алгоритмов скелетизации подобного рода, пятнадцать из которых приведены в работе [91].

Разработка алгоритма преобразования рукописного слова в набор символов методом «сканирующего» окна

Использование СММ для анализа рукописного текста подразумевает выделение из его изображения последовательности символов наблюдений, которые соотносятся с графическими элементами слова. Полученная в результате последовательность, после решения первой задачи связанной с СММ [51], должна однозначно характеризовать изображённое слово. Однозначность этого соответствия главным образом определяется качеством алгоритма выделения символов. Под «качеством» понимается возможность алгоритма выделить из изображения такой уникальный набор статистических характеристик, который может быть порождён лишь определённой моделью, точнее, одна из моделей должна иметь заметно большую вероятность порождения этой последовательности чем остальные модели. К настоящему времени разработано большое количество подходов, позволяющих решать задачу распознавания рукописного текста [99]. В частности, предлагалось использовать СММ совместно с элементами символов, полученными из растрового представления изображения. Отдельно рассматривался анализ векторного представления. В данном параграфе предлагается рассмотреть возможность объединения векторного представления и анализа с использованием СММ.

Попытка распознавания изображения слова по его отдельным буквам практически идентична распознаванию речи по отдельным фонемам. Связи между буквами вносят некоторую вариативность в их написание. Это напоминает коартикуляционный эффект в случае с речью, когда последующая фонема зависит от её предшественницы [100]. В задаче распознавания речи данная проблема решается использованием бифонемных и(или) трифонемных конструкций. Представляется возможным использовать подобный подход и в случае с рукописным текстом.

Для определения возможности применения методик, показавших хорошие результаты в задачах по распознаванию речи, автором была рассмотрена возможность перевода данной задачи из одной области знаний в другую. Для эксперимента нами было взято два одинаковых по значению, но разных по написанию слова (рисунок 3.1) и выполнен перевод их графических представлений в форму линейного цифрового сигнала. Для работы [115] использовалось математическое программное обеспечение MATLAB 7, с использованием которого к изображениям было применено оконное обратное преобразование Фурье [2].

Результат преобразования изображений Несмотря на большое сходство сигналов между собой, после рассмотрения вопроса последующей обработки полученных сигналов, нами было принято решение о целесообразности извлечения символов марковской цепи из исходного графического изображения без предварительного преобразования.

После проведения анализа возможностей извлечения из участков изображения простейших графических примитивов [120], [121] нами было принято решение об использовании для этих целей линейного преобразования Хафа.

Основная идея линейного преобразования Хафа - это перевод линии из пространства точек изображения в пространство параметров. Классическое представление линии (3.1) не подходит для использования представления линии в пространстве параметров, так как параметры а и б принимают бесконечные значения для вертикальных линий. у = ах + Ь. (3.1)

Поэтому используются параметры r и , где r - длина радиус-вектора ближайшей к началу координат точки на прямой, а - угол между осью координат и радиус-вектором. Прямая, описываемая в этих параметрах, имеет вид (3.2). r = X-COS(#) + y-sin( 9). (3.2) Предположим, что некие прямые пересекаются на изображении в точке с координатами (x0,уо). Тогда в пространстве (r, ) эта точка описывается уравнением (3.3). г(в) = х0 cos( 9) + у0 sin( 9). (з.з) Уравнение соответствует синусоидальной кривой, являющейся уникальной для точки с координатами (x0,уо). Множество совпадающих прямых из пространства изображения в пространстве параметров представлены точками пересечения синусоидальных кривых. Таким образом, задача поиска прямых сводится к поиску точек пересечений в пространстве (r, ).

Точки пересечений из пространства Хафа (r, ) запоминаются в неком массиве - аккумуляторе. Аккумулятор имеет размерность, соответствующую количеству параметров пространства Хафа. В случае прохождения линии через некую точку, соответствующая ей ячейка аккумулятора увеличивает своё значение на единицу. После завершения расчётов для «идеально» прямой линии, в ячейке аккумулятора будет находиться значение, равное количеству точек анализируемой прямой. Если на изображении необходимо найти больше одной линии, то, как правило, применяется поиск локальных максимумов в пространстве аккумулятора. 12 13 14 15 16 17 IS 19 20 21 22 23 24 25 26 ?

Листинг программы MATLAB На рисунке 3.4 приведён листинг разработанной нами программы MATLAB, которая загружает изображение и переводит его в векторную форму с использованием преобразования Хафа. Предварительно к изображению применяется оператор Собеля [112] для выделения контура анализируемого символа. Это необходимо нам для исключения появления большого количества незначащих векторов, расположенных поперёк линий. Вместо оператора Собеля возможно предварительное утонение (скелетирование) анализируемых символов. На рисунке 3.5 показаны оригиналы изображений букв. Результат векторизации с использованием преобразования Хафа приведён на рисунке 3.6. Треугольными символами отмечены концы найденных векторов.

Результаты эксперимента по распознаванию рукописного текста с использованием скрытых марковских моделей

Размер алфавита определяется произведением количества зон разбиения изображения по высоте на количество типов линий по углу наклона. После преобразования всех сегментов изображения формируется цепь символов, которая подаётся на вход следующей подпрограммы.

Перед распознаванием слова производится загрузка базы моделей слов из каталога «\models». Загруженные модели последовательно сопоставляются с полученной цепью символов и ранжируются.

Для увеличения скорости работы алгоритма происходит отсев цепей символов по их длине. Отсеиваются модели, которые получены из слов, длиннее (или короче) анализируемых более чем на тридцать процентов.

Предполагается, что такая разница в длине не характерна одинаковым словам даже с учётом разных почерков [117]. Использование стабилизирующего коэффициента необходимо для предотвращения выхода результатов расчётов за минимальные пределы вычислительной точности. Структурная схема подпрограммы распознавания рукописного слова с комментариями приведена на рисунке 4.6.

Для обеспечения работы подсистемы распознавания рукописных слов необходимо подготовить модели рукописных слов и поместить их в соответствующий каталог «\models» программы [118]. Подготовка моделей осуществляется с использованием отдельной программы. Внешний вид приведён на рисунке 4.7. 109 Начало I Формирование из изображения последовательности символов наблюдения, О Задание первого элемента Рі(0) Расчёт первого столбца матрицы вероятностей at(0,i) J / i=l, N, \ \ j=l, N. І і Расчёт матрицы вероятностей at(j,і) Расчёт вероятности соответствия анализируемой последовательности текущей модели, Р J Рисунок 4.6 – Структурная схема алгоритма подпрограммы распознавания рукописного слова по Рисунок 4.7 – Окно подпрограммы создания моделей слов. Коэффициенты модели хранятся в следующем виде: Наименование: Указывается слово, которому соответствует модель ; Число состояний: Указывается число состояний модели (зависит от длины слова) ; Размер алфавита: Указывается размер алфавита ; A = Двумерный массив размером: число состояний число состояний ; В = Двумерный массив размером: размер алфавита число состояний . Разработанная программа позволяет выполнять как индивидуальное преобразование, так и пакетные операции над набором изображений. Таким образом, разработано программное обеспечение, которое позволяет обрабатывать сканированные изображения, извлекать из изображения рукописные слова и распознавать их. Система поддержки принятия решений по результатам анализа изображений, содержащих информационные потоки

На основе разработанных подпрограмм автором предлагается структурная схема СППР, представленная на рисунке 4.8. Предлагаемая система предназначена для поддержки пользователя при принятии им решений по результатам анализа и классификации информационных потоков. Изображение, содержащее информационные потоки, передаётся ЛПР и параллельно на вход СППР посредством графического интерфейса.

Сначала изображение подвергается предварительной обработке и оцифровке. Затем выполняется поиск областей изображения, содержащих анализируемую информацию. Участки изображения извлекаются и нормируются. Из подготовленных изображений извлекаются символы марковской цепи, из которых формируется марковская цепь наблюдений.

Штрихпунктирными линиями выделены элементы схемы с возможностью гибкой параметрической настройки. На основе подбора параметров осуществляется управление СППР. Сформированная марковская цепь наблюдений используется для ранжирования моделей из заранее подготовленной базы данных, содержащей математические модели распознаваемых объектов. Для ранжирования применяется алгоритм «прямого-обратного» хода – алгоритм вычисления апостериорных вероятностей последовательности состояний при наличии последовательности наблюдений. Модели соотносятся с объектами из базы данных для получения показателей ранжирования, которые используются в дальнейшем для решения задачи вариантного выбора. Подобные задачи при большом количестве вариантов трудно решить методом полного перебора, ввиду огромного количества вариантов. Решение должно опираться на метод, ограничивающий число переборов. В нашем случае ЛПР опирается на коэффициенты ранжирования, рассчитанные СППР.

Объекты поочерёдно предъявляются ЛПР в соответствии с индексами ранжирования. ЛПР делает выбор из предъявленных объектов и принимает окончательное управленческое решение. Предложенная система позволяет обеспечить уменьшение ошибки принятия решения и сократить время достижения поставленной ЛПР цели за счёт предъявления предварительно ранжированных объектов. Эффективность применения системы увеличивается по мере увеличения базы данных объектов. В случае, когда классификация объектов распознавания выполняется с приемлемым уровнем ошибок, возможно исключение ЛПР из процесса принятия решения, т.е. автоматизация.

Значительная вариативность в написании рукописных слов делает задачу автоматизации процесса распознавания сканированного рукописного текста весьма нетривиальной. Суммирование ошибок на каждом этапе процесса в конечном итоге приводит к увеличению процента нераспознанных слов до значительной величины, что ограничивает возможность практического применения разработанной подсистемы.

В данном подразделе предлагается разработанная структурная схема системы анализа и обработки изображений, а также рассматривается возможность внедрения элементов СППР на основе экспертных оценок [124] в графический интерфейс программы распознавания сканированного рукописного текста [104] в целях увеличения качества распознавания. Структурная схема предлагаемого решения показана на рисунке 4.9.

Взаимодействие осуществляется посредством графического интерфейса в интерактивной форме [125]. Применение пунктирных линий обозначает, что взаимодействие с ЛПР на этапе распознавания, строго говоря, не является обязательным. Если применяемые оптимальные характеристики по умолчанию позволяют получить на выходе приемлемый результат, то вмешательства ЛПР не требуется.