Введение к работе
з
Актуальность работы. В настоящее время автоматизация проектирования стала неотъемлемой составляющей научно-технического прогресса. Она значительно снижает длительность, трудоемкость и стоимость создания математического и программного обеспечения (ПО) систем различного назначения при одновременном повышении его качественного уровня. Учитывая то, что на создание ПО и математического обеспечения (МО) уходит больше средств, чем на создание всей системы, снижение трудоемкости разработки и, следовательно, ее стоимости является очень важным аргументом на пути применения систем автоматизированного проектирования (САПР) при разработке МО и ПО.
Работы В.М. Курейчика, И.П. Норенкова оказали существенное влияние на развитие САПР и послужили базой для создания новых подходов в совершенствовании систем автоматизированного проектирования (АП).
Одной из областей применения САПР является разработка автоматизированных систем текстового распознавания (ТР), которые применяются во многих практических приложениях: -регистрация номеров автомобилей, автоматическая идентификация торговой марки, при разработке программного обеспечения (ПО) автоматического чтения текста для людей с ограниченным зрением и т.д. и т.п. Применение ТР позволяет сохранить документ в электронном виде, что экономит пространство для архива, упрощает поиск нужного документа и т.д.
В данной работе основное внимание уделяется задаче оптического распознания образов, (англ.: optical character recognition или OCR) которая представляет собой процесс преобразования изображений (с помощью сканера, фотоаппарата, фотокамеры и т.д), содержащих рукописный или машинописный текст в машинно-редактируемый текст.
OCR - алгоритмы постоянно развиваются и совершенствуются. В настоящий момент для некоторых языков, например английского, французского, русского, уже разработаны алгоритмы, распознающие печатные тексты с высокой эффективностью. Современное коммерческое ПО OCR для этих языков рекламируются с заявлением о точности распознавания от 99%. Но
для более сложных языков, таких как вьетнамский язык, не решено еще много задач. Во вьетнамском языке букв и их комбинаций с диакритическими знаками примерно 190, и многие из них очень похожи друг на друга. Поэтому кроме обычных алгоритмов требуются специализированные алгоритмы для распознавания таких языков. На настоящий момент публикаций по теме "Распознавание вьетнамского языка" очень мало и они не решают многие задачи, проявляющие в процессе распознавания этого языка. Несмотря на попытки некоторых авторов, эксперименты показывают, что их методы недостаточно эффективны для обработки сканируемых изображений с шумами, и предлагаемые модели не отражают все сложности вьетнамского языка. Поэтому, исходя из вышесказанного, задача разработки математического обеспечения (МО) для систем автоматизированного проектирования (САПР) OCR - систем, специализированных для вьетнамского языка, является актуальной.
Цель диссертационной работы состоит в исследовании, модификации существующих и разработке новых методов и алгоритмов OCR, применяемых при проектировании МО в специализированных для вьетнамского языка автоматизированных системах обработки и распознавания документов.
Задачи исследования. Для достижения поставленной цели необходимо решить следующие задачи:
-
Анализ особенности вьетнамского языка с точки зрения распознавания текста. Выделение ограничений при применении стандартных и существующих методов распознавания.
-
Выбор и исследование методов и алгоритмов первичной обработки изображения: подавление шумов, выравнивание страница, анализ связных компонентов.
-
Разработка методики решения задачи сегментации и извлечения символов.
-
Разработка методики решения задачи распознавания символов на основе применения геометрического анализа и нейронных сетей.
-
Построение и обучение нейронной сети.
-
Разработка ПО для проведения экспериментов и демонстрации полученных результатов.
Методы исследования базируются на использовании теории и методов САПР, принципах системного подхода, теории
Методы исследования базируются на использовании теории и методов САПР, принципах системного подхода, теории искусственных нейронных сетей, теории алгоритмов, теории идентификации.
Научная новизна заключается в разработке новых и модификации существующих методов и алгоритмов, входящих в состав МО САПР специализированных для вьетнамского языка автоматизированных OCR - системах обработки и распознавания документов.
Основные положения, выносимые на защиту:
-
Методика первичной обработки изображения
-
Методика сегментации блоков
-
Методика извлечения строк из текстовых блоков
-
Методика извлечения символов из строки
-
Методика распознавания символов на основе применения геометрического анализа и нейронных сетей. Комбинирований алгоритм для повышения точности распознавания.
6. Методика построения и обучения нейронной сети.
Практическая значимость работы. Эффект от использования
результатов диссертационной работы состоит в следующем:
-
Создан эффективный набор методов и алгоритмов для всех этапов распознавания печатных документов вьетнамского языка.
-
Полученные результаты используются для создания коммерческого ПО для распознавания вьетнамского языка.
-
Сокращение сроков и стоимости преобразования бумажных документов в текстовый цифровой документ.
-
Некоторые алгоритмы могут использоваться в других областях кроме распознавания документов, например, для повышения качества изображения или выделения интересуемых объектов.
Апробация результатов работы. Основные результаты работы докладывались на научно-технических конференциях. Среди них: Международная конференция «Интеллектуальные САПР - 2006» (3-Ю сентября 2006 г., Геленджик), конференция ППС (8 января 2008 г. СПб ГУ ИТМО), V Всероссийская межвузовская конференция молодых ученых (15 - 18 апреля 2008 г. СПб ГУ ИТМО).
Публикации. Теоретические и практические результаты, представленные в диссертации, отражены в 6 научных работах, в
Структура и объём диссертационной работы. Диссертация состоит из введения, пяти глав, заключения, списка литературы из 42 наименований; изложена на 108 страницах машинописного текста, иллюстрированного 49 рисунками.