Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Структурирование визуальных представлений информационной среды и методы определения надежности распознавания Арлазаров Владимир Викторович

Структурирование визуальных представлений информационной среды и методы определения надежности распознавания
<
Структурирование визуальных представлений информационной среды и методы определения надежности распознавания Структурирование визуальных представлений информационной среды и методы определения надежности распознавания Структурирование визуальных представлений информационной среды и методы определения надежности распознавания Структурирование визуальных представлений информационной среды и методы определения надежности распознавания Структурирование визуальных представлений информационной среды и методы определения надежности распознавания Структурирование визуальных представлений информационной среды и методы определения надежности распознавания Структурирование визуальных представлений информационной среды и методы определения надежности распознавания Структурирование визуальных представлений информационной среды и методы определения надежности распознавания Структурирование визуальных представлений информационной среды и методы определения надежности распознавания
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Арлазаров Владимир Викторович. Структурирование визуальных представлений информационной среды и методы определения надежности распознавания : Дис. ... канд. техн. наук : 05.13.01 : Москва, 2004 120 c. РГБ ОД, 61:05-5/2176

Содержание к диссертации

Введение

Глава 1. Обзор существующих моделей форм и методов определения достоверности распознавания 7

1.1. Обзор существующих моделей форм 7

1.1.1. Модели вывода структурированных данных 7

1.1.2. Обзор моделей идентификации и распознавания бумажных структурированных документов 8

1.1.3. Анализ средств разработки экранных форм документов 10

1.1.4. Обзор наиболее распространенных в мире форматов/моделей представления форм документов 11

1.2. Обзор существующих методов определения достоверности результатов распознавания 18

1.3. Выводы 22

Глава 2. Концепция Формы 24

2.1. Модель формы и ее компоненты 24

2.1.1. Определение формы 24

2.1.2. Основные положения 25

2.1.3. Структура Моделей Формы 28

2.2. Концепция Формы и Процессы обработки Формы 29

2.3. Модель содержания 35

2.3.1. Слой «модель данных» Формы. Назначение: описание данных Формы, их структуры и связи с внешними источниками данных 35

2.3.2. Схема обмена данными с внешним информационным объектом 36

2.3.3. Слой ограничения данных 38

2.4. Модель взаимодействия 39

2.4.1. Секционная модель документа 39

2.4.2. Базисные секции 42

2.4.3. Слой «модель объектов ввода/вывода» 47

2.4.4. Слой «событийная модель» 49

2.4.5. Слой «свойства распознавания полей» 49

2.4.6. Слой «ограничения на данные сегментной модели» 50

2.4.7. Слой «словари» 50

2.4.8. Слой «модель содержания в секционную модель» 51

2.5. Модель визуализации 51

2.5.1. Схема преобразования модели взаимодействия в модель визуализации 51

2.6. Синтаксические определения, связанные с формой 51

2.7. Выводы 55

Глава 3. Достоверность распознавания в модели взаимодействия 56

3.1. Задача распознавания форм 56

3.2. Классифицирующая функция 57

3.3. Оценка эффективности системы распознавания 59

3.4. Правила определения достоверности 62

3.5. Правила «первой» альтернативы 63

3.6. Правила «двух» альтернатив 66

3.7. Комплексные правила отбраковки 68

3.8. Практическая реализация и исследование поведения различных правил определения достоверности 70

3.9. Выводы 78

Глава 4. Система обработки форм 79

4.1. Система обработки форм 79

4.1.1. Общая модель системы обработки форм 79

4.2. Проектирование и подготовка форм 80

4.2.1. Дизайнер Форм 81

4.3. Система Распознавания форм 85

4.3.1. Основные принципы, заложенные в систему при разработке 86

4.3.2. Схема функционирования 88

4.3.3. Основные этапы рабочего цикла технологии 89

4.3.4. Варианты технологических линий ввода документов 95

4.3.5. Вопросы эффективности и качества работы системы ввода документов 98

4.4. Примеры применения системы Cognitive Forms для решения задач массового ввода

документов 100

4.4.1. Ввод документов Московского отделения Пенсионного Фонда Российской

Федерации 100

4.4.2. Ввод банковских Платежных документов 105

5. Выводы 106

Заключение 108

Список использованной литературы 110

Приложения 116

Введение к работе

В современном мире ежедневно вводятся с бумаги, заполняются на экранах компьютеров, обрабатываются различным образом и выводятся на бумагу миллиарды различных форм документов: почтовых карточек, платежных поручений, таможенных или налоговых деклараций, банковских чеков, бюллетеней для голосования, разного рода бумажных и электронных анкет, заказов на товары или услуги в электронных магазинах, разных отчетов и множество других. Вводя формы, сотни тысяч операторов выполняют однообразную последовательность действий: бросают взгляд на очередную страницу, находят, и читают текст заполнения, и быстро набирают его на клавиатуре. Как альтернатива ручному вводу существуют технологии автоматизированного ввода форм. Существуют и активно используются тысячи различных систем электронного документооборота, базирующихся на понятии «форма», эти системы применяются практически во всех сферах деятельности.

Все активнее просматривается тенденция к объединению систем бумажного и электронного документооборота в единые комплексные системы, в которых идет оборот как бумажных, так и электронных документов. В эти системы интегрируются системы ввода/вывода бумажных документов и системы ввода/вывода электронных документов. Примером таких систем могут быть системы проведения социологических опросов, которые проводятся одновременно как посредством электронных форм, так и с помощью обычных бумажных анкет. Например, форма анкеты опроса, размещенная в глобальной сети, разосланная по электронной почте и напечатанная на бумаге, по сути, это одинаковые формы, содержащие одни и те же вопросы; их отличие заключено в способе представления и частично в способе взаимодействия с пользователем. Без единой модели формы необходимо, в лучшем случае, создать два описания (в некоторых случаях три) - описание электронных документов для глобальной сети и для распознавания бумажных документов, при этом большая часть спецификаций (модель данных, правила проверки и заполнения) будет дублироваться. При этом необходимо будет воспользоваться несколькими различными системами описания формы и языками программирования для создания этих форм. После чего еще необходимо будет реализовать обработку различных заполнений этих форм, используя разные средства разработки. Актуальной задачей построения таких комплексных систем документооборота является построение единого подхода к форме во всех ее проявлениях и создание модели формы, позволяющей описывать форму, как минимум, в трех представлениях.

В данный момент в мире активно происходит переход от бумажных форм к электронным или экранным формам, при этом сохраняется и оборот бумажных форм. Большую роль в обеспечении такого перехода и в функционировании таких смешанных систем играют системы автоматического ввода заполненных бумажных форм, предоставляющие альтернативу ручному вводу. Такие технологии обладают рядом явных преимуществ: современные модели сканеров могут вводить до 200 страниц в минуту, программы оптического распознавания текста "читают" несколько сотен символов в секунду и могут делать это без перерыва на обед. Помимо выигрыша в стоимости и качестве ввода, технологии сканирования и распознавания документов имеют и другое существенное преимущество: корректно идентифицированный поток документов, включающий распознанную информацию и графические образы, может составлять основу электронного архива, представляющего функции быстрого поиска документа, извлечения, пересылки и печати графического образа документа (по качеству аналогичной ксерокопии документа). Развитие глобальных компьютерных сетей и возможность организации удаленного доступа к таким архивам подчеркивают это технологическое преимущество, постепенно выдвигают его на первый план.

Таким образом, разработка систем массового ввода стандартизированных форм документов представляется актуальной задачей. Эти технологии опираются на достижения в обработке изображений и в распознавании двух самостоятельных, быстро развивающихся областях искусственного интеллекта. Однако в этих технологиях две задачи связаны не столько с распознаванием, сколько с процессами его окружающими. Об одной из этих задач уже говорилось, это использование в распознавании и интерпретации его результатов той же информации, что и при заполнении экранных форм и печати их на бумагу.

Другая важная задача, определяющая, наряду с качеством распознавания, эффективность системы ввода, выявление необходимости ручного контроля результатов распознавания, иначе говоря, автоматическое определение достоверности результатов распознавания, того или иного объекта без помощи человека.

Предметом данной работы является анализ и изучение систем работы с формами, выявление общности, обеспечивающей конструктивную основу для решения задач ввода/вывода, и распознавания структурированных документов в рамках систем документооборота стандартных форм, и построение методов оценки достоверности результатов распознавания. В рамках работы проводится исследование и разработка методологических основ, а также конкретных моделей, методов и средств для решения задач:

моделирования структурированного документа с точки зрения различных задач

ввода/вывода и распознавания,

автоматизации разработки шаблона документа (экземпляра модели структурированного документа определенного типа),

автоматического определения достоверности результатов распознавания полей структурированных документов в задачах ввода стандартных форм.

Целью данной работы является построение концептуальной модели формы, которая бы позволяла органично связать и описать основные процессы ввода/вывода структурированных документов и построение методов автоматического определения достоверности результатов распознавания полей структурированных документов в рамках разработанной концепции документа.

Задача состоит в построении концептуальной модели, которая позволяла бы описать форму в процессах:

ввода/вывода электронных форм на дисплей монитора,

автоматического распознавания форм,

вывода форм на бумагу.

Новизна предложенного в работе подхода состоит, прежде всего, в разработке универсальной модели формы структурированного документа, используемой для различных задач и абстрагированной от конкретных методов обработки, в отличие от существующих подходов, как правило, ориентированных на представление либо экранных, либо бумажных форм; впервые модель объединяет процессы ввода/вывода вне зависимости от того, экранная или бумажная форма используется в них. Независимость модели от особенностей конкретных методов обработки обеспечивает ее открытость для разработки и подключения новых методов, расширение классов обрабатываемых документов в рамках предложенной концепции. Кроме того, предложены новые подходы к реализации критериев достоверности результатов распознавания полей структурированных документов при использовании распознающих схем с оценкой, не имеющей вероятностного характера.

По теме диссертации опубликовано пять работ, две из них в соавторстве.

Обзор наиболее распространенных в мире форматов/моделей представления форм документов

Открытый формат PDF (Portable Document Format) версии 1.4 разработан и опубликован американской компанией Adobe в 2000 [PDF00], придя на смену менее совершенному формату версии 1.3. Формат разрабатывался и является базовым форматом для семейства продуктов Adobe Acrobat. Основной целью разработки, достаточно эффективно реализованной, было создание формата документа, позволяющего пользователям создавать, просматривать, печатать, заполнять и обмениваться документами вне зависимости от способа и места создания и программно-аппаратных средств используемых пользователем. В основе PDF лежит аппаратно-независимая модель описания содержимого страниц, схожая с моделью языка PostScript, приведенная в [APS00]. Кроме того, в формате присутствует богатый язык описания аннотаций, полей формы и других объектов, который используются для создания интерактивного содержания страниц, которые, хотя и не используются при печати документа, значительно расширяют возможности для интерактивного взаимодействия пользователя с содержимым документа и упрощают построение документооборота. В последней версии формата появилась спецификация, описывающая правила создания документов оптимальных для обработки на PDA9 и правила включения в состав документов XML объектов, а с версии 1.3 в нем содержится спецификация правил создания документов, оптимизированных для обработки в глобальных информационных сетях. А поддержка интерпретируемого языка JavaScript 1.2 [JS99] и собственного богатого языка формул и вычислений дает пользователю возможность создавать сложные интерактивные документы и даже простые системы документооборота. Кроме того, изначально в формате большое внимание уделялось вопросам безопасности информации, и в данный момент формат предусматривает возможность использования ЭЦП и шифрования любой части документа.

С точки зрения логического устройства документ в формате PDF есть набор обязательных и необязательных структур, описывающих документ, дерево страниц документа, каталог полей формы документа, потоки отображения документа и полей ввода, аннотации и т.д. Поля ввода организованы в дерево с наследованием атрибутов. Кроме того, что немаловажно, допускается использование ссылок, в том числе и на внешние объекты и структуры.

В данный момент формат получил значительное распространение и занимает второе место в мире после HTML, среди форматов представления форм. Об использовании этого формата как внутреннего формата представления документа информация отрывчатая и не подтвержденная, точно известно только про использование его семейством программ Adobe Acrobat.

С точки зрения физического устройства документ представляет собой текстовый файл с внедренными бинарными частями и возможностью произвольного доступа. Для обеспечения такой, достаточно странной, но в некоторых случаях весьма эффективной комбинации, в любом файле формата должны содержаться две специального вида структуры. Заголовок, содержащий описание документа, и таблица ссылок, содержащая точный битовый адрес всех объектов данного документа. Что немаловажно, имеется возможность оптимизации структуры документа для передачи его в сетях с низкой пропускной способностью.

К недостаткам формата можно отнести: отсутствие явно выделенной модели содержания формы, крайне высокую сложность, как самого формата, так и внедрения в него модели распознавания, отсутствие простой поддержки русского языка, отсутствие возможности описания динамических форм, отсутствие описания механизмов ЭЦП и шифрования и невозможность смены алгоритмов, несколько искусственную поддержку взаимодействия с пользователем. Кроме того, в описании формата отсутствует однозначный ответ на вопрос о возможности использования русского языка для активных элементов форм и подпрограмм на JavaScript. Также важным недостатком является практическая неприменимость в сфере распознавания как модели распознаваемого документа.

Ввиду вышеперечисленных достоинств и недостатков, а также на основе проведенного анализа и серии опытов наиболее эффективным использование формата PDF видится в качестве одного из финальных форматов систем документооборота. Использование формата в качестве внутреннего формата или базового формата систем документооборота и систем автоматизированного ввода не рекомендуется.

HTML-формы - это средство сбора информации через Web, поддержанное стандартом HTML, начиная с версии 2.0, утвержденной в сентябре 1995 года консорциумом W3C. В данный момент развитие этого формата остановлено, и последняя официальная версия 4.01 [НТМ99].

HTML-форма внедряется в HTML документ и может содержать такие элементы управления, как кнопки, переключатели, поля для ввода текста и т.п. Все эти элементы можно использовать, для того чтобы посетитель страницы мог отправить информацию на сервер.

Изначально формы предназначались только для отправки информации, введенной пользователем на обработку сервером. Однако их часто используют совместно с JavaScript, например для организации и (или) настройки пользовательского интерфейса на динамических страницах WWW11. Описание HTML формы может быть создано с помощью любого редактора HTML документов и даже, при наличии соответствующей квалификации, с помощью простейшего текстового редактора. В качестве процессора Web форм может выступать любой Интернет-браузер.

Логически HTML-форма представляет собой набор именованных полей, представленных на экране интерактивными элементами для ввода данных. Заполненная форма отправляется на сервер в виде набора пар поле-значение. Логически поля могут был. организованы в группы, но эта информация не используется браузерами при отправке данных, но используется при отображении формы - сгруппированные поля обводятся рамкой. HTML-форма всегда является частью HTML документа.

Статическая часть HTML-формы описывается средствами HTML, т.е. может включать в себя форматированный текст, изображения и т.п. Интерактивные элементы HTML-формы описываются тэгом INPUT, в атрибуте TYPE указывается тип элемента, например поле ввода текста, выпадающий список или кнопка. Дополнительные атрибуты поля ввода также описываются атрибутами тэга INPUT. Кроме полей ввода на форме могут присутствовать кнопки, служащие для вызова некоторых функций, например из скрипта. Существуют кнопки специального назначения, например для отправки данных на сервер используется кнопка, называемая Submit, а для очистки данных в форме используется кнопка Reset. Для логической группировки полей формы используется тэг FIELDSET. Более подробно с физическим и логическим устройством HTML формы можно познакомится в работах [Кор00],[Кир99].

Схема обмена данными с внешним информационным объектом

Слой экспорта данных предназначен для описания преобразования из структуры, заданной в «модели данных», в структуру внешнего информационного объекта. Слой является необязательным для каждой конкретной Формы, но понимание является обязательным для всех систем обработки форм. Допускается задание этого слоя в виде ссылки.

В схеме сохранения для каждого элемента может быть указан полный или частичный путь (способ) для сохранения данных и атрибутов, кроме того, для любого элемента может быть указано отсутствие необходимости в сохранении. Частичный путь задает положение элемента относительно пути, указанного на более высоком уровне описания (в структуре, списке, секции, пути в графе или пути в дереве). Важно отметить, что таких описаний - схем сохранения - может быть несколько, при этом все схемы должны быть уникально поименованы. Возможно 3 варианта сохранения данных: 1. Если ни в одном элементе не прописан путь для сохранения, данные сохраняются в соответствии с заданной в дереве модели данных; 2. В части элементов пути сохранения указаны, в части не указанны - данные в элементах с путями сохраняются в соответствии с этими путями, и ВСЕ данные сохраняются в соответствии с моделью содержания в XML. 3. Во всех элементах указаны пути — все данные сохраняются в соответствии с этими путями. Каждый объект данных может иметь ряд системных полей и атрибутов, кроме того, часть объектов данных может быть системными и не сохраняться. Для задания способов сохранения могут быть использованы три вида описаний: 1. Параметрическое. Набор атрибутов, которые однозначно определяют способ и место сохранения элемента. 2. XPath + Формулы. 3. ANSI SQL. При этом важно, что в схеме может явно не задаваться ни конкретный получатель, ни Формат, а лишь общие указания по способу отображения. Например, схема переименования полей может быть одна и та же как для реляционной базы данных, так и для текстового файла. В случае наличии нескольких схем в описании явно указывается обязательные и опциональные схемы. Предназначение слоя - гарантировать целостность данных Формы. Под целостностью подразумевается то, что если данные «правильные», то статус данных выставлен в «ОК», если данные не корректны, статус выставлен в «ОШИБКА», гарантированность типа обеспечивается только для элементов со статусом «ОК». Слой не описывает ограничения на данные Формы типологического и структурного порядка, типология и структура задается в «модели данных». Слой не специфицирует, когда необходимо выполнять проверку на соответствие данных тем или иным правилам или ограничениям, время вызова задается в модели взаимодействия слоем - «событийная модель». Структурные и типологические ограничения наследуются от слоя «модель данных». В данном слое описываются все правила необходимые для обеспечения целостности данных. Описание включает: - логические формулы, - арифметические или алгебраические вычисления, - тривиальные логические ограничения типа о заполнение (обязательное заполнение или пустота поля), о алфавит, о диапазоны, о число строк, о число символов, - регулярные выражения [ФрОЗ], формат, описание словарей, - релевантность (актуальность). Слой также включает стандартные и пользовательские правила валидации данных. Модель не накладывает ограничений на способ реализации тривиальных проверок, четко специфицируется только язык описания таких правил. Все правила и ограничения оперируют в контексте модели данных. Каждому правилу ставится в соответствии имя или имя типа для разделяемых правил, UUID правила и параметры, если они необходимы. Правила могут задаваться в виде ссылок на другие правила. Способы описания нестандартных пользовательских правил — интерпретируемые языки JavaScript 1.2 и VBScript [Ло98], импорт из динамических библиотек и ActiveX [Че98] объекты. Единым - универсальным языком описания пользовательских правил является JavaScript 1.2, и поддержка этого языка обязательна для всех подсистем, интерпретирующих этот слой.

Модель взаимодействия занимает промежуточное положение между моделью содержания и моделями визуализации и описывает схемы взаимодействия «пользователя» и данных Формы. В слоях этой модели содержится специфика процессов, в которых принимает участие Форма, и необходимые дополнительные описания и данные для обеспечения процесса обработки и целостности данных. Необходимость этой модели вызвана серьезными различиями между процессами, в которых участвует Форма . Так например, в системе генерации отчетов содержимое информационного объекта преобразуется сначала в строковый вид (принтер понимает только строки), а только потом уже выводиться, при этом часто на основе анализа данных вычисляются различные новые поля Формы , которые отсутствуют как в информационном объекте, так и при заполнении этой же Формы на экране. Процесс распознавания требует значительного числа специфических настроек, актуальных только для него (например, алгоритм распознавания), и не всегда может гарантировать тип получаемых данных (на выходе у систем распознавания поля - строка символов). При этом модель содержания у всех этих процессов одна, да и модель визуализации у процессов генерации отчетов и у системы распознавания тоже может быть одна.

Модель специфицирует события самой Формы (например, окончание ввода в поле) и процессов обработки (например, начало и окончание обработки формы), а также способ описания реакции на их возникновения. Задаются базовый набор событий и правила создания новых типов событий и их свойств (содержится в описании слоя «событийная модель»).

Фактически в слоях этой модели описывается способ представления данного в текстовом виде, способ взаимодействия с пользователем и содержательная разница между процессами, в которых может использоваться Форма.

Оценка эффективности системы распознавания

В данном случае построение модели визуализации и ее связь с моделью взаимодействия выполняется в автоматическом режиме, а параметры этой связи указываются в соответствующих закладках. В более сложных случая используется специальный диалог позволяющий настроить связь модели взаимодействия и модели визуализации. После завершения описания элементов формы, производится настройка логических правил заполнения. После чего форма тестируется на пригодность к обработке, и производятся необходимые корректировки параметров, после завершения тестирования форма готова и передается в хранилище форм. При этом необходимо отметить, что, несмотря на упомянутое число параметров, представленной на рис. 4-5 на описание формы состоящей из стандартных полей и групп, типа анкеты посетителя выставки, уходит 3-5 минут.

Анкета посетителя выставки. Теперь кратко опишем процесс, когда по уже готовым структурам данных проводится создание Формы. В начале выбираются структуры данных, которые должны входить в форму. После этого система по требованию оператора автоматически производит генерацию моделей содержания, взаимодействия и визуализации формы (для построения модели визуализации используется алгоритм, реализующий метафору - «укладка кирпичей»). После этого оператор производит, при необходимости, дополнительную настройку элементов формы, аналогично случаю с бумажной формой, за исключением того, что при переходе от структур данных к Форме используется информация, заложенная в описании данных (например, тип, диапазон, число символов в строке и т.д.) и отсутствующая в бумажной форме. С другой стороны, оператору приходится выполнять дополнительную работу по подготовке макета формы для печати, что в случае с бумажной формой делается автоматически.

Процесс описания формы при имеющихся готовых структурах данных и уже готовой бумажной форме является самым комплексным, и обычно, самым трудоемким процессом в дизайне форм. Основная задача этого процесса - совместить бумажное (экранное) представление с уже готовой структурой данных. Основной проблемой этого процесса является несовместимость представлений, которую и приходится разрешать на уровне моделей взаимодействия и модели данных. Например, в модели данных адрес должен быть разбит в соответствии с КЛАДР 19(при этом этот случай не самый сложный) а на форме он записывается одной строчкой, в этом случае приходится разрабатывать сложные алгоритмы перехода. Для решения таких проблем обычно используется переходные слои, а дизайн начинается с создания визуального представления, например, бумажную форму описывают, как было показано выше, а потом модифицируют модель взаимодействия, с целью облегчения перехода к модели данных (например, для адреса в визуальном представлении вводится одно поле, а модели взаимодействия заводится секция «адрес» которая описана выше в главе 2), после чего производится описание перехода в модель данных, используя либо параметрическое описание, либо один из возможных языков описания, которые перечислены выше.

После того как описание формы готово, оно передается в хранилище Форм и Документов, откуда при необходимости запрашивается процессами обработки, в том числе и для дизайна новой формы на основе элементов старой.

В данной части мы приведем обзор системы распознавания форм Cognitive Forms, разработанной при участии автора, которая реализует ввод бумажных форм и систему электронных форм. Обратим внимание на различные задачи, возникающие в этом процессе и их место в общей системе, затронем ряд вопросов технической реализации. В заключении раздела кратко рассмотрим несколько проектов массового ввода документов, реализованных на базе разработанной системы.

Система Cognitive Forms представляет собой программный комплекс, предназначенный для организации технологических линий массового ввода стандартизованных форм документов. Система позволяет вводить как бумажные документы с печатным заполнением, так и формы с рукопечатным заполнением, кроме того, система обеспечивает порождение электронных форм в стандартных форматах используемых в глобальных и локальных сетях - HTML, Adobe PDF и XForms и сбор данных порожденных форм. Модули системы устанавливаются на компьютерах, соединенных в локальную вычислительную сеть, и, взаимодействуя между собой, организуют конвейер обработки данных, позволяющий вводить до 50 000 и более страниц за сутки. Система функционирует на платформе Win32, система включает 14 исполняемых модулей (основных и вспомогательных) и более 100 динамически подгружаемых библиотек. Основная часть системы реализована на языке C++, общий объем, кода составляет около 800 000 строк.

Система решает одну «простую» задачу - максимизация объема ввода информации при минимизации ручного труда за единицу времени и при заданном максимальном уровне ошибок ввода, при этом время ввода информации должно быть много меньше, чем в любой системе, не использующей распознавания. Из постановки задачи вытекает дополнительное, к специфике распознавания форм, смещение приоритетов оценки методов и алгоритмов распознавания. Например, алгоритм идентификации формы должен иметь качество не ниже 99% для форм типографского исполнения и 90%-99% для других, такое высокое требование к качеству объясняется тем, что если форма не идентифицировалась или идентифицировалась не верно то в лучшем случае необходимо будет ее ввести вручную, а в случае многостраничных документов это может вызвать еще более серьезные проблемы. Кроме этого особое значение приобретает качество выделения областей ввода формы - от него во многом зависит качество распознавания формы вообще, если область выделена неправильно, в нее могут попасть, и будут как-то распознаны не относящееся к ней элементы формы, или будет потеряна одна или несколько букв или строк, а при регулярной ошибке потоковая обработка значительно замедляется. Большую значимость в таких системах приобретают методы синтаксического и структурного распознавания, основанные на априорных знаниях о синтаксисе и структуре поля, например, даты, адреса. Кроме того, встает проблема выбора критериев оценки систем для ее оптимизации, эта проблем описана в главе 3 данной работы.

Основные принципы, заложенные в систему при разработке

Размытость понятия документ - было разрешено с помощью введения еще одной модели взаимодействия для этапа сортировки. В этой модели содержится описание пакета документов как обычного документа, каждая из секций которого является в свою очередь документов. В этой же модели определены правила проверки комплектности документа.

Проблемы скоростного сканирования потока документов и обеспечение бесперебойности. Сначала, рассмотрим проблему скоростного сканирования потокового документов. Технологически, эта проблема состоит в том, что процесс сканирования желательно сделать непрерывным, при этом необходимо уметь разделять поток на пакеты документов для их последующей обработки. Обычно проблема решается одним из двух способов: 1. Документы (или в случае с Пенсионным фондом - пакеты документов сами по себе являются документами) закладываются в автоподатчик сканера по одному. После сканирования страниц документа сканер останавливается, в автоподатчик загружается очередной документ. Учитывая, что у промышленных сканеров скорость ввода составляет до 200 страниц в минуту, а время загрузки документа в автоподатчик составляет порядка пяти секунд, нетрудно подсчитать, что при среднем объеме документа в 10 страниц и скорости сканирования, пусть 120 страниц в минуту, и объеме автоподатчика 500 страниц, среднее время сканирования снижается за счет остановок сканера в два раза, что может быть критично при вводе больших объемов. Кроме того, разница в цене между промышленными сканерами со скоростью сканирования 60 страниц в минуту и 120 страниц в минуту составляет существенную сумму, которая, фактически, теряются во время простоя сканера. 2. Другой стандартный вариант решения - документы закладываются в сканер объединенные в порции, соответствующие объему автоподатчика. При этом, для разделения документов между ними прокладываются пустые (белые) страницы бумаги. Программное обеспечение, прилагаемое к промышленным сканерам, как правило, умеет детектировать такие страницы - например, если объем графического образа после упаковки меньше критического (например, после упаковки в формате CCITT Group4 объем файла меньше 3 кБ). После такой подготовки, программа сканирования автоматически разделяет сканируемый поток на документы, сохраняя графические образы в отдельные директории или изменяя префикс файла графического образа. К недостаткам такого подхода относятся: 1. необходимость ручной предварительной обработки — документы перекладываются листами белой бумаги, 2. дополнительный износ сканера - при среднем объеме документа в 10 страниц он составляет 10%, 3. необходимость ручной обработки бумажных документов после сканирования, для их разделения. Фактически в этом случае необходимо увеличение персонала как минимум в два раза для сохранения производительности, при этом проблема дополнительного износа сканера остается. Общим недостатком обоих изложенных методов является возможность ошибок при ручном разделении потока на документы. Критичность таких ошибок состоит в том, что они проявляются в поздний момент времени, когда некорректно отсканированная порция документов уже не находится в непосредственной близости со сканером, и может требоваться обращение в архив для определения проблемы. Разработанный в рамках системы и реализованный в данном проекте подход позволил автоматизировать вопросы автоматической комплектации документов из непрерывного потока страниц, полностью исключив ручную предварительную обработку основного потока и минимизировав необходимые вмешательства со стороны оператора в нештатных случаях. С практической точки зрения это позволило максимально использо 103 вать возможности скоростных сканеров, имеющих большой объем устройства автоматической подачи документов. Данная проблема была решена следующим образом: при обработке пакета документов, в автоподатчик загружается максимальный объем, в котором документы следуют один за другим, в том виде как они поступили на обработку - возможно, перевернутые на 180 градусов, без разделяющих белых листов, и проводится сканирование. Для разделения изображений таких пакетов документов был реализован программный модуль сортировки документов, который автоматически разделяет этот пакет на документы. В процессе работы модуль идентифицирует типы страниц и распознает поля ввода, контролирующие комплектность документа. Имея описание синтаксической структуры пакета (в соответствии с сегментной моделью сортировки см. Главу 2.) проводится определение возможных вариантов следования типов страниц, а также описаний полей, контролирующих комплектность, на основании анализа система автоматически идентифицирует начало нового многостраничного документа, и проверяет целостность скомплектованного документа (основные схемы пакетов документов Пенсионного фонда представлены в приложении....). Корректно скомплектованные документы ставятся в очередь на распознавание. В случае если документ скомплектован некорректно, он отсылается на рабочее место корректирования результатов комплектации. Оператор анализирует причину, по которой документ не корректен, как правило, это может быть: слипание страниц при сканировании, ошибка при заполнении документа (например, забыли зачеркнуть чекбокс «записи продолжены на следующем листе», а в реальности продолжили), либо ошибка при распознавании поля, контролирующего комплектность документа (например, неверно распознано поле «число документов такого-то типа») или, что тоже бывает, документы уронили при транспортировки и когда собирали перепутали страницы. В некоторых случаях может требоваться ручной пересчет документов в пакете. После выяснения причины, пакет документов может быть либо отсканирован повторно, либо отбракован, либо поставлен в очередь на распознавание в том виде, как был изначально отсканирован. Модули, реализующие, сортировку21 работают в автоматическом режиме, безостановочно и параллельно со сканированием, при производительности одного модуля сортировки в 2 страницы в секунду он полностью справляется с ходящим потоком от сканера производительностью до 120 стр./мин, а при необходимости возможно параллельное функционирование нескольких модулей. Исправление ошибок сортировки было передано в функцию оператора сканирования - в процессе сканирования очередного блока документов оператор успевает выполнить все необходимые действия и при необходимости включить ошибочный документ в очередной блок сканирования. Как результат такого подхода - из неподготовленного потока документов, сканируемого с максимальной для данного сканера скоростью, после этапа автоматической сортировки и комплектации на этап распознавания подаются корректно скомплектованные пакеты документов. Отклонения в структуре документов быстро фиксируются, так как проблема выявляется практически сразу после того, как отсканирован пакет, а рабочие места сканирования и корректирования расположены рядом и могут обслуживаться одним оператором.

Похожие диссертации на Структурирование визуальных представлений информационной среды и методы определения надежности распознавания