Содержание к диссертации
Введение
Глава 1. Состояние вопроса и задачи исследования 7
1.1 Современное состояние вопроса компьютерного представления древнеегипетского текста 7
1.2 Обзор методов распознавания текстов 14
1.3 Выводы 36
Глава 2. Модель распознавания древнеегипетского текста 37
2.1 Модель идентификации структурных элементов текста 37
2.2 Модель определения синтаксических параметров текста 51
2.3 Выводы 57
Глава 3. Программный комплекс поддержки деятельности египтолога 58
3.1 Архитектура программного комплекса 58
3.2 Описание иероглифического текстового редактора 65
3.3 Описание модуля хранения текстов 68
3.4 Описание использования технологии параллельных вычислений 79
3.5 Выводы 84
Глава 4. Описание вычислительных экспериментов 86
4.1 Описание механизма тестирования системы распознавания 86
4.2 Пример распознавания 93
4.3 Выводы 95
Выводы по диссертационной работе 96
Список источников и литературы 98
- Обзор методов распознавания текстов
- Модель определения синтаксических параметров текста
- Описание иероглифического текстового редактора
- Описание механизма тестирования системы распознавания
Введение к работе
Актуальность работы. Одной из частных задач распознавания образов является распознавание иероглифических текстов, которое наиболее актуально для стран Юго-Восточной Азии и при изучении древних культур, где языки построены на применении иероглифического письма. В то же время изучение письменности исчезнувших культур порождает дополнительные трудности, связанные со слабой изученностью лингвистики языка и существованием в древних языках синтаксических элементов, связанных с группировкой иероглифов, а также наличие повреждений иероглифов и других синтаксических элементов. Наряду с этим для этих языков требуется использовать применяемые историками методы кодирования текстов.
Решение проблемы распознавания иероглифических текстов наиболее актуально для групп историков, работающих в Берлино-Бранденбургской академии наук (Германия), Центре египтологических исследования РАН (Россия), Утрехтском университете (Нидерланды), Королевском колледже (Оксфорд, Великобритания).
К настоящему времени накоплена достаточная база методов сегментации изображений и их распознавания. В области распознавания образов известны результаты научных школ Загоруйко Н.Г. (Институт математики им. С.Л. Соболева), Л. Бреймана (университет Беркли), Дж. Фридмана (Стэндфордский университет), Я. Лекуна (Университет Нью-Йорка), К. Фукушимы (университет Kansai, Осака, Япония). Задачей распознавания иероглифических текстов занимаются научная школа А. Л. Шамиса (компания ABBYY), фирма NJStar Software Corp и научная школа Фей Нина (Институт автоматизации Китайской Академии Наук).
При этом результаты всех научных школ направлены на распознавание текстов с известной лингвистикой, что недостаточно для распознавания текстов на языках с неизвестной или слабо изученной лингвистикой. Примером такого языка является древнеегипетский язык.
Для компьютерной обработки древнеегипетских текстов в 80-е годы XX века европейские исследователи из Центра по автоматизации египтологических исследований (CCER) разработали стандарт Manuel de Codage (MdC). Решению проблем автоматического преобразования изображений текстов, полученных с исторических артефактов, в цифровой код были посвящены работы французских исследователей Д. Арриваля и Н. Ричарда (D. Arrivault, N. Richard), которые не дали практически значимых результатов. В тоже время историки до сих пор не имеют в своем арсенале инструментальных средств, позволяющих автоматизировать обработку древнеегипетских текстов.
Цель работы - разработка методов распознавания иероглифических текстов для языков со слабо изученной лингвистикой, имеющих в своей структуре сложные грамматические элементы, построенные из нескольких иероглифов, а также создание программного комплекса для работы с древнеегипетскими текстами.
Задачи исследования.
Разработка математической модели представления синтаксических структур иероглифических текстов для языков с неизвестной или слабоизученной семантикой.
Разработка нейросети распознавания структурных элементов и синтаксических параметров иероглифических текстов и алгоритмов обучения.
Разработка программного комплекса, включающего кодировку синтаксических элементов в стандарте MdC, распознавание структурных элементов и синтаксических параметров и систематизацию иероглифических текстов.
Проведение вычислительных экспериментов с целью проверки адекватности предложенных методов и алгоритмов.
Объектом исследования являются растровые цветные изображения высокого разрешения, являющиеся фотокопиями иероглифических текстов.
Предметом исследования являются методы сегментации и распознавания текстов.
Методы исследования - алгоритмы сегментации изображений, искусственные нейронные сети, технология параллельных вычислений, объектно-ориентированный подход программирования, математические модели поиска.
На защиту выносится следующее: Пункт 1. Разработка новых математических методов моделирования объектов и явлений.
Метод математического моделирования иероглифических текстов, соответствующий требованиям стандарта кодирования MdC
Метод нейросетевого распознавания изображения иероглифических текстов, построенный на применении фильтра Габора для выявления сегментов текста и степени их повреждения.
Метод нейросетевого распознавания синтаксических элементов древнеегипетских текстов (групповых структур и картушей) и представления текста в формате MdC
Пункт 4. Разработка, обоснование и тестирование эффективных численных методов с применением ЭВМ.
4. Авторская модификация алгоритма обучения Д. Хебба для нейросети
распознавания синтаксических элементов древнеегипетских текстов.
Пункт 5. Реализация эффективных численных методов и алгоритмов в виде комплексов проблемно-ориентированных программ для проведения вычислительного эксперимента.
5. Архитектура программного комплекса работы с древнеегипетскими
текстами, реализующая математические модели распознавания
иероглифов и способы визуализации текстов, кодированных в
стандарте MdC.
Научная новизна заключается в следующем: 1. Предложена математическая модель описания иероглифических текстов, включающая структурные элементы текста (иероглифы и
рамки картушей) и синтаксические параметры согласно стандарту кодирования MdC.
Разработана нейросетевая модель выявления структурных элементов иероглифических текстов, включающая функции сегментации на базе фильтра Габора и выявления степени повреждения сегментов.
Разработана нейросетевая модель распознавания синтаксических параметров иероглифических текстов, позволяющая идентифицировать иероглифические группы и картуши.
Модифицирован алгоритм обучения Д. Хебба для нейросети, позволяющий выявлять синтаксические элементы, включающие несколько иероглифов и картуши.
Практическая значимость. Разработана архитектура программного комплекса для работы с древнеегипетскими текстами, реализующая математические модели распознавания иероглифов и способы визуализации текстов, кодированных в стандарте MdC
Достоверность и обоснованность научных положений и результатов определяется применением нейросетевых методов распознавания изображения, модели фильтра Габора, использованием векторной модели поиска и технологии параллельных вычислений CUDA, а также подтверждается сравнением результатов, полученных в вычислительных экспериментах с иероглифическими текстами.
Реализация и внедрение результатов. Программный комплекс поддержки деятельности египтолога апробирован в системе TLA Берлино-Бранденбургской Академии Наук (Германия).
Апробация работы. Основные результаты докладывались на международной конференции ГрафиКон-2010 (Санкт-Петербург, 2010г.), научной сессии НИЯУ МИФИ (Москва, 2010г.), всероссийской конференции Нейроинформатика-2010 (Москва, 2010г.).
По результатам исследований опубликовано 13 печатных работ, из которых в рекомендованных ВАК РФ периодических изданиях - 1, получены 3 свидетельства о регистрации программ для ЭВМ.
Структура и объем работы. Диссертация состоит из введения,
Обзор методов распознавания текстов
В настоящее время TLA пополняется литературными сочинениями Среднего царства (Саксонская Академия наук), списками Книги мертвых (Академия наук земли Северный Рейн-Вестфалия), демотическими текстами (Академия языка и литературы, Майнц) и разными материалами, обрабатываемыми непосредственно в Берлинско-Бранденбургской Академии наук. Всего на сегодняшний день в TLA проиндексировано 900 000 слов.
В состав TLA входит не только сам Берлинский словарь, но и его оцифрованная картотека (Das digitalisierte Zettelarchiv - DZA) [58, 59]. Создание системы оптического распознавания текстов могло бы значительно ускорить процесс создания тезауруса.
Помимо общепринятого стандарта кодирования MdC иероглифические тексты представлены также и в транслитерации. Транслитерация - замена символов языка специальными кодами. Тексты в транслитерацию переводились до появления стандарта MdC, в настоящее время для публикаций египтологических исследований транслитерация еще применяется. Общепринятого способа алгоритма перевода из MdC в транслитерацию и наоборот не существует. Система TLA также работает только с текстами, переведенными в транслитерацию. Для отображения транслитерации применяется несколько шрифтов True Type: Transliteration, TrlitCG Times, Inscribe Phonetic, Umschrift Times, New Athena Unicode.
В рамках египтологических исследований возникают задачи синтаксического анализа текста и нахождения лингвистических правил древнеегипетского языка. Для этого проводится анализ как можно большего количества текстов. Все это требует средства организации коллекции и систематизации иероглифических текстов. Наличие большой коллекции иероглифических текстов требует организации поисковой системы.
Особенности древнеегипетских текстов накладывают ограничения и на модель поиска. Ввиду слабой изученности лингвистики языка для поиска не подходят многие модели и алгоритмы поиска, такие как булева, вероятностная, матричная и энтропийная модели, обработка естественного языка и латентно-семантическое индексирование [98].
Тексты на древнеегипетском языке содержат структурные элементы, кардинально отличающие их от текстов на любых современных языках, что затрудняет процесс распознавания изображений текстов. Особую трудность вносит практически полное незнание лингвистики языка, что не позволяет проводить проверку правильности распознавания текста. Для функционирования механизма распознавания необходима разработка своего иероглифического текстового редактора, полностью поддерживающего стандарт MdC.
Задачу распознавания иероглифического текста можно определить следующим образом. На вход подаётся изображение текста. Требуется определить его кодированное электронное представление, т.е. произвести его перевод из растрового графического представления в текстовое. Последнее означает, что для каждого изображения смыслового элемента текста нужно определить соответствующее кодирующее число. А это означает, что каждый фрагмент исходного изображения, соответствующий смысловому элементу, должен быть отнесён к одному из классов, набор которых задаётся известным алфавитом. Выходное текстовое представление рукописи должно содержать весь набор элементов, представленный в исходном изображении, в соответствующем порядке их следования. При этом для правильного отображения всех смысловых элементов необходимо проводить анализ иерархической структуры документа.
Для правильного представления распознанного текста и последующего анализа необходимо наличие математической модели текста, описывающая грамматические элементы языка и их отношения без привязки к синтаксическим и семантическим правилам. На данный момент не представлено таких моделей представления текста применимых в задаче распознавания изображений. Стандартные подходы моделирования текста, например грамматика Хомского, не подходят для задач распознавания древнеегипетских текстов ввиду ориентации моделей на лингвистическое представление текста и слабой изученности лингвистики языка.
В отличие от OCR-систем, работающих с использующимися на данный момент языками, в данном случае мы не можем привлечь на помощь лингвистику, так как нашего знания древнеегипетского языка не достаточно [4] для создания действительно работающего лингвистического модуля, который исправлял бы ошибки модуля распознавания, как это сделано, например, в АЪЪуу FineReader [5]. К тому же в египетском письме гласные звуки опущены и среди иероглифов нет знаков для их выражения, а также полностью отсутствует пунктуация [4].
В классической теории распознавания текстов постулируется поэтапный анализ изображения документа [6-7]: сначала проводится выделение изображений символов, эта задача получила название сегментация, и классификация полученных изображений символов некоторой системой, эта задача является непосредственно распознаванием. Решению проблем автоматического преобразования изображений текстов, полученных с исторических артефактов, в цифровой код были посвящены работы французских исследователей Д. Арриваля и Н. Ричарда (D. Arrivault, N. Richard) [8], применявшие для распознавания нечеткие иерархические атрибутивные графы, построенные на точках скелета символа. Данная работа не дала практически значимых результатов.
Проведем анализ современных методов сегментации и классификации с учетом требований структуры древнеегипетского текста.
На данный момент разработано достаточно большое количество разнообразных подходов сегментации изображений. Среди них нахождение границ через обнаружение разрывов яркости, выращивание областей, слияние и разделение регионов, метод морфологических водоразделов [9-Ю]. В последнее время активно развиваются методы, основанные на применении теории графов и оптимизационного подхода [11].
Методы поиска границ хорошо разработаны для полутоновых изображений. Полутоновое изображение рассматривается как функция двух переменных (х и у), и предполагается, что границы регионов соответствуют максимумам градиента этой функции. Для их поиска применяется аппарат дифференциальной геометрии (фильтры Робертса, Превитта, Собеля), позволяющий найти дискретное приближение двумерного градиента. Множество пикселей, определенных фильтрами как граница, редко отображает контур по причине шумов, разрывов и других искажений. Поэтому алгоритмы обнаружения контуров дополняются процедурами связывания. На рисунке 12 показано сравнение результатов применения различных фильтров. Все рассмотренные фильтры генерируют неприемлемый уровень шума, который неизбежно скажется на выделении признаков элементов текста [46].
Модель определения синтаксических параметров текста
Инвариантность распознавания сетью деформированных в форме образов достигается за счет многоуровневой структуры сети, в которой допускается на каждом слое некоторый параллельный сдвиг при распознании элементов образа. Следовательно, постепенное накопление позиционной инвариантности приводит к инвариантности деформации формы, причем важным фактором является именно постепенное накопление инвариантности сдвига на каждом слое, а не за счет только одного слоя.
Каждый нейрон в слое, близком к входному, реагирует на определенные признаки в определенном месте, такие, как угол с определенной ориентацией в заданной позиции. Каждый слой в результате этого имеет более абстрактную, менее специфичную реакцию по сравнению с предшествующим; выходной слой реагирует на полные образы, показывая высокую степень независимости от их положения, размера и ориентации во входном поле. При использовании в качестве классификатора комплексный узел выходного слоя с наибольшей реакцией реализует выделение соответствующего образа во входном поле. В идеальном случае это выделение нечувствительно к позиции, ориентации, размерам или другим искажениям.
Бустинг [28]. Усиление простых классификаторов, или бустинг, подход к решению задачи классификации (распознавания), путём комбинирования примитивных "слабых" классификаторов в один "сильный". Под "силой" классификатора в данном случае подразумевается эффективность (качество) решения задачи классификации. Бустинг относится к классу статических ассоциативных машин. Наиболее популярным в данном классе является алгоритм AdaBoost, принадлежащий к категории усиления с использованием подвыборок. В основе метода усиления простых классификаторов лежит простая предпосылка: скомбинировать некоторое количество элементарных (простых) признаков, таким образом, чтобы получить один, но более мощный. AdaBoost является адаптивным в том смысле, что каждый следующий классификатор строится зз по объектам, неверно классифицированным предыдущими классификаторами. AdaBoost чувствителен к шуму в данных. Однако он менее подвержен переобучению, чем многие другие алгоритмы обучения. Компьютерный эксперимент, опубликованный в [19] показал качество распознавания на уровне 91,72%. Самым эффективным алгоритмом из семейства AdaBoost является Gentle AdaBoost [29]. В качестве простых классификаторов обычно применяют деревья решений CART или С4.5. Применительно к нашей задаче дерево решений получится очень большой сложности, что сильно замедлит распознавание.
Random Forest. В работе [30] был предложен принципиально новый алгоритм распознавания, получивший название рандомизированный решающий лес {Random Forest). Алгоритм по случайно сгенерированной обучающей подвыборке строит решающие деревья до полного исчерпания подвыборки. В отличие от ЮЗ и CART эти деревья не подвергаются прунингу (обрезке лишних узлов). Классификация объектов проводится путём голосования: каждое дерево комитета относит классифицируемый объект к одному из классов, и побеждает класс, за который проголосовало наибольшее число деревьев.
Оптимальное число деревьев подбирается таким образом, чтобы минимизировать ошибку классификатора на тестовой выборке. В случае её отсутствия, минимизируется оценка ошибки out-of-bag: доля примеров обучающей выборки, неправильно классифицируемых комитетом, если не учитывать голоса деревьев на примерах, входящих в их собственную обучающую подвыборку.
Качество работы решающего леса выше чем у нейронных сетей и сравнимо с бустингом, т.е. процент верно классифицированных объектов на уровне 92%. Способен эффективно обрабатывать данные с большим числом признаков и классов. Нечувствителен к масштабированию (и к любым монотонным преобразованиям) значений признаков. Одинаково хорошо обрабатываются как непрерывные, так и дискретные признаки. Высокая параллелизуемость и масштабируемость. Но у алгоритма есть и недостатки. Алгоритм склонен к переобучению на некоторых задачах, особенно на зашумленных задачах. При работе алгоритма размер получающихся моделей становится очень большим.
Существующие системы распознавания текстов часто ошибаются, ложно выделяя сегменты или неправильно классифицируя символы. В таблице 2 приведено сравнение качества распознавания разных методов распознавания. Улучшить качество распознавания могло бы дополнение моделей распознавания обратной связью от распознавания к сегментации, позволяя корректировать сегментацию по результатам распознавания. Наиболее перспективным с этой точки зрения выглядит применение для распознавания искусственных нейронных сетей. Для согласованной работы с нейронными сетями наиболее подходит сегментация на основании выделения краев. На основании проведенного исследования можно с уверенностью сказать, что, применительно к задаче распознавания древнеегипетских текстов, наименьший шум на изображениях содержит результат применения фильтра Габора.
Описание иероглифического текстового редактора
Для формирования М/С-кода текста в программном комплексе был создан двумерный массив, каждая ячейка которого содержит М/С-описание элемента текста. При этом координаты ячейки соответствуют расположению элемента в тексте.
Расположение текста в колонках осуществляется через формирование таблицы в формате RTF[51] и вставка ее в RichTextBox. При этом для формирования RTF-кола необходимо знать -координату левой границы каждой колонки от границы компонента RichTextBox, Пример RTF-кода приведен в приложении Для изменения направления письма символа применяется зеркальное отражения изображения символа через вызов методы
RotateFlip(RotateFlipType.RotateNoneFlipY). Изменение угла наклона символа также осуществляется с помощью методы RotateFlip, но с другими параметрами - RotateFlipType.RotateCornerFlipNone, где вместо Corner ставится значение угла наклона символа в градусах.
Изменение размера символа осуществляется через изменение параметра Size выбранного fTMF-изображения символа в набранном тексте.
Штриховка и изменение цвета осуществляются через редактирование внутренних записей WMF. Для штриховки поверх изображения рисуются диагональные линии с помощью функции WMF METALINETO, для изменения цвета вызывается функция META_PAINTREGION.
Для создания групп и картушей формируется новое ЖМ -изображение. Группа состоит из изображений символов и необходимо определить координаты вставки векторного представления символов. Изображения картуша по своей структуре напоминает изображение группы, но добавляется ограничивающая рамка с помощью функций METALINETO, META__ELLIPSE, META_RECTANGLE.
Иероглифы древнеегипетского языка представлены в виде WMF-изображений. Сами изображения, іШС-код символа, его транслитерация хранятся в файле ресурсов Glyphs, resx, структура которого представлена в приложении 3. Работа с файлом ресурсов осуществляется через класс ResxResourceWriter. По такому же принципу осуществляется хранение списка картушей (файл Structures.resx) для дальнейшего использования.
Вставка ЖМР-изображения символа осуществляется через поток Memory Stream. Иероглифический текстовый редактор полностью отвечает требованиям стандарта представления иероглифических текстов MdC. При этом интерфейс программы интуитивно понятен пользователю и построен на принципе WYSIWYG, все манипуляции с МіС-кодами скрыты от пользователя.
Модуль хранения текстов предназначен для систематизации данных об иероглифических текстах. Модуль построен на принципах клиент-серверной архитектуры. Наибольший функционал появляется при взаимодействии с иероглифическим текстовым редактором, тем не мене он модуль хранения текстов может функционировать как самостоятельное программное обеспечение. При работе в связке с иероглифическим текстовым редактором, изменение текста в редакторе автоматически приведет к обновлению информации о правке этого текста в хранилище текстов.
Каждый текст представляет собой набор строк, которые характеризуются строкой в MdC-коде, транслитерацией, переводом. На каждую строку ведется история правок с сохранением времени правки и данных пользователя, осуществившего правку. Для каждого текста вводится его источник, это может быть папирус, стена, обелиск и т.п. Полностью схема данных представлена на рисунке 28.
Хранилище текстов реализовано с применением СУБД MS SQL Server 2008R2 [97]. Это реляционная СУБД, обеспечивающая многопользовательскую работу с БД, приемлемую надежность и скорость работы. В отличие от многих СУБД позволяет строить приложения на принципах клиент-серверной архитектуры.
Каталог текстов отображается в виде дерева, так как пользователю может понадобиться группировка текстов по какому-то признаку, к тому же один источник может содержать несколько текстов. Хранение иерархической структуры осуществляется в хт/-формате [96].
Механизм поиска представляет собой полнотекстовый поиск с использованием метаданных на каждый текст и основан па применении векторной модели поиска[98] (рис. 29). При выборе модели поиска и принципов организации индекса главную роль играет неполное знание лингвистики древних языков, поэтому большинство моделей не подходят, так как не являются лингвонезависимыми.
Описание механизма тестирования системы распознавания
Проверка адекватности построенной модели и применяемых алгоритмов проводилась в четыре этапа. Для каждого этапа была составлена тестовая выборка. Показателем адекватности служит качество распознавания, измеряемое соотношением количества верно распознанных элементов к общему числу элементов текста. Проверка осуществляется путем предъявления на вход нейросети изображения элемента и имени класса, к которому он относится, после чего сравнивается ответ нейросети и эталонное имя класса.
На первом этапе оценивалось качество функционирования модели распознавания символов. Для этого разработанная нейронная сеть проверялась с помощью обучающей выборки.
Обучающая выборка формировалась путем предъявления нейросети для распознавания эталонных изображений иероглифов из базы символов Hieroglyphica 2 [34], с добавлением зеркальных отражений символов и символов, повернутых на углы а Є [0,7г] с шагом 15. Общая численность изображений составила 164280 отдельных изображений символов древнеегипетского языка.
На первом этапе на обучающей выборке нейронная сеть показала качество распознавания в 99%. Такое высокое значение объяснимо наличием для каждого элемента обучающей выборки группы нейронов, осуществляющих распознавание.
На следующем этапе необходимо оценить влияние степени повреждения изображения символа на качество распознавания.
Тестовая выборка формировалась из символов обучающей выборки со случайными повреждениями образа символа в каждой из четвертей. Общая численность изображений составила 657120 отдельных изображений символов древнеегипетского языка. На втором этапе па тестовой выборке нейронная сеть показала результат в 86%. На рисунке 39 приведена зависимость качества распознавания от степени повреждения образа символа. При увеличении степени повреждения до 50% и более наблюдается резкое снижение качества распознавания. Это объясняется большим количеством символов алфавита и их похожестью, так как при повреждении изображении символов может быть потеряна информация о важных признаках, отличающих символ от других. 10 20 30 40 50 60 70 80 90 100 I
На третьем этапе осуществлялась проверка качества выделения ірупп иероглифов в зависимости от степени повреждения изображения группы. Обучающая выборка нейронной сети составила 38 образов эталонных ірупи иероглифов. Тестовая выборка была составлена из выделенных изображений групп иероглифов из набора текстов, хранящихся в системе TLA. Общее число текстов составило 39, общее число групп иероглифов — 168. Результаты проверки качества выделения групп для каждого из 15 типов приведены в таблице 4 и на рисунке 40. Таблица 4. Результаты проверки качества выделения групп.
Материал из каждой группы обладает разной фактурой и степенью повреждения, что по-разному влияет на качество распознавания. Результаты проверки на текстах из каждой группы приведены в таблице 4. Лучше всего сохранился камень, его фактура практически не влияет на качество распознавания. Тексты на керамике обладают большей степенью повреждения. Чуть лучше сохранились тексты на деревянных носителях, но фактура дерева приводит к ошибочной сегментации и распознавании. Тексты на папирусах сохранились чуть хуже, чем на камне. Фактура материала практически не влияет на сегментацию и распознавание. Более низкий результат качества распознавания объясним беглостью письма на папирусах и меньшей детализацией прорисовки символов.
Также в таблице 5 приведено сравнение показателей качества распознавания без применения и с применением фильтра Табора. В процессе проверки качества распознавания текстов могут быть допущены ошибки двух типов. Ошибками 1 рода является неправильная классификация выделенного сегмента. Ошибка 2 рода возникает, когда механизм выявления групп иероглифов не выявляет ее там, где она есть.
В результате анализа случаев ошибочной оценки были выявлены причины, вызывающие указанные ошибки, и выработаны необходимые действия, направленные на уменьшение числа таких ошибок.
1. Наличие шума на изображении приводит к образованию ложного сегмента. Отсечение шума на этапе сегментации не представляется возможным, так как может быть потеряна важная информация об изображениях символов. Тем не менее ложные сегменты успешно распознаются нейронной сетью в качестве шумовых и не попадают в множество S.
2. Наличие повреждений на изображениях символов может приводить к неправильной классификации ввиду недостатка важных признаков. В этом случае помогло бы наличие механизма лингвистической пост-обработки распознанного текста, но в настоящее время из-за недостаточного знания лингвистики языка внедрение такого механизма не представляется возможным.
Повреждение изображений символов могут дать неправильную оценку высоты сегмента. В этом случае возможно не выявление группы символов, так как механизм выявления групп основывается в первую очередь на малом размере символов групп по отношению к общему размеру символов текста. Исправить данную ситуацию помогает анализ распознанных строк на предмет наличия в одной строке нескольких символов с малым размером.