Введение к работе
Актуальность темы исследования.
Автоматизированное распознавание рукописных текстов востребовано в различных областях человеческой деятельности. Существует большое количество различных разработок для решения данной задачи. Большой вклад в развитие оптического распознавания рукописных символов внесли ученые Н. Д. Горский, В. Л. Арлазаров, А. А. Маса-лович, В. Анисимов.
Существующие системы оптического распознавания (ABBYY FineReader, CuneiForm, Google Tesseract) ориентированы на распознавание современных языков и печатных текстов. Исходными данными для таких систем являются документы хорошего качества, как первоисточник (страницы рукописей, четкие, контрастные снимки, с четко разделенным фоном и символами), так и хорошего написания (строки прямые, без искривлений, отсутствие исправлений и зачеркиваний).
Дешифровка стенограмм, частного случая рукописного текста, является актуальной задачей, в результатах решения которой заинтересованы, прежде всего, филологи и историки.
В архивах России находится большое количество недешифрованных исторических рукописных стенограмм — это связанно, в первую очередь, с тем, что на сегодняшний момент не осталось специалистов, обладающих знаниями о стенографических системах. Стенографист в записи мог также использовать уникальные символы, не встречающиеся в стенографической системе, так как и дешифровкой впоследствии предполагал заниматься самостоятельно. Плохое качество первоисточника (пожелтевшая бумага, наличие исправлений и зачеркиваний, искривление строк). Всё это делает невозможным применение существующих систем распознавания к историческим стенографическим записям.
Дешифровка подобных документов позволяет внести в научный оборот новые исторические документы. Применение информационных технологий и математического моделирования позволяет автоматизировать процесс дешифровки исторических рукописных стенограмм.
Таким образом, задачи, рассматриваемые в данном диссертационном исследовании, остаются актуальными.
Степень разработанности темы исследования.
Не смотря на активные разработки в данной области, существующие информационные системы распознавания позволяют распознавать только небольшие фрагменты текстов, например, подпись, банковские чеки и т.д.
Цель работы: получение дешифрованного текста на русском языке из исторических рукописных стенограмм.
Для достижения поставленной цели необходимо решить следующие задачи:
-
провести анализ существующих информационных систем оптического распознавания символов;
-
разработать метод бинаризации документов низкого качества (пожелтевшая бумага, текст написан простым карандашом) для получения наиболее четкого и с наименьшим количеством шумов изображения;
-
разработать алгоритм построения строк рукописного документа, выявления надстрочных и подстрочных символов;
-
разработать алгоритм поиска схожих символов;
-
построить математическую модель дешифрования символов;
-
разработать численный метод определения параметров математической модели;
-
реализовать разработанные алгоритмы в компьютерной системе.
Научная новизна:
-
описан алгоритм подбора наилучшего метода бинаризации исторических рукописных документов;
-
предложен пороговый метод, основанный на яркостной характеристике с плавающим порогом;
-
разработана математическая модель дешифровки рукописных стенографических документов.
Методология и методы исследования: Использованы методы теории вероятностей, математической и прикладной статистики, численные методы кластерного анализа, вычислительной геометрии и обработки изображений.
Положения, выносимые на защиту:
-
алгоритм выбора метода бинаризации рукописных исторических документов плохого качества с использованием сравнения методов на контрольной выборке;
-
математическая модель дешифровки стенографических документов, содержащая информацию как о форме и месте символов, так и извлеченную из текстов автора;
-
численные методы определения параметров математической модели, позволяющие их рассчитывать на основе информации об используемой стенографической системе и расшифрованных стенограммах;
-
программный комплекс (ИС HisReg), реализующий предложенный метод выбора бинаризации стенографического документа и использующийся для построения алфавита стенографического текста и дальнейшей дешифровки стенограммы.
Теоретическая и практическая значимость.
Предложенные методы, математическая модель и алгоритмы могут быть использованы для обработки и дешифровки исторических рукописных документов, в том числе на малоиспользуемых и «мёртвых» языках и стенографических записях, которые сделаны в неиспользуемых стенографических системах.
Степень достоверности.
Достоверность результатов проведенных исследований подтверждена проведением исследований рукописных стенографических записей Сниткиной (Достоевской) Анны Григорьевны — наброски к «Дневнику Писателя» за 1881 г. и «Из воспоминаний А. Г. Достоевской».
Апробация работы.
Результаты диссертационного исследования были представлены на следующих конференциях:
-
V Международная научная конференция «Компьютерные технологии и математические методы в исторических исследованиях» (Петрозаводск, 2013);
-
VII Международная научно-практическая конференция «Информационная среда ВУЗа XXI века» (Петрозаводск, 2013);
-
XIV Всероссийская научная конференция «Электронные библиотеки: Перспективные методы и технологии, электронные коллекции RCDL'2012» (Переславль—Залесский, 2012);
-
Всероссийская научная конференция «Анализ изображений, сетей и текстов АИСТ'12» (Екатеринбург, 2012);
-
IV Международная научная конференция «Информационные технологии и письменное наследие El'Manuscript—2012» (Петрозаводск, 2012);
-
VI Международная научно-практическая конференция «Информационная среда ВУЗа XXI века» (Куопио, Финляндия, 2012);
-
V Международная научно-практическая конференция «Информационная среда ВУЗа XXI века» (Петрозаводск, 2011);
-
Международная конференция «Компьютерные технологии и математические методы в исторических исследованиях» (Петрозаводск, 2011);
-
XIV Всероссийская конференция «Интернет и современное общество» (Санкт—Петербург, 2011);
Проведенные исследования производились в рамках гранта Российского гуманитарного научного фонда на тему «Автоматизированная система распознавания и дешифровки стенограмм XIX — начало ХХвв.»№ 11-01-12026 (руководитель Рогов А. А.). Программы для ЭВМ, входящие в состав программного комплекса, были зарегистрированы в Объединённом фонде электронных ресурсов «Наука и образование» (ОФЭРНиО) № 19509 от 23.09.2013. По теме исследования опубликовано
11 работ, в том числе 3 публикации в журналах из перечня ведущих рецензируемых научных журналов и изданий.
Структура и объём диссертации. Диссертация состоит из введения, трёх глав, заключения, библиографического списка использованной литературы (107 наименований), имеет объём 101 страницу машинописного текста, содержит 41 рисунок и 8 таблиц.