Математические модели, методы и алгоритмы дешифровки исторических стенограмм Скабин, Артём Викторович

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Скабин, Артём Викторович. Математические модели, методы и алгоритмы дешифровки исторических стенограмм : диссертация ... кандидата технических наук : 05.13.18 / Скабин Артём Викторович; [Место защиты: Петрозавод. гос. ун-т].- Петрозаводск, 2013.- 101 с.: ил. РГБ ОД, 61 14-5/1827

Введение к работе

Актуальность темы исследования.

Автоматизированное распознавание рукописных текстов востребовано в различных областях человеческой деятельности. Существует большое количество различных разработок для решения данной задачи. Большой вклад в развитие оптического распознавания рукописных символов внесли ученые Н. Д. Горский, В. Л. Арлазаров, А. А. Маса-лович, В. Анисимов.

Существующие системы оптического распознавания (ABBYY FineReader, CuneiForm, Google Tesseract) ориентированы на распознавание современных языков и печатных текстов. Исходными данными для таких систем являются документы хорошего качества, как первоисточник (страницы рукописей, четкие, контрастные снимки, с четко разделенным фоном и символами), так и хорошего написания (строки прямые, без искривлений, отсутствие исправлений и зачеркиваний).

Дешифровка стенограмм, частного случая рукописного текста, является актуальной задачей, в результатах решения которой заинтересованы, прежде всего, филологи и историки.

В архивах России находится большое количество недешифрованных исторических рукописных стенограмм — это связанно, в первую очередь, с тем, что на сегодняшний момент не осталось специалистов, обладающих знаниями о стенографических системах. Стенографист в записи мог также использовать уникальные символы, не встречающиеся в стенографической системе, так как и дешифровкой впоследствии предполагал заниматься самостоятельно. Плохое качество первоисточника (пожелтевшая бумага, наличие исправлений и зачеркиваний, искривление строк). Всё это делает невозможным применение существующих систем распознавания к историческим стенографическим записям.

Дешифровка подобных документов позволяет внести в научный оборот новые исторические документы. Применение информационных технологий и математического моделирования позволяет автоматизировать процесс дешифровки исторических рукописных стенограмм.

Таким образом, задачи, рассматриваемые в данном диссертационном исследовании, остаются актуальными.

Степень разработанности темы исследования.

Не смотря на активные разработки в данной области, существующие информационные системы распознавания позволяют распознавать только небольшие фрагменты текстов, например, подпись, банковские чеки и т.д.

Цель работы: получение дешифрованного текста на русском языке из исторических рукописных стенограмм.

Для достижения поставленной цели необходимо решить следующие задачи:

провести анализ существующих информационных систем оптического распознавания символов;
разработать метод бинаризации документов низкого качества (пожелтевшая бумага, текст написан простым карандашом) для получения наиболее четкого и с наименьшим количеством шумов изображения;
разработать алгоритм построения строк рукописного документа, выявления надстрочных и подстрочных символов;
разработать алгоритм поиска схожих символов;
построить математическую модель дешифрования символов;
разработать численный метод определения параметров математической модели;
реализовать разработанные алгоритмы в компьютерной системе.

Научная новизна:

описан алгоритм подбора наилучшего метода бинаризации исторических рукописных документов;
предложен пороговый метод, основанный на яркостной характеристике с плавающим порогом;
разработана математическая модель дешифровки рукописных стенографических документов.

Методология и методы исследования: Использованы методы теории вероятностей, математической и прикладной статистики, численные методы кластерного анализа, вычислительной геометрии и обработки изображений.

Положения, выносимые на защиту:

алгоритм выбора метода бинаризации рукописных исторических документов плохого качества с использованием сравнения методов на контрольной выборке;
математическая модель дешифровки стенографических документов, содержащая информацию как о форме и месте символов, так и извлеченную из текстов автора;
численные методы определения параметров математической модели, позволяющие их рассчитывать на основе информации об используемой стенографической системе и расшифрованных стенограммах;
программный комплекс (ИС HisReg), реализующий предложенный метод выбора бинаризации стенографического документа и использующийся для построения алфавита стенографического текста и дальнейшей дешифровки стенограммы.

Теоретическая и практическая значимость.

Предложенные методы, математическая модель и алгоритмы могут быть использованы для обработки и дешифровки исторических рукописных документов, в том числе на малоиспользуемых и «мёртвых» языках и стенографических записях, которые сделаны в неиспользуемых стенографических системах.

Степень достоверности.

Достоверность результатов проведенных исследований подтверждена проведением исследований рукописных стенографических записей Сниткиной (Достоевской) Анны Григорьевны — наброски к «Дневнику Писателя» за 1881 г. и «Из воспоминаний А. Г. Достоевской».

Апробация работы.

Результаты диссертационного исследования были представлены на следующих конференциях:

V Международная научная конференция «Компьютерные технологии и математические методы в исторических исследованиях» (Петрозаводск, 2013);
VII Международная научно-практическая конференция «Информационная среда ВУЗа XXI века» (Петрозаводск, 2013);
XIV Всероссийская научная конференция «Электронные библиотеки: Перспективные методы и технологии, электронные коллекции RCDL'2012» (Переславль—Залесский, 2012);
Всероссийская научная конференция «Анализ изображений, сетей и текстов АИСТ'12» (Екатеринбург, 2012);
IV Международная научная конференция «Информационные технологии и письменное наследие El'Manuscript—2012» (Петрозаводск, 2012);
VI Международная научно-практическая конференция «Информационная среда ВУЗа XXI века» (Куопио, Финляндия, 2012);
V Международная научно-практическая конференция «Информационная среда ВУЗа XXI века» (Петрозаводск, 2011);
Международная конференция «Компьютерные технологии и математические методы в исторических исследованиях» (Петрозаводск, 2011);
XIV Всероссийская конференция «Интернет и современное общество» (Санкт—Петербург, 2011);

Проведенные исследования производились в рамках гранта Российского гуманитарного научного фонда на тему «Автоматизированная система распознавания и дешифровки стенограмм XIX — начало ХХвв.»№ 11-01-12026 (руководитель Рогов А. А.). Программы для ЭВМ, входящие в состав программного комплекса, были зарегистрированы в Объединённом фонде электронных ресурсов «Наука и образование» (ОФЭРНиО) № 19509 от 23.09.2013. По теме исследования опубликовано

11 работ, в том числе 3 публикации в журналах из перечня ведущих рецензируемых научных журналов и изданий.

Структура и объём диссертации. Диссертация состоит из введения, трёх глав, заключения, библиографического списка использованной литературы (107 наименований), имеет объём 101 страницу машинописного текста, содержит 41 рисунок и 8 таблиц.

Математические модели, методы и алгоритмы дешифровки исторических стенограмм Скабин, Артём Викторович

Похожие диссертации на Математические модели, методы и алгоритмы дешифровки исторических стенограмм