Введение к работе
Актуальность темы. В настоящее время наиболее перспективным является электронный способ хранения, обработки и передачи информации. Во многих отраслях решается проблема создания средств эффективного ведения электронной документации. В железнодорожной отрасли также ведутся работы по переводу технической документации на электронные носители информации с целью повышения эффективности мониторинга, диагностики и технического обслуживания, повышения оперативности поиска и устранения неисправностей.
Серьёзным препятствием переходу на электронную форму документации является наличие значительного массива бумажных документов, связанных с существующими техническими системами, построенными до появления адекватных средств ведения и хранения электронной документации. В связи с вышеизложенным необходимо снабдить автоматизированное рабочее место (АРМ) средствами автоматического распознавания для специализированной технической документации систем железнодорожной автоматики.
Задача распознавания технических документов представлена в научной литературе значительным количеством работ, касающихся как основ теории распознавания, так и имеющих прикладной характер. Разработкой основ теории распознавания занимается научная школа под руководством академика РАН Ю. И. Журавлёва. Среди современных отечественных авторов следует отметить теоретические работы К. В. Рудакова, В. Л. Матросова, Ю. П. Пытьева, Е.В. Дюковой и работы прикладного характера Л. М. Местецкого, Я. А. Фурмана и И. А. Рейера.
В развитие задач анализа и обработки изображений, прикладных задач технического чтения значительный вклад внесли зарубежные исследователи R. O. Duda, P. E. Hart, R. C. Gonzalez, H. Blum, T. Y. Zhang, C. Y. Suen.
Во многих работах исследуются проблемы организации информационной поддержки систем железнодорожной автоматики, анализируются способы представления информации, технологии внесения изменений в техническую документацию, форматы хранения и структуры данных, рассматриваются алгоритмы предварительной обработки изображения текста, особенности структурных методов распознавания символов и графических объектов.
При этом задача автоматического распознавания технической документации для систем железнодорожной автоматики остаётся нерешённой вследствие наличия значительного объёма документов невысокого качества, рукописных текстов и отсутствия эффективных методов их обработки. Тем самым является актуальной задача совершенствования методов и средств распознавания специализированной технической документации для систем железнодорожной автоматики как инструментов построения и модернизации специализированной электронной базы данных, основанной на этой документации.
Объектом исследования является процесс распознавания специализированной технической документации для систем железнодорожной автоматики.
Предмет исследования – методы, модели и алгоритмы распознавания текстовой и табличной информации.
Целью диссертационной работы является повышение вероятности распознавания символов специализированной технической документации для систем железнодорожной автоматики. Для достижения поставленной цели в работе решалась научная задача: совершенствование методов и алгоритмов распознавания специализированной технической документации для систем железнодорожной автоматики как инструментов построения и модернизации специализированной электронной базы данных, основанной на этой документации.
Для достижения поставленной цели и решения научной задачи в работе осуществляется решение подзадач исследования:
-
Разработка методов предварительной обработки изображения листа монтажной документации (ЛМД) с целью устранения шумов и помех. Проверка эффективности предлагаемых методов.
-
Разработка алгоритма сегментации изображения ЛМД и определения главной таблицы на изображении и методов автоматического распознавания специальных знаков и структуры таблиц.
-
Разработка модели процесса автоматического распознавания чертёжных рукописных символов, представленных в таблицах монтажной документации систем железнодорожной автоматики.
-
Создание модели процесса автоматического распознавания для ЛМД как целостной структуры.
На защиту выносятся:
-
Методы и алгоритмы предварительной обработки изображений специализированной технической документации для систем железнодорожной автоматики.
-
Алгоритм распознавания структуры монтажных карточек и схем комплектации.
-
Модель процесса автоматического распознавания символов технической документации.
-
Модель распознавания монтажных карточек и схем комплектации для систем железнодорожной автоматики как целостных структур.
Методы исследования. Для решения задач, поставленных в диссертационной работе, применялись методы распознавания образов, теории вероятностей и математической статистики, элементы теории графов, аппарат дифференциальной геометрии и алгебраические методы.
Для устранения дефектов изображения использовались способы фильтрации изображения, основанные на теории дискретного преобразования Фурье. В частности, разработка средств полосовой и низкочастотной фильтрации была основана на теоремах быстрого дискретного преобразования Фурье. При разработке алгоритмов распознавания символов была использована теория контурного анализа, элементы теории вычислительной геометрии, теоретические основы алгоритмов скелетизации изображения и корреляционный анализ.
При создании прототипа программы распознавания изображений специализированной технической документации для систем железнодорожной автоматики использовалась интегрированная среда разработки программного обеспечения Visual C++.
Достоверность научных результатов, полученных в диссертационной работе, основана на строгости применяемых методов, аналитических преобразований и подтверждена численными экспериментами и практическими результатами опытной эксплуатации. Адекватность предлагаемых методов и средств установлена с помощью экспериментальных исследований.
Научная новизна:
-
Разработан метод и инструмент эффективного удаления шумов из изображения технической железнодорожной документации, вызванных многократным копированием, сконструированный с учётом особенности данной документации.
-
Предложен комплекс методов распознавания таблицы для специализированной технической документации, отличающийся от применявшихся ранее малой трудоёмкостью и возможностью построения таблицы по её фрагментам.
-
Разработанная модель процесса автоматического распознавания символа технической документации отличается новым алгоритмом выбора параметров построения скелета символа, основанным на концепции распространения волновых фронтов от границ области.
-
Предложенный алгоритм распознавания изображения ЛМД отличается от применяемых ранее подходом, при котором ЛМД рассматривается как целостная структура.
Практическая значимость. Результаты, полученные в ходе исследования, реализованы в виде программного модуля для автоматизированного рабочего места ведения технической документации (АРМ-ВТД), и позволят увеличить эффективность построения и модернизации электронной базы данных систем железнодорожной автоматики.
Предложены средства восстановления утерянных электронных специализированных технических документов на основе данных, сохранившихся на бумажном носителе информации. Созданы средства электронного документооборота технической железнодорожной документации. Методы и средства распознавания монтажных карточек и схем комплектации для систем железнодорожной автоматики внедрены в АРМ-ВТД, оформлен акт внедрения.
Апробация и реализация. Алгоритм распознавания специализированной технической документации систем железнодорожной автоматики применён для создания и модернизации электронной базы данных монтажной документации систем железнодорожной автоматики.
Результаты работы докладывались на научных семинарах и заседаниях кафедры «Математика и моделирование» ПГУПС (2006–2009 гг.) и на конференции «50-летие КФ ИрГУПС» (2005г.).
Публикации. По результатам диссертационного исследования опубликовано 6 статей, в том числе две статьи в журналах, рекомендованных ВАК.
Структура и объём работы. Диссертационная работа представлена введением, четырьмя главами, списком литературы и приложениями, при этом составляет 150 стр. основного текста, содержит 114 рисунков, 4 приложения и 2 таблицы. Библиографический список составляют 83 наименования.