Введение к работе
Актуальность темы. В настоящее время все большее значение приобретает перевод бумажных документов в электронные аналоги и в связи с этим большое значение придается созданию различного рода информационных архивов, в том числе и таких как электронные библиотеки. Однако, накопленные человечеством объемы бумажной информации настолько велики, что их перевод в электронные аналоги требует разработки специальных методов обработки документов. Так, бумажный документ сканируется, в результате чего получается электронная копия документа виде цифровой фотографии - имиджа (image), далее имиджа обрабатывается до получения требуемых параметров его качества. Улучшение имиджа включает программное выравнивание, конвертирование, удаление шумовых и фоновых элементов, нормализацию и т.д. За этапом имиджинга следует этап компьютерной обработки, связанный с приведением документа к одному из машинных форматов (PDF, HTML, MS Office и пр.) и дополнением его описания некоторой вспомогательной информацией. При этом в процессе преобразования имиджингового представления документа в машинные форматы, как правило, приходится распознавать разного типа объекты: текстовые блоки, таблицы и рисунки и связывать их целостно вместе в описании документа.
Настоящая диссертация посвящена разработке и исследованию методов и алгоритмов нечеткой классификации объектов имиджей документов.
Объект исследований. Методы и модели нечеткой классификации объектов имиджей документов.
Цели и задачи работы. Разработка и исследование методов и алгоритмов нечеткой классификации объектов имиджей документов.
Для достижения поставленной цели исследования были решены следующие основные задачи:
Проведено исследование состояния области обработки имиджей в части распознавания и классификации составляющих их объектов и сформулированы основные проблемы предметные области.
Разработана объекто-сегментированная имиджинговая модель документа и модели описания эталонных классов объектов.
Разработан метод классификации, в основе которого лежит классифицирующих функция, отображающая близость объектов имиджа и объектов эталонных классов на основе функции принадлежности нечеткой логики.
На основе экспериментальных данных сформирована система признаков, лежащая в основе идентификации объектов.
Разработана структура классифицирующей функции на основе понятия нечетких равенств ситуаций и на основе расстояния порядковых шкальных признаков по предложены идентификационным признакам.
Разработана методика нахождения оптимальных коэффициентов доверия для каждого из признаков классификации.
Разработан метод разбиения блоков текста на отдельные графические представления символов и слов, а также нормализации имиджей букв.
8. Проведены экспериментальные исследования основных теоретических положении диссертации.
Методы исследования. Для решения выше перечисленных задач использованы методы математического и комбинаторного анализов, методы нечеткой логики, методы статистического анализа, распознавания образов, цифровой обработки изображений, технологии программирования.
Научная новизна работы состоит в следующем:
Предложена новая объекто-сегментированная имиджинговая модель документа и модели описания эталонных классов объектов на основе нечеткой логики.
Предложен метод классификации объектов имиджа, в основе которого лежит классифицирующих функция, отображающая близость объектов имиджа и объектов эталонных классов на основе функции принадлежности нечеткой логики.
Предложена система признаков, лежащая в основе идентификации объектов имиджа и для нее разработана классифицирующая функция, вычисление которой осуществляется на основе понятия нечетких равенств ситуаций и на основе расстояния порядковых шкальных признаков.
Предложены модифицированный метод разбиения блоков текста на отдельные графические представления символов и слов, а также нормализация графических представлений символов.
Основные положения, выносимые на защиту. На защиту выносятся следующие научные положения и результаты диссертационного исследования:
Объекто-сегментированная имиджинговая модель документа и модели описания эталонных классов объектов на основе нечеткой логики.
Метод классификации объектов имиджа, в основе которого лежит классифицирующих функция, отображающая близость объектов имиджа и объектов эталонных классов на основе функции принадлежности нечеткой логики.
Система признаков, лежащая в основе идентификации объектов имиджа.
Классифицирующая функция, вычисление которой осуществляется на основе понятия нечетких равенств ситуаций и на основе расстояния порядковых шкальных признаков.
Модифицированный метод разбиения блоков текста на отдельные графические представления символов и слов, а также нормализация графических представлений символов.
Теоретическая и практическая значимость результатов исследования.
Предложена новая объекто-сегментированная имиджинговая модель документа и модели описания эталонных классов объектов на основе нечеткой логики.
Предложен метод классификации объектов имиджа, в основе которого лежит классифицирующих функция, отображающая близость объектов имиджа и объектов эталонных классов на основе функции принадлежности нечеткой логики.
Предложена система признаков, лежащая в основе идентификации объектов имиджа и для нее разработана классифицирующая функция, вычисление которой осуществляется на основе понятия нечетких равенств ситуаций и на основе расстояния порядковых шкальных признаков.
4. Предложены модифицированный метод разбиения блоков текста на отдельные графические представления символов и слов, а также нормализация графических представлений символов.
Разработанные методы и алгоритмы нечеткой классификации объектов имиджей документов могут быть использованных в системах обработки в бумажных документов с целью создания их электронных аналогов.
Достоверность результатов. Подтверждается использованием аппарата математического и комбинаторного анализов, нечеткой логики, оптимизации, статистического, распознавания образов и цифровой обработки изображений, а также подтверждается результатами сравнительного анализа и проведенных модельных экспериментов.
Использование результатов работы. Результаты диссертационного исследования подтверждается актами о внедрении результатов исследования в рамках работ по госбюджетной НИР №12456 и учебном процессе по дисциплине "Организация электронных архивов данных" магистерской программы "Интеллектуальные системы" по направлению 230100 "Информатика и вычислительная техника" факультета автоматики и вычислительной техники Таганрогского технологического института Южного федерального университета.
Апробация результатов работы. Основные результаты работы неоднократно докладывались и обсуждались на конференциях и семинарах различного уровня, в том числе:
-III Всероссийской научной конференции молодых ученых, аспирантов и студентов "Информационные технологии системной анализ и управление" (Таганрог, ТРТУ, 2005г); -VIII Всероссийской научной конференции молодых ученых, студентов и аспирантов "Техническая кибернетика, радиоэлектроника и системы управления (КРЭС'06)" (Таганрог, ТРТУ, 2006г); -Всероссийской научной школы-семинара молодых ученых, аспирантов и студентов "Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки" (Таганрог, ТТИ ЮФУ, 2007г); -Всероссийской научной школы-семинара молодых ученых, аспирантов и студентов "Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки" (Таганрог, ТТИ ЮФУ, 2008г); -VI Всероссийской научной конференции молодых ученых, аспирантов и студентов "Информационные технологии, системы анализ и управление" (Таганрог, ТТИ ЮФУ, 04-05 декабря 2008г). -Всероссийская научная школа-семинар студентов, аспирантов и молодых ученых "Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки" (Таганрог, ТТИ ЮФУ, Июня 2009г). Публикации. По материалам диссертации автором опубликовано 9 печатных работ, в том числе одна статья в издании из списка, рекомендованного ВАК, в которых отражены основные результаты диссертационного исследования.
Структура и объем работы. Диссертация состоит из введения, четырех разделов, заключения и приложений. Текст изложен на 149 страницах, содержит 31 рисунков, 34 таблицы, список литературы из 128 наименований.
Диссертационное исследование было выполнено в международной лаборатории ELDIC факультета автоматики и вычислительной техники Таганрогского технологического института Южного федерального университета.