Содержание к диссертации
Введение
1. Анализ методов, алгоритмов и систем реставрации, хранения и управления информационными ресурсами музеев 12
1.1 Проблема обеспечения сохранности исторических документов 12
1.2 Фонды исторических документов в музеях и архивах 15
1.3. Существующие способы реставрации изображений архивных документов 23
1.4 Системы автоматизированной реставрации архивных документов 24
1.5 Методы и алгоритмы цифровой обработки изображений, используемые при реставрации АТД 26
1.6 Типовая структура региональных музеев и архивов 36
1.7 Результаты анализа состояния проблемы хранения, реставрации архивных документов и управления информационными ресурсами региональных музеев 39
Выводы по первому разделу 41
1.8 Структурно-функциональная организация системы управления информационными ресурсами регионального музея и реставрации текстовых документов 43
1.9 Постановка задачи исследования 45
2. Разработка алгоритмов и подсистемы управления информационными ресурсами регионального музея 46
2. 1 Разработка подсистемы автоматизированного учета фондов регионального музея 46
2.1.1 Концептуальная модель подсистемы автоматизированного учета фондов регионального музея 47
2.1.2 Схема документооборота 57
2.1.3 Структура подсистемы 63
2.2. Разработка подсистемы хранения и распределения видеоданных музея .
2.2. 1 Требования к подсистеме хранения и распределения видеоданных
2.2.2 Структура подсистемы 67
2.2.3 Концептуальная модель базы видеоданных 70
2.2.4 Реализация подсистемы 79
2.3 Алгоритмы управления информационными ресурсами регионального музея 82
Выводы по разделу 2 85
3. Разработка методов и алгоритмов реставрации изображений архивных текстовых документов 86
3.1 Классификация дефектов архивных текстовых документов 86
3.2. Результаты статистической обработки АТД по относительным частотам появления дефектов на них 89
3.3. Математическое описание дефектов АТД 90
3.3.1. Общее математическое описание дефектов 90
3.3.2 Математическое описание дефекта - мелкие пятна 92
3.3.3 Математическое описание дефекта -пятна (локальные площадные 93 дефекты) 93
3.3.4 Математическое описание дефекта - угасание штрихов текста 95
3.3.5. Математическое описание дефекта - проступания надписей с обратной стороны листа 96
3.3.6. Математическое описание дефекта - перегибы (складки, протяженные дефекты) 97
3.3.7. Математическое описание дефекта- неравномерность фоновой составляющей 98
3.4. Разработка тестовых изображений дефектов 99
3.5. Задача реставрации изображений АТД 105
3.6. Методы оценки качества АТД 106
3.7. Методы и алгоритмы поиска и устранения пятен [51, 54, 55, 106-108] 110
3.7.1. Алгоритм поиска и устранения мелких пятен 110
3.7.2. Алгоритм поиска и устранения средних полупрозрачных и непрозрачных пятен 112
3.7.3. Методы пороговой сегментации для целей устранения дефектов 117
3.7.4. Методы автоматической классификации для целей устранения дефектов [56] 122
3.8. Методы и алгоритмы поиска и устранения дефектов типа складок, перегибов (линейных дефектов) 125
3.9. Методы и алгоритмы восстановления слабоконтрастных изображений
АТД 129
Выводы по разделу 3 135
4. Практическое применение системы управления информационными ресурсами регионального музея и автоматизированной реставрации текстовых документов 137
4.1. Разработка подсистемы автоматизированной реставрации АТД 137
4.2 Технология автоматизированной реставрации изображений АТД 141
4.3 Реставрация изображений АТД на основе разработанной технологии с использованием подсистемы автоматизированной реставрации изображений АТД 147
4.4 Исследование подсистемы автоматизированного учета фондов регионального музея и подсистемы хранения и распределения видеоданных 149
Выводы по разделу 4 161
Заключение 162
Литература
- Существующие способы реставрации изображений архивных документов
- Концептуальная модель подсистемы автоматизированного учета фондов регионального музея
- Общее математическое описание дефектов
- Реставрация изображений АТД на основе разработанной технологии с использованием подсистемы автоматизированной реставрации изображений АТД
Введение к работе
Основой любого музея или архива является информационный фонд. Сохранность музейного или архивного фонда в настоящее время стоит на первом месте. Базу информационного фонда музея составляют архивные документы на бумажной основе (тексты, фотографии, схемы, чертежи и т.д.).
В практику решения задач управления информационными ресурсами музеев все более интенсивно внедряются современные информационные технологии. Наблюдается переход многих музеев на использование электронных коллекций музейного фонда. Это позволяет обеспечить непосредственный доступ к ним широкой общественности без нежелательного использования оригинальных музейных предметов и документов.
За долгое время хранения значительная часть документов на бумажной основе становятся ветхими, на них появляются различные дефекты (проступание надписей с обратной стороны листа, выцветание чернил, различные пятна, загрязнения и т.п.), следовательно, возникает необходимость реставрации документов при управлении информационными ресурсами регионального музея. Реставрация документов может быть неавтоматизированной (ретушь, химические способы) и автоматизированной, то есть с использованием современных информационных технологий. При использовании неавтоматизированных ме-тодов скорость потери полезной и ценной исторической информации намного выше скорости их восстановления, в связи с чем, в данной фазе управления информационными ресурсами удобнее и целесообразнее применять автоматизированные методы реставрации текстовых документов, основным преимуществом которых являются высокая скорость обработки, сохранность и защищенность информационных ресурсов, так как восстановлению подвергается не сам оригинал, а его цифровая копия.
В крупных (федеральных) музеях и архивах нашей страны и за рубежом в процессе управления фондами ведутся работы по формированию и хранению электронных копий исторических документов. В малых (региональных) музеях ситуация выглядит иначе. Существующие системы формирования и хранения электронных версий документов функционально-избыточны и не приемлемы для региональных музеев, а так же не решают задачи реставрации изображений документов и оперативного управления, связанные с необходимостью ускорения подготовки учетно-отчетной документации и поиска в электронном каталоге, распространения копий музейных материалов на электронных носителях, обеспечения удаленного доступа к информационным ресурсам музея. Таким образом, создание системы оперативного управления и реставрации на базе современных вычислительных средств и информационных технологий является актуальной научно-технической задачей.
Цель диссертационной работы - повышение оперативности управления информационными ресурсами региональных музеев на основе разработки методов и средств автоматизированной реставрации текстовых документов. Исходя из цели работы задачами исследования, являются:
1. Разработка структурно-функциональной организации и требований к системе реставрации и управления информационными ресурсами регионального музея.
2. Разработка подсистемы, в том числе алгоритмов управления процессом хранения и распределения информационных ресурсов регионального музея.
3. Разработка методов устранения дефектов на изображениях архивных текстовых документов для реализации технологии их автоматизированной реставрации.
4. Разработка прикладных программ, обеспечивающих функционирование системы управления информационными ресурсами регионального музея и их экспериментальная проверка на примере Муромского историко-художественного музея.
Работа базировалась на использовании теории информационных систем, теории множеств, реляционной модели данных, цифровой обработки изображений, теории вероятностей и математической статистики. Объектом исследования являются информационные ресурсы региональных музеев.
Предметом исследования являются алгоритмы управления информационными ресурсами регионального музея и методы реставрации изображений архивных текстовых документов.
Научная новизна работы заключается в том, что:
1. Синтезирована структурно-функциональная организация системы управления информационными ресурсами и реставрации, позволяющая за счет сокращения ручного труда повысить оперативность выполнения наиболее значимых функций регионального музея и автоматически определять наиболее часто встречаемые дефекты архивных текстовых документов.
2. Создана подсистема управления процессом хранения и распределения информационных ресурсов, особенностью которой является использование трех-компонентной структуры распределения электронных версий документов, учитывающей специфику хранения постоянного, системного и временного архивов документов, что позволяет ускорить процесс их поиска и доступа к ним.
3. Разработаны методы устранения дефектов архивных текстовых документов, позволяющие повысить скорость устранения дефектов и автоматизировать реставрацию фонда редкой и старопечатной книги, за счет учета множества типовых дефектов.
Практическая ценность работы. Работа выполнена в рамках бюджетной НИР №340/98 «Разработка методов, устройств и систем автоматизированной обработки видеоинформации».
Результаты диссертационной работы внедрены в Муромском историко-художественном музее (город Муром). Результаты работы позволяют:
1. Создать технологию автоматизированной реставрации изображений архивных текстовых документов.
2. Автоматизировать управление информационными ресурсами регионального музея.
3. Формировать базу видеоданных всех материалов музея. 4. Организовать доступ удаленных пользователей к ресурсам музея.
5. Расширить научно-исследовательскую работу сотрудников музея. Научно-методические результаты, полученные в диссертационной работе,
внедрены в учебный процесс кафедры «Информационные системы» Муромского института Владимирского государственного университета и используются при проведении лекционных и практических занятий по дисциплине «Управление информационными ресурсами» и в курсе «Методы цифровой обработки изображений», в курсовом и дипломном проектировании.
Реализация результатов исследований. Основные результаты теоретических и экспериментальных исследований, полученные в работе, используются в практической деятельности историко-художественного музея города Мурома.
Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на: Шестой ежегодной конференции АДИТ 2002 «Музеи и информационное пространство: проблема информатизации и культурное наследие» (Нижний Новгород, 2002); Международных конференциях EVA «Информация для всех: культура и технологии информационного общества» (Москва, 2002, 2003, 2004, 2005); 30-ой международной научной конференции Гагаринские чтения (Москва, 2004); Международном симпозиуме «Надежность и качество» (Пенза, 2004, 2005); Международной научно-технической конференции «Проблемы передачи и обработки информации в сетях и системах телекоммуникаций» (Рязань, 2004), Международной научно-технической конференции «Идеи молодых - новой России» (Тула, 2004); ежегодных научно-технических конференциях преподавателей МИВлГУ (2002 - 2008 г.).
Получено свидетельство об официальной регистрации программы для ЭВМ № 2007612203 «Автоматизированная система управления фондами музея и реставрации изображений текстовых и фотографических документов»
Положения, выносимые на защиту:
1. Структурно-функциональная организация системы управления информационными ресурсами регионального музея и реставрации изображений архивных текстовых документов, позволяющая за счет сокращения ручного труда повысить оперативность выполнения наиболее значимых функций регионального музея и автоматически определять наиболее часто встречаемые дефекты архивных текстовых документов.
2. Алгоритм управления хранением и распределением информационных ресурсов регионального музея на основе использования трехкомпонентной структуры организации хранения видеоданных, учитывающей специфику хранения постоянного, системного и временного архивов.
3. Методы и алгоритмы устранения типовых дефектов на изображениях архивных текстовых документов, позволяющие повысить скорость устранения дефектов и автоматизировать реставрацию фонда редкой и старопечатной книги.
Публикации. По теме диссертационной работы опубликовано 22 печатных работы, в том числе 15 статей, 5 тезисов докладов. Из них 4 статьи в центральных журналах, одна монография и одно свидетельство об официальной регистрации программы для ЭВМ.
Личный вклад автора. В работах, опубликованных в соавторстве и перечисленных в конце автореферата: в [1, 6, 9, 21], создана и описана подсистема формирования данных об информационных ресурсах краеведческого музея, разработана и описана структура информационной системы учета музейных материалов, основные требования к ней и функциональные возможности; в [2, 3] разработана и описана структура подсистемы и методика автоматизированной реставрации изображений АТД; в [4, 5, 7, 8, 11] - предложено математическое описание дефектов АТД, их классификация, подходы и принципы их устранения; в [10] разработан и описан трехуровневый способ хранения изображений; в [12, 13, 14, 19] описаны алгоритм восстановления слабоконтрастных изображений архивных текстовых документов, алгоритм классификации с автоматическим заданием стартовых точек, методы выбора наиболее лучшего порога и алгоритм поиска и устранения мелких пятен.
Структура и объем работы. Диссертационная работа состоит из введения, четырех разделов, заключения и списка литературы, имеющего 150 именований. Общий объем диссертации 183 с, в том числе 143 с. основного текста, 14 с. списка литературы, 26 с. приложений. Таблиц 12, рисунков 63.
Благодарности. Автор благодарит: научного руководителя, д.т.н., профессора кафедры «Информационные системы» МИВлГУ Садыкова С.С, сотрудников кафедры «Информационные системы» МИВлГУ, д.т.н., профессора, заслуженного деятеля науки РФ, заведующего кафедрой «Вычислительная техника» КГТУ Титова B.C., д.т.н., профессора кафедры «Вычислительная техника» КГТУ Дегтярева СВ., д.т.н., профессора, заслуженного деятеля науки РФ Сизова А.С. за поддержку и содействие при выполнении диссертационной работы; научных сотрудников Муромского историко-художественного музея, которые оказали значительную помощь при проведении исследований
Во введении обоснована актуальность темы, сформулированы цель работы, решаемые задачи, приведены научная новизна исследований и результаты, вынесенные на защиту, краткое содержание диссертационной работы.
В первом разделе дается анализ работ, посвященных проблемам управления процессами хранения, распределения и реставрации фондов музеев. Рассматриваются основные фазы управления в большинстве музеев. Показана необходимость и целесообразность формирования электронных копий исторических документов региональных музеев и архивов для их долговременного и качественного хранения, как это делается в крупных федеральных музеях, архивах и библиотеках у нас в стране и за рубежом. Показано, что существующая типовая структура региональных музеев, ориентированная на «ручную технологию» учета, хранения, управления и распространения информационных ресурсов имеет много недостатков и не отвечает современным требованиям. Исходя из анализа существующего состояния задач хранения, учета, реставрации и управления информационными ресурсами региональных музеев и архивов дана постановка решения задачи на современном уровне. Разработана новая структурно-функциональная организация (СФО) системы управления информационными ресурсами региональных музеев, их хранения и учета, а также реставрации текстовых документов, основанная на новых методах и алгоритмах обработки информации и позволяющая автоматизировать наиболее значимые функции регионального музея.
Во втором разделе для повышения оперативности работы музейных сотрудников при формировании информационного фонда музея создана подсистема автоматизированного учета, обеспечивающая учет поступлений, выдачи и движения музейных предметов (МП), а также формирование всей отчетной документации. Разработана подсистема хранения и распределения изображений музейных материалов (видеоданных), отличительной особенностью которой является трехкомпонентная структура организации и хранения видеоданных, позволяющая увеличить скорость доступа к электронным коллекциям музея. Для взаимодействия компонентов подсистемы между собой, а также с другими подсистемами разработаны алгоритмы управления информационными ресурсами.
В третьем разделе осуществлена классификация дефектов АТД по типам и с точки зрения цифровой реставрации изображений. Разработаны: алгоритмы выделения и устранения перегибов на изображениях АТД; алгоритм поиска и устранения мелких пятен; алгоритм поиска и устранения пятен среднего размера; методы и алгоритмы нахождения порога по гистограмме изображения АТД; алгоритм восстановления контраста на изображениях АТД. На основе разработанных методов и алгоритмов устранения дефектов разработана подсистема автоматизированной реставрации изображений АТД.
В четвертом разделе разработаны и реализованы подсистемы учета музейных материалов, управления процессом хранения и распределения видеоданных, автоматизированного устранения дефектов АТД, а также приведены результаты практического применения разработанных методов, алгоритмов, технологии и систем для реставрации изображений АТД и управления информационными ресурсами регионального музея на примере МИХМ.
В заключении сформулированы основные результаты диссертационной работы.
В приложениях приведены результаты исследований, акты о внедрении результатов работы.
Существующие способы реставрации изображений архивных документов
Системы автоматизированной реставрации архивных документов В настоящее время основное внимание разработчиков систем реставрации изображений обращено на практическую реализацию цифровых способов реставрации изображений.
Основными средствами работы человека с цифровыми изображениями являются графические редакторы. Наиболее известные графические редакторы (Adobe Photoshop, Jasc Paint Shop, Corel PHOTO-PAINT и другие) имеют воз можность дополнения своих функциональных возможностей использованием плагинов — специально разработанных для них фильтров.
В области реставрации киноизображений весьма перспективными считаются разработки компаний DUST (Франция), Edifis, европейского консорциума BRAVA, а также венгерская система DIMORF [60, 62, 82].
Система DIMORF [82] может устранять дефекты изображений нескольких типов: пятна, царапины, шум, обесцвечивание. Система использует адаптивные алгоритмы обработки изображений и работает в полуавтоматическом режиме с интерактивной поддержкой пользователя.
Алгоритмы восстановления изображений, созданные компанией DUST, основаны на методах распознавания образов и позволяют улучшать запыленные, потускневшие и выцветшие участки изображения.
На установке компании Edifis [62] производится реставрация изображений высокого разрешения методом цифрового ретуширования с полным удалением поверхностных царапин.
В программном продукте консорциума BRAVA [60] для реставрации неподвижных изображений используются гистограммы изображений. Также успешно разрабатывается автоматизированное оборудование для цифровой реставрации киноматериалов.
Программный продукт "Renewer" фирмы Aristos (Украина) предназначен для реставрации неподвижных графических изображений, в том числе и изображений ТД [97]. Программа представляет собой рабочий инструмент реставратора. В процессе обработки производится устранение различного рода искажений, помех и повреждений, имеющихся на исходном изображении. Работа по электронной реставрации выполняется в диалоговом режиме, который позволяет сочетать автоматизацию рутинных операций со знанием и опытом эксперта. Обработке подвергаются черно-белые, полутоновые и цветные изображения.
Система автоматизированной реставрации фотографий и документов Научно-исследовательского центра технической документации (НИЦТД) [8, 15, 19-26, 41-43, 46, 68-71, 82] предназначена для автоматизированного устранения большинства типовых дефектов на изображениях текстовых и фотографических документов.
Программа восстановления изображений AKVIS Retoucher удаляет царапины, пятна и другие дефекты и ненужные объекты на изображении. Программа требует наличие графического редактора (одного или нескольких) в котором предварительно выделяются дефекты.
В целом, существующие системы цифровой реставрации изображений обладают следующими особенностями. Большинство существующих в настоящее время систем работают в полуавтоматическом режиме. Системы цифровой реставрации изображений устраняют наиболее общие дефекты и искажения изображений, с которыми они работают. Как правило, в каждой системе предусмотрена возможность влияния человека на процесс реставрации. В автоматических системах это влияние сводится к возможности изменения параметров реставрации. В полуавтоматических системах на пользователей возлагаются задачи идентификации дефектов, указания месторасположения дефекта (дефектов), указания характера взаимодействия помехи с изображением в области дефекта и другие.
Методы и алгоритмы цифровой обработки изображений, используемые при реставрации АТД Методы цифровой обработки изображений [1, 7, 9, 13, 28, 30, 31, 33, 37-41, 89, 93, 99, 118], которые применимы для реставрации изображений АТД, можно разделить на две группы: 1. Методы и алгоритмы, применение которых к изображению уменьшает воздействие дефектов на зрительное восприятие изображения; 2. Методы и алгоритмы, которые позволяют выделить и устранить дефекты изображений АТД. Для уменьшения воздействия дефектов на зрительное восприятие изображения можно использовать следующие алгоритмы и методы: 1. Методы фильтрации изображений [34, 36, 43, 47, 91, 99];
Концептуальная модель подсистемы автоматизированного учета фондов регионального музея
При проектировании подсистемы «Фонды» выделены следующие задачи, подлежащие детальному рассмотрению: первая задача заключается в формализации документов, связанных с описанием музейных предметов и ведением учета, и отображении их в таблицы базы данных. Вторая задача связана с моделированием структуры базы данных подсистемы «Фонды».
Фонд музея состоит из нескольких частей: основной фонд; научно-вспомогательный фонд; временный фонд (предметы, ожидающие фондо-закупочной комиссии (ФЗК)); списанные предметы.
Основной и научно-вспомогательный фонды включают следующие коллекции предметов: 1. фарфор, фаянс; 2.дерево, мебель; 3. ткань, одежда, обувь, украшения; 4. документы; 5. рукописные книги; 6. старопечатные книги; 7. печатные книги; 8. археология; 9. металл; 10. драгметалл; И. филокартия; 12. бонистика; 13. гербарий; 14. плакаты, лубки; 15. фотографии; 16. керамика; 17. камень, кость, гипс, перламутр; 18. стекло, хрусталь; 19. графика; 20. живопись; 21. иконы; 22. нумизматика цветных металлов; 23. нумизматика благородных металлов; 24. оружие, снаряжение.
Каждый предмет музея хранится в определенном фонде и относится к определенной коллекции, и закреплен за конкретным хранителем музея. Информация о музейном предмете хранится в инвентарных книгах хранителей: номер КП, который предмет получает после прохождения ФЗК, инвентарный номер, наименование, дату создания, описание, легенду, данные об авторе предмета, старый номер КП (обычно хранится как примечание). Кроме основной информации ведется описание физических характеристик музейного предмета: материал, техника, размер, сохранность, данные об изменении сохранности; и учетная информация: данные о хранителе предмета, данные о владельце, дата поступления в музей, источник поступления, способ поступления, сведения о до кументе:приема и документах движения музейного предмета (актах временной, внутримузейной передачи), место хранения;.
Для каждого музейного предмета формируется карточка, в которую заносится основная информация о предмете: наименование предмета, основные: признаки, материал, техника, сохранность, датировка, высота, ширина и длина предмета,. источник поступления,- описание предмета, данные об авторе описаниями номер акта приема документа.
Кроме карточки каждый музейный-предмет имеет научный паспорт, который включает следующую информацию о: музейном предмете: номер КП, инвентарный номер; название коллекции; к которой принадлежит музейный предмет, наименование предмета; описание, сохранность,, Ф;И:0: хранителя, фотография; музейного предмета.
Документы приема разделяются!на следующие виды::акт приема на: времен-. ное: хранение1 фондово-закупочной- комиссии: (ВХ ФЗК); акт приема на посто-янное:хранение, протокол ФЗК (закупкаили дарение), акт возврата после ФЗК.
Документы движенияподразделяются на две основные группы: - акты внутримузейной и временной передачи (акты внутримузейной выдачи,. акты внутримузеиного возврата, акты передачи, на материально-ответственное хранение); "- акты списания музейных предметов.. :
Для организации; хранения данных о музейных предметах будем использовать табличные структуры, где для данных о музейном предмете будет отведена одна илишесколько таблиц: Каждойтаблицевбазе данных будет соответствовать некоторое множество-й атрибуты в таблице будем записывать, в. виде xl,x2,x3,..xn , где ш- количество атрибутов в таблице, хГ - первый атрибут, х2 - второй атрибут и т.д.; запись вида %1 = Хл!;,х2.±Хэ.-,..}СЦ будет обозначать конкретный экземпляр (запись)-из множества X, xl/ - значение первого атрибута і-ой записи, x2t - значение второго атрибута .1-ой записи и т.д. Если записи в множестве X группируются по определенному признаку (например, по наименованию: музейного предмета), то каждую группу можно записать; как ; XJ,. а конкретный j-ый экземпляр в подмножестве XJ может быть записан как x j = xl(,x2 ,x3 ,..,x«j , где х\, - значение атрибута, по которому проводится группировка, x2 j - значение второго атрибута в j-ой записи и т.д. Тогда Xі = occl = i(X).
Каждому музейному предмету можно поставить в соответствие уникальный инвентарный номер: to, є То, где То- множество всех инвентарных номеров. Инвентарный номер однозначно определяет все данные і-ого музейного предмета.
Так как на атрибут, который должен однозначно идентифицировать каждый музейный предмет, накладываются строгие ограничения (он не должен содержать атрибутов, принимающих неопределенные значения; не должен изменяться во времени; должен быть как можно короче), то в качестве идентифицирующего атрибута будем использовать не инвентарный номер, а так называемый суррогатный ключ - некоторое число, произвольно назначаемое каждому экземпляру сущности и однозначно его определяющее. Исходя из сказанного, поставим в соответствие каждому музейному предмету уникальный номер ро, є Ро, где Ро - множество всех уникальных номеров.
Данные о музейном предмете можно представить набором p0„pll,p2l,p3l,p4l,p5„p6l,p7„pS„p9l,p\0„pU„pl2l,pl3l,p\4l,pl5l,pl6„p\7l,p\&l где р\, - инвентарный номер музейного предмета, р2, - номер КП (номер по книге поступлений), рЗ,- идентификатор наименования музейного предмета, р4, -идентификатор фонда, р5, - идентификатор коллекции, /?6, - описание музейного предмета, plt - легенда о музейном предмете, р8, - старый номер КП музейного предмета, р9, - литература, /?10, - дата создания музейного предмета, р\1, - физические характеристики музейного предмета, р12, - учетные данные, р\3, - идентификатор карточки музейного предмета, р\4,- автор музейного предмета, р\5, - место создания музейного предмета, р16, - идентификатор научного паспорта музейного предмета, /Л7, - идентификатор топографической описи, p\St - идентификатор каталога изображений МП, р\9, - иконка музейного предмета, MP - множество всех музейных предметов.
Общее математическое описание дефектов
Локальные дефекты - это наиболее часто встречаемые дефекты на рукописных материалах. Различают обширные дефекты (пятна и т.д.), протяженные по направлению (складки, порывы и т.д.) и мелкий крап. По своему характеру различают полупрозрачные и непрозрачные локальные дефекты. Полупрозрачный характер локальных дефектов предполагает, что имеется хотя бы незначительное отличие по яркости элементов текста от фона (в противном случае локальный дефект носит непрозрачный характер) [51].
Большая часть пятен, которые встречаются на текстовых документах - это пятна среднего размера, имеющие форму, близкую к кругу. На гистограмме такого изображения имеется три ярко выраженных моды. Самая большая принадлежит фону. Две других - буквам и пятнам соответственно. Диапазон яркостей полупрозрачных пятен располагается между диапазонами яркостей текста и фона.
За координаты центра пятна округлой формы можно принять координаты центра окружности, наиболее полно приближенной к границам пятна. Пусть этими координатами будут (хс,ус). Тогда область определения дефекта пятна равна О = и(х ,у ):(хс-х )2 + (ус-у )2 г + (r), где (г) - малая величина, определяющая степень несоответствия области дефекта кругу, г - радиус области дефекта.
Если область дефекта пятна имеет форму, отличную от круга, область определения дефекта пятна можно описать уравнением 0 = и(х ,У):(хс -х )2 + (ус -у )2 г2(0) + (г) где (г) - положительная величина, определяющая степень несоответствия области дефекта заданной форме; г{Оу функция расстояния от центра пятна до его границы вдоль прямой с углом наклона к горизонтали в.
Пусть Z-случайная величина, определяемая некоторым законом распределения, характерным для данного вида пятен; Q = и(х , у): (хс - JC )2 + (ус - у )2 г2 (в) + 0) - область дефекта пятна
Для полупрозрачного пятна, равномерно влияющего на полезный сигнал в области его определения, функция изображения с дефектом данного вида пятна равна g(x,y) = ; (3.8) [f(x,y),(x,y)e Q. Для непрозрачного пятна: (Z,(x,y)eQ, g(x,y) = \ f( w . „ (3.9) [f(x,y),{x,y) Q.
Полупрозрачные пятна, в зависимости от их вида, можно разделить на три группы: - пятна с постоянной прозрачностью; - пятна с линейным изменением прозрачности в каком-либо направлении; -пятна с произвольным изменением прозрачности внутри дефектной области. Для пятен с постоянным изменением прозрачности функцию Z в выражении (3.9) можно представить в виде г г (с,для(х,у)єО, Z= \\ p(x-a,y-b)H(a,b)dadb,rRe rp(x,y) = . H(a,b) - функция, определяющая характер размытия пятна на его границах, которая может быть приближенно задана в виде цилиндра: \0,при(а2 +b2) r, Н(а,Ь) = [\,при(а +Ь ) г, где с, г - постоянные.
Постоянная с определяет величину значения яркости, накладываемой на изображение в области пятна и вычисляется по разнице средних значений яркости изображения внутри пятна и вдоль его границ. Постоянная г определяет ширину зоны размытия.
Функцию Z при линейном изменении прозрачности можно аппроксимировать полиномом первой степени (плоскостью): Z = [На + bx + cy)dxdy СО К основным характеристикам локальных дефектов можно отнести следующие: 1. Количество дефектов данного типа на изображении п. т 2. Размер пятна М = xt , где m - количество элементов в пятне, х, - і-ьш элемент в пятне. 3. Средняя яркость пятна F=i/mJ /(х(), где /( ,) - яркость і-ого эле мента в пятне.
Математическое описание дефекта - угасание штрихов текста
Выцветание чернил (потускнение) - это неотъемлемый эффект, получаемый при долгом хранении текстовых материалов. Можно выделить глобальное потускнение документа и потускнение в локальных участках. Для потускневших архивных материалов характерен слабый контраст изображений на них.
Влияние дефекта потускнения можно представить как преобразование яркостей исходного изображения в новые значения яркости потускневшего изображения: g(x,y)=R[f{x,y)], (ЗЛО) где/(х,у) - исходная функция яркости изображения, g(x,y) - функция яркости слабоконтрастного изображения, R - оператор, описывающий искажение исходного изображения.
При локальном потускнении изображения значение функции нового значения яркости точки зависит и от координат этой точки:
Реставрация изображений АТД на основе разработанной технологии с использованием подсистемы автоматизированной реставрации изображений АТД
Формально алгоритм поиска и устранения локальных дефектов произвольной формы можно представить в виде последовательности шагов: 1. По методу мод определение левой с и правой d границ фоновой моды: Mf = F(xf) = maxF(i), d = min F(i); i=xf I 6y = 2 \xf-d\\ 115 c=d-AV; 2. Получение изображения без фоновых элементов: , ч \f(x,y),f(x,y) c . f (х,у) = Щх,у) є R2 [255,c f(x,y) d 3. Формирование характеристической функции: J0,f (x,y) = 255, Ь(х,у) = \і,Г(х,у) 255 4. Маркировка объектов: к—1; V(x, у) є / повторять: 4.1 если f (x,y) 255, то повторять 4.2 Если j (x—±- + /,.у—І- + у) 0,то 4.3 Мк=0; 4.4 щХ; ;) = 2]2/Чх_!±1+/ _1±1+д иж=т+і, 1=1 j=i 2 2 если Ь(х + і,у + 7) 0; / +1 / +1 4.5 Если Ь(х + і,у + j) = o, то к=к+1, переход к 4.1 i=i 7=1 2 2 5. Построение гистограммы размеров Мк каждого объекта М{і) = {М(0),...,М(к)}н гистограммы средних яркостей Fk F(i) = {F(0),...,F(k)}, к=1..п; п — количество объектов на изображении/ ; 6. Разделение объектов на буквы и пятна; (0,Mk(x,y) Mporog,Fk(x,y) Fporog 2 Ь\х,у) = \ ,У(х,у)еОк \\,Мк(х,у) Mporog,Fk(x,y) Fporog 7. Построение локальных гистограмм для пятен: F(i) = {F(0),...,F(I)}\/(x,y)eO2p
8. Выделение букв из пятен по средством локальной гистограммы. Результаты работы алгоритма поиска и устранения средних пятен представ лены на рисунках 3.15 и 3.16.
Для проведения исследования алгоритма использовались фрагменты изображений АТД размером 255 255 точек:
1. Изображение АТД, содержащее 3 округлых полупрозрачных пятна средней формы, причем два затрагивают текстовые символы. Яркость пятен близка к фону.
2. Слабоконтрастное изображение АТД, содержащее 2 полупрозрачных, пятна, одно затрагивает текстовые символы.
3. Изображение АТД, содержащее одно полупрозрачное пятно, яркость которого близка к яркости текстовых символов.
4. Изображение АТД, содержащее 5 полупрозрачных пятен, затрагивающих текстовые символы. Исследование алгоритма поиска и устранения пятен среднего размера показало: -алгоритм дает удовлетворительные результаты при устранении полупрозрачных дефектов, диапазон яркостей которых близок к фону; -при обработке слабоконтрастного изображения рекомендуется предварительно повысить контраст изображения текстового документа; - алгоритм чувствителен к определению порога яркостей пятен; - алгоритм корректно работает на изображениях с локальными дефектами среднего размера. области, а в качестве случайной компоненты - окрестность точек вокруг этой прямоугольной ОІВКТМ. Во избежание лишних просчетов введем некоторый порог по ярости точек, входящих в выделенную дефектную область, что позволит применять алгоритм только к области пятна и пропускать участки фона. 4Шь
2. Алгоритм устранения пятен с постоянной прозрачностью. Для пятен с постоянной прозрачностью функцию _ \\г) в выражении \ 11 можно представить в виде:
Исходное тестовое изображение, содержащее полупрозрачные и непрозрачное пятна области, а е шч«отв «лучаїмои компоненты - окрестность гоч«» вотрут JTOM ПрЯІ.ЮуГОЛЬЖН ОЙЛвКТН. Б О №&« 3ій№ ЛИШ HIT- П} 0ЧбТО6 ББ&ДЄМ НЄКС70рігІИ ПОрОГ ПС ярКОСТИ ТОЧЄК-. ВЛС ДЧЩИл в вьдЄЛЄННУГС Д-їфеїТНуЮ область, что побелит припинять алгоритм ТОЛЬКО К обЛЙСТИ пчгна 11 пропускать участки фона. 4ИЬ 2. Алгоритм устранения пятен : постоянном прозрачностью. Для пятен с постоянной прозрачностью Функцию в выраж&нин : 11 їло. пне- продета БИТЬ Б вид :
Методы пороговой сегментации для целей устранения дефектов Рассмотрим гистограмму изображения текстового документа. Она обычно имеет интервалы, соответствующие яркостям фона, пятна и текста (рисунок 3.12). Яркость текста на изображении соответствует самой левой моде на гистограмме (интервал [а,Ь]), яркость фона - самой правой моде на гистограмме (интервал [c,d]), яркости между данными модами соответствуют яркостям полупрозрачных пятен (интервал [Ь,с]). Для нахождения порога предлагается следующий алгоритм (алгоритм максимумов гистограмм - алгоритм мод) [ 106] .