Содержание к диссертации
Введение 7
Глава 1. Анализ информационных процессов в архивной 14
отрасли
-
Характеристика сектора архивной информации 14
-
Анализ проектов по оцифровке архивных документов 18
-
Электронные документы и их классификация 28
-
Анализ представления архивной информации в сети 33 Интернет
-
Анализ и оценка эффективности информационных 36 технологий архивной отрасли
-
Исследование свойств архивной информации 45
-
Тематические комплексы архивных документов 47
1.8. Краткие выводы 48
Глава 2. Исследование лексики архивных документов 50
2.1. Анализ лексического состава тематических комплек- 50
сов архивных документов
-
Анализ лексики ТКАД «История освоения космиче- 50 ского пространства»
-
Анализ лексики ТКАД «История памятников архитек- 54 туры и градостроительства»
-
Анализ лексики ТКАД «Документы Октябрьской ре- 58 волюции»
-
Анализ парадигматических отношений 61
-
Исследование количественных характеристик лексики 64 архивных документов
-
Анализ и разработка лингвистических моделей обра- 78
2.5. Глава 3.
3.1.
3.2. 3.3.
зования многокомпонентных словосочетаний Краткие выводы
Разработка и оценка эффективности метода автоматического индексирования архивных документов Линейная модель перехода от естественного языка к информационно-поисковому языку Формальная постановка и методы решения задачи идентификации понятий по ИПТ
Разработка методов обработки неидентифщированных словоформ
-
Оценка эффективности методов индексирования архивных документов
-
Краткие выводы
Глава 4. Разработка методов оценки достоверности цифровой копии оригиналу
-
Математические модели аналогового представления документа
-
Формализация задачи оценки достоверности цифровой копии архивному документу
-
Математический анализ процесса оцифровки
-
Анализ процесса дискретизации
-
Анализ процесса квантования
-
Числовые оценки
-
Оценка качества цифровых копий
-
Анализ процесса воспроизведения
-
Анализ влияния формата записи на соответствие цифровой копии оригиналу
-
Анализ форматов файлов представления фотодоку- 132 ментов
-
Анализ форматов файлов представления фонодоку- 134 ментов
-
Анализ форматов файлов представления видеодоку- 135 ментов
4.7. Краткие выводы 139
Глава 5. Разработка методов доступа к архивной информации 141
5.1. Проблемы и задачи создания удаленного фонда поль- 141
зования
-
Разработка требований к удаленному фонду пользова- 141 ния
-
Анализ систем электронного заказа и доставки доку- 143 ментов
-
Анализ электронных каталогов в сети Интернет 146
5.2. Разработка удаленного фонда пользования архивных 151
документов в сети Интернет
-
Разработка структуры и методов формирования УФП 151
-
Метод выделения смысловых элементов в потоке ви- 154 деоинформации
-
Разработка системы обработки заказов потребителей 157
-
Управляющая процедура ' 157
-
Защита от несанкционированного использования 158 цифровых копий
-
Разработка структуры фонда обеспечения сохранно- 158 сти
5.3. Разработка фонда пользования проектной документа- 159
ции на цифровых носителях
5.4. Краткие выводы 165
Глава 6. Разработка фондов пользования и электронных ката- 168
логов на основе методов цифрового копирования и
Интернет-технологий
6.1. Разработка информационной системы с цифровыми 168
копиями документов о жизни и деятельности канцлера
Германии И. Вирта
-
Цели и задачи разработки 168
-
Информационное обеспечение 169
-
Выбор технического обеспечения 170
-
Разработка технологии ввода и обработки информа- 170 ции
-
Разработка программного обеспечения и системы по- 172 иска информации
6.2. Разработка системы полнотекстовых документов "Фо- 174
тографии Ю.А. Гагарина"
-
Разработка проекта 174
-
Разработка структуры информационных файлов 180
6.3. Разработка удаленного фонда пользования фотодоку- 182
ментов
-
Предпосылки и цели проекта 182
-
Разработка этапности отбора, ввода и оцифровки до- 183 кументов
-
Разработка структуры системы 187
-
Реализация проекта 190
-
Разработка системы Интернет-каталога кинодокумен- 196 тов
-
Разработка перспектив развития проектов 200
-
Рекомендации по оцифровке архивных документов 200 при проектировании электронных ФП
-
Краткие выводы 202 Заключение 204 Литература 207 Приложение 1. Обзор проектов по оцифровке доку- 231 ментов
Приложение 2. Статистика для сайта РГАНТД 255
Приложение 3. Статистика для сайта РГАКФД 263
Приложение 4. Статистика для сайта РГАСПИ 271
Приложение 5. Статистика для сайта «Архивы Рос- 279
сии»
Приложение 6. Фрагменты инвертированного файла 288
(статистика) для различных видов документов
Приложение 7. Анализ технических средств оцифров- 292
ки и форматов записи
Приложение 8. Носители информации 307
Приложение 9. Результаты эксперимента по автома- 315
тическому индексированию архивных документов
Приложение 10. Акты о внедрении 323
Введение к работе
В Концепции федеральной целевой программе «Развитие информатизации в России на период до 2010 года» информатизация рассматривается как процесс использования информационных технологий во всех сферах общественной жизни с целью реализации права граждан на получение различной информации, и в частности, на получение архивной ретроспективной информации, которая образуюет значительный по объему информационный потенциал.
Архивная информация все больше превращается в экономическую категорию и представляет собой "информационное сырье" для производства информационных продуктов и компонентов при производстве клипов, видео и кинофильмов, радиопрограмм и т.д.
В настоящее время архивная информация становится самостоятельным фактором социального и экономического развития общества. Возрастает ее роль в принятии решений в области политике и социальной сфере, в связи с тем, что обладание нужной информацией обеспечивает получение политических и экономических преимуществ.
Архивные информационные ресурсы могут представлять интерес для других стран. Например, в фондах РГАНТД представлены документы о международном сотрудничестве в области освоения космического пространства и космической техники, например, программа "ЭПАС" и зарубежные контакты советских и российских космонавтов.
В ситуации востребованности архивной информации при больших объемах ее хранения традиционные информационные технологии, сложившиеся в архивной отрасли теряют свою эффективность. В связи с этим требуются новые подходы к информатизации в архивах и разработки методов повышения эффективности информационных технологий в архивной отрасли.
Проведенный анализ позволил выделить ряд направлений в современных информационных технологиях, способных оказать влияние на решение данной проблемы: использование носителей информации большой емкости; технологии оцифровки различного вида документов; - технологии создания мультимедиа систем и продуктов, Web- технологии; - телекоммуникационные сети и системы, в частности, сеть Интернет. Применение вышеуказанных технологий и средств компьютерной тех ники позволяют: использовать уникальные архивные документы, которые в силу своей значимости или физического состояния практически недоступны исследователям; создавать фонды пользования на основе баз данных с цифровыми копиями архивных вербальных, аудио- видео- документов; разрабатывать мультимедийные продукты на основе архивных документов как текстовых, так и аудиовизуальных; - осуществлять удаленный информационный поиск архивной инфор мации в базах данных с передачей по телекоммуникационным каналам элек тронных копий архивных документов; - проводить электронную реставрацию архивных документов. Становление информатизации архивной информационной деятельности связано с исследовательской и практической работой целого ряда ученых и специалистов. Значительный вклад в применении информационных технологий в практику работы архивов внесли А.С. Шапошников, разработавший принципы построения АИПС на документы Архивного фонда, М.И. Пилипчук и А.Н. Балакирев, практические работы которых по цифровому копированию фонодокументов и фотодокументов имеют важное значение для создания современных фондов пользования и страхового копирования, В.А. Устинов, проведший целый ряд исследований по физико-химической сохранности современных носителей для хранения архивной информации, Г.А. Медведева, работы которой заложили основу автоматизации научно-справочного аппарата. При разработке методов информатизации архивных информационных технологий необходимо было опираться на работы, проводимые в системе научно-технической информации (Р.С. Гиляревский, В.А. Цветкова, И.И. Родионов), в информационно-библиотечной отрасли (Я.Л. Шрайберг).
Целью работы является разработка методов повышения эффективности информационных технологий поиска и доступа к архивной информации.
Цель предполагает решение следующих задач: - анализ состояния и тенденций развития информационных процессов в архивной отрасли; исследование свойств архивной информации; разработка метода индексирования архивных документов на основе исследования лексики документов различных тематических комплексов; разработка лингвистических моделей образования многокомпонентных терминов; анализ процессов оцифровки различных видов архивных документов и теоретическое обоснование создания фондов пользования и обеспечения сохранности методами цифрового копирования; разработка метода расширения доступа к архивной информации на основе удаленного фонда пользования; разработка и апробация унифицированных технологических процессов обработки информации в электронных архивах, фондов пользования и фондов обеспечения сохранности на основе методов цифрового копирования архивных документов.
Методы исследования. Теоретические исследования основывались на изучение и обобщение научных публикаций по данной проблеме. Проанали- зированы труды отечественных и зарубежных ученых и практиков в области информатики, современных информационных технологий, оцифровки документов. При разработке математических моделей использовались научные положения, изложенные в работах В.В. Кульбы и И.И. Попова. Методологическую базу исследований составили методы информатики, теории графов, прикладной лингвистики, математической статистики.
Объект исследования - архивная отрасль России.
Предмет исследования - процессы развития информатизации архивной отрасли в условиях внедрения современных информационных технологий поиска и распространения архивной информации.
Экспериментальной базой для поведения исследований послужили тематические комплексы архивных документов из фондов РГАНТД, ГАРФ, РГАЭ, РГАКФД, РГИА, РГИА г. Москвы и РГИА г. Санкт-Петербурга.
Научная новизна выносимых на защиту положений диссертационной работы состоит в следующем:
1. Проведено исследование состояния и тенденций развития информа тизации архивной отрасли, в результате которого сформулированы и обос нованы свойства архивной информации, разработана классификация элек тронных документов; выделены направления развития информационных технологий; на графовых представлениях информационных процессов в ар хивах проанализированы информационные технологии и показана эффектив ность использования фонда пользования с цифровыми копиями архивных документов.
2. Выявлены лексические факторы, влияющие на качество индексиро вания и информационного поиска архивных документов: характерное при сутствие в лексике архивных документов идентификаторов, семантически значимых низкочастотных лексических единиц, устойчивых исторических словосочетаний, специфической синонимии.
Разработаны лингвистические модели образования многокомпонентных терминов характерных для лексики архивных документов.
Разработан метод автоматического индексирования архивных документов с использованием информационно-поискового тезауруса и свободного индексирования, который учитывает особенности лексики архивных документов.
Разработаны методы доступа к архивной информации на основе удаленного фонда пользования и фонда пользования с цифровыми копиями.
Разработан метод потенциально-пертинентных элементов для выделения смысловых элементов в потоке видеоинформации, позволяющий повысить качество информационного поиска в фонде пользования с цифровыми копиями видеодокументов за счет предоставления фрагментов видеодокумента отвечающих его информационной потребности.
Практическая значимость исследования определяется реализацией разработанных методов и рекомендаций при разработке архивов электронных документов фонда пользования и фонда страхового копирования в РГАНТД, а также других архивов и организаций. Некоторые положения нашли отражения при проведении научно-исследовательского проекта "Разработка системы страхового копирования архивных документов и фондов пользования на основе современных информационных технологий", осуществляемого по Федеральной целевой программе "Развитие и сохранение культуры и искусства Российской Федерации" (подпрограмма "Развитие архивного дела").
Результаты диссертационного исследования нашли отражение в учебных дисциплинах, прочитанных автором: в ИАИ РГТУ в курсе лекций "Электронные архивы и документы", в Российской академии государственной службы в курсе лекций и семинаров по теме «Электронные архивы».
Личный вклад автора выражается в исследовании, теоретическом обобщении и практическом внедрении результатов научных исследований и разработок, проводимых в течение многих лет как лично автором, так и под его руководством и при непосредственном участии. Автором лично проведены исследования состояния и тенденций развития информационных процессов в архивной отрасли; исследованы свойства лексики архивных документов различных тематических комплексов; разработаны метод автоматического индексирования архивных документов, метод доступа к архивной информации на основе удаленного фонда пользования и методы создания фонда пользования с цифровыми копиями архивной проектной документации, а также разработана классификация электронных документов.
Теоретическая значимость исследования. Разработанные методы повышения эффективности информационных технологий поиска и расширения доступа к архивной информации образуют научно-методическую платформу для перспективного развития исследований и разработок информационной деятельности архивов в области исследований проблем ввода информации, поиска документов и организации информационных массивов в электронных архивах, а также разработки информационной сети Федеральной архивной службы.
Апробация работы. Основные положения и результаты работы обсуждались на следующих семинарах, конференциях и симпозиумах: научная конференция «Роль государственных архивов в ускорении научно-технического прогресса» (МГИАИ, 1986 г.); вторая Всероссийская конференция «Архивоведение и источниковедение отечественной истории. Проблемы взаимодействия на современном этапе» (ВНИИДАД, 1996 г.); НТИ-96: Конференция с международным участием «Информационные продукты, процессы и технологии», (Москва, 1996 г.); НТИ-97: Конференция с международным участием «Информационные продукты, процессы и технологии» (Москва, 1997 г.); НТИ-99: 4-я международная конференция «Интеграция, Информационные технологии. Телекоммуникации» (Москва, 1999 г.); НТИ 2000: 5-я международная конференция «Информационное общество. Информационные ресурсы и технологии. Телекоммуникации» (Москва, 2000 г:); Ре- гиональная научно-практическая конференция «Роль и значение автоматизированных технологий в деятельности архивных учреждений и перспективы их развития» (Пермь, 1996 г.); конференция «Электронные документы и архивы: теория и практика» (Москва, ВНИИДАД, 1999 г.); Научно-практическая конференция «Безопасность архивов и архивных фондов» (Москва, Росархив, РОИА, 1999 г.); VI Международная научно-практическая конференция «Документация в информационном обществе: электронное делопроизводство и электронный архив» (Москва, Росархив, ВНИИДАД, РОИА, 1999 г.); НТИ-2002 6-я международной конференции «Состояние и перспективы развития сектора архивной информации» (Москва, 2002); Научный семинар «Электронные архивы и документы» (Секция РОИА, Москва, 1998 г.); Круглый стол «Электронные документы и архивы: состояние и перспективы» (Москва, РОИА, 2001-2004 гг.); Научно-практическая конференция "Информационные технологии в архивном деле" (Москва, 2000 г.); VIII Международная конференция «Крым 2001» (Судак, 2001 г.); DLM-FORUM'99 «European Citizens & Electronic Information: the memory of the Information Society» (Brussels, 1999 г.); Научно-технический совет РГАНТД (1999-2004 гг.).
Основные положения и результаты также были апробированы в учебном процессе ИАИ РГГУ в курсе лекций "Электронные архивы и документы" (1998-2004 гг.) и в учебном процессе РАГС в курсе лекций и семинаров по теме «Электронные архивы» (2004 г.).
Публикации. По теме диссертации опубликовано 45 научных работ.
Структура и объем диссертации. Диссертация состоит из введения, пяти глав, заключения, списка литературы из 240 наименования и 10 приложений, содержит 230 страниц основного текста, 52 рисунка, 33 таблиц и 96 страниц приложений.