Содержание к диссертации
Введение
Глава 1. Основные процессы обработки информации в ЭБ 11
1.1. Функционирование ЭБ в аспекте управления информационными ресурсами 11
1.1.1. Уровень взаимодействия пользователей с электронной библиотекой 14
1.1.2. Уровень внутрисистемной организации информационного массива 19
1.1.3. Технологический уровень организации 24
1.2. Основные процессы обработки информации 28
1.2.1 Внутрисистемные преобразования документа 31
1.2.2 Коммуникационные преобразования документа 32
1.2.3 Взаимосвязь представлений документа 33
1.3. Подходы к представлению структуры информации 34
1.3.1. Основные требования к представлению полнотекстовых документов 34
1.3.2. Унифицированные средства разметки документов 36
1.3.3. Средства описания архитектуры документа 38
Выводы 45
Глава 2. Представление документа в процессах обработки 47
2.1 Структура информации в документе 47
2.1.1 Информация об идентификации документа 47
2.1.2. Информация о представлении документа 48
2.1.3. Взаимосвязь двух структур документа 49
2.2. Процессы обработки документа 51
2.2.1 Хранение документа 51
2.2.2. Наполнение документа 53
2.2.3. Доступ 56
2.2.4. Выдача 56
2.2.5. Модель преобразования логической и макетной структур 59
2.3. Средства представления структуры документов 60
2.3.1. Локализованные средства представления 60
2.3.2. Распределенные средства представления информации 61
Выводы 72
Глава 3. Обобщенная модель представления документа в процессах обработки 73
3.1. Структурная модель обработки документа 73
3.2. Функциональная модель обработки документа 76
3.3. Частные случаи реализации модели 81
3.4. Оптимизация модели с использованием метода анализа иерархии 90
Выводы: 96
Глава 4. Практическая реализация модели 98
4.1 Реализация коммуникационной составляющей модели 98
4.1.1 Использование коммуникационной составляющей модели для унификации доступа к собственным ресурсам ЭБ 100
4.1.2. Использование коммуникационной составляющей модели для унификации доступа к удаленным ассоциированным ресурсам 104
4.2 Реализация внутрисистемной составляющей модели 109
Выводы 116
Заключение 117
Список использованной литературы: 119
Приложения 123
- Уровень внутрисистемной организации информационного массива
- Унифицированные средства разметки документов
- Распределенные средства представления информации
- Использование коммуникационной составляющей модели для унификации доступа к удаленным ассоциированным ресурсам
Введение к работе
Конец двадцатого столетия характеризуется как период становления информационного общества, в котором информация становится одним из основных экономических ресурсов и структурирующим социальным фактором, под воздействием которого меняются формы экономической деятельности, виды и типы предприятий и организаций, социальные взаимоотношения. Информация становится таким же национальным ресурсом, как недра, вода, леса и т.п. Сохранение, развитие и рациональное использование этого стратегического ресурса будущего является задачей огромного значения для любого общества и государства.
Одной из важнейших задач, практически всегда стоявшей перед человечеством, является сохранение информации с целью ее передачи во времени и/или пространстве. После возникновения книгопечатания основной формой фиксации и распространения информации являются печатные издания, а главными средствами хранения и доступа к информации стали библиотеки.
Стремительное развитие и активное использование современных информационных и коммуникационных технологий позволило приступить к широкомасштабному переводу накопленной человечеством информации в электронную форму и созданию новых электронных информационных ресурсов. Эта новая форма представления информации позволяет на качественно ином уровне организовать процессы производства, хранения и распространения информации. Обеспечение публичного (в том числе удаленного) доступа пользователей к информационным ресурсам стало одной из первоочередных задач обслуживания науки, культуры и образования.
Электронная форма позволяет на сегодня хранить информацию надежно и компактно, распространять ее намного оперативнее и шире и, кроме того, предоставляет такие возможности манипулирования с ней, которых не могло быть при иных формах.
Основными средствами для реализации этих возможностей являются электронные библиотеки (ЭБ) — распределенные информационные системы, позволяющие надежно сохранять и эффективно использовать разнообразные коллекции электронных документов (текст, графика, аудио, видео и др.), доступных через глобальные сети передачи данных в удобном для конечного пользователя виде.
Начало созданию ЭБ было положено еще в 70-х годах, когда начались первые разработки в области документальных ИПС. В начале 70-х гг. абсолютное большинство машиночитаемых баз данных составляли библиографические базы [33]; к концу 70-х положение начало меняться. Распространение технологии электронного набора на широкую область издательской деятельности привело к появлению разнообразных баз данных,
включающих полные тексты документов. Одновременно резко увеличилось число и объем фактографических баз, в том числе не имеющих печатных аналогов. Связано это было прежде всего с удешевлением средств массового хранения и процессов ввода данных в компьютер. Благодаря этому для ряда центров-генераторов стала возможной подготовка ретроспективных массивов за годы, предшествовавшие началу их промышленного выпуска. Так, уже к началу 80-х годов для поиска был доступен полный массив американских патентов (ретроспектива по базе USCLASS/USPA в ИПС System Development Corporation (SDC)/Orbit - начиная с 1798 г.); в этом же направлении работал Chemical Abstracts Service (CAS), где вводились сведения о химических соединениях, описанных в научной литературе до пуска регистрационной системы CAS (1965г.), и ряд других центров-генераторов баз данных.
Дальнейшие изменения на рынке информационных услуг заключались в появлении и более широком распространении целого ряда новых типов информационных систем, таких как:
автоматизированные библиотечные системы и сети, предоставляющие простые, предназначенные для непрофессиональных пользователей средства диалогового поиска информации в каталогах библиотек; среди них системы OCLC, RLIN, WLN, система библиотеки Конгресса США и др.;
локальные интерактивные ИПС на персональных ЭВМ, в том числе использующие базы данных на оптических дисках;
информационные системы и службы общего характера, предоставляющие общественно-политическую и/или экономическую информацию, услуги типа электронной почты, «компьютерного магазина» и т. д.; среди них Dow Jones News Retrieval, The Source и др.
вычислительные центры коллективного пользования, предоставляющие доступ к машинным ресурсам, пакетам программ и базам данных для экономических и/или научных расчетов, например Sharp;
разнообразные информационные системы в банковском деле, сфере обслуживания и т. д., предоставляющие доступ к своим услугам в режиме диалога.
Существенно сложнее было освоение полнотекстовых и библиографических баз данных, однако и эта задача тоже бьша постепенно решена. Например, в крупнейшей на тот период на Западе ИПС Dialog число небиблиографических баз увеличилось с 32 в 1980 г. до 96 в 1986 г.
Наиболее общая тенденция в эволюции баз данных, предоставляемых большими ИПС для диалогового поиска, прослеживалась с самого начала работы таких ИПС и состояла в увеличении объема доступной пользователю информации. Это происходило, во-первых, благодаря увеличению числа баз и глубины ретроспективы и, во-вторых - благодаря обогащению содержания записей в базах данных.
Первые базы данных включали только библиографические описания и ключевые слова. Со временем падение стоимости хранения данных и увеличение числа обращений к ИПС экономически оправдали включение рефератов в поисковые файлы. К концу 80-х гг. уже имелись базы данных, содержащие полные тексты документов, например:
машинные аналоги сериальных изданий, например, соответствующая нескольким журналам база ASAP (ИПС Dialog), база, содержащая тексты статей из всех журналов американского химического общества (STN International) и др.;
аналоги энциклопедий и справочников, такие, например, как Американская академическая энциклопедия (на базе ИПС Dialog, BRS, Data-Star), справочник терапевта (Dialog, BRS), справочник по лекарствам (Dialog, BRS) и др.;
службы новостей, такие, как базы New York Times (система NEXIS), агентств Associated Press, United Press International и ТАСС (Dialog) и др.
Работа с полнотекстовыми базами требует более тонких методов учета структуры текстов при поиске и большей избирательности при их просмотре по сравнению с библиографическими или реферативными базами.
Наиболее очевидный путь обогащения содержания баз данных - включение в них полных текстов. Другой путь - это организация и использование фактографических баз, записи в которых не обязательно однозначно соответствуют документам. Это могут быть:
базы, фактографическая информация в которых имеет в основном символьное представление, интерпретируется как текст и допускает обработку с помощью стандартных для ИПС средств (это, например, семейство экономических баз Predicasts (Dialog, Data-Star);
базы, информация в которых имеет символьное представление, но интерпретируется и обрабатывается при поиске не совсем так, как текст; сюда относятся, например, химические словари к базе СА Search (CAS) - Chemname (Dialog), Chemdex (SDC/Orbit) CNAM (Data-Star) и др.;
базы со специальным представлением данных, определяемым характером описываемых объектов и требующим соответствующих средств обработки; наиболее известные примеры - база данных по структурам химических соединений Registry в STN International или ее европейский аналог в ИПС DARC.
Оценивая эволюцию функциональных возможностей больших диалоговых ИПС, необходимо иметь в виду особенности функционирования этих систем - работу со значительным числом пользователей и баз данных объемом 106 — 107 записей. Вводя в этих условиях новые поисковые или сервисные возможности, необходимо было заботиться о сохранении достаточно высокой производительности системы. Большие ИПС по необходимости строились предельно экономно. Можно перечислить ряд функциональных возможностей большой ресурсоемкое, которые предоставлялись многими поисковыми системами, работавшими с базами малого и среднего объема, но которых не было в ИПС с большими базами данных. Так, использование «тонких» контекстных операторов - дорогостоящая услуга, считавшаяся необязательной в библиографических базах данных без рефератов. Эта услуга являлась стандартной в целом ряде типовых пакетов программ, однако в системах Dialog и Questel она появилась сравнительно позже (в 1985 г.), в SDC/Orbit предоставлялась только в тех базах, в которых без нее нельзя было обойтись, а системы BR.S и Data-Star предоставляли лишь часть контекстных операторов, которыми располагал, например, Dialog.
Быстрый рост производительности, обеспечиваемый развитием технических и системных программных средств, стал основой эволюции функциональных возможностей больших ИПС.
Таким образом, к концу 80-х - середине 90-х годов полнотекстовые ИПС постепенно эволюционировали до электронных библиотек за счет изменения и самого состава хранимой информации, и функциональных возможностей систем и естественно прогресса в развитии программно-аппаратных средств.
Согласно исследованиям Института развития информационного общества [9], в той или иной форме идея электронной библиотеки уже работает во многих университетах и крупных библиотеках ведущих стран мира.
Одно из определений термина "электронная библиотека", утвержденное в 1995 году Ассоциацией исследовательских библиотек США, гласит, что под электронными библиотеками понимается технология создания распределенных информационных систем, характеризующихся высокой степенью интероперабелъности составляющих компонент, предоставляющих универсальный доступ к хранящейся информации и содержащих мультимедийную информацию, а также сами информационные ресурсы, созданные с помощью такой технологии [40].
Естественно, что электронные библиотеки для выполнения своих функций фактически должны реализовываться в виде некоторых информационных систем, отличитель-
ным свойством которых является длительное хранение и использование информации, в частности ее распространение.
Основные задачи электронных библиотек — интеграция информационных ресурсов и эффективная навигация в них [1]. Под интеграцией информационных ресурсов понимается их объединение с целью использования различной информации с сохранением ее свойств, особенностей представления и пользовательских возможностей манипулирования с ней. При этом объединение ресурсов не обязательно должно осуществляться физически - оно может быть виртуальным. Главное - то, что пользователю должно быть обеспечено восприятие доступной информации как единого информационного пространства. В частности, предполагается, что электронные библиотеки должны обеспечивать работу с разнородными БД или системами БД, сохраняя эффективность информационного поиска независимо от особенностей конкретных информационных систем, к которым осуществляется доступ.
Сегодня существует огромное количество массивов информации, которые можно называть электронными библиотеками, в силу того, что они распределены среди многих сетей, центров, университетов и фирм, а поддерживающие их информационные системы хоть сколько-нибудь интероперабельны, и доступ - в основном посредством Internet - уже обеспечивает универсальность доступа и мультимедийность.
Однако универсальность доступа отнюдь не означает унифицированность. Последняя характеристика подразумевает наличие единого для многих ЭБ механизма доступа к хранимой в них информации. Такой механизм предполагает несколько уровней, начиная от пользовательского интерфейса и заканчивая поисковым языком и унифицированными выходными форматами представления информации.
На концепцию электронных библиотек, а также на их программное обеспечение существенное влияние оказывают требования, связанные с представлением информации и возможностью ее использования. Все информационное пространство электронных библиотек, доступное пользователю, должно быть представлено в виде совокупности самостоятельных объектов. В качестве таковых во многих случаях могут выступать электронные документы. На данном этапе ограничимся следующим определением электронного документа. Под электронным документом будем понимать законченное произведение, имеющее автора и допускающее однозначную идентификацию. Более подробно это понятие будет рассмотрено в главе 1.
Однако процесс интеграции ЭБ в единое информационное пространство не так прост, как это может показаться на первый взгляд. Каждая ЭБ — это отдельная, сложная многоуровневая система со своими подходами к обработке информации, своими метода-
ми и технологиями представления данных, моделями хранения и преобразования документов. Основным препятствием на пути к созданию такого пространства является различие в подходах к представлению информации.
В любой системе можно выделить два взаимосвязанных уровня представления информации - концептуальный и прикладной.
На концептуальном уровне различия в представлении документа объясняются использованием различных моделей представления как документов в целом, так и отдельных их элементов и связей между документами. Выбор модели документа на концептуальном уровне во многом определяет способ представления документа на прикладном уровне, обусловливая использование различных стандартов и форматов хранения информации.
Прикладной уровень представления (в частности, особенности физической среды хранения и физической организации данных) в свою очередь накладывает ограничения на выбор той или иной концептуальной модели.
Очевидно, что такая взаимосвязь уровней представления предполагает использование в каждом случае моделей, наиболее соответствующих требованиям конкретной системы. А это в свою очередь приводит использованию в ЭБ различных, а потому часто несовместимых средств хранения и форм представления информации.
Обобщая все сказанное выше, можно сделать вывод о том, что наиболее актуальной проблемой при создании ЭБ является использование различных, зачастую несовместимых способов представления информации в каждой отдельно взятой системе. Отсутствие единой модели представления документов делает невозможным процесс интеграции электронных библиотек в единое информационное пространство.
На сегодняшний день существует множество разработок в области представления полнотекстовой информации. Однако, они охватывают лишь отдельные аспекты представления документа (такие, как доступ или хранение), но не весь процесс существования документа в системе.
Основная цель диссертационной работы заключается в создании обобщенной модели представления документов, применимой к различным процессам обработки документа (наполнение, хранение, доступ, выдача). Эти процессы определяются исходя из общей схемы функционирования ЭБ, описывающей для каждого функционального уровня ряд форм и представлений документа, а также необходимых действий над ним.
Для достижения поставленной цели необходимо решить следующие задачи:
1. Определить основные процессы обработки информации и их взаимосвязь, в том числе:
построить схему функционирования ЭБ в аспекте управления документальными ресурсами;
определить основные процессы обработки и построить модель их взаимодействия;
рассмотреть существующие подходы к представлению структуры информации.
2. Определить особенности преобразования документа и соответствующие фор
мы его представления в каждом процессе, а именно:
проанализировать структуру информации, хранимой в документе;
определить возможные преобразования документа в каждом процессе обработки и варианты его представления;
рассмотреть существующие средства представления документов и их возможности для использования в преобразованиях.
3. Формализовать и оптимизировать полученную модель представления доку
мента:
- определить уровни преобразования документа для каждого процесса и
схему их взаимодействия в целом;
- решить задачу выбора оптимального преобразования документа.
Новизна предлагаемого подхода к представлению документа в распределенных
электронных библиотеках состоит в том, что практическая реализация модели возможна с использованием самых различных механизмов обработки информации. Это могут быть как локальные средства управления информационными ресурсами (ИС, СУБД), использующие собственные, уникальные методы представления и обработки документов, так и технологии распределенной обработки данных. К последним относятся модели унифицированного представления данных, основанные на общепринятых стандартах, например, протокол доступа к данным Z39.50 или языки разметки, и прежде всего XML.
Разрабатываемая модель, за счет подробного, многоуровневого описания этапов обработки документа и своей ориентированности на общую, абстрактную схему функционирования ЭБ позволяет успешно комбинировать средства представления документа для достижения оптимального результата. Такая гибкость и возможность оптимизации для конкретных случаев и определяет значимость данной разработки для использования ее в различных системах.
Использование этой модели в конкретных системах позволяет оптимизировать преобразования документа для представления его в каждом отдельном процессе обработки и в системе в целом.
Работа состоит из введения, 4 глав, заключения и 3 приложений.
Первая глава включает в себя описание функционирования электронных библиотек в целом, особенности представления полнотекстовой информации и состояние текущих разработок в области создания полнотекстовых ИС.
В главе подробно рассмотрены варианты функционирования ЭБ с точки зрения нескольких уровней организации. Рассматриваются аспекты взаимодействия пользователей с ЭБ, аспекты системной организации массивов информации ЭБ, а также технологический уровень работы ЭБ.
На основе проведенного анализа и построенной схемы функционирования определяются процессы преобразования информации и их взаимосвязь.
Основываясь на модели взаимодействия процессов, рассматриваются существующие подходы к представлению информации — языки разметки, архитектура документа по стандарту ODA, и их основные возможности.
Вторая глава работы посвящена рассмотрению определенных ранее процессов обработки информации - хранению, наполнению, поиску и выдаче, а также зависимости преобразований информации в этих процессах от структуры информации в документе.
В результате анализа структуры информации в документе выделяются несколько категорий данных, в той или иной степени значимых для каждого конкретного случая. На основе этого анализа исследуются процессы обработки информации и взаимосвязь возможных типов преобразований с конкретными категориями информации в документе.
Также во второй главе содержится анализ существующих средств представления структуры информации - локализованных средств и средств распределенного представления, и возможности их интеграции.
Третья глава описывает формализованную модель документа в контексте процессов обработки. Задача выбора оптимального преобразования документа в системе сводится к многокритериальной задачи теории принятия решений. Оптимальной альтернативой, найденной методом анализа иерархий, является последовательность преобразований документа, включающая полную цепочку операций отображения и представления данных.
Уровень внутрисистемной организации информационного массива
Организация информационного пространства библиотеки, ориентированного на обслуживание различных категорий пользователей и управление разнородными ресурсами, предполагает использование определенной структуры информационного массива.
Основными требованиями к информационному массиву в такой системе можно назвать следующие: - использование различных поисковых возможностей; - управление доступом к ресурсам различного уровня; - обеспечение навигации в массиве и т.д. Выполнение таких требований достигается за счет включения в массив баз данных трех типов: 1. Полнотекстовые БД — содержащие полные тексты первоисточников. К полнотекстовым базам данных можно отнести текстовые, гипертекстовые, фрагментальные БД. Как таковые полнотекстовые БД могут и не присутствовать в составе информационного сервера ЭБ. Полные тексты могут быть представлены либо коллекциями отдельных файлов, либо отсутствовать вообще. 2. Реферативно-библиографические БД — содержащие только библиографические описания первоисточников, хранящихся в фонде организации. Такие базы данных часто делятся по видам изданий (БД книг, журналов, статей, рукописей и т.д.). 3. Справочные БД {лексикографические) — словари, рубрикаторы, тезаурусы и т.п. С их помощью ведутся систематический, предметный поиск, поиск по ключевым словам. Среди таких БД могут быть словари ключевых слов (нормализованной лексики), словари предметных рубрик, тезаурусы, классификационные схемы. В настоящее время в электронных библиотеках наиболее широко представлены реферативно-библиографические БД, которые в совокупности со справочными базами данных составляют электронные каталоги. Создание полнотекстовых БД связано с определенными трудностями. Прежде всего, это проблемы перевода первоисточника в электронную форму. Исходные тексты документа могут содержать графику, таблицы, различные стили форматирования и т.д. На данный момент нет какого-либо формата, позволяющего хранить такие разнородные данные в одной базе данных, обращаться к ним, передавать по электронным каналам связи и представлять пользователю в некотором едином виде. Существуют отдельные стандарты, позволяющие работать с такой информацией на разных этапах обработки документа, и все вопросы, связанные с такой обработкой будут рассмотрены подробно во второй главе. В связи со сложностью создания и ведения полнотекстовых баз данных, полные тексты первоисточников хранятся в виде отдельных файлов, чаще всего в формате PDF, позволяющем представлять документ в исходном виде, со всеми видами оформления, изображениями и таблицами. Но, к сожалению, такой способ представления информации полностью исключает возможность полнотекстового поиска или выбора определенного формата выдачи, то есть перевода информации в другой формат. Структура и форматы данных Говоря о форматах данных, необходимо разделять структуру хранения информации и структуру обмена информацией. Очевидным является то, что структура и формат хранимой информации зависят непосредственно от типа базы данных. Структура документа, формально описываемая схемой БД, определяет основные элементы (поля) документа, типы данных, хранимые в этих полях, а также связи между полями и документами. Кроме этого, в схеме может присутствовать информация о способах представления этого документа пользователю, то есть о том, как должны отображаться те или иные поля на экране, а также, информация о возможности поиска по этому полю, о наличии словарей для этого поля. Структура данных должна поддерживать возможность использования различных форматов обмена данными и представления информации. Существуют различные форматы обмена библиографической информацией. Основными из них являются форматы серии MARC, имеющие иерархическую структуру, которая поддерживает отношения между элементами внутри документа и позволяет комбинировать связанные документы и коммуникативный формат МЕКОФ, устанавливающий структуру записи и ее наполнения для обмена библиографической информацией на машиночитаемых носителях. Основными форматами для обмена полнотекстовыми документами на сегодняшний день являются форматы ODA/ODIF, SGML и XML. Протоколы доступа к данным На сегодняшний день в области автоматизации функционирования библиотек существуют два протокола, позволяющих осуществлять доступ к базам данных через Internet: Z39.50 и HTTP. Z39.50 - Американский Национальный Стандарт, который был принят в 1988 году Национальной Организацией по Информационным Стандартам (NISO), а также Американским Национальным Институтом Стандартов (ANSI). HTTP - прикладной протокол, разработан для обмена гипертекстовой информацией в Internet, используется с 1990 г. [54]
В то время как Z39.50 ориентирован на высококачественный поиск в базах данных, HTTP позволяет легко получать и просматривать документы. Протокол HTTP изначально был ориентирован на работу с гипертекстовыми распределенными системами, причем не только с точки зрения потребителя, но и разработчика подобных систем. Оговоренные в спецификации методы доступа, позволяющие изменять информацию, а не только просматривать ее, в настоящее время не нашли применения [32].
Все больше организаций занимаются разработкой WWW-интерфейсов для своих БД, но поисковые возможности HTTP, как одной из составляющих WWW, пока несравнимо малы относительно Z39.50.
Одним из различий между Z39.50 и HTTP является способ связи клиента и сервера. HTTP-серверу ничего не известно о результатах предыдущего взаимодействия с клиентом, в то время как Z39.50 ориентирован на поддержание какого-либо режима работы (поиск, представление данных и т.п.), причем каждый режим работы использует информацию о результатах выполнения предыдущих операций. Например, извлечение документов производится при помощи результирующего множества, сформированного в результате обработки запроса на поиск и хранимого сервером до закрытия Z-соединения. На практике это различие относительно. Существует несколько способов имитации постоянного соединения при использовании HTTP. С другой стороны, непрерывно увеличивающаяся производительность машин-клиентов и серверов снижает потребность в поддержании постоянного Z-соединения в реализациях Z39.50 (то есть отпадает необходимость в хранении и сложном администрировании результатов поиска - серверу проще обработать весь запрос снова).
Унифицированные средства разметки документов
Стандарт ISO 8879, Information Processing - Text and Office Systems -Standard Generalized Markup Language SGML - предлагает метаязык для создания языков обобщенной разметки документов. В настоящее время SGML используется очень мало в связи со сложностью реализации, однако, средства разметки, созданные на его основе и использующие его основные принципы (прежде всего это XML), широко применяются для решения задач обмена данными и представления логической структуры документа. Стандарт SGML создавался в следующих целях: - добиться независимости структуры документа от стиля его представления; - обеспечить независимость от форматирующей системы; - предоставить возможность многофункциональной обработки документа: форматирование всего документа, выборка фрагментов текста и ключевых слов, выборка из документа информации о заголовке, авторах и аннотации. При использовании SGML предполагается, что текст состоит из логических частей, называемых элементами, которые с помощью разметки помечаются в тексте. Обычно элемент ограничен начальной и конечной метками. Важно, что ни названия меток, ни их структура не определяются и не фиксируются в стандарте SGML. В рамках стандарта можно определять произвольную разметку. SGML также не определяет способ интерпретации документов, поэтому в конкретных системах для использования SGML необходим прикладной процессор, который обрабатывает структуру и содержание документа. В качестве прикладного процессора, как правило, используется преобразователь SGML-разметки в команды штатного текстового процессора конкретной системы. Использование SGML имеет определенные преимущества: - при создании большого количества однотипных документов повышается производительность, - при подготовке документов, которые должны иметь конкретный формат, обеспечивается всеобщее "выполнение" принятых стандартов, - при постоянных модификациях документов с длинным жизненным циклом облегчается сопровождение, - при работе с документом, содержащим информацию, которая должна обрабатываться различным образом, можно использовать только исходный файл и не переходить на специфические виды обработки, например, не извлекать рисунки, - при передаче документов в другие системы упрощаются преобразования форматов представления различных частей документа. SGML — стандарт описания структуры документов [44]. SGML является не только языком для спецификации разметки синтаксиса - с помощью SGML определяют структуру документа в так называемом определении типа документа (Document Type Definition — DTD). Большое влияние на развитие SGML было оказано инициативой CALS (Continuous Acquisition and Life-cycle Support) министерства обороны США. Документы, размеченные в стиле SGML, не являются окончательной формой документа, что отличает этот формат от других, и содержат только необходимую логическую информацию. Как уже говорилось, SGML не нашел широко признания в связи со значительной сложностью реализации, поэтому на его основе консорциумом WWW был разработан ряд более простых и гибких спецификаций. Первой такой спецификацией явился XML — extensible Markup Language - расширяемый язык разметки [51]. XML, подобно SGML, является средством создания языков разметки и описания типов документов. XML позволяет описывать документы не только с помощью громоздких DTD, но и с использованием достаточно простого и гибкого средства - схемы документа. Язык схем также описывается с помощью правил XML, что упрощает обработку схем и документов XML-процессорами. На базе XML разработаны такие стандарты, как XSL (extensible Stylesheet Language) [52] и XSLT (extensible Stylesheet Language for Transformations)[66] — языки расширяемых стилевых таблиц и стилевых таблиц для преобразований XML-документов, позволяющие как преобразовывать XML-документы из одной структуры в другую, так и задавать правила отображения документов, переводя их, прежде всего, в формат HTML. Далее, немаловажными являются спецификации XPath [64], Xpointer [65], и XLink [63] - XML-средства, позволяющие обращаться к отдельным фрагментам и элементам XML-документа. Обработка XML-документа различными программами (прежде всего XML-процессорами) осуществляется в соответствии с DOM-моделью (Document Object Model — Объектная модель документа), разработанной Web-консорциумом [50]. DOM-модель предполагает представление документа в виде иерархии объектов, каждый из которых обладает определенным набором свойств, методов и событий. Корневым объектом является объект документа. Далее следуют объекты узел, и набор узлов. Объекты имеют такие свойства, как Имя, Значение, тип содержимого и т.д., позволяющие оперировать с данными XML-элементов, преобразуя их к нужному виду.
Стандарт ISO 8613 parts 1-6, Information Processing - Text and Office Systems - Office Document Architecture (ODA) and Interchange Format (ODIF) предназначен для передачи и представления документов, ориентированных прежде всего на делопроизводство — бланки, накладные, переписка, отчеты и т.п.
ODA имеет два основных назначения. Во-первых - это метод описания электронного представления документа, включая все входящие в него виды информации (текст, векторная и растровая графика, таблицы). Такое структурное описание называется архитектурой документа. Второе назначение — представление содержания структурированной информации в виде, удобном для автоматизации обмена между текстовыми процессорами, рабочими станциями, лазерными принтерами и т.д. Кодирование ODA для обмена между такими устройствами осуществляется в последовательном формате ODIF, что удобно для использования в коммуникационных системах. В частности, здесь используется стандартный синтаксис, определенный для использования в архитектуре OSI.
В описании документа по стандарту ODA выделяются следующие основные категории: логическая структура, макетная (форматирующая) структура, содержание.
Логическая структура предназначена для представления произвольных иерархических видов организации информации. Например, рубрикация документа, включение в текст таблиц и рисунков. Причем в стандарте ODA обеспечены не конкретные понятия, а механизм для описания различных видов организации информации.
Распределенные средства представления информации
Набор тэгов может быть легко расширен. Таким образом, у разработчиков появляется уникальная возможность определять собственные команды, позволяющие им наиболее эффективно определять данные, содержащиеся в документе. Автор документа создает его структуру, строит необходимые связи между элементами, используя те команды, которые удовлетворяют его требованиям, и добивается такого типа разметки, которое необходимо ему для выполнения операций просмотра, поиска, анализа документа.
Элементы XML могут иметь собственные характеристики, выражаемые атрибутами. Каждый описываемый в структуре атрибут принадлежит конкретному элементу и предназначен для хранения дополнительной информации об элементе.
Помимо элементов и атрибутов, обеспечивающих структурированное представление текстовой информации, языки разметки могут оперировать и двоичными данными (специальные символы, графика, аудио, видео и т.д.). Такая возможность достигается использованием сущностей — фрагментов документа, не связанных с элементами структуры, не представленных в формате XML (или SGML). Использование сущностей позволяет хранить в документе или связывать с документом инородную информацию в любом формате.
Существует два способа описания структуры документа, элементов и взаимосвязей между ними: DTD (Document Type Definition) - определение типа документа, и схема документа.
Разница между этими подходами состоит лишь в сложности описания и способе обработки. Способ описания структуры документа в DTD берет свое начало в стандарте SGML. Это не самый простой и довольно жесткий способ создания структуры документа. Каждое DTD описывает класс документов, обладающих общей структурой. DTD могут храниться как внутри документа, так и вовне.
Схема имеет те же назначения, что и DTD, однако, является более гибким средством. Сами схемы описываются при помощи XML, следовательно, создаются и обрабатываются намного проще, нежели DTD.
Представление документа при помощи XML полностью соответствует объектной модели документа (DOM), предложенной консорциумом W3C. Эта модель предполагает представление структуры и содержания документа в виде совокупности узлов, каждый из которых имеет свои свойства (имя, тип, значение, число дочерних узлов) и методы (создание, удаление, вставка узлов). Модель DOM используется при обработке XML-документов как различными XML-процессорами, так и при написании собственных процедур преобразования.
Объектная модель документа определяет некоторый стандартный набор объектов для представления HTML- и XML-документов, методы и алгоритмы комбинирования этих объектов, а также интерфейс для доступа к ним и выполнения операций над ними. Однако объектно-ориентированный подход, в рамках которого консорциум W3C строит модель документа для навигации, может быть основой построения логико-семантической модели научных документов для обеспечения поиска в электронных библиотеках (наряду с обеспечением доступа к документам и выполнения операций над ними) [11].
Многие средства представления текстовых документов (HTML, PDF, RTF) обеспечивают только создание документа, но не управление им [27]. В XML содержание отделено от представления, что облегчает обработку данных с помощью любого инструмента: языка программирования или языка написания сценариев. Теги, предназначенные для управления представлением информации, не мешают обработке или поиску данных. Структура XML-документа может быть легко адаптирована к существующим системам. Как правило, при обработке XML-документов с помощью языков программирования используется представление структуры документа с использованием DOM-модели документа. Однако, языки программирования чаще всего оперируют именно не со структурой (здесь под структурой понимается набор элементов и отношения между ними), а с данными. В случае же преобразования элементов и их взаимосвязей использование языков программирования и процедурной обработки себя не оправдывает — даже с использованием DOM-модели, как наиболее функционального представления XML-документа, алгоритмы обработки получаются громоздкими и малоэффективными. Однако, DOM-модель используется не только при процедурной обработке, но и в декларативных преобразованиях. Декларативные преобразования структуры XML-документа осуществляются с помощью языка XSLT (extensible Stylesheet Language for Transformations) — расширяемого языка стилей для преобразований [3].
XSLT - это XML-язык, а программы на XSLT представляют собой правильно оформленные XML-документы.
В отличие от традиционных языков программирования преобразование в XSLT не является последовательностью действий, которую необходимо выполнить для достижения результата. Преобразование - это набор шаблонных правил, каждое из которых определяет процедуру обработки определенной части документа.
Использование XML для представления содержания документа, a XSLT (и других XML-средств, например XPath) для преобразования позволяет оперировать с документом, оставаясь в одном языковом пространстве, используя единую модель представления структуры документа - DOM-модель.
При моделировании документов с использованием XML-технологий, основное внимание уделяется методам семантической разметки и кодирования компонентов, которые решают задачи хранения документов в открытых форматах, навигации по документам, повышения качества отображения, верстки и печати документов, но не решают задачу поиска документов по их структурно-графическим компонентам.
Проблему построения логико-семантической модели научных документов предлагается решать в рамках объектно-ориентированного подхода, что позволяет учесть многоуровневую вложенность разнородных компонентов. Этот подход позволяет интегрировать и задачу хранения документов в открытых форматах, включая обеспечение навигации по документу, и задачу организации поиска документов по их вербальным и структурно-графическим компонентам [13]. Интеграция обеих задач является принципиальным отличием от других предложений по моделированию документов любого уровня вложенности. Интеграция XML и СУБД
XML представляет собой язык для текстового представления информации в унифицированной форме [3]. Под «текстовым представлением» здесь следует понимать физический способ представления XML-документов — по сути, это обычные текстовые файлы. Такое представление позволяет добиваться максимальной независимости от используемой программно-аппаратной платформы, что в свою очередь является немаловажным фактором при обмене данными и формировании единого информационного пространства. Одно из основных назначений XML, применительно к информационным системам — унификация представления информации на этапе обмена, то есть в процессах выдачи и наполнения. В этом случае и на входе в систему, и на выходе из нее мы имеем XML-документы. При этом внутрисистемное представление документа может любым: структура документа может соответствовать и реляционной и объектной модели, или документ может храниться в своем исходном виде.
Использование коммуникационной составляющей модели для унификации доступа к удаленным ассоциированным ресурсам
Различные вычислительные системы используют различные средства и методы описания, хранения и доступа к библиографическим данным - Z39.50 избавляет пользователя от необходимости адаптации к каждому из источников информации.
Модель представления данных в протоколе. В основе Z39.50 лежит идея построения абстрактной модели работы с абстрактной базой данных. Каждый элемент этой абстрактной модели подробно описывается до однозначного толкования и стандартизуется с присвоением уникального идентификатора — OID. Работа с каждой конкретной СУБД согласно Z39.50 должна быть организована только через эту абстрактную модель путем обмена пакетами данных (APDU), содержащими последовательности идентифицируемых по меткам объектов. В стандарте описаны следующие классы объектов: Контекст приложения (context), APDU, Атрибуты (attributeSet), Диагностика (diagnostic), Структура записей (recordSyntax), Синтаксис преобразований (transferSyntax), Отчета по ресурсам (resourceReport), Контроль доступа (accessControl), Расширенный сервис (extendedService), Пользовательская информация (userlnfoFormat), Элементы (elementSpec), Варианты (variantSet), Схема данных (schema), Схема меток (tagSet) (см. Приложение С).
Внутри класса объекты идентифицируются номерами, добавляемыми к классовому номеру. Например, в классе recordSyntax {1.2.840.10003.5} объекты имеют OID: Unimarc {1.2.840.10003.5.1}, USmarc {1.2.840.10003.5.10}, SUTRS {1.2.840.10003.5.101} и т.п.
Согласно стандарту Z39.50 взаимодействие клиента (origin) и сервера (target) начинается посылкой клиентом серверу APDU InitializeRequest и приемом от него APDU InitializeResponse. При этом стороны согласовывают между собой версию протокола, максимальные размеры записей, допустимые команды и другие параметры. В момент инициализации может быть проведена аутентификация пользователя. За успешной инициализацией следует открытие сеанса, который может быть закрыт получением одной из сторон APDU close. В течение сеанса происходит обмен APDU, инициатором которых чаще всего выступает клиент. Основные APDU следующие: Search, Present, DeleteResultSet, Scan, Sort, Segment, ExtendedServices.
Основные принципы поиска и выдачи информации по протоколу Z39.50 отражены в формы представления извлекаемых библиографических описаний - простой текстовый формат, 15 диалектов формата MARC и т.д. Конечно, разнообразие форм представления информации определяется не только возможностями конкретного Z39.50 клиента, но и возможностями Z39.50 сервера. Например, сервер Библиотеки Конгресса США предоставляет записи только в формате USMARC, а сервер BIBSYS поддерживает 3 формата -NORMARC, USMARC и SUTRS - (простой текстовый).
Основными возможностями Z39.50 являются поиск и извлечение информации. Два этих понятия тесно связаны между собой. Извлечение информации возможно только после того как она найдена, а результат поиска сам по себе (в Z39.50 им является набор идентификаторов найденных записей) не имеет практической ценности без последующего извлечения данных.
Поиск: синтаксис запросов и наборы атрибутов. Команда Search формируется с указанием списка баз данных и собственно запроса. Среди множества типов запросов, указанных в стандарте, обязательным для поддержки сервером Z39.50 является запрос типа 1 (RPNquery - запрос в обратной польской нотации). RPNquery — последовательность операторов и операндов. В качестве операндов могут использоваться: RPNquery, набор данных (resultSet) или комбинация атрибутов и поисковых термов. Существенно, что в качестве атрибутов можно использовать только их номера по выбранному стандартному набору атрибутов, имеющему свой OID. Наиболее распространен набор атрибутов Bib-1, включающий 99 поисковых (Use) атрибутов (author, title, DatePublication и т.п.) и пять типов уточняющих атрибутов (Relation - отношение вхождения, Position - позиция в поле, Structure - структура термина, Truncation - усечение, Completeness — полнота вхождения).
Примером развернутого в строку RPN-запроса может быть запрос на поиск записей, в которых автор начинается на «Кузн» и встречается в любой позиции поля: где по Bib-1 Oattr 1=1003 - соответсвует author, Qattr 2=3 -равно, Qattr 3=3 - любая позиция в поле, @attr 5=1 —усечение справа, Кузн — поисковый термин. Естественно то, что серверу передается не строка запроса, а древовидная RPN-структура, упакованная согласно спецификациям ASN.1-BER в APDU SearchRequest для передачи по сети.
Такая организация системы запросов позволяет с одной стороны однозначно отобразить логику запроса, абстрагируясь от синтаксиса запроса конкретной СУБД, а с другой - абстрагироваться от поисковых полей конкретной базы данных, так как запрос формулируется всегда в терминах абстрактного набора атрибутов, например, Bib-1. Кроме Bib-1, ориентированного на работу с библиографическими базами данных, сегодня стандартизованы и другие наборы атрибутов, например, STAS - 2000 атрибутов для научно-технической информации, GEO - 2000 атрибутов для геоинформационных систем и др.
Запросы RPN (Туре-1) - не единственно допустимый тип запросов в Z39.50. Стандарт 1995 года (версия 3) допускает запросы Туре-0 - запросы в синтаксисе конкретной СУБД, запросы Туре-2 - запросы в синтаксисе Common Command Language (CCL - ISO 8777) и др. В настоящее время ведется обсуждение включения в Z39.50 запросов в синтаксисе SQL.
Z39.50 предоставляет возможность одновременного поиска в нескольких базах данных, поддерживаемых одним сервером. Также возможно проведение поиска одновременно в базах данных нескольких серверов. Такая возможность реализована в некоторых клиентских приложениях - пользователь может искать необходимую литературу сразу в нескольких библиотеках.
Извлечение данных: схемы, форматы, элементы, варианты. В результате описанной выше процедуры найденные записи сохраняются в рабочих наборах данных на стороне сервера и могут быть использованы в течение сеанса для уточнения поиска и извлечения по команде Present. Эта команда возвращает затребованное количество записей клиенту в необходимом формате внешнего представления. Форматы представления стандартизованы в классе RecordSyntax и включают MARC-форматы ISO-2709 (Unimarc, Usmarc, CCF, SBN и т.д.), неструктурированный текстовый формат SUTRS, структурированные тэговые форматы (GRS-1, Summary), специальные форматы (HTML, XML, PDF, TIFF, GIF) и другие. Структурированные форматы позволяют после передачи по сети полностью сохранить первоначальную структуру записи, в отличие от других протоколов (http, ftp и др.), что является немаловажным в распределенных системах.
Поскольку извлекаемые записи могут иметь значительную длину, а их поля (элементы) могут иметь существенно различные типы данных, стандартом предусмотрена возможность извлечения ограниченного списка полей из записи. Список полей, допускающих одновременное присутствие во внешнем представлении записи, называется «набором элементов» (elementSet). Минимально допустимы два набора элементов - Full (F) и Brief (В).