Содержание к диссертации
Введение
Глава 1. Электронные издания 6
1. Определение электронного издания 6
2. Классификация электронных изданий 12
3. Создание электронных изданий 19
4. Задача проектирования электронных изданий 29
Глава 2. Модель электронного издания 37
1. Информационное сообщение 37
2. Мультимедийное представление информации 45
3. Электронное издание, как совокупность сообщений 55
4. Использование электронного издания 60
Глава 3. Технология электронного издания древних рукописей и первопечатных книг 72
1. Общая технология электронного издания древних рукописей и первопечатных книг 72
2. Организация автоматизированного лексикографического анализа 81
3. Обработка и преобразование данных электронного издания 86
Глава 4. Инструментальная среда «СОВА» 104
1. Структура и взаимодействие частей 104
2. Пользовательский интерфейс 113
3. Анализ электронного издания «Путятина минея» 127
Заключение 133
Список использованной литературы 134
Приложения 138
- Определение электронного издания
- Информационное сообщение
- Общая технология электронного издания древних рукописей и первопечатных книг
- Структура и взаимодействие частей
Введение к работе
Некоторое время назад перед рядом научных организаций, таких как Институт русского языка им. В.В. Виноградова РАН, РГБ и др., предстала проблема сохранности, распространения и анализа древних рукописей и первопечатных книг. Эта задача инициировала проведение исследования, результаты которого представлены в данной диссертации.
Актуальность исследования заключается в необходимости четкого определения методов и технологии сохранения и введения в научный оборот древних рукописей и первопечатных книг, являющихся одной из основных компонент культурно-исторического наследия общества. В условиях быстрого качественного и количественного роста электронных изданий (ЭИ), обусловленного как технологическими, так и социально-психологическими факторами, решение этой проблемы достигается именно с помощью ЭИ. Актуальным также является и выявление специфических свойств научного электронного издания в области исторической лексикографии.
Объект исследования — ЭИ в целом и электронные издания древних рукописей и первопечатных книг (ЭИ ДРПК), выделенные как отдельный класс.
Предмет исследования — природа и сущность ЭИ, классификация ЭИ, проблемы их создания и оценки качества, особенности научных ЭИ ДРПК, информационные составляющие ЭИ и их взаимодействие друг с другом, функционирование ЭИ, методология и технология создания ЭИ ДРПК.
Цель и задачи исследования. Принимая во внимание становление ЭИ как объективной реальности сегодняшнего дня, а также необходимость сохранения и введения в научный оборот памятников древнерусской письменности, являющихся частью сокровищницы мирового культурного и исторического наследия, была поставлена цель сведения в единую систему знаний об ЭИ с последующим выявлением особенностей методологии и технологии создания ЭИ ДРПК.
Для достижения поставленной цели использовано последовательное, логически связанное решение основных и частных задач. Они включили в себя изучение истории развития ЭИ путем отслеживания изменения их определения;
выявление отличительных черт ЭИ и синтез его интегрального определения; построения набора классификационных критериев ЭИ и критериев оценки качества; выделение класса ЭИ ДРПК, его описание и определение особенностей; разработка и обоснование математической модели мультимедийного научного ЭИ ДРПК; выявление и проектирование методов обработки информации в процессе создания ЭИ ДРПК; построение общей технологии создания ЭИ ДРПК и методики автоматизированного лексикографического анализа.
Научная новизна и значимость работы состоит в разработке и применении специальных методов обработки и представления текстово-графической информации в выделенном классе научных ЭИ ДРПК как решение вопроса сохранности языковых памятников и введения их в научный оборот. Проведенные исследования позволили построить и обосновать оригинальную технологию создания таких ЭИ.
Самостоятельное значение также имеют следующие аспекты работы:
формулировка обобщенного определения ЭИ;
выделение классификационных критериев ЭИ, учитывающих различные сферы деятельности;
формальное представление мультимедийного научного ЭИ ДРПК в виде математической модели.
Практическая ценность работы заключается в возможности решения проблемы сохранения и введения в научный оборот редких и ветхих древних рукописей и первопечатных книг путем их тиражирования в виде ЭИ, содержащих как оригинальную информацию, так и ее научный анализ. Кроме того, автор видит возможность использования материала работы и ее структуры для организации вузовского курса "Электронные издания" как в качестве учебного пособия, так и в качестве основы для учебного плана при подготовке специалистов различного профиля. Предложенная технология позволяет организовать работу малых рабочих коллективов для проектирования и производства ЭИ.
Апробация работы. Автор выступал с докладами по содержанию работы на научных конференциях и семинарах. Основные положения диссертации изложены в пяти публикациях. Работа была поддержана грантом РФФИ № 00-07-90036
5 от 04.10.1999, отчет был принят и одобрен экспертной комиссией фонда. Предложенная технология была внедрена в Лаборатории электронных издательских технологий Московского государственного университета печати (ЛЭИТ МГУП) и в Институте русского языка им. В.И . Виноградова АН. Практический результат работы, ЭИ древнерусской рукописи «Путятина минея», был представлен на проходящем в 2000-2001 годах конкурсе Департамента науки и промышленной политики г. Москвы и Московской торгово-промышленной палаты «Московские мастера», где занял первое место. На основе результатов работы были разработаны и проведены в МГУП лабораторные работы, посвященные вопросам электронного издания древних скорописных рукописей.
Структура и содержание работы. Диссертация состоит из введения, четырех глав собственных исследований, заключения, списка используемой литературы и приложений. Общий объем работы составляет 153 страницы. Основной текст изложен на 127 страницах. Библиографический список включает 75 названий.
Определение электронного издания
Попытки определить термин «электронное издание» предпринимаются уже достаточно давно — первое официальное определение было дано в международном стандарте ISO 9707 в 1991 году: «документ, публикуемый в машиночитаемой форме и доступный для потребителей (в том числе издаваемые файлы данных и прикладное программное обеспечение)». Но даже оно было запоздавшим: электронные издания существовали еще в 1987 году [52, с.74]. В приведенном выше определении ключевым является слово «машиночитаемый». В этом принципиальное отличие электронного издания от традиционного, печатного: для того, чтобы прочитать перенесенный на оптический компакт-диск текст литературного произведения, необходимо специальное устройство [1, с.98]. Поэтому под электронным изданием понимается не просто источник информации, а еще и инструмент работы с ней [33]. Однако данное определение недостаточно точно и не в полной мере отвечает потребностям дня. Денотат знака "электронное издание" несет в себе гораздо большее количество определяемых объектов, чем охватывает приведенная дефиниция.
С точки зрения библиографии, электронное издание можно отнести к научной категории жанр, отражающей культурно-исторические, целенаправленные способы семиотического воспроизведения содержания (социальной информации) [19, с. 139]. Для вводимой на его основе системы классификации базовым критерием является способ коммуникации. Для книг выделяют следующие жанровые категории: произведение, документ и издание. Последнее может быть также и электронным, что является продолжением исторического хода эволюции уровней информационного общения и способов формирования общественного сознания. Несмотря на свою новизну и некоторую «экзотичность» электронное издание является одной из разновидностей книги, одна из функций которой — обмен социальной информацией или общение. Таким образом, все, что было сказано выше о средствах массовой информации и способах общения, можно отнести и к электронному изданию, которое в данном случае выступает в качестве некоторой транспортной среды.
В современном мире этот термин чаще всего означает электронную форму печатного издания: в частности, к этому понятию следует относить и результаты электронного набора, например, оригинал-макет печатного издания, то есть информационный продукт, не предназначенный к распространению [8]. С другой стороны, если на первое место вьвдвинуть распространение информации в электронной форме, то к определяемому термину можно отнести любую информацию, распространяемую в рассматриваемой форме. Такой подход объясняет и оправдывает употребление выражения «публикация в Интернете», при этом электронное издание может не иметь осязаемой, вещественной формы. Последнее определение, которое дается термину «электронное издание» специалистами предметной области, звучит как издание в электронной форме с неизменностью копий по отношению к оригиналу, которое включает тиражируемое на компакт-дисках информационно-программное обеспечение.
Для задания строгого определения следует проанализировать структуру словосочетания «электронное издание» и обратиться к стандартизирующей документации. Согласно ГОСТ 7.60-90 издание определяется как «документ, предназначенный для распространения содержащейся в нем информации, прошедший редакционно-издательскую обработку, полученный печатанием или тиснением, полиграфически самостоятельно оформленный, имеющий выходные сведения» [21, с. 47]. Такое определение формировалось в течение длительного времени и неотрывно связано с практикой подготовки и выпуском печатной продукции. В общемировой практике (международный стандарт ISO 5127V2-83) термин носит более широкий характер: информационная продукция, предназначенная для неограниченного круга пользователей, у которого все копии (экземпляры) соответствуют оригиналу. Данные определения должны быть основными при формулировке единого определения, однако существенную роль должен сыграть и электронный вид содержащейся в издании информации.
Основываясь на всем вышесказанном федеральный информационный центр по электронным изданиям НТЦ «Информрегистр» предложил следующую концепцию электронных изданий и их структуры. Электронное издание — самостоятельный законченный продукт, содержащий информацию, представленную в электронной форме, и предназначенный для длительного хранения и многократного использования неопределенным кругом пользователей, все копии (экземпляры) которого соответствуют оригиналу [8]. Под самостоятельностью здесь понимается возможность использования продукта независимо от его изготовителя. Законченность продукта означает неизменность содержащейся в нем информации в течение определенного времени и на всех копиях (экземплярах), наличие необходимой идентификации, а также ответственности и прав авторов, составителей, издателей и других лиц. Здесь следует отметить, что в рамках данного определения распространяемые информационные системы с непрерывно и постоянно пополняемой базой данных (например, информационные системы по действующему законодательству) целиком не могут быть названы электронными изданиями. Однако некоторая их часть, постоянно присутствующая у конечного пользователя и неизменная у всех, попадает под выдвинутое определение. Электронная форма представления информации определяется как способ фиксации информации, при котором она допускает хранение, обработку, распространение и предъявление пользователю с помощью средств вычислительной техники, а соответствие копий оригиналу предполагает, что информационный продукт, который каждый раз формируется под конкретного пользователя, не может называться электронным изданием.
Наиболее поздним и самым весомым документом, определяющим рассматриваемое понятие, является ГОСТ 7.83-2001 (межгосударственный стандарт) «Система стандартов по информации, библиотечному и издательскому делу. Электронные издания. Основные выходы и выходные сведения» (дата введения 2002.07.01). Предназначенный для производителей электронных изданий, он достаточно глубоко и логично предоставляет определение электронного издания и определяет его основные виды. Согласно данному ГОСТу, электронное издание есть «электронный документ (группа электронных документов), прошедший редакционно-издательскую обработку, предназначенный для распространения в неизменном виде, имеющий выходные сведения» [24]. Данное определение нельзя рассматривать и оценивать без построенной на его основе системы классификации.
Информационное сообщение
Разработка математической модели организации данных и функционирования любой информационной системы, а, следовательно, и электронного издания, являющегося одним из видов такой системы, представляет собой крайне важную задачу процесса проектирования. В рамках этой модели происходит исследование возможных вариантов внутренней структуры данных с целью ее определения согласно задаваемым критериям. Разработка обоснованных алгоритмов обработки данных, также невозможна без математической модели. А построение эффективно работающей информационной системы без разработки таких алгоритмов невозможно. Поэтому для успешной разработки методов построения электронных изданий следует математически задать некоторую парадигму его функционирования и организации. В рамках такой математической парадигмы будет происходить дальнейшая разработка методов и технологий.
Все информационные системы, к которым принадлежат и электронные издания, предназначены для осуществления информационно-коммуникативной функции общения в социуме. Для передачи информации от источника к приемнику, в рамках какой-либо коммуникативной системы, через транспортную среду передается набор знаков, которые складываются в некоторые информационные сообщения. Рассмотрим этот набор с точки зрения математики и попробуем ответить на вопрос: можно ли построить на их основе парадигму электронного издания? Для этого определим понятие информационного сообщения и способ его генерации.
Ясно, что множество слов еще не есть информационное сообщение. Поэтому информационное сообщение в дальнейшем рассмотрении — это не множество, а упорядоченная последовательность. Такая процедура построения информационного сообщения разделяет этапы формирования слов сообщения и порядка слов в сообщении, что соответствует разделению между полем потенциальных свойств какого-либо объекта и конкретным вектором его признаков. Теоретически можно было бы объединить обе грамматики в одну, введя в терминальный алфавит некоторый символ р, соответствующий пробелу, для разделения слов в сообщении, но в дальнейших исследованиях будет происходить упор на множество Т. Каждый символ tt є Т имеет некоторое семантическое значение m,. Причем здесь и далее вся семантика определяется как непосредственно отражающей содержание слова [15, с.16].
Общий случай грамматик G и G соответствует символьным сообщениям, использующим шрифт — способ визуального кодирования информации, используемый при ее представлении в виде изображения [16, с. 192]. Опишем в качестве примера грамматики графических сообщений. Их главное отличие состоит в том, что словами в них является не группа символов алфавита некоторого естественного языка, а некоторая область изображения, которое обладает своими характеристиками. Для упрощения картины, допустим, что все эти изображения состоят из бинаризованных растровых матриц одинакового размера. Тогда, пусть Г = {0,1}—терминальный алфавит грамматики G= N, Т, V, Q(z) состоит только из двух символов — 0 и 1. На этом математическое описание информационных сообщений закончено, осталось ответить на вопрос о допустимости предложенного базиса для построения модели организации и функционирования поливидового электронного издания. Для этого необходимо построить систему критериев, с помощью которых можно ответить на поставленный вопрос.
Основным критерием допуска модели к исследованию будем считать потенциальную полноту описания электронного издания. Под ней будет пониматься возможность представления в рамках моделей тех или иных элементов информации и их логической связи. Проводя аналогию с реляционной алгеброй, можно выделить еще два «кандидата» в критерии: потенциальную непротиворечивость и неизбыточность модели. Однако, их непосредственное применение к предлагаемой модели некорректно, ибо они ориентированы на динамически изменяемый в процессе работы набор данных, тогда как в случае электронного издания он фиксирован. В этом состоит основная причина отказа от использования для описания электронных изданий более «тяжелой» реляционной алгебры.
Кроме того, это критерий конкретной модели данных, а не класса модели. Но для строгого исследования, можно взять некоторую абстрактную модель и рассматривать ее. Тогда свойство потенциальной непротиворечивости подразумевает исключение возможности изменения данных таким образом, что нарушается логика их связи. В случае электронного издания, данные не изменяются, следовательно, данный критерий не может быть использован.
Под потенциальной неизбыточностью понимается отсутствие в модели нескольких копий одного и того же элемента информации. Перенося это неравен ство на план моделей, можно определить его как возможность построения для данного набора элементов информации и их логических связей такую модель данных, которая не содержала бы копий данных.
Если уйти от приведенных выше доводов и определить потенциальную противоречивость как возможность построения логической схемы без парадоксов, то этот критерий будет автоматически выполняться при выполнении критерия полноты описания, ибо в этом случае может быть реализована любая заданная структура связей, в том числе и не содержащая логических парадоксов. Поэтому свойство потенциальной неизбыточности есть более строгое определение свойства полноты, поэтому в качестве критерия отбора допустимого плана математических моделей будем использовать его.
Общая технология электронного издания древних рукописей и первопечатных книг
В работе была поставлена задача электронного издания древних рукописей и первопечатных книг. В рамках ее решения была разработана математическая модель мультимедийного издания, которая позволила теоретически разработать подходы к созданию подобного издания. Однако для практической деятельности требуется некоторое описание технологии, которая вместе с полученной теоретической моделью и будет являться решением поставленной задачи.
Для каждого конкретного случая последовательность действий проектировщика будет своей собственной. Причинами такой уникальности являются как различия в предметной области, так и чисто технические возможности выбранных систем. Однако некоторые общие моменты при проектировании все же присутствуют, что позволяет говорить об общей технологии производства. Ниже предлагается ее описание на основе создания электронных изданий древних рукописей и первопечатных книг. Для этого необходимо разделить процесс на некоторую последовательность действий, определяющих законченные этапы работы. Для каждого такого этапа опишем: ? концепцию работы (исходные данные, результат и проводимые для достижения результата работы); ? систему критериев оценки качества результата; ? возможные затраты ресурсов. Исходными данными при проектировании электронного издания являются знания о предметной области, в которой фигурирует некоторая информация. Первой задачей проектировщика является поиск этих данных, который производится специалистом в данной предметной области. Процесс поиска может быть разбит на несколько параллельно проходящих процессов, ищущих различные информационные компоненты. На основании найденной оригинальной информации и знаний о предметной области техническим проектировщиком и консультантами выявляется и формализуется структура будущего издания, на основании которой проходит разработка или поиск всего требуемого программного обеспечения. Параллельно с этим производится преобразование информации в машинный вид и ее обработка. По завершению указанных этапов приводится сборка информации в единое целое (структуризация) и компоновка всего электронного издания (макетирование). Этап макетирования завершает предложенную технологию создания оригинала электронного издания, которое должно быть растиражировано и доставлено читателю. Рассмотрим указанные этапы более подробно.
Поиск исходных данных. Первым этапом технологии является "поиск исходных данных". Его отличительной особенность является отсутствие потока входной информации — ее пока просто нет, но существуют знания о предметной области. По завершению этапа в рабочий фонд добавляются исходные данные электронного издания — информация, содержащаяся в предметной облас ти. При этом она имеет естественный вид носителя, то есть для рукописных источников она имеет вид рукописей, для фотографических изображений — фотографий и так далее. Фактически данный этап заключается в сборе материала, который становится фундаментом будущего издания. Выполняя данный этап, проектировщик может столкнуться с определенными сложностями — материалы по многим предметным областям разбросаны по множествам источников, причем владельцы не спешат расставаться с ними. Иллюстрацией такой ситуации могут служить древние рукописи, хранящиеся в музеях и библиотеках России: каждая организация стремится издать свои материалы, но чаще всего не имеет такой возможности. Поэтому материалы удерживаются, допуск к ним ограничивается.
Основными критериями качества найденной информации являются: ? полнота; ? актуальность; ? достоверность.
Каждый из них равнозначен при определении ценности исходных данных. Полнота информации позволит читателю ориентироваться в предметной области, ее актуальность определяет само наличие будущего читателя, а достоверность — интерес к изданию. Таким образом, каждый из критериев строго обязателен для исходной информации электронного издания.
Преобразование исходных данных. Для представления исходных данных в памяти ЭВМ необходимо преобразовать их в цифровой вид. Поэтому в технологии имеет место процесс оцифровки исходных данных, имеющий на выходе те же исходные данные, но представленные на машинных носителях информации. Различные типы информации преобразуются в цифровую форму с использованием различных технологий. Простейшей из них является ручной ввод. Под ним подразумевается набор текстовой информации, однако подобным образом возможно преобразование и других ее видов, например, ввод музыкального сопровождения посредством нотной записи. Для преобразования графиче ской информации используются сканеры или цифровые камеры, позволяющие получить растровое изображение оригинала. Эту технологию можно использовать и для оцифровки текстовой информации, для чего используются различные системы оптического распознавания текста (OCR). Кроме этого следует упомянуть системы распознавания аудиотекстовой информации, функциональное назначение которых — ввод текста путем его «наговаривания». Для древних рукописей и первопечатных книг сканирование не дает хороших результатов из-за качества бумаги и написания, неоднородности текста и тому подобных причин [7, с.8].
Ввод непосредственно аудиоинформации производится путем АЦП-преобразования, осуществляемого звуковой картой персонального компьютера. Для получения цифрового видео на современном этапе развития техники используются цифровые видеокамеры, записывающие данные непосредственно в цифровом формате. Что касается компьютерной анимации, то ее аналогов в реальном мире нет, поэтому на этом этапе происходит ее создание.
Единственным критерием оценки качества преобразования исходных данных может являться соответствие их электронной копии оригиналу. Действительно, если информация будет искажена при ее вводе в ЭВМ, она может потерять свою достоверность, что, в свою очередь, лишит будущее электронное издание интереса у потенциальных пользователей (читателей).
Структура и взаимодействие частей
Практически применимым результатом исследования электронных изданий древних рукописей и первопечатных книг является программно-инструментальная среда «СОВА» и построенное с ее помощью электронное издание древнерусской рукописи 11 века «Путятина минея». «СОВА» вобрала в себя методы обработки и организации информации, представленные выше, а также наработки системы СИБСЭВ [63, с.282]. Функциональный набор операций среды позволяет реализовать описанную выше технологию.
Конечный результат работы в программно-инструментальной среде «СОВА» представляет собой электронное издание древних рукописей или первопечатных книг. Функционирование последнего описывается представленной во второй главе математической моделью. Для более успешного понимания представленного ниже технического описания среды приведем некоторые определения.
На начальном этапе работы издаваемая рукопись всегда представляет собой упорядоченный набор кадров, каждый из которых содержит текстовую, графическую и аудиокомпоненту. Таким образом кадр олицетворяет одну из страниц рукописи. Графическая информационная компонента представлена в виде изображений оригинальных страниц издаваемой рукописи, тестовая — в виде текста рукописи на данной странице (дубль или перевод оригинала), комментария к странице, комментариев к абзацам и комментариев к словам [64, с.248]. При этом под словами подразумеваются не просто фрагменты текста рукописи, а некоторая пара, устанавливающая связь между фрагментом текста страницы и областью изображения (маской). Аудиоинформация присутствует в кадре как звуковое сопровождение — для песнопений это может быть попытка воссоздать звучание текста.
Таким образом, имея набор кадров с размеченными словами, пользователь получает все возможные связи между оригиналом изображения и набранным текстом рукописи. Это позволяет выделить слова с повторяющейся текстовой частью и объединить их в словарные статьи, получая словарь графических образов слов, содержащий слово и все варианты его написания с комментариями. Подобным же образом формируется словник и словоуказатель.
Первый модуль Sova Hand предназначен для формирования внутренней базы данных. Эта база данных содержит всю информацию будущего электронного издания, но без межстраничных связей. То есть на первоначальной стадии устанавливаются лишь связи между компонентами одного кадра (между изображением страницы и текстом его перевода). Это позволяет более гибко распределить работу между несколькими операторами с последующим объединением полученных баз данных в одну. Функциональный набор модуля включает в себя средства редактирования и форматирования текста, обработки изображений, фрагментирования, формирования содержания и так далее. Операторами программы являются технические специалисты, работающие под руководством специалистов в предметной области (компьютерной лингвистики, книговеде-ния, текстологии и других). Структура внутренней базы данных, так же как и пользовательский интерфейс, представлена ниже.
После формирования внутренней базы данных необходимо установить недостающие связи между отдельными кадрами. Для этого в состав среды включена программа Sova Db, преобразующая внутреннюю базу данных во внешнюю, включающую все связи между словами. При этом связи из отдельных кадров объединяются, после чего к полученному множеству добавляются связи меду одинаковыми словами, но принадлежащими различным страницам руко писи. Результатом такой работы является словоуказатель древней рукописи, а после упорядочивания слов ее словник и словарь графических образов. Кроме того, здесь формируется полное содержание рукописи. Структура внешней базы данных также представлена ниже. Оператором программы является технический специалист, преобразование баз данных производится автоматически.
Первые две программы описывают технологический уровень среды, пользовательский же уровень представлен программным модулем Sova View. Программа представляет собой средство просмотра внешней базы данных с функциями навигации. При этом внешний вид форм программы хранится в виде отдельных файлов формата BMP или JPEG, что позволяет быстро изменить внешний вид диалога с пользователем для каждого нового издания. Программа содержит средства представления информации в виде словоуказателя, словаря графических форм и так далее. Оператором программы является конечный пользователь электронного издания — специалист предметной области, обучаемый и так далее.
Так как «СОВА» ориентирована на работу сразу с несколькими группами специалистов для электронного издания древних рукописей и первопечатных книг требуется создать некий коллектив. От организации работы в коллективе во многом зависит успех проекта. Приведем несколько правил, необходимых для нормальной работы в такой команде [68, с.27]: ? поддержка иерархии в коллективе; ? обсуждение идей любого члена коллектива; ? доведение информации до всех участников проекта. Математическая модель данных электронного издания описана во второй главе. Ниже приводится спецификация внешней базы данных электронного издания древних рукописей и первопечатных книг, выполненной в инструментальной среде «СОВА».
Все данные электронного научного издания размещаются в одном каталоге, например "BOOK" (см. рис. 4.2). Унификация структуры каталога и форма-тов, содержащихся в нем файлов, позволяют использовать одно и тоже программное обеспечение для работы с несколькими изданиями: раз проинсталлировав программную среду можно просто, меняя CD-диски, работать с разными рукописями. Рассмотрим более подробно назначение и форматы используемых файлов.