Введение к работе
і*
Актуальность проблемы. В решении задач по ускорению социаль-
-е,ко.ца;огномического развития страны большая роль принадлежит библиотекам и органам научно-технической информации по разработке и осуществлению мер, направленных на улучшение библиотечно-инфор-мационного обслуживания научных работников, специалистов и рабочих промышленного и сельскохозяйственного производства. Возникает необходимость коренной перестройки работы библиотек и органов научно-технической информации, обеспечивающей не только повышение их роли как научно-информационных учреждений, но и укрепление связей с производственной деятельностью предприятий и организаций.
Одним из путей повышения эффективности деятельности библио-течно-библиографических и информационных учреждений является дальнейшее развитие и совершенствование методов аналитико-синте-тической переработки информации для удовлетворения профессиональных информационных потребностей ученых и специалистов.
Одно из ведущих направлений в совершенствовании аналитико-синтетической переработки информации открывают методы формализации ряда процессов библиотечной деятельности, в частности, процесса библиографического свертывания научно-технических документов.
В литературе часто используют синонимы понятия "свертывание" - сжатие, компрессия, кумуляция и др. В данной работе под сверт тыванием информации будем понимать совокупность4процессов анали-тико-синтетической переработки информации, обеспечивающих уменьшение физического объема документа с определенной потерей его информативности. Иными словами, свертывание - это процедура определения уровня необходимой и достаточной информативности сообщения в зависимости от стоящей коммуникативной задачи. К такой процедуре прибегают чаще всего в случае подготовки вторичных документов.
В настоящее время актуальной является подготовка различных . видов вторичных документов на основе формализованных процедур свертывания информации. Следует подчеркнуть, что под формализацией интеллектуальных информационных процессов поднимается разработка таких процедур обработки семантической
- z ~
информации, которые выполняются человеком без обращения к смыслу текста. При этом предполагается, что выполнение по формализованной методике операций над текстами документов приведет к результату, достаточно близкому по своему качеству к результату, полученному при содержательном (интеллектуальном) анализе тех же текстов. С одной стороны, применение формализованных процедур при обработке текстов всегда приводит к некоторому снижению качества обработки, с другой стороны, формализация открывает широкие возможности применения для обработки текстов вычислительной техники, что дает колоссальный эффект с точки зрения скорости обработки, единообразного подхода к ней, а главное - экономии материальных затрат.
Долгое время считалось, что широкому развитию автоматизации библиотечно-библиографических процессов препятствует, прежде всего, отсутствие самой вычислительной техники и специалистов, умеющих с ней обращаться. Однако при этом не учитывалось главное - применение самой техники для решения интеллектуальных семаптк-ческих задач в библиотеке требует разработки формализованных процедур описания этих процессов, т.е. создания специализированных языков и алгоритмов. Поэтому разработка формализованных процедур свертывания информации является важнейшим содержательным этапом подготовки библиотечно-библиографических процессов для реализации их на ЭВМ.
Однако в настоящее время существуют еще препятствия на пути широкого использования формализованных методов свертывания вторичных документов и дальнейшей разработки на их основе машинной технологии свертывания. В частности:
-
большинство известных методов свертывания научно-техничес ких документов основывается на экстрагировании - извлечении из текста первичного документа наиболее "существенных" фраз. Совокупность таких фраз образует экстракт - вторичный документ, не имеющий четкой функциональной направленности. На такой экстракт возлагаются одновременно функции и реферата, и аннотации;
-
извлечение из текста первичного документа наиболее "существенных" фраз осуществляется с помощью определенного аппарата идентификации. Однако значительное количество фраз но идеи-
тифицируется с его помощью и, следовательно, не включается в состав вторичного документа.
Для повышения избирательности в библиотечно-информационном обслуживании и повышения качества получаемых документов возникает необходимость в разработке такого подхода к формализованному свертыванию, который бы позволил получать функционально ориентированные вторичные документы, т.е. речь идет о разработке дифференцированного формализованного экстрагирования первичных документов с целью получения различных по целевому и читательскому назначению вторичных документов - аннотаций и рефератов. При этом поскольку при машинной реализации дифференцированного свертывания возникает возможность получения самого широкого спектра вторичных документов, то в основу дифференцированного формализованного свертывания выдвигается принцип, согласно которому дифференцированный подход к свертыванию научно-технических документов должен предусматривать механизмы, позволяющие в пределе обеспечивать стопроцентное экстрагирование фраз первичного документа.
Исходя из изложенного, в качестве объекта исследования в данной работе выступают формализованные процессы свертывания научно-технических документов.
Предметом исследования является изучение возможности разработки процедур, обеспечивающих дифференцированное алгоритмическое свертывание'текстов научно-технических статей для получения вторичных документов различного функционального назначения.
Цель диссертационного исследования заключается в изучении возможностей индикаторов, как средства, повышающего 'качество дифференцированного экстрагирования.
Для достижения поставленной цели необходимо решение следующих задач:
-
на основе изучения существующих подходов к содержательному и функциональному различению вторичных документов разработать модели различных видов вторичных документов - аннотаций, рефератов, реферативных аннотаций и их разновидностей;
-
на основе изучения существующих методов оценки качества
вторичных документов выбрать из них наиболее приемлемый и на его основе разработать авторский подход к оценке ВД;
-
на основе изучения существующих методов формализованного свертывания научно-технических документов выбрать наиболее перспективный метод и обосновать его приемлемость в рамках настоящей работы;
-
разработать методику формализованного дифференцированного свертывания научно-технических документов и апробировать ее на массиве журнальных статей различной жанровой принадлежности;
-
выявить достоинства и недостатки разработанной методики, очертить границы ее применения и выработать рекомендации по практическому ее использованию.
Методологической базой исследования явились работы В.И.Ленина По вопросам отбора, переработки, распространения и оценки информации, а также руководящие документы Коммунистической партии и Советского правительства по библиотечному делу, библиографии, информации. Для решения поставленных задач применялись методы, используемые в библиографоведении (формализованное экстрагирование), информатике (поаспектный анализ), лингвистике (логико-грамматический подход к различению ВД) и другие.
Теоретической основой диссертации послужили исследования .в библиографоведении и информатике по вопросам аналитико-синтети-ческой переработки информации.
Автор видит научную новизну работы в том, что в ней впервые предложена оригинальная концепция использования лексических индикаторов как средства функциональной идентификации фраз и разработаны алгоритмические процедуры (формулы выбора) для дифференцированной подготовки вторичных документов различного функционального назначения и повышения качества итих ВД.
Практическая значимость работы состоит в том, что
- разработанная методика дифференцированного формализованного свертывания научно-технических документов может быть применена в научно-технических библиотеках и службах информации для создания разновидностей вторичных документов, способных выполнять
как поисковые, так и коммуникативные функции в информационном процессе;
- б -
использование методики дифференцированного формализованного экстрагирования способствует повышению качества создаваемых вторичных документов, уменьшению непроизводительных затрат труда и рабочего времени;
формализованный подход, используемый в методике-.дифферен-цированного экстрагирования,, может явиться основой для решения проблемы автоматизации дифференцированного свертывания научно-технических документов.
Предметом защиты являются:
- обоснование роли индикаторов как средства функциональной идентификации фраз для повышения качества дифференцированного формализованного свертывания научно-технических документов;
методика формализованного дифференцированного экстрагирования первичных документов по специально разработанным формулам выбора, в результате которой получаются вторичные документы -аннотации, рефераты, реферативные аннотации и их разновидности;
методика оценки экспериментально полученных вторичных документов.
Апробация работы. Основные положения работы докладывались на научно-практических конференциях преподавателей (КГИК,1986-1989гг) а таїсже были реализованы в учебном процессе КГИК на практических занятиях по курсам "Методика реферирования" и "Методика научно-исследовательской работы".
С уктура диссертации. Задачи исследования определили структуру диссертации, которая состоит из введения, трех глав, заключения, списка литературы и приложений.