Лингвистическое обеспечение и социолингвистическая специфика проблемы автоиндексационной актуализации информационных систем Пономарев Василий Васильевич

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Пономарев Василий Васильевич. Лингвистическое обеспечение и социолингвистическая специфика проблемы автоиндексационной актуализации информационных систем : Дис. ... канд. филол. наук : 10.02.21 Москва, 2005 255 с. РГБ ОД, 61:06-10/225

Содержание к диссертации

Введение

Глава 1. Взаимодействие лингвистического обеспечения и информационных технологий 28

1.1. Общие характеристики средств лингвистического обеспечения... 28

1.2. Состав, структура и функции лингвистического обеспечения 39

1.3. Проблемы совместимости лингвистического обеспечения 49

1.4. Лингвистическое обеспечение входного потока единиц информации в автоматизированную информационную систему 64

1.5. Лингвистическое обеспечение обработки данных в автоматизированной информационной системе 73

1.6. Лингвистическое обеспечение производства информационных продуктов и услуг 82

1.7. Лингвистическое обеспечение структурирования и описания информационных массивов 87

1.8. Использование средств лингвистического обеспечения для поиска информации в базах данных и формирования результатов выдачи 93

Глава 2. Лингвистическое обеспечение сервисных средств обработки и поддержки информационных ресурсов автоматизированной информационной системы «Молодежь» 100

2.1. Номенклатура лингвистического обеспечения сервиса автоматизированной информационной системы «Молодежь» 100

2.2. Автоматизированная разработка лингвистического обеспечения автоматизированной информационной системы «Молодежь» 115

Заключение 121

Библиография 122

Приложение

Состав, структура и функции лингвистического обеспечения
Лингвистическое обеспечение входного потока единиц информации в автоматизированную информационную систему
Использование средств лингвистического обеспечения для поиска информации в базах данных и формирования результатов выдачи
Автоматизированная разработка лингвистического обеспечения автоматизированной информационной системы «Молодежь»

Введение к работе

(Современные подходы к проблеме лингвистического обеспечения)

Генеральная совокупность языковых средств, когда-либо использованная или использующаяся при разработке или эксплуатации различных автоматических, автоматизированных и даже механических информационных (в т.ч. информационно-поисковых) систем, обычно поименована в сообществе специалистов в этой области как лингвистическое обеспечение (ЛО). По общепринятому в профессиональной среде определению, лингвистическое обеспечение информационно-поисковых систем (ИПС) в целом - это набор логических и лингвистических средств и методов по обеспечению основной задачи информационного поиска.

С самого начала появления информационно-поисковых систем их главной частью считался информационно-поисковый язык (ИПЯ), что наиболее полно обосновано таким авторитетнейшим теоретиком в данной области, как А.И. Черный [385]. Повышенное внимание к проблемам разработки ИПЯ, как в теории, так на практике, особенно характерно для начального периода 1960 — 1970-х годов. По данным Н.И. Гендиной [57]:

Пик публикаций по теме ИПЯ пришелся на 1974-1978 гг. В целом для работ этого периода развития ИПС и ИПЯ характерно выявление природы ИПЯ через его сопоставление с естественные языком [221], [229]. Большое внимание уделялось разработке конкретных языков [329], разработке и использованию методик индексирования [336], [384].

Наряду с термином ИПЯ широко стал использоваться термин «лингвистическое обеспечение». Наиболее общеупотребимы следующие два определения:

«Лингвистическое обеспечение - это комплекс средств представления информации в виде данных и интерпретации данных в процессе функционирования информационных систем» [7].

«Лингвистическое обеспечение - комплекс мероприятий, направленных на разработку языковых средств автоматизированной системы, а также сами средства». Данный термин стал применяться для обозначения всего комплекса языковых средств, используемых в ИПС собственно ИПЯ, методики индексирования, методики составления тезаурусов, различных правил, вспомогательных средств создания и ведения ИПЯ и т.п. [216].

К лингвистическому обеспечению ИПС стали относить и специальные языковые средства поиска в режиме диалога, и языковые средства мультибазового поиска, и средства автоматизации вспомогательных процессов в ИПС, предназначенные для ведения машинных словарей [9], [25], [27], [261].

Развитие языковых средств систем управления базами данных языков описания данных, языков манипулирования данными, а также различных языков программирования еще более расширили сферу применения понятия лингвистического обеспечения [13], [152], [272].

Кроме термина «лингвистическое обеспечение ИПС» также широко используется термин «языковые средства ИПС». Чаще всего они используются как синонимы. Рассмотрим составляющие значений этих двух терминов, обратившись к словарям русского языки [2], [250]: Лингвистический - а) языковедческий - относящийся к лингвистике;

б) языковой - относящийся к языку. Обеспечение - то, что обеспечивает исполнение, реализацию. Средство - а), прием, способ действия для достижения чего-либо; б) орудие для осуществления какой-либо деятельности.

Таким образом, с точки зрения внутренней формы мы не видим принципиальной разницы в значении этих терминов. Также, как правило, не делают различий и специальные терминологические словари [354].

Нередко в понятие «лингвистическое обеспечение (языковые средства) ИПС» включают всю совокупность языков, которые применяются как для составления программ, так и в процессе функционирования ИПС. В этом случае данный термин становится синонимом для термина «средства общения человека с машиной». «Под языковыми средствами информационной системы мы будем ... понимать весь комплекс языков и систем знаков (включая и естественный язык), используемых при проектировании автоматизированных информационных систем (АИС), составлении программ и в ходе информационных процессов, реализуемых на ЭВМ как программными средствами, так и пользователями АИС» [153]. В состав языковых средств авторы указанной работы включают языки программирования, информационные языки, языки представления служебной или вспомогательной информации, используемой алгоритмами обработки сообщений, языки описания структур информации, в том числе структур массивов и сообщений, используемых программами обработки, служебные языки сервисных программ. «С точки зрения использования указанных языковых средств в процессах функционирования АИС их можно разделить на средства представления информации и средства доступа к ней. Для человека средствами доступа являются не только информационные языки, но и языки программирования ... » [93].

С таким расширительным толкованием ЛО никак нельзя согласиться. У языков программирования и информационных языков совершенно разное назначение. Поэтому вряд ли правомерно говорить о стирании грани между языками этих двух типов [152]. Лингвистические средства информационного поиска определяют «стратегию», а программные, к которым относят языки программирования, языки описания структур данных и т.п., реализуют эту «стратегию» в той или иной вычислительной среде.

Построение классификационной схемы языковых средств представляется нам важным как с теоретической, так и с практической точки зрения.

Классификация - это один из способов логического анализа сложных систем. Расположение явлений по какой-то определенной схеме, выбранной исследователем для решения стоящих перед ним познавательных задач, - это взгляд на систему в некотором специальном ракурсе, позволяющем отчетливо увидеть то, что ранее оставалось незаметным.

Вопросы типологии языковых средств на современном уровне рассматриваются во многих работах, например, [8], [27]. Однако объем и содержание понятия ЛО в его современном понимании наиболее адекватно представляет нижеследующая трактовка, отраженная впервые также в работе [57]:

(1). Информационно-поисковый язык, служащий для описания содержания документов в виде, пригодном для поиска.

(1.1). Алфавит и микросинтаксис ИПЯ.

(1.2). Средства представления плана содержания:

• словари, тезаурусы;

• вспомогательные словари (единиц измерений, сокращений и т.п.);

• рубрикаторы, классификаторы;

• грамматические средства;

• форматы.

(1.3). Уровень представления естественноязыковой информации (правила представления текстов на ЕЯ).

(2). Процедурные средства информационного поиска: (2.1).Средства поиска:

• язык запросов;

• средства автоматической адресации запросов к базам данных;

• единые командные языки;

• критерий смыслового соответствия;

(2.2). Средства обеспечения совместимости различных языков:

• таблицы соответствия;

• таблицы конвертирования;

• протоколы.

(2.3). Средства семантической обработки данных:

• процедуры автоматической индексации документов и запросов;

• процедуры автоматической классификации документов;

• процедуры автоматизированного построения поисковых предписаний;

• процедуры автоматизированного обнаружения ошибок. (2.4). Средства обработки текстов на ЕЯ и поддержки ЛО:

• программно-алгоритмические средства морфологического и синтаксического анализа;

• машинные словари лексических (слов, словосочетаний) и морфологических единиц ЕЯ (основ, флексий, префиксов, префиксоидов);

• процедуры автоматизированного составления и ведения машинных словарей;

• грамматические таблицы ЕЯ;

• документация по ЛО.

(3). Классификация, типология информационно-поисковых языков.

В рассматриваемой схеме очевидна репрезентация ядерного компонента проблемной области ЛО, которым является концептуальная структура инструментария ИПЯ. По этой причине типологическая классификация основных системообразующих факторов представляется наиболее значимой отправной точкой рассмотрения настоящего методологического аспекта.

Общепризнаны соответствующие виды и типы ИПЯ. В качестве примеров информационных языков, применяемых в информационном поиске и информационно-библиотечной деятельности приводят иерархические классификации, дескрипторные языки, фасетные классификации, язык библиографического описания, язык предметных рубрик и многое другое.

Искусственные языки зачастую описываются по аналогии с естественными. С одной стороны, часто эта аналогия чисто внешняя, с другой стороны, общепринятый и понятный метаязык лингвистики создает общую языковую среду для разных авторов и читателей. Постепенно в теории информационного поиска сформировалась и своя терминология.

Информационные языки делятся на разные типы в зависимости от их целевого назначения и устройства. Вопросы типологии информационных языков подробно рассмотрены во многих работах, в числе которых — одна из первых отечественных монографий на эту тему [238]. Для этой работы, как и для всех работ периода становления теории информационного поиска в целом, характерно соотнесение искусственных информационных языков с естественными языками.

Любой письменный язык, в том числе и искусственный, состоит, по крайней мере, из трех компонентов: алфавит, словарь, грамматика. Исходя из такого понимания ИЯ и базируясь на инструментарии традиционного лингвистического описания, В.Л. Москович выделяет внешние и внутренние по отношению к языку признаки, на основании которых строится классификация. «Внешние признаки ИЯ характеризуют ИЯ с точки зрения условий ее применения. При этом нас может интересовать тип документов, обрабатываемых ИПС, характер тематики обрабатываемого фонда документов и т.п.» [238].

«Внутренние по отношению к ИЯ признаки характеризуют способы организации понятий и формы их выражения» [238]. Классификация ИЯ по внутренним признакам позволяет обнаружить основные структурные типы ИЯ, сходства и различия всех типов.

В работе рассматриваются способы организации понятий и способы их выражения, степень выраженности синтагматических и парадигматических отношений. По способам выражения понятий автор делит языки на классификационные, дескрипторные, пиктографические, фонетические.

Увеличение количества ИПЯ, расширение сферы их использования вызвали к жизни и многие другие классификации [70], [77], [336]. Характерная особенность большинства из них — многоаспектность, что является следствием желания в рамках одной классификации отразить разные стороны структуры и функционирования ИПЯ. Появилось много работ, посвященных языкам фактографических ИПС в сопоставлении с документальными [13], [25], [163], [71].

Наиболее известной и распространенной классификацией, вошедшей в учебные пособия [235] является классификация А.И.Черного, впервые предложенная в работе [230] и в переработанном виде изложенная в работе [385]. Эта классификация основывается на понятии координации, которое представляет собой операцию пересечения (логического умножения) понятий. Авторы исходят из того, что основное содержание документов можно задавать в виде набора лексических единиц (ЛЕ) ИПЯ — «индексов», на множестве которых во время поиска выполняются различные логические операции. В качестве ЛЕ ИПЯ выступают имена понятий или классов понятий. Операция построения новых сложных (более узких) классов из имеющихся может строиться по-разному: путем дробления понятий или путем пересечения более простых классов; в разных «местах» системы: при построении ИПЯ или при его использовании.

Если ИПЯ имеет такую структуру и правила индексирования, при которых индексирование документов производится приписыванием им предварительно построенных сложных классов, а имена этих классов становятся поисковыми образами, то такой ИПЯ называется предкоординированным. Если же поисковый образ документа состоит из простых классов, а операция координации (построение сложных классов путем пересечения простых) реально происходит только при поиске (после индексирования), то такой ИПЯ называется посткоординируемым. С учетом высказанных положений общая классификация ИПЯ, предложенная А.И.Черным [385], имеет следующий вид:

A. Предкоординированные ИПЯ. АЛ. Иерархические классификации.

А.2. Алфавитно-предметные классификации.

А.З. Фасетные классификации.

Б. Посткоординируемые ИПЯ.

Б. 1. Дескрипторные языки.

Б.2. Семантические языки.

Б.З. Синтагматические языки.

B. Язык библиографических ссылок.

В ряде работ справедливо отмечались недостатки данной классификации [304], [337]. И это естественно по упомянутой выше причине: желание отразить все многообразие языков и их особенности не укладывается в простую древовидную схему. Нам здесь важна не схема сама по себе, а задача показать место дескрипторных ИПЯ в противопоставлении их иерархическим классификациям. Рассмотрим указанные типы языков.

(А). Предкоординированные ИПЯ.

Предкоординированные ИПЯ объединяет то, что в них заранее перечислены имена всех основных классов и подклассов. К этим языкам относятся классификации понятий. В основе построения классификаций лежит деление понятий, а сами классификации имеют структуру «дерева знаний» с поименованными узлами. Для каждого узла дерева дается идентификатор (имя) — обозначение понятия. Наиболее известны и распространены иерархические классификации, в числе которых в качестве примера можно привести Универсальную десятичную классификацию (УДК), Рубрикатор ГАСНТИ, Международную классификацию изобретений (МКИ), Общесоюзный классификатор продукции (ОКП) и др. В иерархических классификациях обычно каждый класс обозначается цифровым или буквенно-цифровым кодом, который сопровождается названием понятия на естественном языке и имеет постоянное определенное место относительно других классов.

Пример предкоординированного языка — Универсальная десятичная классификация (УДК).

Алфавитно-предметные и фасетные классификации также основываются на предварительном составлении перечня основных категорий и классов предметов, встречающихся в конкретной предметной области. В алфавитно-предметных классификациях классы понятий называются словами естественного языка и располагаются в алфавитном порядке.

Алфавитно-предметные классификации предназначены для узкопредметного поиска документов, главная тема которых обозначается соответствующим предметным заголовком, и применяются в основном для составления указателей к систематическим каталогам.

Учитывая неизбежную многоаспектность в типологии ИПЯ, нам представляется, что более существенным основанием для противопоставления предкоординированных и посткоординируемых языков является фактическое наличие (во втором случае) и отсутствие (в первом) операции координации. И с этой точки зрения правильнее относить язык предметных рубрик (ПР), ЛЕ которого способны участвовать в операции координации, к ограниченным дескрипторным языкам, основа которых — «предкоординированный» словарь индексирования. Это подтверждается опытом использования в некоторых библиотеках языков ПР для тематического поиска.

Расшифровка связей: ее. от — непринятого термина к принятому, ссылка от отс. — отсылка (от В основу фасетных классификаций положен принцип классификации одного и того же множества предметов и явлений по разным основаниям, а именно: для одного и того же множества объектов строится несколько иерархических деревьев). Фасетные классификации уже позволяют производить многоаспектное индексирование. Основные категории — основания для классификации — называются фасетами (от англ. facet — аспект). Так множество терминов, обозначающих различные материалы, образуют фасет «Материалы», Множество терминов, обозначающих процессы, фасет «Процессы» и т.д. Каждый термин фасета называют фокусом и для удобства обозначают каким-либо кодом (шифром). Множество фасетов называют схемой классификации. Расположение фасетов в схеме классификации и соответственно, и ПОД фиксированно. Эта фиксированная последовательность называется фасетной формулой.

Например, для классификации кинофильмов можно выделить четыре фасета: жанр, метраж, цвет и формат. В каждом из фасетов перечисляются термины, характеризующие фильмы с точки зрения данного аспекта. Тогда поисковый образ любого фильма будет состоять из набора четырех терминов-признаков, выбранных из четырех фасетов.

Выскажем здесь одно замечание, а именно: фасетные классификации фактически являются языками объектно-признакового типа, используемыми в фактографических системах. В связи с большой трудоемкостью разработки фасетных классификаций для документального поиска они могут быть созданы только для узких предметных областей. Методика индексирования с применением фасетных классификаций также сложна. Поэтому на практике в автоматизированных документальных ИПС эти классификации широкого применения не нашли.

Основные недостатки всех классификаций как информационно-поисковых языков заключаются в следующем:

1) невозможность обеспечить многоаспектное индексирование;

2) недостаточная глубина деления;

3) постоянное отставание от развития науки и техники.

(Б).Посткоординируемые ИПЯ.

В отличие от предкоординированных ИПЯ, предназначенных в основном для систематизации литературы, эти языки несравненно лучше позволяют описать содержание отдельных документов. Развитие автоматизированных ИПС в основном оказалось связано с ИПЯ дескрипторного типа. Поэтому все основные положения теории ИПЯ и проблемы их применения в дальнейшем будут обсуждаться применительно к этим языкам.

В основу построения дескрипторных языков положен принцип координатного индексирования, заключающийся в том, что главная тема документа описывается перечнем дескрипторов (от англ. describe .-. описывать) — слов, являющихся именами простых понятий. Такие слова выступают в качестве как бы координат документов в некотором умозрительном п-мерном предметно-тематическом пространстве.

Принцип координатного индексирования был разработан в 1950-х годах в процессе создания механизированных ИПС. Однако сам принцип описания содержания документов через перечисление «ключевых слов» существует издавна. Одной из первых дескрипторных ИПС была система УНИТЕРМ, разработанная в США М. Таубе. В ней в качестве индексов, описывающих содержание документов и запросов, использовались ключевые слова, выбранные из текста. Все такие слова (унитермы) имели одинаковый иерархический ранг. Словарный состав унитермных языков не разрабатывался предварительно, а формировался непосредственно в процессе индексирования. Координация, или логическое умножение понятий, в результате которой из простых лексических единиц строятся более сложные, выражающие более узкие понятия, осуществлялась как бы дважды: потенциально — при индексировании документа и реально - в процессе поиска: при сопоставлении поискового образа документа с терминами запроса (поискового предписания). Например, пересечением понятий БИБЛИОТЕКИ и АВТОМАТИЗАЦИЯ, заданных в поисковом предписании, порождается новое более узкое понятие АВТОМАТИЗАЦИЯ БИБЛИОТЕК. Логическое умножение понятий хорошо иллюстрируется на кругах Эйлера.

Отдельная проблема — действительно ли образованное таким образом сочетание терминов является именем понятия и всегда ли. Известно явление ложной координации понятий. И именно исходя из этого принципа описания документов, когда содержание представляется как набор «ключевых» понятий, мы предлагаем относить алфавитно-предметные классификации к языкам дескрипторного типа. В библиотечном деле этот принцип называется предметным индексированием. Понятие предмета при этом фактически не имеет точного определения, хотя и является интуитивно понятным. В англоязычной литературе по информационному поиску для принципа предметного индексирования иногда используется термин «aboutness»..

Заметим, что именно такое определение предмета является основным в руководствах по предметизации. Во многих современных источниках, в частности в работах В.П. Леонова [185], показано, что понятие «предмет документа» связано с процессом свертывания и развертывания информации. В зарубежных работах по библиотековедению и информатике для определения сущности понятия «предмет документа» используется теория Т. ван Дейка. По ван Дейку восприятие текста — это акт когнитивной редукции (компрессии). Этот акт состоит в опускании информации, менее значимой для читающего, которое продолжается до тех пор, пока важная информация не будет приведена в такое состояние, что ее можно сохранить в памяти. Результатом этого процесса и будет тема, предмет, содержание документа.

В документальных ИПС содержание документа складывается из смыслового содержания и формальных характеристик. Среди формальных характеристик для нас наибольший интерес представляет библиографическое описание документа. Библиографический поиск по существу являясь документальным, в то же время по форме смыкается с фактографическим. Дело в том, что существуют два основных способа идентификации сущностей в информационных языках — прямой и атрибутный. При прямом, когда сущностям соответствуют их имена, являющиеся элементами языка, в основе лежит семантика естественного языка. Фактически имена заменяют сами сущности. При атрибутном способе идентификации каждая сущность представляется в объектно-актантной форме, в виде имени функции (имени сущности) и значений, т.е. атрибутов. Дескрипторные языки характеризуются прямым способом идентификации, библиографические — атрибутным.

Для библиографического описания и поиска существуют специальные языки. Это язык библиографического описания (ЯБО) для традиционных систем, который А.И. Черный выделил и отдельный класс, и машинный библиографический формат для автоматизированных систем. Эти языки будут рассмотрены нами ниже.

Представление смысла документов является главным назначением искусственных информационных языков. В дескрипторных ИПЯ семантическая задача решается, по сути дела, приблизительным формальным способом. Гораздо ближе к этой проблеме подошли создатели семантических и синтагматических языков, среди которых наиболее известны семантический код Перри — Копта, язык RX-кодов [329] и язык СИНТОЛ. Их разработчики основную задачу видели в обеспечении однозначного перевода с естественного языка на ИПЯ с учетом семантических и синтаксических факторов. Долгое время существовала идея о наличии некоторых «информационных» универсалий, которые необходимо заложить в информационно-поисковый язык в качестве его семантической основы. По общепризнанному мнению, эта идея в значительной степени зародилась на «дрожжах» теории грамматик Н. Хомского, оказавшей мощное влияние на все сферы языковой деятельности, в том числе и на информационный поиск. Характерная особенность этих языков — наличие средств, явно описывающих семантическую и семантико-синтаксическую структуру понятий и выражений (семантические множители, термы, реляторы, предикаты, сущности и т.п.).

Развитие семантических языков в целом прошло за эти годы сложный путь «самоопределения», и в настоящее время языки этого типа используются в основном в системах искусственного интеллекта. Практика показала, что сложные семантические языки и трудно реализуемые синтаксические и семантические методы анализа текстов не дают существенного выигрыша с точки зрения достигаемых результатов документального поиска (а чаще просто дают худшие результаты). Постепенно стала осознаваться необходимость построения информационно-поисковых языков в соответствии с типами задач, для решения которых они предназначаются. Всякое усложнение информационного языка, не сопровождающееся соответствующим усложнением остальных компонент, не может дать позитивного результата и, скорее всего, даже ухудшит работу ИПС. Полученные результаты показывают, что возможности использования в информационном поиске чисто синтаксических моделей не следует переоценивать. Только в рамках хорошо разработанной семантической модели языка в качестве одной из ее составляющих синтаксический анализ может дать должный поисковый эффект. К сожалению, для полной фактической реализации такого подхода сегодня еще нет достаточных предпосылок. Именно поэтому большинство реально работающих документальных ИПС строится на основе дескрипторных ИПЯ с простой грамматикой.

Основной задачей содержательного анализа в информационно-поисковых системах является выдача релевантных документов, а не представление их содержания, в отличие от систем искусственного интеллекта, где требуется способность делать выводы из полученной информации, т.е. имеет место такой компонент значения, как истинностная оценка. Общеизвестно мнение авторитетных экспертов, что документальные информационно-поисковые системы не являются промежуточными продуктами на пути создания систем типа «вопрос-ответ», а выполняют особую информационно-поисковую функцию там, где нет необходимости и использовании идей семантики.

(4). Составные части дескрипторных информационно-поисковых языков.

Как уже говорилось, любой письменный язык состоит, по крайней мере, из трех компонентов: алфавит, словарь и грамматика. Это применимо и к ИПЯ. Алфавит - система графических знаков, используемая для записи лексических единиц (ЛЕ) различных ИПЯ, может включать в себя символы латинского и русского алфавитов, арабские цифры, знаки пунктуации и специальные символы.

Совокупность всех ЛЕ ИПЯ называется словарем. В качестве лексических единиц в дескрипторных языках выступают имена понятий или классов понятий, которые перечисляются в словаре. Существуют ИПЯ с фиксированным словарем, который используется как словарь индексирования, и без фиксированного словаря. В этом случае в качестве ЛЕ ИПЯ, используемых для описания содержания документа или запроса, берутся просто ключевые слова из текста документа или запроса.

Грамматика ИПЯ представляет собой совокупность правил выражения отношений между лексическими единицами языка.

(4.1). Грамматика

Грамматические отношения в дескрипторных ИПЯ бывают двух видов: синтагматические (текстуальные) и парадигматические (базовые). Синтагматические отношения — это отношения между лексическими единицами, возникающие в определенной ситуации, в определенном контексте (т.е. в тексте — в данном документе или запросе). Для фиксации синтагматических отношений, отражающих связи между ЛЕ в тексте, вводятся специальные грамматические средства. Набор этих средств различен в разных ИПС и зависит от назначения системы и других факторов.

В системах 1960-1970-х годов наибольшее распространение получили указатели роли и связи. Указатели роли определяют, какое значение имеет в тексте (и соответственно, в ПОД) тот или иной дескриптор, и играют в ИПЯ роль грамматических категорий. В качестве примеров таких категорий можно назвать «процесс», «свойства», «материал», «оборудование», «среда». Фактически с указателями роли в дескрипторные ИПЯ вводятся элементы фасетного анализа. Обозначаются указатели роли посредством соответствующих кодов, приписываемых дескрипторам в ПОД. Естественно, эти грамматические категории соответствующим образом должны учитываться в критериях смыслового соответствия и программах поиска. Указатели связи определяют, какие из дескрипторов в ПОД связаны между собой (логически или синтаксически). Обозначаются они также особыми символами, приписываемыми дескрипторам в ПОД.

Гендина Н.И. приводит в своей работе [57] следующие примеры с указателями роли, используемые в языке ИПС Американского общества инженеров-химиков:

A. То, что вводится (загружается) в химическую реакцию или подвергается переработке.

B. Продукт, побочный продукт, продукт, сопутствующий реакции или процессу производства.

C. Брак, отход, загрязнение.

D. Особый агент, катализатор.

E. Растворитель, среда, окружение.

F. Независимая переменная, действие которой изучается.

G. Независимая переменная, изучаемая с точки зрения воздействий на нее.

Н. Активное понятие, предмет изучения.

I. Пассивное понятие.

J. Приборы, материалы или методы, используемые для производства операций.

Использование указателей роли можно показать на следующем реферате: «Осушение жидкостей распылением без применения атомизирующего газа. Латентная теплота подается прямым излучением от горячей стены к распылителю.»

Тогда поисковый образ этого документа будет следующим: Жидкость А, распыление — J, сушка — Н, атомизация — А, газ - J, латентная теплота - G, излучение — Н, стена — I.

Использование указателей роли и связи в принципе увеличивает семантическую силу ИПС и позволяет повысить показатель точности. При этом неизбежно усложняются методика индексирования запросов и критерий соответствия и возможно снижение полноты поиска. Индексирование документов с применением указателей роли и связи также требует дополнительных трудозатрат и влечет за собой возможность ошибок. Все это привело к тому, что на практике в современных ИПС указатели роли и связи, как правило, перестали использоваться. Их отсутствие компенсируется другими способами. Наибольшее распространение получили средства фиксации структуры текста и принадлежности ЛЕ к соответствующим структурным составляющим, таким как предложение, абзац, раздел, глава и т.п. Подобные средства, позволяющие использовать линейную структуру и деление текста на части, получили название «линейной», или «позиционно-скобочной», грамматики. К ним относятся специальные контекстные (позиционные) операторы или квалификаторы, ограничивающие область действия обычных булевских операторов, - И, ИЛИ, НЕ. Также часто имеет место ограничение области поиска путем задания подмножеств документов, в которых нужно вести поиск. Постепенно среди документальных систем «победил» тип дескрипторной ИПС без фиксированного словаря с линейной грамматикой.

Собственно говоря, грамматике в узком, естественно-языковом смысле принадлежат только синтагматические отношения. ИПЯ, в которых есть средства для выражения синтагматических отношений, называют «ИПЯ с грамматикой», а те, в которых таких средств нет, - «ИПЯ без грамматики».

Парадигматические отношения относятся к словарному составу языка и, в отличие от естественных языков, в словаре отображаются в явном виде. Парадигматические отношения обусловлены наличием логических связей между понятиями как элементами, отражающими объекты и явления реального мира.

Они отражают смысловые связи между ЛЕ ИПЯ, зависящие не от контекста, а от отношений между объектами в реальном мире. К их числу относятся иерархическое отношение (род - вид), а также многочисленные отношения, получившие название ассоциативных (часть - целое, предмет -свойство, процесс — результат и др.). Смысловые (логические) связи между понятиями в явном виде зафиксированы в информационно-поисковых тезаурусах (ИПТ). Можно сказать, что ИПТ — это семантическая модель плана содержания соответствующей области знания.

Разделение языковых средств ИПС на словарные и грамматические довольно условно [31]. Например, какое-либо понятие может быть поименовано словосочетанием. В ИПС без фиксированного словаря с грамматикой элементы такого словосочетания будут связаны синтагматической связью. В ИПС с фиксированным словарем это словосочетание может быть задано непосредственно в словаре, т.е. то, что в первом случае представлено как грамматическая связь, во втором случае будет выражено лексически. Указатели роли, эти своего рода информационно-поисковые «члены предложения», могут выступать как грамматические средства, а могут фиксироваться в ИПС как элементы лексики. Точно так же достаточно условно деление на лексику и грамматику и в естественном языке, например, грамматическая категория «часть речи» фактически относится к словарю.

Соотношение «лексики» и «грамматики» в ИПЯ является одним из решений, принимаемых разработчиками на этапе проектирования с учетом стоящих перед ИПС задач и условий ее функционирования.

(4.2). Словарь

Главная составляющая ИПЯ — это словарь. Особо важную, определяющую роль играет словарь в дескрипторных системах. Сами понятия предметного индексирования и дескрипторного языка предполагают наличие «индексов», «дескрипторов», описывающих содержание документов и запросов. Даже в системах, где словарь в явном виде отсутствует, все равно мы имеем дело с дескрипторным ИПЯ (без фиксированного словаря). Дескриптор в обычном понимании — это слово (или словосочетание), выбранное в качестве представителя группы синонимичных слов — класса условной эквивалентности. Как правило, это существительные. Объектный характер назывных слов роднит их с понятиями. Лексические значения, как и понятия, это своего рода, умственные «концентраторы», сгустки человеческих знаний об определенных фрагментах и сторонах окружающей нас действительности». Связь номинации с понятиями давно осознана в языкознании . То же понимание утвердилось и в информатике: «Номинативная группа как наиболее общая речевая форма представления понятия в тексте рассматривается нами как фундаментальное для методов автоматической обработки текстов явление» [154].

В дальнейшем автор продемонстрирует, что при исполнении описываемого в данном диссертационном исследовании проектного решения, инструментальная роль дескриптора является ключевой.

Состав, структура и функции лингвистического обеспечения

Расширение диапазона ИПЯ неразрывно связано с существенными изменениями и, в частности, к утверждению и широкому использованию понятия «лингвистическое обеспечение», объем которого значительно превосходит объем понятия «ИПЯ» и включает последнее в свой состав.

Понятие «лингвистическое обеспечение» не является принципиально новым, В специальных публикациях по интересующему нас вопросу оно появляется практически одновременно с введением понятия ИПЯ.

Первоначальное употребление понятия «лингвистическое обеспечение» не носило нормативного характера и под ним, как правило, понимали комплекс ИПЯ, используемый для составления поисковых образов документов и поисковых предписаний запросов [337] и предназначенных для описания, хранения и поиска НТИ [353]. Указывалось, что лингвистические средства могут быть взаимосвязаны между собой и образовывать систему лингвистических средств.

Поскольку использование средств лингвистического обеспечения имеет целью перевод содержания поступающих в ИПС текстов с естественного языка на ИПЯ для решения задач информационного поиска, то в состав лингвистического обеспечения стали включать также методики индексирования документов и запросов, правила, методики и алгоритмы создания, ведения и пополнения ИПЯ [216].

В связи с тем, что подсистема лингвистического обеспечения наряду с программным, технологическим, информационным и техническим обеспечением признавалась в качестве важнейшего элемента, от функционирования которого зависит эффективность работы системы в целом, появились регламентирующие документы, закреплявшие использование этого понятия. Так, «Положение о лингвистическом обеспечения ГАСНТИ» [279] определяло лингвистическое обеспечение как комплекс языковых средств, используемых в органах ГАСНТИ, а также средства и методы их создания, ведения, использования и контроля, регламентировало назначение, функции и состав лингвистического обеспечения.

В 80-е гг. была предпринята попытка стандартизации понятия. Для термина «лингвистическое обеспечение» была предложена следующая дефиниция: совокупность применяемых в какой-либо информационной системе ИПЯ и нормативно-технических документов, определяющих правила их ведения и использования.

Интенсивное развитие и распространение автоматизированных банков данных выдвинуло новые требования к лингвистическому обеспечению, во многом отличающиеся от тех, которые предъявлялись и предъявляются к лингвистическому обеспечению документальных АИПС. Рассмотрению особенностей лингвистических средств, обеспечивающих функционирование ИПС на новом, более высоком качественном уровне — в интерактивном (диалоговом) режиме, посвящен аналитический обзор [21]. Под лингвистическим обеспечением автоматизированных банков данных при этом понимаются два комплекса средств, непосредственно не связанных друг с другом: лингвистические (в основном лексические) средства представления семантики данных: тезаурусы, элементы естественного языка, рубрикаторы, классификации (индексы рубрикаторов и классификаций) и т.п.; средства манипулирования с данными и информационными массивами, позволяющие пользователю непосредственно работать с системой в интерактивном (диалоговом) режиме.

Сложившаяся на практике тенденция к расширению объема понятия «лингвистическое обеспечение» отражена в работах [9]. Несводимость понятия «лингвистическое обеспечение» только к сумме ИПЯ, его составляющих, была впервые показана А.Б. Антопольским, обосновавшим необходимость расширить состав современного лингвистического обеспечения АСНТИ. В его работе среди принципиально новых свойств современных АСНТИ по сравнению с ИПС начального периода развития были названы следующие [9]: - развитие режима диалога; - одновременный поиск во многих базах данных; - в режиме сети; - с помощью нескольких ИПЯ; - интеграция ИПС с другими системами (библиотечными, издательскими, информационно-управляющими, автоматизированного перевода, документацией по лингвистическому обеспечению, лингвистическими службами АСНТИ. Концепция лингвистического обеспечения государственной системы баз и банков данных (ГСБД) нашла отражение в [27]. Главная цель создания ГСБД -использование информационных ресурсов на основе применения вычислительной техники, средств телекоммуникации и передовых информационных технологий для удовлетворения широкого круга информационных потребностей в различных жизненных сферах. Одним из направлений этой деятельности является разработка типовых проектных решений по лингвистическому обеспечению. Лингвистическое обеспечение включает разнообразные языковые средства, типология которых, как предлагает В.Н. Белоозеров, может строиться по следующим основаниям: 1. Глубина отображения информации.

Лингвистическое обеспечение входного потока единиц информации в автоматизированную информационную систему

Традиционно использование лингвистических средств при обработке входящего потока данных в информационные системы при обеспечении информационной технологии принято связывать преимущественно с одним из классификационных языков: УДК, ББК, МКИ, алфавитно-предметной классификацией. Сфера применения ИПЯ при этом, как правило, ограничивается лишь процессами систематизации и предметизации. Автоматизация информационной технологических процессов ставит вопрос о необходимости тщательного анализа используемой технологии, который обычно производится в ходе предпроектного обследования объекта автоматизации.

Весьма плодотворным оказывается технологический подход и при анализе средств лингвистического обеспечения, используемых например в библиотечно-библиографической работе. Организация такого обследования предполагает обращение к нормативному документу «Типовые нормы времени на работы, выполняемые в библиотеках» [357], регламентирующему все технологические процессы и операции, независимо от ведомственной принадлежности библиотек.

Лингвистическое обеспечение автоматизированной библиотечной системы (ЛО АБС), под которым принято понимать комплекс ИПЯ, а также средства и методы их создания, ведения, использования и контроля, всегда имеет своей целью обеспечить решение многообразных задач, стоящих перед системой. К числу первостепенных задач, которые призвана решать любая библиотечная система, будь то традиционная библиотека, базирующаяся на ручной технологии, или автоматизированная система, использующая средства вычислительной техники, относятся следующие: 1. Отбор из документального потока и приобретение тех и только тех документов, которые бы с максимальной эффективностью использовались именно в данной, конкретной информационной системе. Для этого в библиотечной системе должны быть предусмотрены разнообразные лингвистические средства структурирования, «разбиения» входных документальных потоков с целью разыскания в них отдельных документов, наиболее соответствующих потребностям данной системы. 2. Производство информационных продуктов и услуг на базе удовлетворения многообразных запросов читателей как за счет ресурсных возможностей отдельной библиотеки, так и за счет обращения к общегосударственным и мировым резервам информации. Для этого так же необходимы соответствующие ИПЯ и другие языковые средства, открывающие доступ как к фонду отдельной библиотеки так и к массивам информационно-библиотечных систем и сетей. 3. Обеспечение внутрибиблиотечной технологии, того невидимого, «закрытого» для читателя библиотечного производства, в котором циркулируют мощные потоки информации, характеризующие контингент читателей, документальные фонды данной системы и т.п. сведения. Обработка такого рода «внутренних» данных требует значительных трудозатрат и времени, которое тратится библиотекарями в ущерб интересам читателей. Выполнение этих технологических процессов (учет, контроль, анализ и др.) также требует адекватных средств лингвистического обеспечения. В соответствии с этими важнейшими задачами в структуре лингвистического обеспечения автоматизированной библиотечной системы можно выделить три направления: 1. Лингвистическое обеспечение входного документального потока, на основе которого происходит формирование документального фонда АБС как исходной базы библиотечно-информационного обслуживания. 2. Лингвистическое обеспечение производства информационных продуктов и услуг. 3. Лингвистическое обеспечение внутреннего документального потока, являющегося результатом деятельности АБС по производству библиотечных услуг и библиотечной продукции.

Решение первых двух комплексов задач направлено на выполнение главной социально-экономической функции АБС — обеспечение информационных потребностей читателей. Решение третьего комплекса задач отражает потребности внутрисистемной библиотечной технологии, обеспечивающей функционирование АБС.

Эффективность функционирования любой АБС во многом определяется содержанием ее документальных фондов, используемых для справочно-библиографического, информационного и библиотечного обслуживания абонентов системы. Под формированием документального массива АБС понимается комплекс технологических процессов и операций, аналогичных процедуре комплектования и организации документальных фондов библиотеки. Это отбор, заказ, контроль и учет документов, а также обработка и ввод отобранных документов в массивы системы. Однако, в отличие от первоначальной (ручной) технологии комплектования, формирование документальных массивов АБС имеет принципиальную особенность, которая заключается в том, что входной поток документов, поступающих в автоматизированную систему, содержит в своем составе как документы традиционного вида, предназначенные для непосредственного восприятия человеком и расположенные на бумажных носителях или фотопленке, так и машиночитаемые документы, представленные на магнитной ленте или диске. Соответственно, лингвистическое обеспечение документального потока, поступающего на вход АБС, должно обязательно учитывать эту особенность. Кроме того, создание средств лингвистического обеспечения предполагает тщательный анализ структуры входного документального потока, включая потоки документов и на традиционных, и на машиночитаемых носителях.

Одной из основных характеристик потока документов, поступающих в современную библиотеку, является его универсальность, как с точки зрения отраслей знания, так и с точки зрения типо-видовой структуры. Нормативным документом, дающим представление о составе и структуре потока документов, поступающих в АБС, является ГОСТ 7.19 — 85 «Коммуникативный формат для обмена библиографическими данными на магнитной ленте. Содержание записи». Он включает одиннадцать классов документов: разовые издания, книги; сериальные издания; документация о НИР и ОКР; диссертации; патентные документы; промышленные каталоги; депонированные научные рукописи; материалы о передовом опыте; неопубликованные переводы; алгоритмы и программы. Эта классификация не является единственной. О многогранности входного документального потока свидетельствует также активно используемая типология изданий, закрепленная в ГОСТ 7.60 — 90 «Издания. Основные виды. Термины и определения».

Использование средств лингвистического обеспечения для поиска информации в базах данных и формирования результатов выдачи

Известно, что непрерывное увеличение количества и объемов баз данных приводит к изменению информационной среды в неблагоприятном для пользователя направлении, поскольку он физически не может использовать огромные массивы информации, находящиеся в базах данных [323]. Несмотря на существенные достижения в области интерактивных систем, характеризующие генерацию баз данных в последние два десятилетия, такие как возрастание скорости передачи данных, увеличение мощности и быстродействия ЭВМ, совершенствование и упрощение процедуры поиска, исследователи отмечают, что прогресс в настоящее время достигнут лишь в автоматизации механических, рутинных процессов интерактивного поиска, в то время как интеллектуальные процессы поиска фактически автоматизацией не охвачены.

В исследованиях, связанных с анализом эффективности работы интерактивных систем, отмечается, что наибольшее влияние на результаты поиска оказывают именно интеллектуальные операции, такие как определение предмета и области поиска, выбор базы данных и интерактивных служб, выбор стратегии и оценка результатов поиска [192]. При этом основные трудности как для опытных, так и для неопытных пользователей заключаются не в освоении терминального оборудования и использовании команд системы, а в выборе стратегии поиска. Следовательно, весь перечисленный комплекс проблем неразрывно связан с привлечением и использованием лингвистических средств. В том случае, если речь идет о поиске в интерактивном режиме, то возникает задача оптимизации методов поиска, причем не только по традиционным параметрам полноты и точности, но и по ряду временных характеристик. К ним относится время, затрачиваемое на подготовку поискового предписания, на итерацию запроса, на обучение пользователя и др. [11]. Известно, что при диалоговом поиске временные затраты определяют стоимость информационного обслуживания. Следовательно, состав и структура лингвистического обеспечения современных баз данных оказывают решающее влияние не только на эффективность работы пользователя с базами данных, но и на экономическую эффективность информационного обслуживания, реализуемого на их основе.

В практике работы центров — генераторов БД лингвистическому обеспечению, как правило, уделяется существенное внимание. Достаточно сказать, что в структуре описания каждой из нескольких тысяч БД, отраженных в наиболее репрезентативном обзоре по этому вопросу, предусмотрено отражение сведений о том, какими лингвистическими средствами они располагают. Однако степень детальности представления лингвистических средств в них существенно различается.

Обобщая рассмотренные данные, можно сказать, что, несмотря на различия в используемой терминологии, степени детальности представления, в каталогах описания лингвистических средств хорошо прослеживаются основные функции лингвистического обеспечения БД: 1) определение тематического охвата БД. Реализация этой функции достигается за счет преимущественного использования рубрикаторов. Совместимость Рубрикатора ГАСНТИ с рубрикаторами типа МСНТИ, создание локальных (отраслевых) рубрикаторов в отечественных АСНТИ на базе Рубрикатора ГАСНТИ позволил организовать обмен информацией на машинных и немашинных носителях между органами, входящими в отечественную информационную систему (ГАСНТИ), а также с внешними по отношению к ней сетями и системами. Использование рубрикаторов позволяет также проводить широкотематичский информационный поиск, поиск по рубрикам, включая адресацию запросов. Таким образом, рубрикаторы, являясь достаточно грубым семантическим средством, дают возможность осуществлять структурирование информационных массивов, а «семейство» совместимых рубрикаторов выступает в роли общесистемных языковых средств общения между участниками, входящими в состав информационной сети. 2) формализованное описание содержания хранящихся в БД сообщений (документов, фактов), а также поступающих в БД информационных запросов. Выполнение этой функции обеспечивается с помощью комплекса ИПЯ, включая классификационные, дескрипторные, фактографического типа. По сравнению с рубрикаторами эти языки обладают большей семантической силой. Помимо ИПЯ, обеспечивающих формализованное представление смыслового содержания хранящихся в БД сообщений, в состав лингвистических средств, отраженных в структуре описания БД анализируемых каталогов, вошли также компоненты записи (или в другой транскрипции - элементы описания данных) в БД, под которыми понимаются библиографическое описание, ПОД (ключевые слова, предметные рубрики, индексы и т.п.).

Сопоставление практики отражения лингвистических средств, используемых в современных БД, с теорией вопроса позволяет сделать следующие выводы. В специальной литературе, посвященной проблемам лингвистического обеспечения, в настоящее время заметна тенденция к расширенному толкованию самого понятия «лингвистическое обеспечение», включение в его объем не только ИПЯ и методов индексирования, но и средств манипулирования с данными, средств взаимодействия с операционными системами. В то же время практика каталогизации БД, как показал проведенный анализ, пока не отражает такой трактовки понятия «лингвистическое обеспечение» и включает в состав описании лингвистических средств БД лишь традиционные семантические средства — ИПЯ и методы индексирования. Слабая разработанность теории лингвистического обеспечения, нестандартизированная терминология, отражающая неустоявшийся понятийный аппарат, оказывают сдерживающее воздействие на повышение качества информационного поиска в БД.

Помимо анализа способа отражения лингвистических средств в структуре описания БД была изучена номенклатура используемых в БД ИПЯ. Общее представление о том, какие именно языки используются при характеристике документальных отечественных и зарубежных БД, общеизвестно - [62], [104], [123], [131], [181], [205], [213], [228], [272], [371], [373]. Данные, приведенные Н.И. Гендиной в [58], позволяют утверждать, что в структуре лингвистического обеспечения документальных БД наибольшее применение нашли классификационные ИПЯ (80,9%), являющиеся основным средством для структурирования информационных массивов. Среди классификационных ИПЯ максимально активно используются рубрикаторы, которые по сравнению с другими языками этой группы являются наиболее подвижными, ориентированными на динамику входного документального потока, обладая свойством «гостеприимности» и обозримости. Именно рубрикаторы служат для описания тематики всех обследованных БД.

В целом выявленная номенклатура ИПЯ свидетельствует о стремлении центров — генераторов БД к расширению арсенала семантических средств, на базе которых становится возможным предоставление пользователям комплекса информационных продуктов и услуг.

Автоматизированная разработка лингвистического обеспечения автоматизированной информационной системы «Молодежь»

Принимая во внимание основные методы создания лингвистического обеспечения, при создании лингвистического обеспечения АИС «М» с элементами социолингвистического маркирования был использован ряд новаций. Очевидно, при создании любых структурообразующих массивов непервичных лингвистических единиц [130] в качестве исходного лингвистического материала использовались следующие источники информации: A. Директивно-нормативные документы, определяющие предмет и приоритеты деятельности базовой организации АИС «М» - КДСМ, а также тексты договоров, тексты отчетов организаций о результатах выполнения работ, оплаченных в рамках договорных взаимоотношений по созданию некоего общественно востребованного результата деятельности (образцы текстовых источников данного типа данного типа, размещенны по адресу www.kdsm.mos.ru/dogovor.zip). B. Рабочие документы, составляющие основные элементы документооборота базовой организации (письма, приказы, служебные записки и пр.). C. Электронные версии вышеназванных документов, а также информационные ресурсы, использующиеся для их обработки и информационно-справочного обслуживания субъектов и объектов деятельности базовой организации, включая разнообразные БД, ИС, АИС и интернет-страницы. Метатехнология эффективного формирования базисных компонентов ЛО АИС «М» с элементами социолингвистического маркирования привела автора к необходимости генерации и периодической актуализации различных инструментов для создания результирующего ЛО АИС «М» или мета-ЛО, в итоге определенной эвристической и аналитико-синтетической обработки первичных данных из вышеперечисленных источников информации (А-С). Наиболее продуктивными, кристаллизирующими весь комплекс инструментария Л О АИС «М» компонентами в конечном счете явились: (I). Рубрикатор семантически-значимых для автоиндексации полей СИР АИС «М» (Приложение № 5); (II). Классификатор СИР интернет-сервера, размещенный по адресу http://ismm.mos.ru /portal; (III). Синаптический каркас информационно-поискового тезауруса программно-технического комплекса управления АИС, размещенный по адресу http://kdsm.mos.ru.

Вместе с тем следует отметить еще ряд рубрикаторов, классификаторов и словников, также явившихся необходимым лингвистическим материалом для итогового комплекса Синаптического каркаса информационно-поискового тезауруса ЛО АИС «М» с элементами социолингвистического маркирования (Приложение № 4). Основные эвристические методики, использованные автором для отбора и адекватной суперпозиции первичных видов ЛО (инструментария) при создании промышленного ЛО (инструментария) АИС «М» с элементами социолингвистического маркирования можно поименовать как различные виды генерализации и диверсифицирования семантических полей, используемых тем или иным прото-ЛО-инструментарием в тех или иных прагматических аспектах. Рассмотрим ситуацию с генерацией первичного синаптического каркаса ИПТ АИС «М» для начального синонимизирования основного синаптического каркаса по 8-базисным дескрипторным типам АИС «М» для функциональных подсистем «Работа» и «Культурный досуг» (Приложения № 1, 2). В качестве словников были использованы классификаторы Фонда городских классификаторов, отчеты терминальных станций (ТС) АИС «Молодежь» и текстовая часть релевантной тематики информационных ресурсов Интернет.

Подход к разработке синаптического каркаса функциональной подсистемы «Работа» в большей степени, чем при разработке синаптического каркаса функциональной подсистемы «Культурный досуг» зависел от статистических данных анализа запросно-ответных сочетаний при информационно-консультационном обслуживании пользователей ТС АИС «Молодежь» и соответствующих серверов Интернет, нежели от выводов экспертного контент-анализа. 1. На начальном этапе ядро ИПТ должно обеспечивать бессбойное выполнение следующих функций: 1.1. Ввод (импорт данных), в т.ч. из текстового файла формата ASCII\ .XLC\ mdb в стеки № 1 (наименование «Объекты») и №2 (наименование «Предикаты»). 1.2. Вывод (экспорт данных), в т.ч. в текстового файла формата ASCII\ .XLC\ mdb из стеков № 1-5. 1.3. Комбинаторика сочетаний без повторений маркированных лексем из стека № 1 с маркированными лексемами из стека № 2 с записью результатов в стек № 3 (наименование - «Синтаксемы»). 1.4. Комбинаторика сочетаний без повторений маркированных синтаксем из стека № 3 («Синтаксемы») с маркированными лексемами из стека № 2 или стека № 3 с записью результатов в стек № 4 (наименование - «Дескрипторы»). 1.5. Запись маркированных лексем из стека № 1 или маркированных лексем из стека № 2 в стек № 4 («Дескрипторы»). 1.6.

Запись маркированных лексем из стека № 1 или маркированных лексем из стека № 2, либо маркированных лексем из стека № 3 в стек № 5 («Аскрипторы») при предварительном маркировании заглавного «Дескриптора» из стека №4 («Процесс образования дескрипторной группы»). При этом, демонстрация состава ДГ должна осуществляться при пассивном маркировании соответствующего дескриптора. 1.7. Редактирование и запись получившихся словарей как в один комплексный файл («Лексический кластер»), так и в словарь каждого стека по отдельности. 2. На втором этапе следует решить такие задачи, как: 2.1. Экспорт дескрипторных групп или аскрипторов в метапоисковый формат 111111 «Интернет-сыщик» со следующими функциями: - маркирование; - экспорт в метапоисковый формат типа .mdb, только Дескрипторных Групп (или/и только дескрипторов), либо только аскрипторов (с отражением в экранном пользовательском формате соответственно трех стрелок-кнопок типа"У \ ). 2.2. Алфавитная сортировка каждого стека. 2.3. Импорт в стек ИПТ лексем любой неиерархической страницы любого из русскоязычных Интернет-Сайтов www с возможностью портирования в смежные стеки, в том числе семиричного семасиологического табличного словаря - в структуре формата .xls для образцов из первичного набора текстовых инвентарей для генерации ЛО.

Лингвистическое обеспечение и социолингвистическая специфика проблемы автоиндексационной актуализации информационных систем Пономарев Василий Васильевич

Состав, структура и функции лингвистического обеспечения

Лингвистическое обеспечение входного потока единиц информации в автоматизированную информационную систему

Использование средств лингвистического обеспечения для поиска информации в базах данных и формирования результатов выдачи

Автоматизированная разработка лингвистического обеспечения автоматизированной информационной системы «Молодежь»

Похожие диссертации на Лингвистическое обеспечение и социолингвистическая специфика проблемы автоиндексационной актуализации информационных систем