Содержание к диссертации
Введение
ГЛАВА I. Моделирование лексико-семантмеских систем как основы информационно-поисковых тезаурусов 18
1. Терминологическая лексико-семантическая система и тезаурус 19
2. Проблема выбора модели словаря 22
2.1. Основные требования к модели ЛСС как объекту системного подхода 24
2.2. Семантическая сеть как модель ЛСС 28
2.3. Формальное описание семантической сети 36
3. Выделение количественных параметров терминологической лексики для оценки лексических единиц ЛСС и их отбора в ИПТ 39
4. Формальное описание модели информационного поиска 55
ГЛАВА 2. Автоматизированный отбор лексики в информа-ционно-поискошй тезаурус на основе анализа терминологических словарей 59
1. Задача минимизации ИПТ по составу 62
2. Отбор лексики в совместимые словари 66
3. Формальное описание задачи выбора оптимального словаря 69
4. Оценка степени семантической совместимости словарей 74
5. Количественные параметры терминов и их взаимосвязь с эффективностью информационного поиска 83
6. Экспериментальная апробация методики отбора лексики в информационно-поисковый тезаурус . 99
7. Выводы 114
ГЛАВА 3. Автоматизированная система анализа терминологии 116
1. Общая структура АСАТ, ее назначение и функции 116
2. Машинная реализация АСАТ 123
3. Функционирование АСАТ 127
4. Структура и состав программного обеспечения АСАТ 139
Заключение 143
Литература
- Проблема выбора модели словаря
- Выделение количественных параметров терминологической лексики для оценки лексических единиц ЛСС и их отбора в ИПТ
- Формальное описание задачи выбора оптимального словаря
- Машинная реализация АСАТ
Введение к работе
Одна из отличительных черт научно-технического прогресса на современном этапе - ускоренный рост интенсивности и объема информационного потока. Приостановить рост объема информации невозможно. Увеличивающаяся специализация исследований ведет к увеличению объемов публикуемых материалов. Трудность ориентации в громадном объеме недостаточно упорядоченных материалов часто приводит к дублированию исследований, сопровождающемуся необратимыми потерями времени, материальных средств и интеллектуальных ресурсов. Поэтому выделение поиска информации в самостоятельную проблему является жизненно обусловленной необходимостью.
Утвержденные ШІ съездом КПСС "Основные направления экономического и социального развития СССР на I98I-I985 годы и на период до 199 года" предусматривают дальнейшее совершенствование методов и средств управления народным хозяйством с целью повышения эффективности общественного производства. В связи с этим указывается на необходимость широкого применения автоматизированных систем управления, расширения научно-исследовательских и проектно-конструкторских работ с применением ЭВМ, совершенствования средств и систем передачи и обработки информации .
В условиях информационного "взрыва" повышение эффективности управления в общем случае и эффективности управления в области научных исследований и разработок, в частности, может быть достигнуто путем автоматизации процессов переработки информации и внедрения в экономику информационно-поисковых систем (ШС), которые в настоящее время используются в различных автоматизированных системах организационного управления (АСОУ) в качестве основного звена информационно-справочной системы, в качестве банка данных для различного рода задач в АСОУ, в качестве хранилищ библиографической информации в НТИ и т.д.
ШС обеспечивают переработку массовой технико-экономической информации при решении задач планирования, производства, учета и распределения, служат целям информационного обслуживания специалистов в области науки, техники и гуманитарных дисциплин.
Под информационно-поисковой системой в ее абстрактном виде понимается совокупность информационно-поискового языка (ЙШ) (с правилами перевода с естественного языка (ЕЯ) на этот язык и наоборот) и критерия смыслового соответствия между поисковым образом документа (ПОД) и поисковым образом запроса (ПОЗ) [бі].
ИПЯ - это формализованная семантическая система, предназначенная для выражения смыслового содержания документов и информационных запросов с целью отыскания в массиве таких документов, которые отвечают на поставленный информационный запрос [55] .
Единого подхода к систематизации ИЛИ не существует. Они сравниваются по самым различным основаниям в зависимости от целей исследований fs, 9, 20, 29, 32, 35, 51J . Однако к любым ИПЯ предъявляются следующие основные требования: I) запись на ИПЯ должна допускать одно и только одно толкование, т.е. ИПЯ должен быть однозначным; 2) обладать достаточной "семантической силой", т.е. позволять выражать в его терминах (с необходимой степенью полноты и точности) любой текст, составленный на ЕЯ, для описания смыслового содержания документа и информа ционного запроса в данной предметной области; 3) допускать формализацию процедуры перевода с ЕЯ на данный язык и, наоборот, а также формализацию информационного поиска [зб] .
Составными элементами ШИ обычно являются информационно-поисковый тезаурус, в котором в явном виде перечислены все используемые лексические единицы ЙПЯ с указанием парадигматических отношений, грамматические средства ШН, правила применения информационно-поискового языка при обработке документов и запросов.
Наиболее сложной и существенной частью ИДЯ является информационно-поисковый тезаурус. Термином "тезаурус" или "дес-крипторный словарь" обозначается упорядоченный список лексических единиц, достаточно полно представляющий лексику исследуемой предметной области с указанием в явном виде связей между лексическими единицами.
Тезаурусы применяются в качестве инструмента терминологического контроля в процессе анализа и индексирования документов и информационных запросов, а также в процессе автоматизированного поиска информации. Функциональная роль тезауруса в ИПС предъявляет высокие требования к качеству подготовки тезауруса, от степени совершенства которого в основном зависит эффективность поиска.
Актуальность проблемы. В настоящее время большая часть литературы, посвященной применению ЭВМ в ИПС, относится к области автоматизации поиска. Вопрос о применении ЭВМ для автоматизации построения ИПЯ, прежде всего словарей, менее исследован. Но эта проблема уже нашла отражение во многих работах как отечественных исследователей 8, 12, 17, 21, 29. 38, 58, 59] , так и зарубежных [94, 96, 97, 99, 102, 103, 104, 106, 108] и интерес
- tj "™ I к ней возрастает ,
Краткий анализ литературы и уже созданных тезаурусов [6, 13, 18, 37, 52, 57, 63, 67, 73, 79, 83, 84, 87 ] убеждает нас в том, что на современном этапе развития автоматизированных систем научно-технической информации решение проблемы информационного поиска возможно только при условии создания специальных словарей - информационно-поисковых тезаурусов. Без смысловых словарей (тезаурусов) автоматизированные системы обработки информации не могут выполнить сложнейших операций по анализу содержания документов, и, следовательно, не могут развиваться далее определенного, достаточно низкого предела. При этом современные ИПС, работающие на ЭВМ 3-го и 4-го поколений, требуют совершенствования структуры тезауруса.
Процесс построения тезауруса независимо от метода сводится к следующим процедурам:
1) предварительный отбор лексических единиц (составление списков ключевых слов (KG), словников);
2) построение классов условной эквивалентности (для устранения синонимии, полисемии и омонимии и перехода к ДИЕН), т.е. приведение лексических единиц (ЛЕ) к заданной стандартной форме;
3) установление заданных семантических отношений.
Каждая из этих задач может быть решена с применением ЭВМ.
Степень автоматизации решения задач с применением ЭВМ может быть различной. В некоторых случаях ЭВМ осуществляет только первичную обработку исходных данных, после которой все решения принимаются специалистами. Например, для выбора ЛЕ осуществляется подготовка частотных словарей словоформ [s] ; для построения гнезд вычисляется матрица частот совместной встречаемости ЛЕ (матрица "термин-документ", матрица "термин-термин") [721 . В некоторых случаях ЭВМ обеспечивает частичную автоматизацию решения, выдавая несколько вариантов решения, удовлетворяющих заданным критериям. Выбор одного из вариантов выполняет специалист.
Наиболее трудоемкой задачей при формировании ИПТ является отбор лексики,от удачного решения которой зависят параметры не только самого тезауруса, но и ИПС в целом.
Автоматические (формальные) методы отбора лексики в тезаурус предполагают выполнение всех операций по отбору лексики без участия человека, начиная от ввода в ЭВМ представительной коллекции текстов до получения словаря в форме, доступной человеку (в печатной форме, на экране дисплея и т.д.).
Существующие методы автоматического построения тезауруса (отбора терминов), основанные на статистической обработке текстов (статистические методы), являются наиболее перспективными, но их использование ограничено из-за больших затрат на ввод, достаточно сложного математического обеспечения, необходимости применения очень мощных ЭВМ и значительного времени. Статистические методы предусматривают составление с помощью ЭВМ частотных словарей словоформ, выявление статистических закономерностей лексики, отбор ядра лексики (списка специфичных для отрасли слов) по частотным параметрам, выбор наиболее информативных слов из ядра лексики (опорных словоформ), построение контекстных окружений опорных словоформ и таблиц их встречаемости со словами текстов, выбор терминов по таблицам встречаемости154]. Другим весьма важным этапом построения тезауруса является установление парадигматических отношений. Степень разработанности парадигматических отношений, являясь существенной характеристикой ИПТ, наиболее определяет эффективность информационного поиска.
Существующие способы автоматического установления парадигматических отношений, называемые дистрибутивно-статистическими, основаны на допущении, что слова, встречающиеся вместе в осмысленном тексте, семантически связаны между собой. Следовательно, анализируя величины совместной встречаемости слов в тексте,можно судить о степени связанности по смыслу и восстановить ассоциативную структуру в источнике сообщений [5, 31, 50, 80, 8lJ .
Величина совместной встречаемости (или факт совместной встречаемости) слов в тексте является достаточно простой, но грубой мерой связанности слов. При ее использовании не учитываются различия в абсолютных частотах рассматриваемых слов. Согласно этой величине частые слова ассоциируются со всеми другими словами, а редкие - с небольшим количеством слов и притом в слабой степени [72, 95, 98, 100 ] .
Достоинство формальных (автоматических) методов состоит в том, что формальные методы обеспечивают достаточно объективное отражение связей в языке (но не в сознании отдельного специалиста). В формируемые списки слов включаются термины, связанные с исходным словом только статистически, но не обязательно семантически. Статистические отношения основаны исключительно на относительной частоте, с которой слова встречаются, и поэтому основаны на природе фактов, описанных документами.
Сопоставительный анализ методов построения ИПТ показывает, что Б настоящее время наиболее .рациональными и практичными являются автоматизированные методы, сочетающие опыт и терминологические знания специалистов с автоматизацией нетворческих процессов [29, 51, 7? ] .
Перспективность автоматизированных методов формирования ИПТ определила и возможности современных пакетов прикладных программ типа АСОД, ПОИСК-І, ПОИСК-4 и т.д., которые позволяют производить автоматизированный отбор лексики в тезаурус. При этом ЭВМ печатает список всех словоформ, а человек выделяет те слова, которые, по его мнению, заслуживают включения в тезаурус, Каждая словоформа, встретившаяся в текстах вводимых документов, снабжается некоторыми статистическими данными (число содержащихся в базе данных документов, в которых встретилась эта словоформа, и общее число ее употреблений в этих документах). Не - 12 -сомненно, подобные сведения облегчают человеку принятие решения о включении или невключении дескриптора в ШІТ. Однако нельзя забывать о том, что статистические данные становятся надежными лишь при достаточно большом объеме выборки, причем по мере увеличения объема обработанного массива процесс пополнения тезауруса замедляется, но не прекращается. Поэтому тезаурус, построенный на основании частоты употребления слов в базе данных ИПС, должен подвергаться постоянной корректировке, адаптации к изменяющейся базе данных до тех пор, пока объем последней не станет достаточно большим, а частотные характеристики слов - достаточно надежными. Чем шире тематика ИПС, тем более трудоемок и длителен процесс создания тезауруса. Кроме того, хорошо известно, что одни частотные характеристики не могут служить критерием отбора лексики.
Развитие ЭВТ и рост обрабатываемой информации в современных ИПС вызывает соответствующий рост объема тезаурусов, сложности и динамичности их структуры. А это, в свою очередь, связано с повышением трудоемкости подготовки тезаурусов, удовлетворяющих предъявляемым к ним требованиям высокого качества. С увеличением объема ИПТ в значительной мере усложняется пользование тезаурусом и увеличивается время, необходимое для обработки информации. С другой стороны, при подготовке ИПТ следует исходить из необходимости исключения кардинальных изменений в лексике ИПТ при расширении или изменении базы данных (в пределах одной и той же тематической области) с целью предотвращения вторичного индексирования ПОД и ПОЗ и ограничиться внесением минимального количества изменений и дополнений, так как дополнения и, в особенности, изменения вызывают большие затраты труда и средств. В этом плане перспективным представляется подход, который позволял бы априори, до накопления базы данных, определять основной состав тезауруса. Это даст возможность избежать существенной перестройки лексического состава ИПТ при расширении или изменении базы данных. В то же время накопление данных о частоте употребления отдельных слов позволит в последующем учесть и статистические критерии.
Вариант такого подхода к формированию ИПТ предложен в диссертации и основан на максимальном использовании терминологии ЕЯ, зафиксированной в энциклопедиях, толковых терминологических словарях, сборниках рекомендуемых терминов и т.д.
Преимущество применения толковых терминологических словарей в практике построения тезаурусов отмечены в ряде исследований [24, 58, 64, 69, 82] . Как исходный материал дефиниции терминов использованы разными исследователями для разных целей, например, для автоматического обнаружения и представления семантических компонентов значения термина [20, 64 J , для установления парадигматических отношений, выделения иерархических ран-гов [58, 82] и т.п.
В данном исследовании основное внимание уделено проблеме автоматизированного отбора лексики в ИПТ на базе терминологических словарей (терминологических лексико-семантических систем) , моделирование которых дало возможность выявить ряд количественных и качественных параметров терминологии, позволивших оценить значимость терминов как потенциальных элементов ИПТ.
Цель и задачи исследования. Целью диссертационной работы является разработка и исследование метода автоматизированного отбора лексики в ИПТ на основе анализа терминологии ЕЯ. В соответствии с поставленной целью в работе решаются следующие задачи:
1. Исследование терминологических лексико-семантических систем как основы информационно-поискового тезауруса.
2. Выбор и исследование модели лексико-семантических систем (ЛСс), позволяющей эксплицитно отражать семантические связи между лексическими единицами системы и семантическую структуру лексики (в том числе терминологии).
3. Исследование количественных параметров терминологии и выделение среди них таких, на основе которых целесообразно проводить отбор лексики в ИПТ.
4. Разработка методики отбора лексики в ИПТ с учетом выделенных количественных параметров терминологии, позволяющей максимально использовать готовый продукт - терминологию Ш, зафиксированную в терминологических словарях, ГОСТах, сборниках рекомендуемых терминов и т.д., и повысить качество ИПТ.
5. Разработка на основе выбранной модели автоматизированной системы анализа терминологии, предназначенной для вычисления параметров, позволяющих оценить значимость терминов.
Методика исследования заключается в системном подходе к анализу лексики, использовании методов моделирования, применении аппарата теории графов и теории множеств для формального описания задач, содержательной интерпретации результатов.
Научная новизна работы состоит в том, что впервые разработан метод автоматизированного отбора лексики в ИПТ, рассматривающий формирование лексического состава ИПТ как оптимизационную задачу, а именно, как задачу минимизации объема ИПТ при сохранении приемлемой эффективности поиска; исследованы количественные параметры терминологической лексики и выделены те из них, на основе которых целесообразно проводить отбор лексики в ИПТ; разработана автоматизированная система анализа тер - 15 -минологии (АСАТ), позволившая решить ряд теоретических и прикладных задач как по анализу и коррекции терминологических и толковых словарей, так и по анализу и коррекции ИПТ.
Практическая ценность и реализация результатов работы Показаны пути отбора лексики в ИПТ на базе ЭВМ с использованием терминологических словарей. Практически реализована автоматизированная система анализа терминологии, позволяющая производить анализ и коррекцию терминологических словарей, отбор лексики в ИПТ на основе количественных параметров, полученных обработкой соответсвуующей терминологии, анализ и коррекцию тезауруса.
Работа велась в рамках НИР "Создать и ввести в эксплуатацию автоматизированную информационно-справочную систему АПН (АСУ "Справка"), выполняемой отделом документальных ИПС Института кибернетики АН УССР по постановлению Госкомитета СССР по науке и технике (номер государственной регистрации 01820070808), использовалась при разработке второй версии тезауруса по общественно-политической тематике.
Автоматизированная система анализа терминологии используется Институтом языкознания АН Азерб.ССР при составлении и коррекции терминологических словарей. Экономический эффект, полученный за счет повышения производительности труда при подготовке (коррекции) словарей, сокращения времени, идущего на чисто механическую работу, за счет улучшения качества словаря, составляет более 68 тысяч рублей.
Результаты диссертационной работы использованы в Азербайджанском научно-исследовательском институте научно-технической информации и технико-экономических исследований для проведения экспериментов по выбору из отраслевых словарей ключевых слов с целью индексирования ими постоянно действующих запросов абонен - 16 тов республиканской системы избирательного распространения информации "Азери-2" и рекомендованы для реализации в промышленном масштабе республиканской АСНТИ Азерб.ССР.
В настоящее время методика отбора лексики в ИПТ, предложенная в диссертации, используется Специальным проектно-конст-рукторским бюро - СЇЇКБ АСУТП Промстрой Минпромстроя Азерб.ССР для разработки информационно-поискового тезауруса по строительству.
Апробация работы. Результаты работы докладывались и обсуждались на семинаре "Применение ЭВМ для разработки и упорядочения терминологии" (Киев, 1979 г.), на Республиканской конференции "Научно-технический прогресс и проблемы терминологии" (Львов, 1980 г.), на симпозиуме по вычислительной лингвистике и смежным дисциплинам (Таллин, 1980 г.), на семинаре "Статистическая оптимизация преподавания языков и инженерная лингвистика" (Чимкент, 1980 г.), на семинарах "Лингвистические проблемы проектирования информационных систем" Научного совета АН УССР по проблеме "Кибернетика" (Киев, I978-I98I гг.), на Республиканской конференции "Проблемы развития и совершенствования республиканской системы научно-технической информации" (Баку, 1983 г.), на Всесоюзном симпозиуме "Семиотические модели коммуникации, представления знаний и вывода рекомендаций в экспертных системах" (Махачкала, 1984 г.).
Публикации. Основное содержание диссертации отражено в работах [41 - 48, 101 ] .
Структура и объем работы. Диссертация состоит из введения, трех глав, заключения, списка литературы (108 наименований) и трех приложений, изложена на 144 страницах, содержит 7 рисунков, 10 таблиц. Приложения на 44 страницах.
Первая глава посвящена проблеме моделирования терминологических лексико-семантических систем как основы информационно-поисковых тезаурусов. В ней рассмотрены вопросы взаимосвязи терминологических ЛСС и тезауруса, обоснован выбор модели ЛСС, приведено формальное описание модели ЛСС, выделены количественные параметры терминологической лексики, позволяющие оценить значимость терминов как потенциальных элементов ИПТ.
Во второй главе описана методика отбора лексики в ИПТ с использованием сетевых параметров терминологии, рассматривающая формирование искомого тезауруса как задачу минимизации исходного словаря, представленного всей терминологией исследуемой предметной области. Минимизация исходного словаря по объему проведена с использованием понятия совместимости тезаурусов.
В третьей главе описана автоматизированная система анализа терминологии, представляющая собой комплекс алгоритмов и программ, осуществляющих построение лексической сети, анализ лексической сети, вычисление ряда количественных характеристик терминологии. Приведены назначение и функции системы, принципы машинной реализации и функционирования системы. Описаны структура и состав AC AT.
В заключении дано краткое обобщение результатов проведенного исследования.
Проблема выбора модели словаря
Модель - это такой абстрактный образ реальной системы или среды, который воспроизводит вполне определенные характеристики исследуемого объекта с целью его изучения [40 ] . Отображаться могут как реальные или абстрактные объекты и процессы, так и связи между ними и их свойства. Модели могут различаться в зависимости от степени их соответствия реальным объектам. Как приближенное отображение объекта, модель никогда не является изоморфной ему. Она всегда изоморфна определенному аспекту объекта. Назначение модели состоит в том, чтобы отразить сущест венные или желательные признаки (свойства) объекта, для чего исследователь имеет возможность производить надлежащие изменения или преобразования модели и анализировать получающиеся решения.
При разработке моделей следует учитывать следующие факторы [l9, 53, 65] : 1) модель должна быть достаточно адекватной реальным отношениям изучаемых объектов; 2) модель должна быть проще моделируемого объекта; 3) модель должна быть гибкой и применимой к различным задачам; 4) трудоемкость создания модели и выполнение операций на ней должны быть умеренными.
С внедрением и развитием вычислительных машин на современном этапе развития науки и техники особенно возрасла роль методов информационного и кибернетического моделирования. ЭВМ привнесли в процесс моделирования принципиально новые моменты. Они дали возможность строить аналоги и исследовать сложные системы и процессы, включающие огромное число элементов. Именно таковыми являются и языковые системы. Как отмечалось, понятие системы обязательно предполагает наличие понятия связи. Связь между терминами (словами) в дексико-семантической системе можно обнаружить через их смысл, ибо смысл термина - это система его связей с другими терминами и словами языка. В формировании смысловой системы терминологии важнейшую роль играют дефиниции соответсвуующих терминов. Именно научные определения, устанавливая границы значения термина и фиксируя его семантические связи с другими, задают парадигматику всей терминосистемы исследуемой предметной области. Тогда можно считать, что значения слов привлеченных для определения некоторого слова в словаре, являются семантическими составляющими последнего. Два термина семантически связаны между собой, если один из них выступает в качестве семантического компонента другого или если их лексические значения имеют общую составляющую.
Значит, любая ЛСС (терминологическая система) представляет собой прежде всего семантическую систему.
Таким образом, моделирование языковых систем фактически представляет собой моделирование системы семантических связей в лексике. Моделирование системы семантических связей в лексике предполагает выполнение двух основных операций: выявление семантических связей между словами и их представление в той или иной форме.
Те же самые функции выполняет и ИПТ. Действительно, тезаурус, в первую очередь, предназначен для выявления отношений между семантическими единицами ШЗЯ описываемой им предметной области. Вторая функция тезауруса - эксплицитное, представление семантических отношений, отражающих структуру связей в рассматриваемой области знания. Поэтому тезаурус можно рассматривать как семантическую модель ЕЯ. В настоящей работе мы исходим именно из семантического подхода к структуре ЙПС, который построение ИПТ считает процессом, близким к моделированию лексики ЕЯ [б81 .
Выделение количественных параметров терминологической лексики для оценки лексических единиц ЛСС и их отбора в ИПТ
Отбор лексики является одной из сложных и наиболее трудоемких задач при построении ИПТ.
Для включения термина в тезаурус должна учитываться его полезность в передаче, индексировании и поиске информации. Частота используемого термина для индексирования и поиска внутри определенного словника дает грубую оценку сочетаемости этого термина. Она зависит от сочетаемости этого термина с другими терминами, относительного возраста и объема массива [83] . Термины с очень высокой частотой употребления не выделяют данный документ среди документов рассматриваемой предметной области. Поэтому частотность слова не может служить единственным критерием отбора лексики, хотя и должна учитываться наряду с другими факторами, отражающими степень полезности (важности) термина.
Исследование критериев отбора лексики в ИПТ показало, что при оценке полезности, значимости термина нецелесообразно использовать только какой-либо один критерий, имеющий частное значение (например, критерий частотности или критерий словообразовательной способности термина). Отбор и оценку терминов целесообразно производить по комплексному критерию, выбирая при этом по возможности оценки, допускающие количественное выражение, что позволяет автоматизировать процедуру их вычисления и, соответственно, автоматизировать процедуру отбора терминов в ИПТ.
Сетевое моделирование лексики позволяет получить ряд количественных параметров и характеристик, служащих основой для отбора лексики в ИПТ. Как уже отмечалось, экспликация системы семантических связей и семантической структуры лексики (в частности, терминологии) в форме семантической сети дает возможность измерить многие семантические аспекты терминологической лексики.
Если семантическая сеть строится на основании лексикографических источников, т.е. если состав лексики, значения слов и семантические связи между ними принимаются такими, какими они зафиксированы в словаре, то ее параметры, с одной стороны, описывают данную лСС как объективную реальность, но, с другой стороны, характеризуют и адекватность отображения этой системы. Таким образом, изучение сетевых параметров, полученных для того или иного словаря, позволяет в известной мере судить о корректности фиксации рассматриваемой ЛСС в данном словаре (об удачности отбора лексики, о полноте и точности определений и так далее).
Рассмотрим некоторые сетевые параметры лексики, предложенные Э.Ф.Скороходько [бэ] и используемые в настоящей работе.
Одним из важнейших сетевых параметров словаря является степень семантической связности. Эта величина характеризует семантическую монолитность лексико-семантической системы, представленной в словаре.
Так как мы исходим из системности лексики, то терминология определенной (не слишком обширной, по крайней мере) области знания будучи системой, должна обладать целостностью. Это означает, в свою очередь, отсутствие в терминологии изолированных терминов и групп терминов. Иными словами, все термины в системе должны быть прямо или опосредованно связаны друг с другом по смыслу. Сетевое представление терминологии позволяет легко обнаружить подобное нарушение связности и выделить изолированные (не связанные семантически с остальной терминологией) термины и группы терминов. Нарушение связности свидетельствует о той или иной некорректности в представлении соответствующей лекси-ко-семантической системы (терминологии) в словаре, т.е. о некорректности в сфере фиксации. Причиной здесь может быть:
1. Неполнота представления терминологии - в словаре отсутствуют термины, которые в действительности принадлежат данной терминологии и которые являются связующими звеньями между изолированными терминами и остальной терминологией.
2. Неточность представления терминологии - изолированные термины не принадлежат в действительности данной терминологии.
3. Неполнота определений - в дефинициях отсутствуют указания на принадлежность изолированного термина данной терминологии.
Так, в терминологии по международной документации и дипломатической практике выявлены следующие изолированные вершины: кодекс, билль, декрет, пакт, прелиминарии, npp ojraw, верительные грамоты, отзывные грамоты.
Формальное описание задачи выбора оптимального словаря
Пусть по запросу о проведен поиск с помощью словаря (имеется в виду любой словарь семейства совместимых словарей). В простейшем случае на запрос q будут выданы только те документы, в ПОД которых входит хотя бы один дескриптор из ПОЗ. Схематически эта процедура изображена на рис. 2.1. Здесь V -вся выдача на запрос q , \fj -все множество релевантных запросу cj, документов в массиве, V П W релевантные запросу
К анализу резуль- документы в выдаче, ]/ = ]/-(WW) татов информационного поис- ... А..А ка по запросу шум по запросу, W = W-(vOW) потери по запросу. В наиболее общем случае меру близости между ПОД и ПОЗ можно описать функцией f- =/СЦ, fy , fy), , f ,где t - -исло слов (дескрипторов) в ПОД, tj - число слов в ПОЗ, 1Ц -число слов, общих для ПОД и ПОЗ. Степень близости ПОД и ПОЗ оценим по формуле [89] _ fry
Выбор такой формулы для количественной оценки меры близости между ПОД и ПОЗ обусловлен следующими соображениями: 1) О W. 4 1 , причем L = » если 1ц = О , т.е. если ПОД и ПОЗ не содержат общих слов; f. = і , если І іі " їu i » ПД П03 совпадают; 2) если ПОЗ содержат лишь часть слов, входящих в ПОД, и никаких других, т.е. uij I її , f і = njf
Тогда, если d - некоторый выбранный порог (О л і) (критерий соответствия), то все документы IX. , для которых fL - , будем называть релевантными запросу.
Этой формулой оценки меры близости ПОД и ПОЗ можно пользоваться в том случае, когда они представлены терминами одного и того же словаря, причем не учитываются взаимосвязи между терминами.
Естественно предположить, что дескрипторы, необходимые для уменьшения потерь информации и подлежащие исследованию на включение (исключение) следует искать в множестве т.е. в множестве ПОД не выданных, но релевантных запросу. При этом дескрипторы следует отбирать из множества 1l(W ) таким образом, чтобы ликвидировать максимум потерь и вместе с тем достичь минимальный шум.
Так как мы предполагаем, что при переходе к редуцированному словарю полнота поиска не меняется, т.е. потери информации не допускаются, то качество оптимального словаря оценивается минимальным информационным шумом.
Таким образом, имеем задачу выбора оптимального словаря из заданного семейства совместимых словарей при условии несущественного изменения эффективности поиска, качество которого оценивается минимальным информационным шумом.
Для решения поставленной задачи необходимо ввести количественную меру оценки семантической близости словарей семейства и выбрать такую ее величину, которая обеспечит минимальный шум. Объем (состав) словаря, из которого удалены St слов, обеспечивающий минимальный информационный шум, будем считать оптимальным.
Так как мы считаем, что вероятность употребления всех слов исходного словаря, как в запросах, так и в документах, одинакова, то вероятность того, что информационная потребность абонента должна быть выражена именно одним из удаляемых слов (в предположении, что информационная потребность относится к одному объекту и должна быть выражена одним словом) равна &t/t ,
Вероятность того, что при этом выдача будет нерелевантной, равна ( і-іУ/ І . Это явствует из следующего рассуждения: степень неоднозначности WL -го слова, т.е. оо-L , равна числу значений исходного словаря, которые приходится в редуцированном словаре передавать словом Wt .
Если информационная потребность абонента должна быть выражена одним из удаляемых слов или словом, заменяющим их, то в любом случае при использовании сокращенного словаря он должен использовать в запросе это заменяющее слово, воплотившее в себе со;, значений. При этом - - выдачи будет релевантной, а i-jL b Ll нерелевантной.
Машинная реализация АСАТ
В первой главе мы привели формальное описание модели ЛСС -семантической сети, которая представляет собой матрицу смежности размером цх П » состоящую из О и i , где ft - число слов в лексико-семантической системе, т.е. количество вершин сети. Такой выбор базируется на интерпретации семантической сети как графа, в котором термины ЛСС представлены вершинами, а семантические отношения - дугами.
Подобное представление позволяет сравнительно легко выделить основные группы слов в лексике, т.е. провести классификацию слов, на которой базируется исследование семантической се - 124 -ти ЛСС. Поэтому рассмотрим подробней принцип классификации слов лексико-еемантической системы (словаря) с помощью матрицы смежности.
При исследовании семантической сети выделены следующие группы слов: I тип - исходные слова, в определении которых не участвует ни одно слово данной лексической системы. На семантической сети таким словам соответствуют вершины, в которые не входит ни одна дуга. Это множество слов в матрице соответствует множеству Г( \) вершин оск 6 X » Для которых существует дуга (ocK,OCL) , т.е. если в матрице для некоторого элемента строки XL соответствую щий столбец хк , где xL= Хн (столбец с тем же номером) за полнен нулями ( а„і -О для всех xL, I =f,....n) и имеется некоторое множество столбцов, имеющих единицу в этой строке, то этот элемент есть элемент первого типа. II тип - терминальные слова, не имеющие в данной ЛСС ни од ного производного. На сети таким словам соответствуют вершины, из которых не выходит ни одна дуга. Это множество слов в матри це соответствует множеству Г(х0 вершин GC: X , для которых в & существует дуга (0Ci,3cj), т.е. если в матрице для некото рого элемента столбца Xj соответствующая строка пустая (Оу=0 для всех ОС; , j ={,..., П. ) и имеется некоторое множество строк, имеющих единицу в этом столбце, то этот элемент - эле мент II типа.
III тип - промежуточные слова, которые имеют как состав ляющие, так и производные. На семантической сети таким словам соответствуют вершины, которые имеют как входящие, так и исхо дящие дуги. Это множество слов соответствует множеству вершин Г(Яі) + Г" (хі) ,т.е. если для некоторого элемента матрицы - 125 -как соответттвующий этому элементу столбец, так и строка - не пустые (имеются как входящие, так и исходящие дуги), то этот элемент - элемент третьего типа. 1У тип - изолированные слова, не связанные с остальными лексическими единицами. На лексической сети таким словам соответствуют изолированные вершины. Таким образом, если в матрице для некоторого элемента Хр как соответствующий этому элементу столбец, так и строка - пустые (а ; = О ; L,j = 1,2,,., XI для таких Хр )» то этот элемент - элемент четвертого типа.
Такая классификация слов дает возможность разграничить лексику по признаку связности, вычислить системные параметры слов и словаря, выдать все деривационные цепочки, т.е. представить лексику в виде деривационных цепочек слов.
Для реализации семантической сети на ЭВМ в настоящей работе используется изложенная выше идея ее представления в виде матрицы смежности. Так как матрица смежности заполняется с предположением, что в определения терминов входят максимально двадцать составляющих, то каждая строка содержит не более двадцати ненулевых элементов. Рассматриваемая матрица имеет размерность а X 1г ( П. - число слов в ЛСС и в принципе может принимать сколь угодно большое значение). Поэтому считаем, что количество ее ненулевых элементов имеет порядок П . т.е. фактически построенная таким образом матрица смежности представляет собой целочисленную разреженную матрицу .