Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методы автоматического поиска релевантной информации в тексте на естественном языке Комаров Игорь Иванович

Методы автоматического поиска релевантной информации в тексте на естественном языке
<
Методы автоматического поиска релевантной информации в тексте на естественном языке Методы автоматического поиска релевантной информации в тексте на естественном языке Методы автоматического поиска релевантной информации в тексте на естественном языке Методы автоматического поиска релевантной информации в тексте на естественном языке Методы автоматического поиска релевантной информации в тексте на естественном языке Методы автоматического поиска релевантной информации в тексте на естественном языке Методы автоматического поиска релевантной информации в тексте на естественном языке Методы автоматического поиска релевантной информации в тексте на естественном языке Методы автоматического поиска релевантной информации в тексте на естественном языке Методы автоматического поиска релевантной информации в тексте на естественном языке Методы автоматического поиска релевантной информации в тексте на естественном языке Методы автоматического поиска релевантной информации в тексте на естественном языке
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Комаров Игорь Иванович. Методы автоматического поиска релевантной информации в тексте на естественном языке : Дис. ... канд. физ.-мат. наук : 05.13.01 : Санкт-Петербург, 2003 115 c. РГБ ОД, 61:04-1/382

Содержание к диссертации

Введение

Глава 1 Подходы к формализации естественного языка. Опыт использования естественного языка в компьютерных системах 10

1.1 Подходы к формализации ЕЯ 16

1) Наивное использование «семантических кварков» 16

2) Структурно - генеративный подход Хомского (Порождающие грамматики) 17

3) «Синтаксическая семантика» (Синтактика) 18

4) Ограниченно-естественные языки. Языки программирования 22

5) Лексико-семантическое поле 23

6) Когнитивная семантика 25

7) Модель СМЫСЛ <» ТЕКСТ 27

8) Семантическая модель русского языка В.А. Тузова. (Семантический язык) . 29

1.2 Известные модели использования ЕЯ в компьютерных системах 30

1) Опытно-экспериментальные разработки ; 30

2) Системы автоматического перевода, автоматические корректоры текстов 32

3) Системы автореферирования и поиска информации. Поисковые Internet-машины 34

4) Автоматизированные обучающие диалоговые системы 36

1.3 Постановка задачи автоматического поиска релевантной информации в ТЕЯ 38

Глава 2 Описание используемого способа формализации естественного языка 41

2.1. Требования к формализованному представлению ЕЯ 41

2.2. Подход к формализации естественного языка 43

1) Основополагающие тезисы ;. 43

2) Модель морфологии русского языка 48

3) Семантико-синтаксическая модель русского языка 53

2.3 Возможные варианты использования формализованного представления естественного язык 64

Глава 3 Методы автоматического поиска релевантной информации в ТЕЯ 66

3.1 Методы автоматического поиска и определения релевантности информации в ТЕЯ .67

1) Требования к методам АПРИ в ТЕЯ 67

2) Методы АПРИ в ТЕЯ 68

а) Определение релевантности информации на основе морфологической составляющей ФПЕЯ 68

б) Определение релевантности информации на основе синтаксической составляющей ФПЕЯ 72

в) Определение релевантности информации на основе семантической составляющей ФПЕЯ 78

3.2 Подходы к ЕЯ- обеспечению взаимодействия с РБД 85

1) Сравнительная характеристика представления информации в ФПЕЯ и РБД 87

2) Подходы к решению основных задач ЕЯ- обеспечения взаимодействия с РБД 90

Заключение 94

Библиографический список использованной литературы 96

Приложения 107

Введение к работе

Современный уровень цивилизации принято характеризовать как «информационное общество», в котором эффективность информационного обмена определяет темы и направления развития.

Традиционно важнейшей формой информационного обмена являлся ЕЯ. Причем ситуация не претерпела кардинальных изменений с появлением новых технологий обработки информации. Более того, возможность легкого порождения и обмена текстами привело к взрывообразному росту ЕЯ-информации, циркулирующей в обществе. С развитием телекоммуникаций особо остро встала задача поиска и обработки информации в глобальных информационных системах.

Попытка переложить задачу поиска и обработки текстовой информации на КС сталкивается с рядом трудностей. И основная проблема состоит уже не в способах хранения данных и производительности вычислительных средств. Узкое место задачи автоматической обработки ЕЯ-информации в том, что большинство существующих моделей строения и функционирования языка отражают лишь отдельные аспекты задач ЕЯ-обеспечения (ЕЯО) КС, а приложения, созданные на основе этих моделей, имеют ограниченное применение и подвержены взрыву сложности разработки.

Анализ опыта разработки и эксплуатации информационных систем ЕЯО КС показывает, что вне зависимости от формы автоматического использования ЕЯ- информации . возникает задача определения ее релевантности формальными методами. Для решения задачи формального определения релевантности информации в ЕЯ- массивах требуется разработка методов манипулирования этой информацией как минимум на семантическом уровне. Для чего необходимо использовать адекватную формальную модель строения и функционирования ЕЯ.

Следовательно, образуется последовательность взаимообусловленных задач: автоматическая обработка ТЕЯ требует наличие формальных методов автоматического поиска релевантной информации, а методы АПРИ должны опираться на формальную модель строения и функционирования ЕЯ. В этом контексте актуальность настоящей работы определяется с одной стороны -

необходимостью разработки методов АПРИ для решения задач ЕЯО КС, а с другой - наличием семантического подхода к формализации ЕЯ, доказавшим свою продуктивность.

В . настоящей работе основой всех методов АПРИ является семантическая модель естественного языка, разработанная профессором факультета Прикладной математики — Процессов управления д.ф.-м.н. Тузовым В. А..

Для получения логически завершенного результата исследование включает ряд частных задач: обзор и обоснованный выбор метода формализованного представления ЕЯ, адекватного задачам ЕЯО КС; разработка методов автоматического поиска релевантной информации в ТЕЯ, основывающихся на выбранном методе ФГГЕЯ; доказательство гомоморфизма между представлением информации в базе данных и ФПЕЯ, что позволяет проводить формальные преобразования информации из одной формы в другую. Для решения частных задач исследования используется математический аппарат теории формальных грамматик, теории множеств и реляционной алгебры.

В связи с расположением настоящей работы на стыке гуманитарных и строгих естественнонаучных дисциплин, а также терминологическими расхождениями различных лингвистических школ, термины и понятия, имеющие различные трактовки поясняются при первом упоминании, а в приложении 1 приводятся результаты попытки установления взаимного соответствия некоторых терминов.

Особое значение в работе имеют два понятия — текст на естественном языке и семантика сообщения. Под ТЕЯ понимается цепочка символов, отвечающая требованиям «грамотности школьного уровня» [21]. Способ получения этой цепочки значения не имеет (будь это текст, набранный на компьютере, отсканированный с твердого носителя или полученный посредством устройства речевого ввода).

Для определения понятия семантики (смысла, основной информации) сообщения используются несколько распространенных определений:

1. Инвариант синонимических преобразований (трансформаций);

  1. To, что остается неизменным при обратимом кодировании (Шеннон); .

  2. То, что инвертируется отрицанием высказывания (в противоположность пресуппозиции, которая инвариантна операции отрицания).

Любое из этих утверждений не может служить критерием выделения семантической составляющей ЕЯ. Так для 1-го определения синонимия определяется как близость смыслов, т.е. имеем рекурсивное определение. Для 2-го - методы кодирования выбираются как раз, исходя из априорного знания релевантности составляющих сообщения. В 3-м - операция отрицание, как и в варианте 2, - направленная либо неопределенная функция.

В данной работе семантика сообщения определяется исходя из прагматических соображений: семантическое представление долэ/сно содержать информацию, достаточную для принятия адекватного решения КС. Этот подход определяет и общую направленность исследовании - на разработку методов допускающих эффективное практическое использование в КС.

Следует сделать особые замечания об источниках информации, использованных в работе. Значительную их часть составляют материалы из сети Internet и работы, являющиеся объектами интеллектуальной собственности. Источники первого рода не допускают прямые ссылки в силу динамичности информации, располагаемой на страницах, а поиск в архивах сайта не всегда приводит к результату. Источники второго рода не имеют широкого распространения. Поэтому некоторые ссылки, приводимые в работе, имеют целью не столько указание на дополнительный источник информации, сколько отделение суждений автора от заимствований.

«Синтаксическая семантика» (Синтактика)

Самой ранней работой, посвященной строению и функционированию ЕЯ, считаются суждения Аристотеля [104] (цитируется по [17]), в которых он высказывает предположение о переносе информации некими неделимыми «ядрами смысла», выраженными фонемами (или семами — в письменном виде).

Следующим по времени значимым экспериментом по формализации ЕЯ можно считать работу Исаака Ньютона «Об универсальном языке» (1651 г.) [64], посвященную отысканию структуры универсального языка межнационального общения ученых. Основными компонентами модели «эсперанто средневековья» являлись: - расположение однородных понятий на общей оси, введение меры (шкалы) между противоположными понятиями (прил. 2. рис.1); - выделения множества не масштабируемых и неопределяемых универсальных семантических понятий; - использование префиксно-аффиксной семантики, т.е. каждый префикс (аффикс) несет собственную неизменяемую семантическую нагрузку, а смысл слова определяется путем интерпретации семантики всех его составляющих (прил. 2. рис.2). Поддерживал подобный подход и Лейбниц (1765 г.)[113], который, кроме декларации вышеизложенных положений, предложил метод выделения универсальных семантических понятий. Предлагалось создать базовый «алфавит человеческих мыслей», присущий каждому человеку, а остальные лексические ситуации могли бы быть выражены посредством сочетаний базовых понятий. Известны попытки описания ментальных понятий (страх, надежда, тревога, угроза) методом проецирования их на несколько независимых осей или приписывания бинарных значений (признаки: временные «прошлое— настоящее-будущее»; отношение к человеку «хорошее - дурное», осуществимость «наступит - не наступит») [83]. Практическое приложение названных идей неизвестно. Можно предположить, что трудности практического применения были вызваны тем, что человеку (а не автомату) предлагался неестественный переход от обыденного, хоть не однозначного языка, к более формальному, но трудно воспринимаемому искусственному языку, операции которого были не разработаны в той степени как, например, формальные математические преобразования 2) Структурно - генеративный подход Хомского (Порождающие грамматики) Одним из знаменательных этапов исследования языков является этап формирования теории формальных грамматик, который принято связывать с работами Ноэма Хомского [11,12,17,22,26,68, 97,107]. В качестве основы теории постулируется гипотеза: «Автомат, реализующий конечную правильно заданную модель языка, способен сгенерировать (породить) все правильные предложения (ППП) и не выдает неправильных предложений. И наоборот: правильно построенное предложение обязательно распознается названным автоматом за конечное число шагов». Задачу синтеза конечной модели языка Хомский попытался решить, используя формальные математические методы, но априорно отвергая семантическую составляющую ЕЯ. Предполагалось, что семантическое наполнение будет автоматически формироваться (следовать) из синтаксических правил [17,26,68]. Теоретические и экспериментальные исследования в этом направлении дали богатейший материал, позволили создать строгую математическую теорию формальных грамматик и стали одной из составных частей «Модели СМЫСЛ = ТЕКСТ» (см. п. 1.1.7). Опыт квантитативного подхода к исследованию ЕЯ нашел свое развитие в современных работах, направленных на выявления структурно-количественных закономерностей строения, определения формальных критериев целостности, полисемантичности и релевантности ЕЯ текстов [4,29,84]. Однако проблема создания модели ЕЯ с использованием данного подхода не была решена. Не опровергая исходной гипотезы, обнаружилось, что размерность задач, возникающих при использовании моделей, далеко превосходила существовавшие, современные, да и перспективные вычислительные ресурсы. Например, автомат, реализующий формальный язык, который имеет ограничение на длину ППП в 15 символов и оперирующий словарем в 1000 слов, должен иметь возможность проанализировать 10 вариантов [97]. Естественно, что такие ограничения неприемлемы, а практическое применение могут найти либо генеративные модели ограниченного подмножества ЕЯ, либо реализации искусственных языков (см. п. 1.1.4)[15,81]. Для преодоления этих трудностей были разработаны модели трансформационных грамматик учитывающие семантические инварианты (напр. [96]). В одной из последних своих работ1 Хомский вводит расширения модели ориентированные на когнитивный подход к формализации семантики ЕЯ. Основная идея расширенной модели состоит в приписывании каждому элементу словаря некоторого семантического признака, который может быть выражен через базовые понятия, генетически присущие человеку (см. п. 1.1.6. Данных об успешной реализации приложений на базе расширенной семантической модели автору обнаружить не удалось. 3) «Синтаксическая семантика» (Синтактика) Выявление фонологических, морфологических и синтаксических закономерностей ЕЯ позволило создать соответствующие модели функционирования языка, которые могут быть применены для решения ряда практических задач. Использование морфологических моделей, основанных на решении прямой и обратной задач морфологического анализа, [6,8,9,21,42,47,59,81,87,89] позволяет решать задачи автоматического реферирования и индексирования, контекстного поиска (справки). (Noam Chomsky: Consensus and controversy./New York, 1988. - приводится no [17]. Еще более широкие возможности предоставляет объединение морфологической и синтаксической модели ЕЯ. Используя объединенную модель, автоматическая система способна обеспечить понимание ЕЯ первого уровня (см. выше), анализируя информацию, непосредственно содержащуюся в тексте. Пусть, например, система имеет на входе предложение:

Автоматизированные обучающие диалоговые системы

Опыт создания автоматизированных обучающих систем (АОС) актуализирует задачу автоматического контроля уровня подготовки обучаемого [47,86]. Отход от тривиальных методов типа «выбор из меню» требует использования ЕЯ- формы общения с респондентом. Рассмотрим основные модели использования ЕЯ в русскоязычных АОС:

Для анализа ответа обучаемых в АОС АДОНИС (НПФ "РОСФАЙЛ", Москва) используется: анализ по ключевым словам, элементы синтаксической семантики, сравнение с несколькими эталонами.

АОС УРОК (ТОО "ДИСОФТ", Москва) реализует методы выбора из заранее определенного множества, адаптивное развитие контролирующего диалога в зависимости от текущего уровня подготовки обучаемого.

«Наиболее мощная и полная» подсистема анализа ответов Aosmicro (Московский Государственный Инженерно-физический институт) использует, кроме вышеназванных, сценарии анализа ответов, модели анализа графически представленных формул.

Визуальный Конструктор компьютерных программ СЦЕНАРИЙ (Институт имитационных технологий РАН, Санкт-Петербург) предназначен для разработки контролирующих программ с различными алгоритмами анализа ответа. Используется контекстный анализ, основанный на шаблоне, задаваемом автором автоматического теста. Особенностью AOC Кобра (Санкт-Петербургский Институт точной механики и оптики) является возможность перехода из режима контроля в режим гипертекстового обучения. Среда разработки контрольно-обучающих курсов содержит ассортимент стандартных блоков, призванных сократить время разработки программ. Реализованы модели ответов: выбор из альтернативного, ранжированного или множественного меню; анализ введенной строки с учетом шаблонов и логических условий. AOC Polaris (Санкт-Петербургский Государственный Университет) использует контроль по специальным образом заданному шаблону. Он представляет собой бинарный логический граф элементарных дескрипторов «Ответ признается верным, если анализируемое слово попадает в описание дескриптора, а анализируемое предложение соответствует установленным дескрипторным связям». Качество анализа ответа зависит от полноты описания дескрипторного графа. Для разработки дескрипторного графа требуется привлечение специалиста в предметной области. Общим недостатком упомянутых систем является необходимость затрат значительных ресурсов на разработку сценария понимания ЕЯ ответа обучаемого. Эта задача по своей сути аналогична задаче АПРИ, а, следовательно, для ее решения также необходимо использовать формализованное представление семантической информации ТЕЯ. Иллюстративным примером попытки стандартизации методов взаимодействия с пользователем в АОС являются Стандарты Всемирного Консорциума по системам управления обучением1 (IMS - Instruction Management System Global Leaning Consortium), которые определяют, что обучающая программа должна содержать подсистему обучения и подсистему контроля уровня подготовки, причем тестирование основано на шести основных методах взаимодействия с обучаемым: 1. Drag and Drop (Перетащи и оставь) - предполагает упорядочивание заранее заготовленных объектов с помощью манипулятора «мышь»; 2. Fill in the Blank (Заполнение бланка) — ввод в заранее заданные шаблоны требуемого текста; 3. Hot Objects (Горячий объект) — выбор объекта, удовлетворяющего определенным условиям; www. imsgloba! .org 4. Hot Spot (Горячая точка) - выбор определенной области неявно выделенной зоны; 5. Multiple Choice (Множественный выбор) — выбор требуемого ответа (альтернативного, либо многоальтернативного) из предлагаемого набора; 6. True or False (Истина и ложь) - выбор ответа Да/Нет на предъявленное утверждение. По результатам обобщения стандартизованных требований, опыта использования и разработки АОС, всё разнообразие форм ЕЯ-общения пользователей с КС сводится к следующим типам: форматные (табличные) интерфейсы, где семантика определяется самой формой представления вопроса (сообщения) и получения ответа (запроса); с текстовой основой (дескрипторные, индексные) — реализуют реакцию на ключевые слова диалога; с ограниченной логикой - используют эвристики ограниченного применения для заданной предметной области; общедедуктивные (на этапе разработки) - отражают картину внешнего мира, представленную в одной из следующих моделей: предикатные; процедуральные; семантических или фреймовых сетей; реляционной алгебры; алгебры нечетких множеств. Постановка задачи автоматического поиска релевантной информации в ТЕЯ По результатам анализа опыта использования ЕЯ в компьютерных системах, известных методов формализации ЕЯ и практического применения формализованного представления ЕЯ в конкретных приложениях формулируются следующие выводы: » 1) Несмотря на различие внешних проявлений использования ЕЯ в КС, основой всех методов является решение задачи определения релевантности информации, содержащейся в ЕЯ- сообщении. 2) В настоящее время общее решение задачи использования ЕЯ в компьютерных системах, основывающееся на единой модели строения и функционирования ЕЯ, отсутствует. 3) Несмотря на различие, а зачастую и несовместимость, моделей ЕЯ в значительном их большинстве можно выделить общие положения: a) дискретность пространства семантических понятий; b) наличие неделимых и неопределяемых базовых понятий; c) существование функций преобразования над базовыми понятиями и функциями преобразования. 4) Для решения задачи ЕЯ обработки информации необходимо иметь информацию об окружающем мире, уметь ее адекватно представлять и оперировать с ней. Решение этой задачи составляет основную трудность всех моделей ЕЯ. 5) Средства ЕЯ - обеспечения современных приложений разрабатываются индивидуально для каждого проекта с использованием приемов (методов и эвристик) понижения сложности лингвистических систем. При выборе неадекватных методов создания интеллектуальных ЕЯ- систем сложность задачи подвержена комбинаторному взрыву (растет гиперболически от объема словаря). 6) Наиболее продуктивной и адекватной поставленным задачам является подход, разработанный профессором факультета Прикладной математики — Процессов управления СПбГУ д.ф.-м.н. Тузовым В. А..

Требования к формализованному представлению ЕЯ

Данный тезис подводит общематематический фундамент под принципиальный вопрос о строении ЕЯ. Он разделяет элементы-функции и элементы-данные ЕЯ. Под функциями ЕЯ понимаются как совершенно определенные лексемы, имеющие знаковое выражение, так и абстрактные понятия, внутренне присущие ЕЯ. В качестве данных ЕЯ выступают номинативные единицы различной степени общности.

В качестве примера элементов-функций можно привести глаголы РЯ, а примерами элементов-данных РЯ могут являться существительные, местоимения. (Так употребление глагола РУБИЛ интуитивно требует наличия некоторых аргументов: Что(рубил)/Чем(рубил)/Кто(рубил). А существительное СТОЛ не требует подчиненных элементов.) (см. тезис 4)

Адекватная грамматика приписывает каждому предлоэ/сению структурное описание в виде суперпозиции функций. Этот тезис декларирует механизм функционирования ЕЯ. А именно: процесс ЕЯ общения состоит в формировании и преобразовании ППП, являющихся суперпозициями функций ЕЯ над данными ЕЯ. ППП - функция ЕЯ принимает конкретное значение только с учетом всех своих аргументов, и более того, вид функции (а в общем случае — суперпозиции функций) определяется видом и значением аргументов, в качестве которых могут выступать как собственно элементы данных, так и функции ЕЯ. С другой стороны, этим тезисом утверждается существование грамматики ЕЯ, а значит и правил формирования/распознавания ППП ЕЯ. Таким образом, можно выделить множество цепочек, являющихся ТЕЯ и принимаемых к дальнейшей обработке лингвистической системой. Тезис 3. Грамматика конкретного языка есть прямая конкретизация универсальной грамматики. Настоящее утверждение указывает на допустимость построения единой интерлингвальной формальной модели определенного уровня общности (универсальной грамматики). Одновременно указывается на необходимость учета культурно-обусловленных особенностей ЕЯ. Несомненно, культурно-обусловленными являются фонетические, морфологические и синтаксические модели. Некоторые авторы утверждают национальную зависимость семантической модели [17]. Тезис 4. Каждая часть речи играет вполне определенную роль в организации синтаксической структуры предложения. То есть каждая часть речи выступает в этимологически предопределенной роли: «существительные - ...структуры данных; прилагательные - простейшие функции на существительных; глаголы -хорошо развитые функции в основном на существительных; наречия — функции на глаголах; простые предлоги - функции на существительных; сложные предлоги и союзы — функции, аргументами которых являются суперпозиции функций». Традиции ЕЯ общения нормировали правила организации суперпозиции функций (синтаксис) до такой степени, что сама организация (структура) ШІП несет в себе семантическую информацию, даже при отсутствии некоторых (а иногда и большинства) аргументов. То есть можно утверждать, что: Следствие 1. Синтаксическая структура предлоэгсения является адекватным отражением его семантической структуры. А при учете того, что законы построения ППП заложены не только в структуре ЕЯ- фразы, но и определяются ее составляющими — функциями и данными, выраженными конкретными словоформами обобщенных лексем, можно сделать вывод о существовании глубинных, внутренне присущих формально представимых семантических и синтаксических значениях этих лексем. И если синтаксические роли лексем могут варьироваться, то семантические значения синхронно1 неизменны и могут быть сведены в семантический словарь (СемСл), идентифицирующий каждую лексему в СемЯ. Связь семантики и грамматики языка резюмируется следующим тезисом и следствием: Тезис 5. Грамматика неразрывно связана с семантикой языка и представляет собой семантический словарь. Следствие 2. Семантика является основой усвоения синтаксиса. 1 В терминологии [82]. Таким образом, СемСл определяет «кругозор понятий» КС ЕЯ-обработки (да и человека), что утверждается тезисом 6. Тезис 6. Усвоение языка компьютером или человеком есть построение и пополнение семантического словаря. Действительно, понимание и употребление ЕЯ- конструкций возможно только при наличии описания их смысловой и синтаксической функции. По результатам анализа коммуникативной деятельности человека известно: если человек встречает неизвестную словоформу, то имеют место следующие основные (осознанные или не осознанные) процессы: 1. Попытка получения значения словоформы на основе фонологического и морфологического анализа. 2. Попытка причислить форму к одному из известных сценариев синтаксического использования (подобрать аналог синтаксического поведения). 3. Попытка восстановить семантическую функцию словоформы — по контексту. Учитывая избыточность ЕЯ (для РЯ около 70%), а также творческие способности человека, вероятность удачного вычисления информации довольно высока. Неудачные попытки связываются, как правило, с нарушением структуры фразы (не ППП), использованию 2-х и более неизвестных словоформ (уравнение из нескольких Сем функций с неизвестными аргументами), либо использованием терминов (жаргонизмов и т.п.) (значительная «емкость» понятия, не выводимая из формы его представления). Опыт разработки компьютерных лингвистических систем с использованием ограниченного подмножества ЕЯ демонстрирует отсутствие возможности реализации названных путей, что приводит к распаду Сем структуры фразы и влечет отказ в обслуживании запроса. Поэтому верно, что: Следствие 3. Лучше очень абстрактно описать слово, чем не описывать его вовсе. Следствие 4. Необходимое условие всякой коммуникации — близкое сходство семантических словарей слушающего-говорящего. Тезис 1. Язык не различает понятий физического и ментального мира. Этот тезис подтверждается многими лингвистическими исследованиями [62]. Так, например, выявлены когнитивные и семантико-синтаксические аналогии между существительными и глаголами ментального и физического мира («горе - тяжелая темная жидкость», «радость ч- прозрачный газ легче воздуха»). Стандартными путями отображения «вещных» понятий в ментальный мир являются механизмы аналогии, гиперболы, синекходы. Неразличимость понятий ментального и физического мира позволяет избежать множественности толкований значений в СемСл. То есть: Следствие 5. При построении формального семантического словаря не следует приписывать слову значений, которых оно не имеет.

Определение релевантности информации на основе морфологической составляющей ФПЕЯ

При любом сценарии использования ЕЯ информации (будь это поиск данных в текстовом массиве, определение корректности ответа обучаемого или навигация по справочной системе) одной из важнейших частей информационного взаимодействия является подготовка ответа на вопрос: «Насколько точно поданный запрос (ответ) соответствует конкретному участку ЕЯ текста?» То есть, основной трудностью, препятствующей использованию ЕЯ информации в КС, является сложность определения релевантности информации, хранящейся в ЕЯ массиве, полученному запросу. Формирование адекватного прагматического отклика системы без ответа на этот вопрос практически невозможно.

Вопрос определения релевантности ТЕЯ имеет ряд сложностей, связанных как с методами, так и с формой оценки. В повседневной неформализованной деятельности человек считает релевантной информацию, соответствующую его представлению об исследуемом явлении, причем уровень представления субъекта определяет широту охвата информационного поля. То есть, имеет место частный случай философской характеристики информационного обмена: «качество информационного взаимодействия определяется не столько информационным сообщением, сколько уровнем интеллектуальности получателя». Для оценки уровня интеллектуальности системы-получателя будем использовать . подход «встречного текста» [54], сутью которого является определение соответствий между двумя ТЕЯ, один из которых служит эталоном.

Абстрагируемся от формы получения эталонного текста. На практике он может представлять собой вопрос к поисковой системе, параграф из учебника, либо высказывание, вычисленное на базе знаний. Прагматика оцениваемого текста так же не имеет значения (текстовый массив периодической печати, ответ обучаемого, либо информация для пополнения БЗ). Для автоматического определения релевантности информации требуется наличие двух текстов: анализируемого и эталонного. Обращаясь к модели понимания ТЕЯ и анализируя опыт использования ЕЯ информации в компьютерных системах, можно выделить (гл. 1) соответствующие модели и методы использования ФПЕЯ. Для формального описания методов использования ФПЕЯ в КС воспользуемся системой обозначения морфологической, синтаксической и семантических моделей, веденные в [30].

Методы автоматического поиска и определения релевантности информации в ТЕЯ 1) Требования к методам АПРИ в ТЕЯ Основываясь на описанной формальной модели русского языка, подходе «встречного текста» для оценки релевантности информации и исходя из прагматической направленности понимания семантики (см. введение), определим требования к методу автоматического определения релевантности информации, представленной в ЕЯ виде, а затем рассмотрим возможные методы повышения качества автоматического поиска релевантной информации в тексте на ЕЯ. Метод автоматического определения релевантности информации в тексте на ЕЯ должен отвечать следующим требованиям: Формальность. Чувствительность, понимаемая как возможность получения дифференцированного результата при достаточно небольших изменениях входных данных. Устойчивость, понимаемая как способность формировать адекватный отклик (сохранять работоспособность) при значительном изменении входных данных и сохранять целостность. Производительность, определяемая через отношение объема задач и затрат на их решение. Стоимость реализации и эксплуатации, оцениваемая с помощью стандартных технико-экономических методик. Современные лингвистические подсистемы можно подразделить по признаку используемых формальных моделей и, соответственно, по уровню понимания и использования ЕЯ (см. глава 1) на: морфологические, синтаксические и семантические. Выбор конкретной модели определяется задачами разработки с учетом требуемого качества подсистемы и доступных ресурсов для ее реализации. Дадим формальное описание методов решения задачи определения релевантности информации каждой из групп лингвистических подсистем.

Похожие диссертации на Методы автоматического поиска релевантной информации в тексте на естественном языке