Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Построение семантического словаря для обработки англоязычных текстов Кутарба Анна Юрьевна

Построение семантического словаря для обработки англоязычных текстов
<
Построение семантического словаря для обработки англоязычных текстов Построение семантического словаря для обработки англоязычных текстов Построение семантического словаря для обработки англоязычных текстов Построение семантического словаря для обработки англоязычных текстов Построение семантического словаря для обработки англоязычных текстов Построение семантического словаря для обработки англоязычных текстов Построение семантического словаря для обработки англоязычных текстов Построение семантического словаря для обработки англоязычных текстов Построение семантического словаря для обработки англоязычных текстов Построение семантического словаря для обработки англоязычных текстов Построение семантического словаря для обработки англоязычных текстов Построение семантического словаря для обработки англоязычных текстов
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Кутарба Анна Юрьевна. Построение семантического словаря для обработки англоязычных текстов : диссертация ... кандидата физико-математических наук : 05.13.11.- Санкт-Петербург, 2006.- 129 с.: ил. РГБ ОД, 61 06-1/686

Содержание к диссертации

Введение

Глава 1. Использование естественного языка в компьютерных системах 9

1.1 Опыт формализации ЕЯ 9

1.1.1 Универсальный язык Ньютона 9

1.1.2 Реально-номинальный подход Г. Лейбница 11

1.1.3 Порождающие грамматики Хомского 12

1.1.4 Грамматические модели, основанные на ограничениях. Head-Driven Phrase-Structure Grammar

(HPSG) 14

1.1.5 Анализ с помощью падежных фреймов 17

1.1.6 Система UNL (Universal Networking Language) 19

1.1.7 «Функциональная» модель естественного языка В.А. Тузова 20

1.2 Компьютерные системы обработки естественного языка 22

1.2.1 Информационно-поисковые системы 22

1.2.2 Системы рубрикации текстов на ЕЯ 26

1.2.3 Системы диалога 29

1.3 Постановка задачи построения семантического словаря для обработки англоязычных текстов 32

Глава 2. «Функциональный» подход к формализации естественного языка 34

2.1. Требования к формализации естественного языка 34

2.2. Подход к формализации естественного языка ...'.36

2.2.1 Основные положения формализации '. ..36

2.2.2 Анализ предложения .42

2.2.3 База знаний 44

Глава 3. Особенности построения семантического словаря ЕЯ STRONG 49

3.1. Семантический словарь русского языка 49

3.1.1 Семантические классы 51

3.1.2 Семантико-грамматические типы 53

3.1.3 Поисковая система «Алхимик» 54

3.2. Семантический словарь для обработки англоязычных текстов 56

3.2.1 Построение семантического словаря 56

3.2.2 Системы поиска релевантной информации 62

3.2.3 Вопросно-ответная система 65

3.2.4 Рубрикаторы 69

Заключение 72

Библиографический список использованной литературы

Введение к работе

Современное общество часто называют информационным. Действительно, интенсификация обмена информацией идет на самых различных уровнях: от межличностного до межгосударственного.

Несмотря на распространение знания иностранных языков, в первую очередь, мировых, изучение их не может полностью обеспечить многосторонние и неуклонно расширяющиеся международные связи. Это объясняется причинами как количественного, так и качественного характера. Во-первых, огромное количество языков вовлечены в международные контакты. Во-вторых, невозможно обеспечить достаточно высокий уровень владения иностранными языками при их массовом изучении. Исторический опыт показывает, что прямое общение с помощью естественных языков (например, латыни) и искусственных языков (например, эсперанто) также не является выходом из ситуации.

Современный интерес к структуре естественного языка (ЕЯ) вызван необходимостью его использования в целом ряде перспективных научных и прикладных направлений, наибольший импульс которым придало широкое внедрение систем компьютерной обработки информации во все области деятельности. Область применения систем анализа ЕЯ текстов достаточно разнообразна. В частности, можно выделить поисковые системы, вопросно-ответные системы, системы построения рубрик, системы автоматизированного машинного перевода и т.д.

В настоящей работе основой всех методов обработки текстов на ЕЯ является семантическая модель естественного языка, разработанная профессором факультета Прикладной математики - Процессов управления д.ф.-м.н. Тузовым В. А.

Работа относится к области междисциплинарных исследований. В этой связи, затрагиваемая проблематика может представлять интерес для специа-

листов, как прикладной лингвистики, так и работающих в области искусственного интеллекта, интеллектуальных систем, инженерной психологии, информационного анализа, программирования и т.д.

Для получения логически завершенного результата исследование включает ряд частных задач: обзор и обоснование выбора метода формализованного представления ЕЯ, разработка методов поиска релевантной информации в текстах на ЕЯ. Для решения частных задач исследования используется математический аппарат теории формальных грамматик, теории множеств и реляционной алгебры.

Основным объектом исследования в работе является текст на естественном языке. Под текстом на естественном языке понимается цепочка символов [21]. Способ получения этой цепочки значения не имеет (будь это текст, набранный на компьютере, отсканированный с твердого носителя или полученный посредством устройства речевого ввода).

Следует сделать особые замечания об источниках информации, использованных в работе. Часть их составляют материалы из сети Internet и работы, являющиеся объектами интеллектуальной собственности. Источники первого рода не допускают прямые ссылки в силу динамичности информации, располагаемой на страницах, а поиск в архивах сайта не всегда приводит к результату. Источники второго рода не имеют широкого распространения. Поэтому некоторые ссылки, приводимые в работе, имеют целью не столько указание на дополнительный источник информации, сколько отделение суждений автора от заимствований.

Реально-номинальный подход Г. Лейбница

Падежные фреймы приобрели популярность после работы Ч.Филлмора «Дело о падеже». На сегодняшний день падежные фреймы - один из наиболее часто используемых методов обработки текстов на ЕЯ анализе как снизу вверх (от составляющих к целому), так и сверху вниз (от целого к составляющим) [28, 92, 108].

Падежный фрейм состоит из заголовка и набора ролей (падежей), связанных определенным образом с заголовком. Фрейм для компьютерного анализа отличается от обычного фрейма тем, что отношения между заголовком и ролями определяется семантически, а не синтаксически, т.к. в принципе одному и то же слову могут приписываться разные роли, например, существительное может быть как инструментом действия, так и его объектом. Структура фрейма такова: [Заголовочный глагол [падежный фрейм агент: активный агент, совершающий действие объект: объект, над которым совершается действие инструмент: инструмент, используемый при совершении действия реципиент: получатель действия - часто косвенное дополнение направление: цель (обычно физического) действия место: место, где совершается действие бенефициант: сущность, в интересах которой совершается действие коагент: второй агент, помогающий совершать действие ]]

Например, для фразы Иван дал мяч Кате падежный фрейм выглядит так: [Давать [падежный фрейм агент: Иван объект: мяч реципиент: Катя] [грам время: прош залог: акт] ]

Существуют обязательные, необязательные и запрещенные падежи. Так, для глагола разбить обязательным будет падеж объект - без него высказывание будет незаконченным. Место и коагент будут в данном примере необязательными падежами, а направление и реципиент - запрещенными.

Преимущества использования падежных фреймов: совмещение двух стратегий анализа (сверху вниз и снизу вверх); комбинирование синтаксиса и семантики; удобство при использовании модульных программ.

Основной же трудностью использования этой модели является отсутствие формального правила определения арности предиката (другими словами - количества и порядка вложенности аргументов синтаксической формулы); сложность исчисления предикатов выше первого порядка.

Проект UNL возник в 1996 г. внутри одного из научных институтов под эгидой ООН. UNL - метаязык для описания семантики естественных языков. Основной документ по UNL [118], в котором содержится спецификация и идеология языка, доступен в Интернете. На данный момент над проектом UNL работают пятнадцать университетов и научных институтов, в том числе часть сотрудников ИППИ РАН, разрабатывающих систему ЭТАП [102].

UNL - язык, который должен быть посредником между естественными языками во время машинного перевода. Для каждого естественного языка нужно написать конвертор, который переводит с этого языка на UNL, и де-конвертор, который переводит в обратную сторону. Разработчики UNL считают, что конверторы и деконверторы не должны быть полностью автоматическими, а, наоборот, - позволять ручное вмешательство. После постредактирования документы на UNL могут быть не только переведены на другой язык, но тематически проиндексированы и, в конце концов, должны быть сохранены в базе данных всех UNL-документов. База данных должна быть доступна в компьютерной сети. Таким образом, UNL - это язык электронных документов, максимально приспособленный для автоматической обработки.

Текст на естественном языке представляется на UNL ориентированным гиперграфом. На дугах написаны семантические отношения типа: agt (агент), obj (объект), іїт(время), ріс(место), іпз(инструмент) и т.д. В узлах находятся т.н. универсальные слова (Universal Words или UW). Узлам могут быть приписаны одноместные грамматические характеристики: imperative, @generic, @future, obligation и т.д.

Каждому универсальному слову могут быть приписаны семантические характеристики, которые уточняют значение слова. Для этого используется поле icl (is a class?), например, коса (ісІ берег) - разновидность формы берега, коса(ісІ инструмент) - инструмент, которым косят траву.

Наиболее важной и проблемной частью проекта является модуль Deconverter. Именно он должен эксплицировать ту самую глубоко упрятанную информацию, которая содержится в тексте на естественном языке. Для того, чтобы ясно увидеть, о какой информации идет речь, рассмотрим простой пример перевода с русского языка на UNL:

«Функциональная» модель естественного языка В.А. Тузова

Согласно [93], существующие подходы к анализу текстов можно разбить на два класса. К первому классу предлагается отнести быстрые алгоритмы, не зависящие от языка и предметной области, которые используют статистические методы. Второй класс образуют достаточно изощренные, дающие хороший результат, но сравнительно медленные подходы, зависящие от языка и предметной области и в большинстве своем основанные на лингвистических методах.

Не вызывает сомнения, что наиболее эффективен будет подход, сочетающий в себе быстроту и независимость от языка алгоритмов первого класса с высоким качеством обработки второго.

Из существующих систем, наиболее интересна система ТЕРМИН-5, использующая лексико-статистический метод рубрицирования текстов [24]. Достоинство метода - его универсальность, поскольку смысл рубрики в нем определяется только набором обучающих текстов [24]. Система позволяет полностью автоматизировать процесс рубрицирования, обеспечивая настройку на рубрикатор по обучающей выборке текстов и выработку решающего правила отнесения документа к той или иной рубрике. Она ориентирована на рубрикацию реальных потоков текстовых сообщений СМИ [39,43].

Сегмент аналитических систем, ориентированных на математический и статистический анализ различных количественных и качественных показателей, развивается на рынке ПО уже давно. Однако на основе только ключевых слов или синтаксической структуры простых словосочетаний удовлетворительно решить задачу нельзя. Фрагментарное использование общих семантических классов также принципиально ничего не меняет. Существующие системы обеспечивают точность классификации (а значит, и определения тематики) по сравнению с человеческой оценкой: без использования заранее за данных классов - порядка 10%, с использованием заранее заданных классов и настройкой на тематику текстов - до 60%. Другими словами, существующие системы не обеспечивают удовлетворительного решения задач рубрикации.

Таким образом, до полного решения задачи анализа огромного объема текстовой информации, содержащейся в печатных изданиях, новостных лентах информационных агентств, на тематических сайтах в Интернете, еще достаточно далеко.

В диалоге на естественном языке можно выделить четыре группы прикладных задач[86, 88]:

Диалог по массиву документов. В этом случае ставятся задачи интерактивного выявления основного содержания текста, основных тем, действующих лиц, ситуаций, подробностей по интересующим темам и т.д. Это работа аналитического рода. Задача поддержания диалога такого типа относительно проста, поскольку все вопросы и реплики пользователя должны иметь отношение к уже разобранному тексту, и это позволяет снять ряд неоднозначностей;

Диалог со справочными системами компьютерных программ. (По идее, к этому типу можно было бы отнести Помощника из MS Office , если бы он действительно мог поддерживать диалог.) Здесь основными темами диалогов будут различные ситуации, возникающие при работе с приложениями. Этот вариант диалога также, поскольку все ситуации доступны компьютеру;

Диалог со справочными службами, слуоісбами поддержки, call -центрами и т.п. Эта задача, если решать ее в полном объеме, значительно сложнее, поскольку требует определения темы и ситуации диалога уже в ходе самого диалога.

Диалог с персонажами. Тип диалога во многом похож на предыдущий. В этом случае, однако, делается значительно больший акцент на «характере» персонажа, его знаниях по общим темам, имитации сознательности и т.д. Помимо этого важно различать два разных уровня диалога:

1. Система является своего рода субъектом , который пользуется предварительно полученными знаниями, может накапливать знания в процессе диалога, делать выводы на основе имеющихся утверждений и т.п.

2. Система работает на уровне вопрос-ответ , выдавая только непосредственную реакцию на реплики пользователя. Реакция порождается на основе анализа реплики пользователя и имеющегося набора текстов (это могут быть, например, тексты справочной системы, описания разрешения проблем, возникающих при работе программ и т.п.) В принципе, такая система тоже может дополняться памятью, хранящей результаты ее предыдущей работы. Но она в любом случае не реализует полноценную работу со знаниями.

Любая серьезная система, производящая поиск вхождений слов запроса в предложениях входного документа должна каким-то образом анализировать структуру запроса, опираясь на знания о языке, на котором он сформулирован. Поэтому объективно сравнить системы, рассчитанные на разные языки практически невозможно, но можно изучить принципы работы системы и сделать выводы о глубине производимого ею анализа.

Создатели большинства современных вопросно-ответных систем опираются на английский язык и в настоящее время существуют синтаксические анализаторы и справочные системы по словам языка, к числу которых можно отнести например WordNet [101]. Проект WordNet - мощный толковый словарь и тезаурус, выдающий справку по данному слову в удобном для компьютерного анализа структурированном виде

Подход к формализации естественного языка

Опыт разработки компьютерных лингвистических систем с использованием ограниченного подмножества ЕЯ демонстрирует отсутствие возможности реализации названных путей, что приводит к распаду семантической структуры фразы и влечет отказ в обслуживании запроса. Поэтому верно, что: Следствие 3. Лучше очень абстрактно описать слово, чем не описывать его вовсе. Следствие 4. Необходимое условие всякой коммуникации - близкое сходство семантических словарей слушающего-говорящего.

Тезис 7. Язык не различает понятий физического и ментального мира. Этот тезис подтверждается многими лингвистическими исследованиями [62]. Стандартными путями отображения «вещных» понятий в ментальный мир являются механизмы аналогии, гиперболы и т.д.

Неразличимость понятий ментального и физического мира позволяет- . избежать множественности толкований значений в СемСл. То есть:

Следствие 5. При построении формального семантического словаря не следует приписывать слову значений, которых оно не имеет.

Претензии к способу описания семантики и содержанию семантических (толковых) словарей предъявляют многие авторы [6,8,17,22, 93]. Основными недостатком является привнесение в толкование смыслов, не содержащихся в определяемом слове. Причина этого - принципиально неограниченная сочетаемость слов ЕЯ. Если отвергнуть тезисы 1-8, то лексикографу остается лишь фиксировать далеко не полное множество наиболее употребимых семантических значений слова, определяемых частотно-сочетаемостным анализом (напр. в [94]). Но непосредственно после завершения описания словарной статьи информация устаревает, так как ни что не мешает слову - семантической функции присоединить новые аргументы или самому присоединиться в качестве такового к другому слову-функции и, тем самым, выступить в новой роли, не нашедшей отражения в словаре. Опираясь на тезисы 1

8, достаточно зафиксировать семантическую функцию(ии) слова, не накладывая несуществующих ограничений на сочетаемость.

Второй проблемой, связанной с разработкой семантического (толкового) словаря, является привнесение субъективной «картины мира» - миропонимания автора семантического описания. Попытки коллективного создания семантического словаря показали, что описания слов, созданные различными исполнителями зачастую «не стыковались» и вызывали несогласие автора излагаемого подхода. В результате вся работа выполнена лично профессором Тузовым В.А., а СемСл отражает объективный мир посредством его субъективного авторского восприятия.

При индивидуальном описании СемСл, с особой остротой стает вопрос о затратах труда и сроках создания словаря. Из чего следует, что актуальной задачей становится разработка методов и средств коллективной работы над СемСл для преодоления указанных трудностей. Кроме того, привлечение специалистов различных предметных областей (ПО) позволит получить СемСл энциклопедической глубины.

Тезис 8. Естественный язык является плохим средством точного толкования слов.

Широко применяемый метод толкования слов ЕЯ с помощью этого же, либо другого ЕЯ опирается на способность человека к синтезу дополнительной информации. Сложность этого процесса затрудняет формализацию, что зачастую приводит к использованию неадекватных формальных структур для толкования семантики ЕЯ.

Таким образом, совокупность тезисов позволяет утверждать:

Тезис 9. ...не существует языка, который невозможно строго и точно формализовать, т.е. сделать доступным для компьютера.

Описание механизма функционирования концептуальных идей, определяющих особенности излагаемого подхода к формализации ЕЯ, проведем с использованием ЕЯ- примеров, избегая технических подробностей конкретной реализации, особенностям которой посвящена глава 3.

Основой семантического анализатора является функциональная модель языка [87, 88]. Впервые функциональные грамматики появились и использовались как средство описания искусственных языков в начале 80-х годов. Искусственные языки принципиально отличаются от естественных языков: первые изначально формальны, вторым отказывают даже в принципиальной возможности формализации. Для первых наличие или отсутствие формальных средств их формализации не имеет большого значения: их реализация на компьютере, т.е. преобразование записи программы в действующий процесс, является адекватной компенсацией отсутствующих средств. Для вторых -метод их формального описания имеет принципиальное значение, так как он определяет возможность реализации естественного языка на компьютере.

Функциональная модель позволяет разбить описание языка на конечное число уровней, что серьезно упрощает процесс его формализации. Трехуровневая модель естественного языка - морфосинтаксический, семантический и прагматический - полностью решает проблему его реализации на компьютере. Разбиение на три уровня определяется не абстрактными соображениями, а принципиальным различием задач, которые решаются на каждом уровне. На первом уровне обрабатывается отдельное слово, на втором -отдельное предложение, на третьем - связный текст. На первом этапе обработки текст преобразуется в последовательность выполнимых функций. На втором этапе эта последовательность выполняется.

Приведем небольшой пример. Рассмотрим выражение 2 + 3. Наша задача - найти значение этого выражения. Это выражение можно описать грамматиками Н. Хомского, сетями, графами, лексическими функциями, предикатами и т.д. Для формализации этого предложения нам необходимо выполнить операцию сложения. Предложение русского языка способно само извлекать собственный смысл - абсолютно так же, как операция сложения извлекает значение из записи 2 + 3. Для этого необходимо только его выполнить. Чтобы его выполнить, нужно увидеть в нем последовательность выполнимых функций.

Поисковая система «Алхимик»

Полученный семантический словарь содержал около 1 млн. строк. Как видно из фрагмента, словарная статья объединяет английское слово или словосочетание, все его возможные русскоязычные переводы, далее набор семантических альтернатив для каждого слова перевода. В этой части статьи находятся лишние альтернативы, порожденные в виду неоднозначности русского языка и невозможности программно отобрать необходимые конструкции. TAVERN "_ .. " таверна кабачок (1) ТАВЕРНА $123402(!Род) {ж1 364} (2) КАБА ЧОК $122131(!Род,!Откуда) {мЗ 1080} (3) КАБАЧОК N% KABAK$123402(Karese(KABAK$123402(!Pofl))) {мЗ 1080} бар (4) БАР $123402(!Род) {мі 12} (5) БАР $14215/3050 {мі 12} Рисунок 14. «Лишние» семантические альтернативы в словаре АЯ.

В этой словарной статье присутствуют лишние альтернативы: (2) определяет растение, а (5) -меру давления. После удаления всех альтернатив, не относящихся к классу $123402 (ФО Поселения Учреждения Торгов-ля_и_Обслуживание), получим TAVERN таверна кабачок ТАВЕРНА $123402(!Род) {ж1 364} КАБАЧОК N% KABAK$123402(Karese(KABAK$123402( ))) {мЗ 1080} бар БАР$123402(!Род){м1 12} Рисунок 15. «Чистая» словарная статья.

Такой тщательный анализ был применен ко всему словарю(«чистка» производилась вручную) и в настоящее время существует окончательная его версия, содержащая 969 816 строк. Созданием этого словаря мы добились одной из наших основных задач: мы отобразили множество английских слов на множество семантических классов РЯ. Вопрос о соответствии семантической классификации (классов) явлений и предметов для русского и английского языков может показаться спорным из-за различий в морфологии и синтаксисе. Однако для необходимого в исследовании уровня работы с англоязычными текстами семантические классы РЯ могут считаться адекватными и для АЯ.

Полученный семантический словарь открывает широкие перспективы для обработки англоязычных текстов, в частности поиска, диалога на уровне «вопрос-ответ» и рубрикации.

Поиск - это простейший способ доступа к текстовым данным. На сегодняшний день «классическая» поисковая машина умеет искать по запросу из нескольких слов все документы, в которые данные слова входят, и предъявить их пользователю [33, 53, 90]. Тем самым она с успехом выполняет функцию предметного указателя печатных учебников, который информирует читателя, на каких страницах одновременно встречаются необходимые ему термины.

Существующие поисковые системы, даже имея текстовую базу со всей нужной информацией, могут найти только ее часть или вовсе не обнаружить. Например, запрос «намерения России» к совокупности новостных текстов приведет к выборке всех документов, в которых встречается это словосочетание или его слова в отдельности. При этом всё «многообразие» полученных ссылок или документов заключается, как правило, в различии падежных форм. Такой результат не сможет удовлетворить аналитика, желающего узнать все намерения России, представленные в новостях. Поиск по запросам «Россия планирует», «Россия собирается» или «поползновения России», предоставит аналитику еще пищу для размышлений (если вообще окончится результативно). Каждая такая выборка, безусловно, даст представление о намерениях нашего государства, но не пересечется с предыдущей. Получается, что при каждом поиске мы извлекаем только часть полезных знаний. Тезаурусы (словари синонимов) частично могут решить эту проблему, однако они используются далеко не во всех поисковых системах.

В нашей работе мы воспользуемся гибким механизмом для организации поиска знаний в текстах на естественном языке на основе семантического словаря. .

Пусть имеется некоторый текст, состоящий из определенного количества предложений. Нам необходимо найти все предложения отвечающие нашему запросу. Каждое предложение текста переводится в вектора-предложения. Полученный вектор содержит все семантические классы, к которым относится каждое слово предложения. При этом в вектор войдет тот класс, к которому относится слово именно в этом предложении. Определить эти классы нам поможет построенный нами ранее семантический словарь для английского языка.

Слова запроса переводятся в форму вектора-запроса. Далее каждое предложение проверяется на совпадение векторов предложений и запроса. Такой механизм поиска позволяет отобрать не только те предложения, которые непосредственно содержат слова запроса, но и те, в которых есть близкие по смыслу (относящиеся к одному семантическому классу), что существенно повысит процент адекватности выборки запросу.

Похожие диссертации на Построение семантического словаря для обработки англоязычных текстов