Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Автоматическое разрешение кореференции местоимений третьего лица русскоязычных текстов Толпегин Павел Владимирович

Автоматическое разрешение кореференции местоимений третьего лица русскоязычных текстов
<
Автоматическое разрешение кореференции местоимений третьего лица русскоязычных текстов Автоматическое разрешение кореференции местоимений третьего лица русскоязычных текстов Автоматическое разрешение кореференции местоимений третьего лица русскоязычных текстов Автоматическое разрешение кореференции местоимений третьего лица русскоязычных текстов Автоматическое разрешение кореференции местоимений третьего лица русскоязычных текстов Автоматическое разрешение кореференции местоимений третьего лица русскоязычных текстов Автоматическое разрешение кореференции местоимений третьего лица русскоязычных текстов Автоматическое разрешение кореференции местоимений третьего лица русскоязычных текстов Автоматическое разрешение кореференции местоимений третьего лица русскоязычных текстов Автоматическое разрешение кореференции местоимений третьего лица русскоязычных текстов Автоматическое разрешение кореференции местоимений третьего лица русскоязычных текстов Автоматическое разрешение кореференции местоимений третьего лица русскоязычных текстов
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Толпегин Павел Владимирович. Автоматическое разрешение кореференции местоимений третьего лица русскоязычных текстов : диссертация ... кандидата технических наук : 05.13.17 / Толпегин Павел Владимирович; [Место защиты: Вычисл. центр РАН].- Москва, 2008.- 238 с.: ил. РГБ ОД, 61 09-5/215

Содержание к диссертации

Аппарат сокращений, терминов и понятий 5

ВВЕДЕНИЕ 6

ГЛАВА 1. ЗАДАЧА РЕФЕРЕНЦИАЛЬНОГО АНАЛИЗА И МЕТОДЫ

РЕШЕНИЯ 15

1.1. Первично-семантический граф 15

1.2: Вопросы референциального анализа 16

1.3. КЛАССИФИКАЦИЯ видов межклаузной КОРЕФЕРЕНЦИИ 18

  1. Вид №1. Кореференция на основе местоимений 18

  2. Вид №2. Синонимия отдельных слов, именных групп и более сложных конструкций 19

  3. Вид №3. Меронимические, родовые и видовые отношения 20

  4. Вид №4. Логико-интуиционистские нечеткие правила 20

  5. Вид №5. На основе метафорического переноса 21

1.4. Знания, используемые дляразрешения местоименной анафоры 22

  1. Морфологические и лексические знания 22

  2. Синтаксические знания 23

  3. Семантические знания 24

  4. Знания дискурса 26

  5. Знания о Мире 28

Г.5. Этапы разрешения местоименной анафоры. 29

  1. Идентификация анафорических местоимений 29

  2. Идентификация анафорических именных групп 31

  3. Центрирование 33

  4. Соподчинённостъ 38

1.6. Обзор существующих исследований и решений. Работы 60-х, 70-х и 80-
хгг 39

  1. SHRDLU. 39

  2. LUNAR 40

  3. Алгоритм Дж. Хоббса 40

  4. BFP-алгоритм: 45

1.6.5. " Упрощенный подход Картера 47

  1. Распределенная архитектура Рич и ЛуперФой 51

  2. Стратегический подход Карбонелл и Браун 52

  3. Другие работы 56

1.7. Корпусно-ориентированные подходы 90-х годов 58-

  1. Подход, основанный на сочетаемости шаблонных компонентов 60

  2. Алгоритм Шалом Лапшин и Герберт Лисе 62

  3. Сравнение с другими подходами 64

  4. Подход Кеннеди и Богураев 64

  5. Национальные практические решения по разрешению анафоры 66

  6. Машинное обучение в задаче разрешения анафоры 69

1.8. Автоматическое разрешение кореференции для стандартного набора
признаков 70

  1. Технология решения 71

  2. Признаковое пространство 72

  3. Структура решающего правила 73

  4. Алгоритм разрешения анафоры 73

  5. Результаты 76

1.9. Выводы 78

ГЛАВА 2. ВЫЧИСЛЕНИЕ ПРИЗНАКОВ В ЗАДАЧЕ УСТАНОВЛЕНИЯ
КОРЕФЕРЕНТНЫХ СВЯЗЕЙ
79

  1. Структура решения 82

  2. Разрешение референции для расширенного признакового пространства 88

  3. Структура решения 88

  4. Технологические аспекты разработанных алгоритмов по формированию расширенного признакового пространства 89

  1. Расширение набора частей речи, способных выступать в качестве гипотетического антецедента 89

  2. Порядок слов запроса при поиске в неразмеченном корпусе 90

  3. Способ определения глагольной группы, управляющей анафором 100

  4. Специфика притяжательных местоимений 101

  5. Роль уточняющего (присвязочного) слова при корпусном поиске 101

2.5. Алгоритмы и методы формирования расширенного признакового
пространства 104

  1. Алгоритм составления оценок степени одушевлённости для валентностей русскоязычных глаголов 104

  2. Алгоритм синтаксической деривации для способа 2.4.3- 120

  3. Алгоритм определения конфликтующих антег\едентов 124

  4. Алгоритм некореферентности анафора с гипотетическим антецедентом 127

  5. Алгоритм некореферентности местоимений 130

  6. Алгоритм построения гипотез сочетаемости глагольной группы и гипотетического антецедента 130

2.6. Разрешение кореференции для расширенного признакового
пространства 132

  1. Определение числа гипотетических антецедентов 132

  2. Нахождение оптимального признакового пространства 133

ГЛАВА 3. МОДЕЛИ РАСПОЗНАВАНИЯ КОРЕФЕРЕНТНОИ СВЯЗИ 144

  1. Признаковое пространство задачи 144

  2. Постановка общей задачи для определения кореферентной связи между анафором и антецедентом 153

  3. МОДЕЛЬ MB распознавания кореференции 154

  4. Модель DSE распознавания кореференции 155

ГЛАВА 4. ПРОГРАММНЫЙ КОМПЛЕКС РАСПОЗНАВАНИЯ

КОРЕФЕРЕНТНЫХ СВЯЗЕЙ И РЕЗУЛЬТАТЫ ПРАКТИЧЕСКИХ
ПРИМЕНЕНИЙ
158

4.1. Методы и показатели распознавания 158

  1. Определение кореферентного антецедента в модели MB 159

  2. Программная среда установления кореферентных связей и аккумуляции статистических данных 160

  3. Определение кореферентного антецедента в модели DSE 166

  4. Параметры анализируемых текстов 168

  5. Влияние разрешения кореференции в разрешении морфологической неоднозначности 169

  6. Расширенная постановка задачи 172

  1. Описание задачи 172

  2. Подходы к решению 173

ГЛАВА 5. ВЫВОДЫ 175

  1. Общие выводы 175

  2. Основные результаты работы 178

ГЛАВА 6. СПИСОК ЛИТЕРАТУРЫ 179

ГЛАВА 7. ПРИЛОЖЕНИЯ 198

  1. Оценки степени неодушевлённости для валентностей русскоязычных глаголов 198

  2. Синтаксический анализ предложения в формате XML 201

  3. Исходный код модуля 211

Аппарат сокращений, терминов и понятий

Ана фора (дословно, с греческого языка: относить назад, возвращать) — использование выразительных свойств языка, которые могут быть корректно проинтерпретированы только в контексте, как правило, с учётом предшествующего фрагмента текста. Анафорическое выражение (AB) -это выражение, которое подменяет в данном контексте информационную единицу. Анафорическое местоимение (Анф) -лишь частный случай анафорического выражения.

Пример: Мой дом раньше был в Мериленде, а теперь он в Лос-Анджелесе.

Именная группа дом именуется, антецедентом (реальным антецедентом, РА) анафорического местоимения, а анафорическое местоимение (анафор) он отсылает к антецеденту. К полным именным группам относятся имена собственные и имена нарицательные, к редуцированным - местоимения и «нули» (0) [Кибрик, 1985].

Гипотетический антецедент (ГА) - кандидат для референции; антецедент, который по формальным признакам (например, согласованность в роде, числе) может участвовать в референции с анафорическим выражением.

Пример:

Дайте бананы? обезьянам?, хотя они, и не спелые, но онщ очень голодны. ГА для Анф онщ являются бананы, обезьяны. РА для OHut являются бананы. ГА для Анф онщ являются бананы, обезьяны. РА для онщ являются обезьяны.

Кореферентный = имеющий кореферентную (тождественную) связь.

Валентность (реже, роль, арность) - количество возможных зависимостей у слова. Четыре валентности {субъект, объект, место, количество) иллюстрируются на рисунке для контекста: «Иван купил дом в Твери за 200 рублей».

ИВАН

где? МЕСТО

в ТВЕРИ

кто? СУБЬЕі

что? ОБЪЕКТ

200 РУБЛЕЙ

«У Маши дети маленькие, а у Даши они ходят в школу». Кореферентная связь между они и дети отсутствует, так как объекты не идентичны, однако анафорическая связь - на лицо.

Введение к работе

Автоматическое разрешение анафорических (кореферентных) связей в естественно-языковых (ЕЯ) текстах находится в фокусе внимания исследователей и является одной из центральных проблем в автоматической обработке текстов (АОТ).

Описывая некоторый объект, многообразие его связей и отношений с другими объектами, говорящий (или пишущий) вынужден неоднократно прибегать к упоминанию в тексте имени одного и того же объекта. Это обстоятельство обусловлено линейной структурой текста. При извлечении информации из текста, написанного на естественном языке, одной из важнейших лингвистических проблем является отождествление объектов, повторно упомянутых в тексте [Ильин и др., 1969]. Актуальным является перевод линейной структуры текста в структуру, содержащую сложные смысловые отношения между объектами Мира. Установлению таких отношений (отношений тождества, или отношений кореференции) на примере местоимений третьего лица и посвящено настоящее исследование.

Разрешение анафоры — установление анафорических связей, является одной из центральных проблем в задаче автоматического синтаксического анализа русскоязычных ЕЯ-текстов. Функциональная сторона разрешения анафоры, как этапа ЕЯ-анализа, заключается в установлении зависимостей между объектами (именными и другими группами), упоминаемыми в простых предложениях (клаузах) на протяжении целого дискурса.

В представленной работе исследуется проблема разрешения анафоры с использованием больших корпусов текстов и методов математической теории распознавания.

Работа с корпусами текстов представляется актуальной по ряду причин. Во-первых, в 60 - 90-е гг. XX в. семантические и иные виды знаний закладывались

в ЭВМ вручную в форме частных правил, что не гарантировало их объективность, репрезентативность, полноту и точность. Во-вторых, получить достоверные числовые характеристики и показатели от работы с корпусом можно, оперируя с большими объёмами текста (более 10 Тбайт). Эффективная работа с текстами указанного объёма стала возможной за последнее время благодаря развитию компьютерной техники, поисковых технологий и доступности больших объёмов текстовых данных в сети Интернет.

Особый интерес автоматическое разрешение анафорических связей (в частности - кореференции местоимений) представляет при проектировании систем автоматического машинного перевода, информационного поиска и разработке вопросно-ответных систем. Последние могут быть также полезны для расширения смыслового представления текста (например, в модели «Смысл <-> Текст» [Мельчук, 1974], а также в модуле первичного семантического анализа [Сокирко, 2005]). Вместе с тем, несмотря на востребованность практических систем автоматического определения кореферентных связей, известных развитых разработок для русского языка в настоящее время не существует. На этом фоне, однако, продолжают совершенствоваться зарубежные разработки анализа национальных текстов.

Учитывая изложенное, компьютерная обработка русскоязычного текста, осуществляющая автоматическое определение кореферентных связей между местоимением (анафором, в нашем случае - местоимением третьего лица) и стоящим ранее по тексту неким объектом Мира (антецедентом), представляется актуальной задачей.

Согласно [Дикарева, 1987], анафора представляет собой явление, при котором смысл одного элемента текста (линейно вторичного) определяется смыслом другого элемента того же текста (линейно первичного, антецедента). Анафорической функцией могут обладать особые разряды местоимений и другие текстовые средства - повторы, синонимы, перифразы, а также нулевой анафорический знак - эллипсис.

Так, в примере: «Вот на берег выйти zgcmuj. Царь Салтан зовет uxt в гости» (А. Пушкин) анафорическая связь «гости-их» реализует отношение кореферентности, т.е. тождества лиц, обозначенных анафором (зд. — местоимением) и его антецедентом.

В последнее время становятся популярными работы на научной базе Г. Хирста, Ш. Лаппина, Р. Миткова, М. Поэсио и др. по созданию ЕЯ-корпусов для западноевропейских языков, размеченных на предмет референции. К сожалению, Национальный корпус русского языка [НКРЯ] не имеет на сегодняшний момент анафорической разметки.

Помимо задачи создания размеченного на предмет референциальных связей корпуса, более сложной и нетривиальной представляется задача выделения признаков, влияющих на референциальный анализ. Вместе с тем, большую роль играют программные средства, позволяющие с высокой степенью точности автоматически определять параметры ЕЯ-текста в-рамках определенных признаков.

Можно выделить следующие сложившиеся подходы, применяющиеся для решения как задачи референциального анализа, так и смежных задач.

  1. Подход, основанный на системе правил. Правила задают условие и решение (по референциальному выбору). Приоритет правил устанавливается в зависимости от заданных коэффициентов. Как и правила, так и коэффициенты (в ряде систем - штрафные очки) задаются экспертом вручную. Подход применим для адекватно простых задач. С обратной стороны, заданные вручную правила могут не отвечать требованиям полноты и могут не покрывать полное пространство возникающих случаев. Ручное введение оценочных и штрафных значений нередко создает коллизии даже тогда, когда правила работают верно.

  2. Современные методы машинного обучения [Журавлев и др., 2006] позволяют получать обученные модели вместе с показателями их репрезентативности и эффективности. Для этого требуется

сформировать обучающую выборку, в которую войдут статистические данные по признакам и установленный экспертом правильный ответ (номер класса). Исследование может оказаться малоэффективным, если статистические данные формируются не автоматически. Данный подход является наиболее универсальным, но для получения корректных результатов требуется кропотливая подготовка экспериментальной статистики, ручная работа эксперта по указанию правильного ответа для каждого объекта обучения и особого профессионального опыта работы с различными методами машинного обучения.

З.п-грамм является известным подходом, получил большую огласку в связи с выпуском в продажу международной поисковой компанией Google 6 DVD-дисков с пентаграммами для английского языка в августе 2006 года. Подход n-грамм может быть использован как отдельно, так и совместно с подходами, упомянутыми выше.

К исследованиям в области математической и прикладной лингвистики с помощью n-грамм можно отнести:

работу [Сокирко и др., 2005] в области автоматического снятия морфологической омонимии для русскоязычных текстов. В основу идеи, положена работа с триграммами, имеющими предварительную ручную морфологическую разметку;

работу [Протасов, 2006] по обучению «с нуля» грамматики связей русского языка, которая не требует ручной работы эксперта по разметке и обучению, что в очередной раз доказывает оригинальность подхода. С помощью русскоязычных n-грамм созданное автором решение способно устанавливать синтаксические связи внутри простого предложения. В сети Интернет по адресу расположена версия анализатора, позволяющая проводить анализ в режиме реального времени.

К сожалению, вход большинства русскоязычных словарей n-грамм состоит из двух слов (бигралты), и они создаются разработчиками из малых корпусов

текстов под конкретные специфические нужды, что может свидетельствовать об их относительной репрезентативности.

Теоретической и методологической основой исследования послужили
труды отечественных и зарубежных ученых в области математической и
прикладной лингвистики, машинного перевода Н.Д. Арутюновой,
Т.В. Булыгиной, Дж. Гандел, А.А. Кибрика, Л.Н. Иорданской, Дж. Николе,
Е.В. Падучевой, Е.В. Рахилиной,- А.С. Чехова, А.Д. Шмелева,

М.И. Откупщиковой, Р. Миткова, В.Г. Гака, И.А. Муравьевой,

О.Ю. Богуславской, Ю.С. Мартемьянова, А.В. Гулыги, Е.М. Вольф, З.М. Шаляпиной, И.И. Ревзина, работы в области машинного обучения и распознавания образов Ю.И. Журавлева, В.Л. Матросова, К.В. Рудакова, В.В. Рязанова, 0:В. Сенько, исследования специалистов в области искусственного интеллекта и автоматической обработки текстов Д.А. Поспелова, Г.С. Осипова, В.Ф. Хорошевского, Ю.Г. Зеленкова, А.Н. Аверкина, А.И. Эрлиха и др.

Цель и задачи исследования

Цель исследования - разработка подхода автоматического определения кореферентных связей для русского языка, основанного, на, анализе корпусов текстов с использованием методов теории распознавания.

Для достижения поставленной цели были решены следующие задачи исследования:

систематизация формальных средств выражений анафорических связей и зависимостей для местоимений третьего лица;

выделение и формализация признаков; влияющих на референциальный выбор;

-разработка методов и алгоритмов формирования новых признаков по неразмеченным корпусам текстов без привлечения средств семантики, логики и знаний о Мире;

- разработка алгоритмов и программ, основанных на подходах и методах теории распознавания, обеспечивающих автоматическое определение кореферентных связей между анафором и антецедентом.

-создание экспериментальной программной среды для аккумуляции статистической информации о референциальном выборе реального антецедента для местоимения третьего лица;

-создание корпуса русскоязычных ЕЯ-текстов, размеченных экспертом на предмет кореферентных связей между анафором и антецедентом, а также размеченных автоматически морфологическими, синтаксическими и первично-семантическими анализаторами;

-разрешение задачи установления кореферентных связей для информационно-новостных текстов, оценка влияния каждого из факторов на корректность определения кореферентных связей при принятии решения о референциальном выборе и поиск минимальных признаковых подпространств.

Объект исследования — сфера автоматического определения кореферентных связей, а также факторы и признаки, влияющие на этот процесс, их анализ.при помощи методов машинного обучения.

Предмет исследования - методы и алгоритмы, формирующие признаковое пространство при определении кореферентных связей; свойства признаков, генерируемых упомянутыми методами и алгоритмами; модели распознавания кореферентных связей.

Материалами исследования послужили тексты электронных новостных изданий. Общий объём автоматически проанализированных текстов составил более 140 Мбайт.

Научная новизна. Современная- деловая проза (в т.ч. информационно-новостные и др. тексты) русского языка не изучались до настоящего времени на предмет выявления закономерностей в референциальном выборе местоимений третьего лица при помощи методов машинного обучения и распознавания образов. В работе впервые применены

подходы к изучению закономерностей кореферентных связей с применением методов машинного обучения и распознавания образов. Разработаны и апробированы новые методы и алгоритмы, «компенсирующие» нехватку семантических знаний, знаний «о Мире» и логических правил из неразмеченных корпусов текстов, новые алгоритмы синтеза корпусных признаков, а также предложены новые модели распознавания кореферентных связей.

Теоретическая значимость исследования заключается в разработке подхода для автоматического разрешения анафорических связей, создании методов синтеза корпусных признаков и моделей распознавания кореференции.

Практическая значимость состоит в использовании разработанных алгоритмов определения кореферентных связей при разрешении анафоры в задачах машинного перевода, автоматического реферирования текстов, извлечения информации в поисковых и диалоговых системах и других автоматических системах искусственного интеллекта в части АОТ.

На защиту выносятся следующие положения:

  1. методы анализа неразмеченных корпусных ресурсов (источников большого объёма ЕЯ-текстов) и результаты их применения в задаче разрешения кореференции местоимений;

  2. алгоритмы по расширению признакового пространства* в задаче разрешения кореференции русскоязычных текстов:

-алгоритм вычисления оценок степени встречаемости одушевлённости для валентностей русскоязычных глаголов;

алгоритм синтаксической деривации;

алгоритм определения конфликтующих антецедентов;

алгоритмы по формированию корпусных оценок степени встречаемости гипотетического антецедента и глагольной группы, управляющей анафором;

  1. алгоритм некореферентности анафора с гипотетическим антецедентом и алгоритм некореферентности местоимений;

  2. результаты анализа признаков при установлении кореферентных связей и минимальные подпространства признаков;

  3. модели распознавания для разрешения анафоры местоимений третьего лица в русскоязычных текстах;

  4. реализация моделей распознавания в виде программной среды, обеспечивающей дружественный интерфейс для работы эксперта по разметке текстов на предмет анафорических связей и автоматическую аккумуляцию признаков;

  5. модель подготовки и обработки размеченных ЕЯ-текстов с целью выявления закономерностей и значимых систем признаков;

  6. результаты испытания модели на размеченном корпусе информационно-новостных текстов (свыше 2000 фрагментов текстов объёмом, превышающим 3 Мбайт).

Апробация. Основные научные выводы и результаты исследования докладывались и обсуждались на:

(1) международной конференции «Диалог 2006» - Компьютерная
лингвистика и интеллектуальные технологии (Бекасово, 31 мая - 4 июня

2006 г.);

  1. 10-ой национальной конференции по искусственному интеллекту с международным участием КИИ-06 (Обнинск, 25-28 сентября 2006 г.);

  2. научно-технической конференции «Информационные технологии в бизнесе» (Москва, ГУ ВШЭ, 2006);

  3. международной конференции «Диалог 2007» - Компьютерная лингвистика и интеллектуальные технологии (Бекасово, 30 мая - 3 июня

2007 г.);

(5) 7-ой международной конференции «Информационное общество, интеллектуальная обработка информации, информационные технологии», 24-26 октября 2007 г. НТИ-2007. (Москва, ВИНИТИ РАН).

Публикации. По теме диссертации опубликовано 18 работ, общим объёмом 197 стр. Из них 2 - в издании из списка, рекомендуемых ВАК Минобрнауки России - журнал «Информационные технологии» (№№ 8,9, 2006 г.).

Составляющие диссертационной работы поддержаны:

  1. конкурсом ведущих научных школ «НШ-5833.2006.1» 2006 г.: «Развитие фундаментальных математических основ и алгоритмического аппарата для решения сложных задач интеллектуального анализа данных, распознавания и прогнозирования» (исполнитель проекта);

  2. научной стипендией ООО «Яндекс» 2004-2005 гг.: «Разработка, создание и внедрение процедуры апостериорной оценки качества поиска на основе поведения пользователей» (рук. проекта);

  3. грантом РФФИ № 06-06-80464-а 2006 г.: «Разработка и реализация методов семантического и прагматического анализов ЕЯ-текстов русского языка» (рук. проекта);

  4. научной стипендией ООО «Яндекс» 2006-2007 гг.: «Формирование нечётких мер для валентностей русскоязычных глаголов» (рук. проекта).

Структура работы. Диссертация состоит из введения, четырёх глав и заключения. Основной текст изложен на 179 стр. при общем объёме 241 стр., включая 3 приложения и библиографию из 181 наименования.

Похожие диссертации на Автоматическое разрешение кореференции местоимений третьего лица русскоязычных текстов