Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Лингвистические корпусы с разметкой на основе грамматики зависимостей и их применение при автоматическом синтаксическом анализе Чардин Иван Сергеевич

Лингвистические корпусы с разметкой на основе грамматики зависимостей и их применение при автоматическом синтаксическом анализе
<
Лингвистические корпусы с разметкой на основе грамматики зависимостей и их применение при автоматическом синтаксическом анализе Лингвистические корпусы с разметкой на основе грамматики зависимостей и их применение при автоматическом синтаксическом анализе Лингвистические корпусы с разметкой на основе грамматики зависимостей и их применение при автоматическом синтаксическом анализе Лингвистические корпусы с разметкой на основе грамматики зависимостей и их применение при автоматическом синтаксическом анализе Лингвистические корпусы с разметкой на основе грамматики зависимостей и их применение при автоматическом синтаксическом анализе Лингвистические корпусы с разметкой на основе грамматики зависимостей и их применение при автоматическом синтаксическом анализе Лингвистические корпусы с разметкой на основе грамматики зависимостей и их применение при автоматическом синтаксическом анализе Лингвистические корпусы с разметкой на основе грамматики зависимостей и их применение при автоматическом синтаксическом анализе Лингвистические корпусы с разметкой на основе грамматики зависимостей и их применение при автоматическом синтаксическом анализе
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Чардин Иван Сергеевич. Лингвистические корпусы с разметкой на основе грамматики зависимостей и их применение при автоматическом синтаксическом анализе : Дис. ... канд. филол. наук : 05.13.17 : Москва, 2004 129 c. РГБ ОД, 61:04-10/1123

Содержание к диссертации

1. Введение 5

О проблематике и строении настоящей работы 5

2. Корпусы с синтаксической разметкой и автоматический синтаксический анализ 11

Общие замечания 11

Лингвистические корпусы с синтаксической разметкой 13

Характеристики 13

Существующие корпусы 18

Применение корпусов с синтаксической разметкой 21

Стратегии разработки приложений автоматического синтаксического анализа и корпуса с синтаксической разметкой на основе грамматики зависимостей 23

Количественная оценка программ автоматического синтаксического анализа на материале корпусов с синтаксической разметкой 26

3. Корпус с синтаксической разметкой для русского языка 30

Состав корпуса 30

Уровни разметки , 31

Формат разметки 32

Типы лингвистической информации 34

Морфологическая информация 34

Синтаксическая информация 34

Разработка соглашений по разметке 38

Программное обеспечение для подготовки корпуса и работы с ним 40

Инструменты разметки 40

Инструменты для сбора информации по корпусу 42

4. Применение корпуса с разметкой при разрешении синтаксической неоднозначности в лингвистическом процессоре ЭТАП-3. 44

Проблема разрешения синтаксической неоднозначности в автоматической обработке текста 44

Синтаксический компонент лингвистического процессора ЭТАП-3 52

Предварительная обработка предложения и порождение гипотетических связей 52

Разрешение синтаксической неоднозначности на основе правил 54

Комбинированный алгоритм разрешения синтаксической неоднозначности для лингвистического процессора ЭТАП-3 57

Реализация комбинированной стратегии обработки языковых данных как одно из направлений развития лингвистического

процессора ЭТАП-3 57

Комбинированный алгоритм разрешения синтаксической неоднозначности 60

Архитектурные ограничения и альтернативные подходы 61

Экспериментальный модуль для лингвистического процессора ЭТАП-3 62

Наборы данных и их получение 64

Качественная оценка комбинированного алгоритма 66

5. Количественная оценка алгоритмов автоматического синтаксического анализа для русского языка 76

Предлагаемые принципы оценки алгоритмов синтаксического анализа для русского языка 76

Количественная оценка алгоритма синтаксического анализа лингвистического процессора ЭТАП-3 78

Экспериментальные данные 78

Программный комплекс 80

Результаты оценки 82

Анализ полученных результатов 86

Эксперимент по установлению наличия синтаксических связей в пространстве поиска алгоритма синтаксического анализа 88

Эксперимент по определению вклада правил предпочтения и корпусного модуля в работу алгоритма синтаксического анализа 94

Результаты и перспективы 95

Приложения 101

Приложение 1. Образцы данных, собранных по корпусу 101

Приложение 2. Список морфологических характеристик, используемых в корпусе ИППИ РАН 103

Приложение 3. Основные синтаксические отношения, используемые в корпусе ИППИ РАН 106

8. Список иллюстраций 118

Литература 119 

Введение к работе

О проблематике и строении настоящей работы

С распространением персональных компьютеров и сетей передачи данных неуклонно растет потребность в системах автоматической обработки текстов и важность задачи их совершенствования. Получение новых результатов на этом направлении требует исследований, охватывающих целый ряд смежных областей информатики, лингвистики, психологии, математики и других дисциплин. Данная работа принадлежит к категории таких исследований. Ее центральная тема -лингвистические корпусы с синтаксической разметкой на основе грамматики зависимостей и их применение при автоматическом синтаксическом анализе .

Область автоматической обработки текста сегодня сложно представить себе без лингвистических корпусов с разметкой. Это собрания языковых данных, для которых сформулирована и записана информация об их структуре. Базовая разметка для корпусов текстов, как правило, включает лемматическую

Работа, положенная в основу настоящей диссертации, стала возможной благодаря грантам РФФИ № 01-06-80453, 01-07-90495. информацию и информацию о частеречной принадлежности слов (т.н. part of speech tagging). Для теоретико-синтаксических изысканий и в автоматическом синтаксическом анализе широко применяются корпуса с синтаксической разметкой.

Многие виды разметки требуют участия экспертов-лингвистов в подготовке корпуса. К ним относится и разметка синтаксическая, которая представляет собой особо трудоемкий вид разметки. Это связано с тем, что точность результатов предварительной автоматической синтаксической разметки далека от 100%, особенно при различении большого числа типов отношений.

Корпуса текстов с синтаксической разметкой широко применяются при создании современных алгоритмов автоматического синтаксического анализа и для количественной оценки их работы.

Алгоритмы автоматического синтаксического анализа применяются в таких классах приложений по автоматической обработке текста, как машинный перевод, поиск информации, системы общения с базами данных на естественном языке, системы автоматического аннотирования и реферирования, авторские системы и компьютерная проверка орфографии и пунктуации. Элементы синтаксического анализа все шире используются и в речевых технологиях (см., например, обсуждение в Кривнова, Чардин 1999).

Предлагаемая работа построена следующим образом. За настоящим введением следует обзорная глава 2, в которой рассказывается о лингвистических корпусах с синтаксической разметкой, перспективных методах в области автоматического синтаксического анализа, связанных с использованием этих корпусов, и предпринимается попытка осмысления этого научно-исследовательского направления в широком междисциплинарном контексте. При этом особое внимание уделяется корпусам с синтаксической разметкой на основе грамматики зависимостей. Подавляющее большинство исследований по автоматическому синтаксическому анализу за рубежом опирается на грамматики составляющих и корпусы, размеченные на их основе. Однако в последние годы все больше специалистов приходит к выводу, что использование грамматик зависимостей предоставляет более широкие возможности для разработки программ автоматического синтаксического анализа (например, Rosenfeld 2000). С этим связано использование этого типа грамматик в качестве основы при подготовке многих вновь создаваемых корпусов с разметкой (см., например, Rambow et al. 2002). На материале русского языка электронных корпусов с синтаксической разметкой до самого последнего времени не существовало. Глава 3 посвящена первому такому корпусу для русского языка, подготовленному в Лаборатории компьютерной лингвистики Института Проблем Передачи Информации РАН под руководством проф. И.М. Богуславского при участии автора (Богуславский и др. 2002; Boguslavsky et al. 2002). Разметка корпуса, о котором идет речь, осуществлялась на основе грамматики зависимостей. Для синтаксических отношений помечались их типы в соответствии с подробной классификацией, которая основана на синтаксической модели, принятой в лингвистическом процессоре ЭТАП-3 (Апресян и др. 1989, Апресян и др. 1992). Данная модель, в свою очередь, базируется на поверхностно-синтаксическом компоненте модели «Смысл = Текст» (Мельчук 1974), практической реализацией которого она является. В главе 3 также рассказывается о некоторых инструментах для работы с корпусом, анализируется информация о строении синтаксических структур предложений на русском языке, полученная с использованием этих инструментов.

В главе 4 излагается разработанный автором алгоритм разрешения синтаксической неоднозначности с использованием корпусных данных для лингвистического процессора ЭТАП-3, который был реализован как отдельный экспериментальный модуль процессора. В этой связи рассматривается синтаксический компонент лингвистического процессора ЭТАП-3, затрагивается вопрос архитектурных ограничений на использование в нем корпусных данных, говорится о различных типах корпусных данных, собранных для обеспечения работы алгоритма.

Самостоятельная глава 5 посвящена проблеме количественной оценки программ автоматического синтаксического анализа. В ней впервые предлагаются принципы количественной оценки программ автоматического синтаксического анализа для русского языка, а также приводятся результаты экспериментов по количественной оценке синтаксического компонента лингвистического процессора ЭТАП-3. Кроме того, поскольку результаты работы процессора с экспериментальным модулем и без него не показали значительных различий, была предпринята серия оригинальных экспериментов по оценке порождения связей в системе. Завершает работу глава 6, в которой обсуждаются полученные результаты, перспективы расширения и дальнейшего применения корпуса с синтаксической разметкой для русского языка, отечественные и мировые тенденции в данной области. 

Похожие диссертации на Лингвистические корпусы с разметкой на основе грамматики зависимостей и их применение при автоматическом синтаксическом анализе