Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Проблемы неоднозначности синтаксического анализа Митренина Ольга Владимировна

Проблемы неоднозначности синтаксического анализа
<
Проблемы неоднозначности синтаксического анализа Проблемы неоднозначности синтаксического анализа Проблемы неоднозначности синтаксического анализа Проблемы неоднозначности синтаксического анализа Проблемы неоднозначности синтаксического анализа Проблемы неоднозначности синтаксического анализа Проблемы неоднозначности синтаксического анализа Проблемы неоднозначности синтаксического анализа Проблемы неоднозначности синтаксического анализа
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Митренина Ольга Владимировна. Проблемы неоднозначности синтаксического анализа : диссертация ... кандидата филологических наук : 10.02.21. - Санкт-Петербург, 2005. - 133 с. : ил. РГБ ОД,

Содержание к диссертации

Введение

Глава 1. Метод синтаксического анализа и синтаксическая неоднозначность 10

1.1. Общий обзор языковых неоднозначностей 10

1.2. Интуитивные методы анализа предложения 12

1.3. Начало формального этапа 17

1.4. Структурный подход к анализу предложения 23

1.5. Современные синтаксические теории 26

1.6. Использование неоднозначных структур в современной исследовательской практике 33

1.7. Эволюция проблемы синтаксической неоднозначности 34

Глава 2. Анализ причин, вызывающих неоднозначность синтаксического анализа 37

2.1. Вводные замечания 37

2.2. Лексическая многозначность 37

2.3. Валентная вариативность 40

2.4. Однородность 45

2.5. Сопутствующие причины возникновения синтаксической неоднозначности 49

2.6. Природа языка и причины неоднозначности 50

Глава 3. Анализ неоднозначных синтаксических конструкций русского языка 52

3.1. Обзор исследований синтаксической неоднозначности на материале русского языка 52

3.2. Термины и понятия, введенные для анализа неоднозначных конструкций 54

3.3. Распределение ролей в неоднозначных конструкциях 59

3.4. Одноместные конкуренции 64

3.5. Двухместные конкуренции 73

3.6. Многоместные конкуренции 76

3.7. Однородные конкуренции 77

3.8. Окказиональная неоднозначность 79

3.9. Особенности неоднозначных синтаксических конструкций русского языка 81

Глава 4. Способы уменьшения уровня синтаксической неоднозначности и ее полного снятия 83

4.1. Некоторые предварительные замечания 83

4.2. Понятие "разрешение синтаксической неоднозначности" 86

4.3. Лексические способы уменьшения уровня синтаксической неоднозначности 90

4.4. Конфигурапионшле способы 96

4.5. Квантитативные способы 100

4.6. Просодические способы 104

4.7. Коммуникативно-стилистические способы 107

4.8. Психолингвистические способы 110

4.9. Контекстные способы 114

4.10. Генеративные способы 116

4.11. Интегральное описание языка 120

Заключение 122

Литература 124

Словари и энциклопедии 133

Введение к работе

Исследователь, изучающий естественный язык, в своей работе непременно сталкивается с неоднозначностью синтаксического анализа. Так, по наблюдению И. Л. Мельчука, в научно-технических текстах неоднозначность встречается в большинстве фраз, а одно предложение в первой статье Конституции США допускает 16 различных синтаксических структур [Мельчук, 1999, с. 32].

Полный формальный синтаксический анализ естественно-языковых текстов приводит к большой неоднозначности. Несмотря на существующий научный интерес к методам автоматического синтаксического анализа, степень научной разработанности проблемы неоднозначности синтаксических структур представляется недостаточной. Синтаксическая омонимия упоминается почти в во всех работах, посвященных описанию различных аспектов синтаксиса (см., например, [Nakhimovsky, Leed, 1987; Carnie, 2002; Adger, 20031]). Существует большое количество формально-грамматических описаний, регистрирующих синтаксическую неоднозначность, а также прикладных разработок, в которых неоднозначность учитывается при оценке качества действия систем автоматической обработки текста. Однако работ, посвященных системному исследованию проблем неоднозначности синтаксического анализа, практически не существует, а подходы отраженные в имеющихся грамматиках и лингвистических продуктах, отчасти выглядят как несопоставимые. Основная научная проблема, побудившая автора взяться за написание настоящей диссертации, состоит в отсутствии адекватного научного аппарата, с помощью которого можно было бы систематически исследовать и объяснить неоднозначности, возникающие при синтаксическом анализе естественно-языковых текстов.

Итак, актуальность исследования определяется необходимостью выработки единого подхода к проблемам неоднозначности синтаксического анализа, который мог бы стать базой для исследования причин неоднозначности, типов синтаксической омонимии и способов уменьшения ее уровня, а также обобщения существующих ныне и не всегда совместимых друг с другом способов анализа неоднозначных конструкций.

Научная новизна работы состоит в установлении взаимосвязей между различными аспектами неоднозначности синтаксического анализа, а также в выявлении определенного рода закономерностей при оценке неоднозначных конструкций с помощью коэффициента раннего распознавания. Проведенное исследование также устраняет пробелы в теории и практике автоматического синтаксического анализа, связанные с явлением синтаксической неоднозначности.

Целью настоящего исследования является системное описание различных аспектов проблемы неоднозначности синтаксического анализа (причин и свойств неоднозначных конструкций, а также способов дизамбигуации). Эта цель предполагает решение конкретных задач:

• рассмотреть основные методы синтаксического анализа предложения и выявить существующие интерпретации синтаксической омонимии в рамках этих методов;

• описать природу причин, вызывающих синтаксическую неоднозначность;

• провести классификацию и исследование свойств потенциально возможных неоднозначных сочетаний русского языка;

• рассмотреть проблему дизамбигуации и разработать типологию способов, позволяющих уменьшить уровень синтаксической неоднозначности.

Теоретическая значимость работы заключается в системном анализе различных аспектов проблемы неоднозначности синтаксического анализа и обобщении знаний о синтаксической омонимии (с точки зрения причин ее возникновения, определения ее типов и методов разрешения), а также системном описании случаев синтаксической неоднозначности в русском языке.

Практическая значимость исследования состоит в выявлении закономерностей возникновения неоднозначных конструкций с учетом различных аспектов проблемы неоднозначности синтаксического анализа, оценки неоднозначных конструкций с помощью коэффициента раннего распознавания Дж. Хокинса и разработке метода разрешения синтаксической неоднозначности с помощью теории связывания.

Практическое применение результатов исследования в решении прикладных лингвистических задач может повысить эффективность действующих систем автоматического анализа, способствовать совершенствованию существующих и созданию новых лингвистических продуктов.

Автор выражает глубокую признательность д.ф.н., проф. А.С. Гсрду и к.ф.н. О.Л. Митрофаповой за постоянную поддержку исследования, а также д.ф.н, проф. Я.Г. Тестельцу и к.ф.н. И.В. Азаровой за ряд ценных наблюдений и замечаний, использованных в данной работе.

Структура диссертации

В композиционном плане диссертационное исследование состоит из введения, четырех глав, заключения и списка литературы.

Во введении обосновывается актуальность исследования, его научная новизна, формулируются его пели и задачи, определяется теоретическая и практическая значимость исследования.

В первой главе — "Метод синтаксического анализа и синтаксическая неоднозначность" — будет рассмотрено, каким образом вопрос синтаксической неоднозначности возникает (или не возникает) в зависимости от метода синтаксического анализа и выбранной грамматики. Мы разделим основные методы анализа предложения на следующие группы:

-Интуитивные методы анализа предложения. В эту группу мы отнесем логико-синтаксический и психолого-синтаксический методы анализа языка. Оба метода основывались главным образом на интуиции исследователя и почти не использовали формальных критериев для анализа предложения. При таком подходе проблемы неоднозначности синтаксического анализа практически не возникало: "интуитивно" исследователь анализировал предложение только каким-то одним, наиболее убедительным для него способом.

— Формально-синтаксические методы, использующие формальный анализ грамматических явлений. Этот подход впервые серьезно поставил пред исследователями проблему синтаксической омонимии.

— Структурный подход к анализу предложения. Мы рассмотрим анализ предложения с помощью структуры составляющих и структуры зависимостей. Оба подхода подразумевают точное определение отношений между словоформами и выявляют большое количество неоднозначных сочетаний.

— Современные синтаксические теории. Мы рассмотрим проблему неоднозначности синтаксического анализа в свете наиболее популярных лингвистических теорий XX века. К ним мы отнесем генеративизм (от ранних трансформационных теорий до теории принципов и параметров) и две наиболее целостные теории функционалистов: системная функциональная грамматика М. Халлидея и теория порядка составляющих Дж. Хокинса.

Во второй главе — "Анализ причин, вызывающих неоднозначность синтаксического анализа" — мы рассмотрим причины, способствующие возникновению неоднозначных конструкций. Природа этих причин может зависит от того, (1) однозначно ли определяются входящие в предложение слова, (2) однозначно ли определяется для этих слов способность устанавливать синтаксические связи, (3) каковы особенности самой синтаксической структуры.

В третей главе — "Анализ неоднозначных синтаксических конструкций русского языка" — на материале русского языка мы исследуем неоднозначности, возникающие при синтаксическом анализе естественно-языковых текстов. Па основе состава и конфигурации омонимичных хозяев н слуг нами будет разработана типология неоднозначных конструкций и рассмотрены свойства каждого типа неоднозначностей.

Мы рассмотрим также проблему окказиональной неоднозначности, возникающей из-за совпадения отдельных форм слова. Будет описана регулярная и нерегулярная окказиональная неоднозначности.

В четвертой главе — "Способы уменьшения уровня синтаксической неоднозначности и ее полного снятия" — мы рассмотрим некоторые аспекты проблемы снятия синтаксической неоднозначности или уменьшения ее уровня, а также предложим типологию способов дизамбигуации. Кроме того, мы предложим свой способ снятия синтаксической неоднозначности формальными средствами в предложениях, содержащих возвратные местоимения с их антецедентами {Ночь предвещает день, не зная, что он принесет). Способ предполагает привлечение данных теории управления и связывания, которая была разработана Ноамом Хомским в рамках современной генеративной грамматики.

В заключении подводятся итоги исследования.

Интуитивные методы анализа предложения

Первыми исследователями синтаксических структур можно считать древнегреческих философов. Слово "синтаксис" использовалось стоиками для обозначения логической структуры высказываний, а Аполлоний Дискол (II в. н. э.) в рамках синтаксиса исследовал связи слов и их форм в предложении [Тестелец, 2001]. Однако до середины XIX в. исследователи не проводили четкой границы между синтаксическими, логическими и психологическими понятиями.

В середине XIX в. был сформулирован логико-синтаксический метод анализа языка. В рамках этого метода синтаксический анализ простого предложения представлял собой нахождение главных

1 Методы синтаксического анализа, использовавшиеся до середины XX в., подробно описаны З.К. Тарлановым [Тарлшюв, 1995], а техника синтаксического анализа (т.е. определения иерархической структуры предложения и грамматических отношений между элементами) описаны в работах Ю. Д. Апресяна и И. Б. Долининой [Апресян, 1966; Долинина, 1977]. (конструктивно необходимых) и второстепенных (конструктивно факультативных) членов предложения и определение их функции на основе логических вопросов. Большой вклад в его разработку в на материале русского языка внесли проф. II. И. Греч, академик И. И. Давыдов, академик Ф. И. Буслаев. Этот метод анализа языка развивался в рамках логического направления в языкознании и представлял собой попытки переноса понятий логики на грамматику и синтаксис. Предложение анализировалось по модели суждения: S есть Р. Первоначально понятия предложение, подлежащие, сказуемое определялись как логические понятия суждение, субъект, предикат. Ф.И. Буслаев определял эти понятия следующим образом: "Предмет, о котором мы судим, называется подлежащим", "То, что мы судим о предмете, называется сказуемым", "Присоединение подлежащего к сказуемому называется суждением", "Суждение, выраженное словами, есть предложение" [Буслаев, 1959, с. 258].

Логико-синтаксический метод анализа языка обладал рядом недостатков, главным из которых являлось частое несоответствие категорий логики категориям грамматики. Кроме того, этот метод не позволял описать реальные синтаксические структуры во всем их разнообразии. В частности, как отмечал Л. Л. Потебня, этот метод не позволял должным образом описывать односоставные предложения и неверно представлял взаимоотношения между простыми и сложными предложениями [Потебня, 1889, с. 60—75]. Поэтому разработчики логико-синтаксического метода старались более четко разграничить собственно языковые категории и категории логики, а также действовали в направлении модификации логических принципов. Так, Ф. И. Буслаев ввел в синтаксический анализ второстепенные члены предложения — дополнения и обстоятельства, — не имеющие аналогов в составе логического суждения. Однако логическое описание языка не давало надежного принципа классификации языковых форм, а также не позволяло оценивать такие аспекты речи как, например, эмоциональный, оценочный и коммуникативный.

Проблема неоднозначности синтаксического анализа при логико-синтаксическом методе анализа языка практически не возникала, поскольку этот метод был достаточно субъективен. Исследователь сам и вполне "однозначно" устанавливал связь между категориями логики и грамматики, а второстепенные члены предложения, которые в основном и являются источником синтаксической омонимии, в рамках данного метода практически не изучались.

Как оппозиция логическому направлению в 50-х гг. XIX в. в лингвистике стало развиваться психологическое направление, в рамках которого возник пснхолого-синтаксический метод анализа предложения. Данное направление возникло под влиянием философии языка В. фон Гумбольдта, согласно которой язык можно изучать только в связи с сознанием и мышлением человека, его культурой и духовной жизнью. Основателем психологического направления в лингвистике принято считать X. Штейнталя.

В качестве методологической основы своих исследований сторонники психологического направления брали не логику, а психологию. Вместо логического суждения они использовали суждение психологическое, которое в общих чертах представляло собой соединение в психике говорящего каких-либо представлений. Поскольку методологическая база данного направления весьма разнообразна, то и возникавшие на ее основе синтаксические теории сильно отличались между собой: по-разному определялись психологическое суждение и его объем, его отличие от логических суждений, взаимоотношения между психологическим суждением и предложением и т.п. На материале русского языка психолого-синтаксический метод впервые разработал Л. Л. Потебня. В отличие от своего немецкого предшественника X. Штейнталя, который считал, что язык есть мышление, Л.А.Потебня, хотя и использовал психологический подход, однако признавал существование формальных свойств грамматики и подчеркивал ее специфические качества [Потебня, 1889].

Наибольшее влияние на последующие синтаксические разработки оказала концепция Л. А. Шахматова, изложенная в его "Синтаксисе русского языка" [Шахматов, 2001]. Он же составил одно из самых полных описаний типов простого предложения в русском языке.

Шахматов считал главной синтаксической единицей предложение, поскольку оно выражает единицу мышления, но выделял также слово и словосочетание. Он определял предложение как "словесное, облеченное в грамматическое целое [...] выражение психологической коммуникации" [Шахматов, 2001, с. 29], понимая под психологической коммуникацией "сочетание двух представлений, приведенных движением воли в предикативную (т.е. вообще определяющую, в частности зависимую, причинную, генетическую) связь" [Шахматов, 2001, с. 19]. Таким образом, понятие коммуникации Шахматова было гораздо шире понятия пропозиции последователей логического направления. В теории Шахматова коммуникация состоит из двух частей: психологического субъекта (представление о предмете, субстанции — господствующее представление) и психологического предиката (представление о признаке — подчиненное представление). Они составляют содержание всякой коммуникации. Господствующему представленню соответствует подлежащее (главный член господствующего состава), зависимому — сказуемое (главный член зависимого состава), они являются принадлежностью двусоставного предложения. В односоставном предложении господствующему и зависимому представлениям коммуникации соответствует один член предложения.

Подлежащее и сказуемое являются главными членами предложения, остальные члены предложения Шахматов назвал второстепенными (зависимыми). Он разделил отношения, возникающие между различными членами предложения, на несколько типов: предикативные (имеющие место межу главными членами двусоставного предложения, но остающиеся невыраженными в односоставных предложениях), атрибутивные (представляемые необособленным определением), атрибутивно-предикативные, объектные (реализуемые дополнениями) и релятивные (выраженные релятивным дополнением II обстоятельством). На основании этих отношений и морфологической сущности и происхождения слов Шахматов выделил ряд других членов предложения. Все члены предложения он разделил на четыре группы: помимо главных (господствующих) членов предложения и зависимых членов, Шахматов выделил еще служебные члены (связки) и слова, не составляющие членов предложения (обращения и вводные слова и конструкции).

Лексическая многозначность

Первую из причин, перечисленных в предыдущем пункте, мы назовем лексической многозначностью. Она вызывает появление конкурирующих структур за счет неопределенности выбора той или иной языковой единицы при анализе предложения. К лексической многозначности можно отнести следующие явления:

Омонимия (звуковое совпадение различных языковых единиц, значения которых не связаны друг с другом) и полисемия (наличие у единицы языка более одного значения). В качестве иллюстрации такого рода неоднозначности можно привести пример С. Я. Фитиалова Положи тетрадь в клетку. Чаще лексическая омонимия приводит к неоднозначности на уровне типа синтаксической связи (этот вид неоднозначности может возникать при анализе предложения с помощью грамматик, учитывающих тины синтаксических отношений): объектн./обстоят.

Грамматическая конверсия — переход слова из одной части речи в другую. Синтаксическая неоднозначность часто возникает из-за возможности использовать прилагательные и причастия в значении существительного. Как указывал Ф.Л. Дрейзин, окказиональная субстантивация прилагательных и причастий заметно увеличивает количество синтаксически неоднозначных предложений [Дрейзин, 1966(г), с. 56]. Так, один из возможных способов интерпретации фразы в известном примере Раскапывая погребенных в земле слепых исполинов связан с использованием слова погребенных в роли существительного: [Раскапывая погребенных] в [земле слепых исполинов].

Частичная лексическая омонимия (совпадение отдельных форм слов, называемых омоформами) и грамматическая омонимия (совпадение форм одного слова). Иллюстрацией такой неоднозначности является, например, предложение Ответов на эти вопросы физики пока не могут дать. Словоформа физики здесь может являться как формой существительного ед. ч., род. п., так и формой существительного мн. ч., им. п. 2.2.4. Неоднозначность интерпретации проформы

Отдельно можно говорить о синтаксической неоднозначности, вызванной возможностью неоднозначной интерпретации проформы — местоименных лексем, заменяющих именные и предложные группы. Так, одной из причин возникновения неоднозначности в предложении Доклад ученого, о котором я вам говорил является способность проформы котором замещать собой как именную группу доклад ученого, так и именную группу у ченого. доклад [ученого, [о котором я вам говорт]] доклад [ученого], [о котором я вам говорил] В современной лингвистике релятивизация рассматривается как частный случай Wh-передвижения. В нашем прішере придаточное предложение получается передвижением из базы [я вам говорил о котором].

Если же проформа интерпретируется однозначно, синтаксической неоднозначности не возникает: доклад [аспирантки, [о которой я вам говорил]] доклад [аспирантки], [о котором я вам говорил]. В эту же группу можно отнести случаи неоднозначной интерпретации нулевых подлежащих нефинитных клауз: Он І попросил iiXj, PROjj уходя, PROj выключить свет. PRO инфинитивного оборота в этом предложении интерпретируется однозначно — оно корефереитно прямому дополнению главного предложения [Тестелец, 2001, с. 290]. Однако PRO деепричастного оборота может быть корефереитно как подлежащему главного предложения, так и нулевому подлежащему инфинитивного оборота. Если бы русский язык предоставлял грамматические средства идентификации PRO деепричастного1- оборота (например, позволяя различать в деепричастиях категорию числа), неоднозначности синтаксического анализа в таких конструкциях не возникало бы.

Можно говорить и о синтаксической неоднозначности, вызванной омографами (одинаковыми по написанию словами, имеющими разное звучание) и омофонами (одинаковыми по звучанию словами, отличающимися по написанию).

Все это знали — из-за отсутствия разграничения букв е и ё предложению можно приписать две разных структуры.

В учебниках по стилистике и журналистике говорится об опасности невольных каламбуров, вызванных омофонией и неверным делением текста на речевые единицы: С свинцом в груди лежал я недвижим; Молено ли быть равнодушным ко злу; Шуми, шуми волнами, Рона (гаи волна Мирона?) [Голуб, 1997, с. 50]. Подобные предложения могут быть неоднозначными только в устной речи.

Поскольку описанные явления связаны не с устройством, а с распознаванием синтаксической структуры, в данной работе мы не будем отдельно останавливаться на неоднозначностях, вызванных омографами и омофонами. Мы будем считать, что связи между словами в предложении соответствуют русской синтагматике и правилам пунктуации.

Термины и понятия, введенные для анализа неоднозначных конструкций

В данном разделе мы определим некоторые основополагающие понятия, необходимые нам для анализа случаев синтаксической неоднозначности, возникающих в русском языке.

Определить синтаксическую структуру предложения — это значит разделить предложение на составляющие части и определить отношения между этими частями. В качестве минимальных составных частей предложения мы будем рассматривать словоформы. Словоформы будут являться узлами синтаксической структуры.

Словоформы в предложении могут быть связаны между собой грамматическими отношениями различных типов. Наиболее популярным в российской лингвистике способом формального представления структуры предложения является структура зависимостей2 [Тестелец, 2001, с. 107]. В этой главе мы будем использовать грамматические отношения, применяющиеся в структурах зависимостей [Гладкий, 1985; Долинина, 1977; Севбо, 1981]. Именно это понимание зависимостей использовали Ф. А. Дрейзин и Л. Н. Иорданская.

Спорным вопросом при таком подходе является определение зависимостей в сочинительных конструкциях. Существует несколько способов представления зависимостей в конструкциях типа Прошли день и ночь [Тестелец, 2001, с. 103]. Ситуация осложняется тем, что сказуемое в нашем примере стоит во множественном числе. Этому предложению разные исследователи сопоставили бы разные конструкции, что не обозначает, что данное предложение является неоднозначным. Ниже в особом разделе мы подробно рассмотрим синтаксическую омонимию в предложениях, содержащих сочинительные конструкции.

Грамматические отношения, возникающие между элементами предложения, обозначаются с помощью дуг, соединяющих главное слово (хозяина) и зависимое слово (слугу). Неоднозначные структуры, лежащие в основе синтаксически неоднозначного предложения, мы будем называть конкурирующими структурами. Они возникают из-за того, что не все связи в предложении устанавливаются однозначно. Связи, неоднозначно определяемые для конкурирующих структур, мы назовем омонимичными связями или омонимичными дугами. Узел, связи которого в данном предложении устанавливаются неоднозначно, мы будем называть омонимичным узлом. Этот термин В современной зарубежной лингвистике структуру предложения чаще представляют с помощью системы составляющих или в терминах Х-штрих теории, являющейся одним из модулей современной генеративной грамматики. был введен Ф. Л. Дрейзиным для обозначения слуг, которые могут зависеть более чем от одного хозяина [Дрейзин, 1966(г), с. 56]. Мы будем использовать этот термин для обозначения любых узлов, связи которых в рассматриваемом предложении определяются неоднозначно. Слугу, который может зависеть более чем от одного хозяина, мы будем называть омонимичным слугой. Хозяина, который может подчинять к себе того или иного слугу, мы назовем омонимичным хозяином.

Рассмотрим валентность омонимичного хозяина, которую в одной их конкурирующих конструкций заполняет омонимичный слуга. Эта валентность может не требовать обязательного заполнения (такой является, например, валентность существительного на прилагательное). Такой узел мы будем называть слабым омонимичным хозяином. Так, узел тетки в предложении Приехали родные тетки является омонимичным слугой, поскольку он может зависеть от двух разных элементов предложения. Кроме того, он является слабым хозяином, поскольку его валентность на прилагательное родные не является обязательной. То же самое можно сказать и об узле родные.

Кроме того, в некоторых случаях сам узел в разных конкурирующих конструкциях обладает разным набором валентностей. Это бывает, во-первых, когда хозяин сам но себе является омонимом, как в примере Эти типы стали есть в литейном цехе существительное типы в одной из конструкций должно присоединять к себе зависимый элемент стали. Во-вторых, такая ситуация может возникать с глаголами типа читать и рисовать, которые могут употребляться абсолютивно или как переходные. Узел, валентность которого в одной из конкурирующих конструкций требует обязательного заполнения, а в другой конкурирующей конструкции заполнения не требует, мы будем относить к сильным хозяевам, хотя в отдельных случаях будем оговаривать, что этот хозяин является переменным. В качестве примера можно привести узел не слышит в неоднозначном предложении Учитель пения не слышит.

Если в предложении есть омонимичный хозяин и оно не содержит сочинительных конструкций, то его возможные слуги являются либо омонимичными слугами, либо корневыми омонимичными хозяевами.

В зависимости от числа слуг, которые в конкурирующих конструкциях прикрепляются к тем или иным хозяевам, мы будем делить различать одноместные, двухместные, трехместные и т.д. конкуренции. Одноместной конкуренцией мы будем называть такое сочетание, при котором конкурирующие конструкции различаются положением только одного узла: Роняет лес багряный свой убор.

При двухместной конкуренции два узла выступают в роли омонимичных слуг. Так, в предложении Все же он не вызвал на собрание герцогов и королей в каком-то немецком городе поэта Гердера подчеркнутые элементы являются омонимичными слугами, а само предложение допускает две конкурирующие конструкции.

В русском языке число омонимичных слуг в предложении может быть очень большим, но конструкции с тремя и более омонимичными слугами принципиально не отличаются друг от друга, поэтому, структуры, в которых число омонимичных слуг превышает два, мы будем называть многоместными конкуренциями: Письма знакомой из Киева не заменят фотографии его любимой и милой дочери Марии. Это предложение, представленное на одной из московских лингвистических олимпиад, допускает не менее 512 структур. В роли омонимичных слуг здесь может выступать почти каждый элемент предложения.

Узел и все словоформы, зависящие от него непосредственно или через узлы-посредники принято называть группой. Тип группы определяется по типу узла, от которого прямо или косвенно зависят остальные узлы группы: именная группа (дом на набережной), предложная группа (на самом последнем этаже) и пр.

Мы будем называть синтагматическими разделителями вводные слова и предложения, причастные и деепричастные обороты и другие элементы, разделяющие зависимое и главное слово и усложняющие разбиение предложения на синтагмы.

Глагольным словом мы будем называть глагол, причастие, деепричастие и отглагольное существительное. Вслед за Л. Н. Иорданской мы будем обозначать глагольное слово через Сгл..

Для обозначения частей речи мы будем пользоваться принятыми в российском языкознании сокращениями: S — существительное, V — глагол, А — прилагательное, Adv — наречие и т.д. Падеж существительного будет указываться в виде нижнего индекса: SIBOp — существительное в творительном падеже. Л. Н. Иорданская использует в своей классификации понятие сильного управления, не поясняя, что обозначается этим понятием. По всей видимости, Л. Н. Иорданская использует его для обозначения сильный подчинительных связей, которые Русская грамматика определяет как реализацию восполняющих или объектных отношений, распространяющих информационно недостаточные слова [Русская грамматика, 1982, с. 20]. Мы будем говорить о сильном управлении в тех случаях, когда слуга заполняет обязательную валентность хозяина. Слово, сильно управляющее каким-либо падежом (например, родительным), мы будем обозначать Ссу.род.

Понятие "разрешение синтаксической неоднозначности"

Как правило, конкурирующим структурам предложения соответствуют разные смыслы. Задача исследователя или адресата— с помощью анализа получить нужный смысл, который обычно связан с теми или иным отношениями между словами, то есть с нужной структурой.

Можно говорить о двух различных механизмах интерпретации предложений на синтаксическом уровне. Первый из них приписывает предложению или его фрагменту какую-то структуру или несколько структур. Второй механизм, вступающий в действие при появлении нескольких конкурирующих структур, отфильтровывает "неподходящие" структуры. Как показывает изучение временно неоднозначных предложений, "отфильтровывание" происходит параллельно с работой первого механизма, то есть на стадии формирования структур [Trueswell, 1991; Sturt, 2002]. Все, что остается после работы второго механизма, является "правильным".

Работа двух этих механизмов в сознании коммуникантов происходит оптимальным образом: адресат, как правило, "не замечает" синтаксически неоднозначных предложений и улавливает именно тот смысл, который до него пытается донести адресант. В отдельную группу "коммуникативных неудач" можно отнести те случаи, когда предложение (по причине непонимания, недоразумения, слабого владения языком, плохой слышимости и проч.) получает разную интерпретацию у адресата и адресанта.

О грамматическом анализе можно говорить только в терминах моделей — формальных или неформальных, — так как непосредственно наблюдать, что происходит в сознании коммуникантов, невозможно. Оптимальная искусственная модель, анализирующая структуру предложения, должна по результатам работы не отличаться от той естественной системы, которая действует в головах у коммуникантов.

Синтаксический анализатор должен "отфильтровывать" неправильные структуры еще на стадии построения структуры фразы. И задача разработчиков искусственных анализаторов состоит в том, чтобы максимально приблизить механизм "отфильтровывания" неправильных конструкций к тому механизму, которым пользуются коммуниканты.

Необходимо учитывать, что далеко не во всех случаях требуется полное разрешение синтаксической неоднозначности. Во-первых, неоднозначность может быть вызвана языковой неопределенностью [Ullmann, 1962, с. 118—124; Channell, 1994, с. 35—37], которая связана с неопределенностью действительности, моделью которой являются тексты. Разрешение синтаксической неоднозначности не требуется в примерах типа Роняет лес багряный свой убор. Независимо от того, относится ли эпитет багряный к слову лес или к слову убор, содержание предложения и его поэтическая составляющая принципиально не меняются.

Во-вторых, сам адресант не всегда стремится к однозначной подаче информации. В речи есть место и игре слов, и сознательно неоднозначным формулировкам, как в примере Иосифа Бродского Искусство есть искусство есть искусство.

Синтаксическая неоднозначность бывает необходима для передачи комического эффекта, как, например, в предложении Джерома К. Джерома For the next two days he lived a simple and blameless life on thin captain biscuits (I mean that the biscuits were thin, not the captain). При обработке таких предложений (например, для перевода их на другой язык) синтаксическая неоднозначность сниматься не должна.

В докладе о синтаксическом анализе (ИТМ и ВТ АН СССР, 1960 г.) 10. С. Мартеьянов отметил, что в переводческой практике вполне допустимо переводить двусмысленную фразу аналогичной двусмысленной фразой, оставляя читателю выходной фразы выбор нужного анализа. Например, французская фраза с омонимичным слугой-определением La directrice d une sosiete enrhumee может быть переведена на русский синтаксически неоднозначным предложением с омонимичной предложной группой: Директриса общества с насморком [Дрейзин, 1966(6), с. 41]. В современной корпусной лингвистике при разметке текстов иногда сохраняются единицы, имеющие множественную интерпретацию, чтобы предоставить пользователю возможность самому выбрать нужный вариант [Копотсв, 2004, с. 172].

Таким образом мы видим, что снятие синтаксической неоднозначности требуется далеко не всегда. В некоторых случаях неоднозначность является частью авторского замыла, в других случаях она связана с языковой неопределенностью. Отдание предпочтения той или иной конкурирующей структуре в подобных предложениях будет равноценно внесению избыточной определенности и отсечению других возможных интерпретаций.

Естественный язык хороню приспособлен к тому, чтобы избегать неоднозначных ситуаций. Язык содержит много "подсказок", позволяющих однозначно интерпретировать ту или иную фразу. Задачей анализатора является выявление этих "подсказок".

На основании типа информации, которая используется при анализе конкурирующих структур, мы выделим следующие способы разрешения синтаксической неоднозначности: а) лексические (основывающиеся на описании семантических свойств и валентностных способностей слова); б) конфигурационные (основанные на свойствах синтаксических структур); в) квантитативные (учитывающие частоту встречаемости словосочетаний); г) просодические (учитывающие просодическое оформление предложения); д) коммуникативно-стилистические (учитывающие особенности линейной организации предложения) е) психолингвистические (оценивающие степень приемлемости конкурирующих конструкций для носителя языка); ж) контекстные (использующие контекст, в котором употреблено предложение); з) генеративные (использующие скрытые закономерности языка, выявляемые генеративной грамматикой).

Похожие диссертации на Проблемы неоднозначности синтаксического анализа