Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Корпусно-ориентированное исследование референции : Принципы аннотации и анализ данных Красавина Ольга Николаевна

Корпусно-ориентированное исследование референции : Принципы аннотации и анализ данных
<
Корпусно-ориентированное исследование референции : Принципы аннотации и анализ данных Корпусно-ориентированное исследование референции : Принципы аннотации и анализ данных Корпусно-ориентированное исследование референции : Принципы аннотации и анализ данных Корпусно-ориентированное исследование референции : Принципы аннотации и анализ данных Корпусно-ориентированное исследование референции : Принципы аннотации и анализ данных Корпусно-ориентированное исследование референции : Принципы аннотации и анализ данных Корпусно-ориентированное исследование референции : Принципы аннотации и анализ данных Корпусно-ориентированное исследование референции : Принципы аннотации и анализ данных Корпусно-ориентированное исследование референции : Принципы аннотации и анализ данных Корпусно-ориентированное исследование референции : Принципы аннотации и анализ данных Корпусно-ориентированное исследование референции : Принципы аннотации и анализ данных Корпусно-ориентированное исследование референции : Принципы аннотации и анализ данных
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Красавина Ольга Николаевна. Корпусно-ориентированное исследование референции : Принципы аннотации и анализ данных : диссертация ... кандидата филологических наук : 10.02.19, 10.02.21.- Москва, 2006.- 259 с.: ил. РГБ ОД, 61 06-10/1443

Содержание к диссертации

Введение

Глава 1 CLASS Введени CLASS е 6

1.1 Постановка задачи 9

1.2 Материалы и метод 12

1.3 Цели и задачи работы 15

1.4 Научная новизна 18

1.5 Теоретическое и практическое значение 20

1.6 Апробация работы 21

1.7 Структура работы 22

Глава 2 Референция в дискурсе 24

2.1 Теоретические рамки 25

2.1.1 Мотивированность языка когнитивными структурами и процессами 26

2.1.2 Принцип иконического соответствия 27

2.1.3 Понятие маркированности 28

2.1.4 Вместо резюме 30

2.2 Понятийный аппарат 31

2.2.1 Когнитивный компонент 32

2.2.2 Анафора и катафора, референция и кореферентность 33

2.2.3 Анафора, ассоциативная анафора, дейксис 37

2.2.4 Дискурсивная анафора 38

2.2.5 Терминология (референциальные средства) 39

2.3 Когнитивная мотивация референциального выбора 40

2.3.1 Иерархия доступности 42

2.3.2 Иерархия данности 44

2.3.3 Ограничения теорий когнитивной доступности и возможности их дополнения 45

2.4 Индикаторы доступности, выделенности, или активации 48

2.4.1 Независимый способ определения степени активации 48

2.4.2 Центральность, одушевленность и подлежащность 50

2.4.3 Дискурсивный статус и форма антецедента 53

2.4.4 Конфликт «противоречащих мотиваций» 54

2.5 Выводы главы 2 55

Глава 3 Фактор дискурсивной структуры и расстояние 57

3.1 Принципы организации дискурса 62

3.1.1 Линейная структура 62

3.1.2 Риторическая структура 65

3.1.3 Влияние риторической структуры по сравнению с линейной 67

3.2 Теории дискурсивно-структурной доступности 71

3.2.1 Теория стэков 71

3.2.2 Теория вен 73

3.2.3 Попытки интегрирования модели стеков и Теории Риторической Структуры 74

3.3 Репрезентация теории стеков и теории вен на общем основании 77

3.3.1 Метод 77

3.3.2 Репрезентация теорий 84

3.4 Эмпирическая проверка предсказаний теории вен и теории стеков 87

3.4.1 Вводные замечания 87

3.4.2 Методологические аспекты имплементации иерархического расстояния 91

3.4.3 Обсуждение результатов 92

3.5 Понятие риторического расстояния 95

3.5.1 Исходный метод 95

3.5.2 Модифицированный метод риторического расстояния 100

3.6 Проблема определения антецедента 100

3.7 Эмпирическая проверка риторического расстояния и сравнение с теорией вен и теорией стэков 104

3.7.1 Имплементация 104

3.7.2 Обсуждение результатов 107

3.7.3 Связь линейного и иерархического расстояния 112

3.7.4 Другие аспекты риторической структуры 115

3.8 Выводы Главы 3 115

Глава 4 Аннотация крупного корпуса для изучения референциального выбора 118

4.1 Развитие корпусных методов исследования референции 119

4.1.1 Требования к корпусной аннотации 123

4.1.3 Существующие аннотационные схемы 124

4.2 База данных: корпуса и их характеристики 131

4.2.1 RST Discourse Treebank 131

4.2.2 Potsdamer Commentary Corpus 132

4.3 Осуществление референциальной аннотации корпусов RST Treebank и

РСС 133

4.3.1 Принципы разметки анафорических выражений 135

4.3.2 Принципы разметки анафорических связей 149

4.3.3 Стратегии по устранению двусмысленности при аннотации 153

4.3.4 Принципы разметки дополнительных признаков 156

4.4 Имплементация схемы 161

4.4.1 Техническая имплементация 161

4.4.2 Процедура аннотации 165

4.5 Выводы Главы 4 167

Глава 5 Корпусное исследование факторов референциального выбора 169

5.1 Пилотные исследования 169

5.1.1 Результаты английского исследования 170

5.1.2 Результаты немецкого исследования 178

5.1.3 Сравнение и обсуждение результатов 187

5.2 Корпусное исследование: предварительные замечания 191

5.2.1 Свойства референта 192

5.2.2 Свойства антецедента 197

5.2.3 Свойства пары анафора и антецедента 207

5.2.4 Комплексные эффекты 211

5.2.5 Другие факторы 217

5.3 Выводы Главы 5 219

Глава 6 Заключение 223

Литература 227

Приложение 248

Введение к работе

Для понимания того, что такое грамматика, и почему она устроена так, как она устроена, необходимо учитывать естественные параметры, которые определяют язык и грамматику: сознание и коммуникацию, устройство мозга и сознания, социально-обусловленные процессы и культуру, изменение и вариативность, усвоение языка и его эволюцию. (Givon 1995:xv) (перевод мой - O.K.)

Творческий характер - это одно из фундаментальных свойств человеческого языка. Говорящий располагает богатым инвентарем возможностей вербализации одного и того же смысла. Называя объекты действительности, говорящий выбирает одну из них. Рассмотрим следующий пример из газеты Wall Street Journal:

(1.1) Сержио Мартинез, паяльщик, содержащий свою семью, состоящую из семи человек, на сумму около семи долларов в день, откладывал каждое песо, когда (он/Сержио Мартинез/Мистер Мартинез) только мог, чтобы оплатить своей дочери, Гризельде, обучение в частной школе. Как одна из единиц бедных учеников, имеющих среднее образование, Мисс Мартинез (Гризельдаїона) мечтала стать художником-декоратором. Но в итоге она ({0/ эта} молодая женщина / молодой специалист) смогла получить только секретарскую работу. В возрасте тридцати четрырех лет и незамужем, она (Мисс Мартинез / эта женщина / * его дочь) зарабатывает всего семьдесят долларов в неделю и спрашивает себя, не непрасно ли была жертва ее отца (*Мистера Мартинез / *его) [перевод мой - ОК]1).

Мы видим, что в ряде случаев существует более одной возможности

Sergio Martinez, a tinsmith who supported his family of seven on the equivalent of a few dollars a day, saved every peso he (*{Mr. /Sergio} Martinez) 1 could to pay for a private-school education for his daughter, Griselda. As one of the few poor students in town to finish high school, Ms. Martinez (Griselda /she) dreamed of becoming an interior designer. But all she ({the/this} young {woman/professional}) could land was a secretarial job. Now 34 old and unmarried, she (Ms. Martinez / this woman / *his daughter) earns just $70 a week and wonders whether her father's (*Mr. Martinez's I *his) sacrifice was in vain (The WSJ, Vol. XXIII No. 117, July 18,2005).

референции к протагонистам данного отрывка (отдельные возможности лексических альтернатив перечислены в скобках). Так, Griselda (см. второе предложение), по всей вероятности, ничего не меняет в интерпретации референта и, таким образом, является не менее приемлемой альтернативой, чем употребленное Ms. Martinez. Однако возможность лексического варьирования не безгранична. В приведенном выше примере некоторые употребления референциальных выражений совершенно незаменимы. Так, во второй строке полная именная группа невозможна на месте местоимения he, а именная группа Ms. Martinez в последнем предложении не может быть заменена на референциально эквивалентную дескрипцию his daughter, a her father's нельзя заменить именной группой Mr. Martinez's.

Процесс выбора говорящим одного из нескольких потенциально возможных средств референции во время порождения речи, результатом которого является связное, когерентное высказывание, мы будем называть референциальным выбором вслед за Chafe (1980); Ariel (1990); Кибрик (1997). Референциальный выбор тесно связан с установлением когерентности -механизмом, благодаря которому текст воспринимается как единое целое, а не как набор частей.

Объектом исследования настоящей работы является именная референция, то есть референциальный выбор именных групп. Именные группы (далее, ИГ) могут составлять от 55 до 80 процентов текста (в зависимости от жанра), ср. Biber et al. 1999:231,2, и, по мнению данных авторов, являются основными носителями смысла в дискурсе.

Употребление референциальных средств является популярной исследовательской темой в последние десятилетия и представлено в литературе по теории языка (например, Givon 1983; Chafe 1976, 1994; Ariel 1990, 2001; Gundel et al. 1993; Stevenson et al. 1995; Кибрик 1996, в связи с проблематикой когнитивной доступности, или выделенное референта; Fox 1987; Asher 1993; Cristea et al. 2000 - о связи дискурсивной структуры и

2 Подсчеты были произведены для английских текстов для всех ИГ, в том числе для ИГ без определенной референции.

референциальной доступности) и в прикладных исследованиях (например, Ge et al. 1998; Wolters 2001; Mitkov 2002; Gardent 2003, в связи с проблематикой разрешения и генерирования анафоры). В российской традиции об анафоре и референции в целом писали В.В. Иванов (1979), А.С. Чехов (1981), Н.Д. Арутюнова (1982), М.А. Кронгауз (1983) Е.В. Падучева (1985.), Л.И. Куликов (1985), А.А. Кибрик (1987; 1997 и т.д.), О. Богуславская и И. Муравьева (1987); Г.Е. Крейдлин и А.С. Чехов (1989), В.И. Подлесская (1990), В. Гладров (1992), А.Д. Шмелев (1992), СЮ. Толдова (1994) и другие.

Мы исходим из распространенной гипотезы, что референциальный выбор тесно связан с процессом активирования информации в кратковременной памяти (working memory) (Chafe 1994; Tomlin and Pu 1991; Givon 1995; Kibrik 1999). Этот когнитивный процесс регулируется с помощью ряда синтаксических, лексико-семантических и прагматических факторов, как, например, информационный статус, синтаксическая и семантическая роль референта и т.д.

Поскольку референциальный выбор в каждом конкретном случае зависит от совместного влияния различных факторов, мы говорим о референциалыюм выборе как о многофакторном процессе, ср. Givon (1980), Кибрик (1997), Strube and Wolters (2000). Исследование природы этих факторов на представительном эмпирическом материале является в данный момент актуальной задачей, которую, ввиду количества накопленного опыта в области анафоры, можно по праву считать своевременной и назревшей, а также значимой для лингвистики в целом, ср. Кибрик (1997):

Многие языковые явления и процессы не могут быть объяснены элементарным образом, так как их реализация зависит от множества факторов одновременно... Одна из насущных задач лингвистики - научиться описывать многофакторные процессы, то есть моделировать взаимодействие релевантных факторов.

1.1 Постановка задачи

Каждый день человек сталкивается с новой информацией. Для того, чтобы адекватно реагировать на нее, он нуждается в специфических когнитивных механизмах. При встрече с неизвестным человек ищет «ключи» - признаки, на основании которых он может активировать тот или иной механизм. Эта способность человека позволяет отождествить объект на основании всего лишь нескольких признаков, как, например, при распознавании объектов на расстоянии. Эта способность, с другой стороны, является причиной стереотипов и клише: мы смотрим на вещи, на людей и на события через призму известного и знакомого. Как в жизни, так и в науке, это может являться источником систематических искажений реальности. В настоящее время накоплена огромная база знаний в области исследования принципов и условий употребления средств референции. Но степень влияния различных факторов на референциальный выбор по сей день не ясна.

Очевидно, причина стагнации не в том, что анафору недостаточно исследовали. Логично подозревать причину в том, «как». Во-первых, поколения лингвистов занимались изучением анафоры исключительно методом интроспекции, причем на лично изобретенных примерах. Во-вторых, из-за технической и методологической сложности работы с крупными корпусами текстов, большинство эмпирических исследований до сих пор часто проводилось всего лишь на нескольких десятках естественно-языковых примеров. Но как, не имея перед собой предсавительных эмпирических данных, можем мы понять, где истина, а где мы переступаем границы разумного? Не начинаем ли мы вместо того, чтобы создавать модели, объясняющие язык, строить наше восприятие языковой действительности на основании наших же моделей?

Проблемой чисто теоретических дискуссий, основывающихся на ограниченных эмпирических или вообще искусственных данных, является отсутствие объективной возможности разрешить конфликты между их предсказаниями. Рассмотрим несколько примеров таких конфликтов.

Исходя из допущения когнитивно-ориентированных теорий, что

позиция субъекта используется для кодирования самого активированного референта в предыдущем предложении, в следующей клаузе ожидается местоименная референция к этому объекту, ср. (Grosz et al. 1995). На основании этого допущения можно объяснить примеры (1.2а) и (1.2Ь), но не (1.2с).

С другой стороны, существует гипотеза синтаксического параллелизма, суть которой состоит в том, что синтаксическая позиция местоимения имеет тенденцию совпадать с синтаксической позицией антецедента (Stevenson et al. 1995). Это объясняет местоименную референцию в (1.2с), но не в (1.2а) и

(1.2b).

(1.2а) John kicked Bill. Mary told him to go home. [=John]

(1,2b) Bill was kicked by John. Mary told him to go home. [=Bill]

(1.2c) John kicked Bill. Mary punched him. [=Billf Случаи конфликта часто представляют собой тупиковые ситуации для систем разрешения анафоры, которые строятся на имплементации предпочтений - преимуществ одних факторов перед другими (ср. Orasan et al. 2000). Рассмотрим еще ряд примеров:

(1.3а) George removed the disc from the computer and then disconnected it.

(1.3b) George removed the disc from the computer and then copied it.

(1.3c) The Chinese have been copying American computers and producing them at

less than a quarter of the cost*. В (1.3 a) разрешение анафоры происходит неправильно, если алгоритм строится на имплементации преимуществ одних грамматических ролей перед другими. Ближайшим антецедентом, совпадающим с анафором по роду и имеющим более приоритетную роль, является the disc (прямой объект), тогда как правильный антецедент, the computer, имеет менее престижную роль. Однако в (1.3Ь) эта стратегия работает: the computer и it являются прямыми объектами. В (1.3с) стратегия предпочтений вообще не работает, так как референция производится к некоторому имплицитному объекту, а не

3 (Kehler 2002 с. 143). Идентификация референта (в квадратных скобках) проводилась в рамках эксперимента. (Mitkov 2002:46)

непосредственно к американским компьютерам.

В российской лингвистике основополагающие работы по референции принадлежат Е.В. Падучевой (Падучева 1980; 1982; 1983; 1985). В работах Е.В. Падучевой рассматривается широкий спектр употреблений референциальных средств, и описываются семантические различия между этими употреблениями. В работе В.Н. Полякова денотативные статусы Е.В. Падучевой расшифровываются в логико-семантических терминах - в виде лингво-семантических графов (Поляков 1997).

Принимая во внимание выдающиеся заслуги Е.В. Падучевой в изучении референции, необходимо отметить, что остаются области, требующие дополнительных исследований. Так, например, в работе (Падучева 1985) охвачено большое количество случаев употребления группы этот X. И все же остается неясным, какие факторы предопределяют употребление именно указательной группы с местоимением этот, а не простой ИГ или местоимения, так как вышеперечисленные условия могут также выполняться и для простых ИГ, и для местоимений. Классификация личных местоимений предлагается лишь с точки зрения денотативных статусов их антецедентов и логической структуры предложения.

В настоящем исследовании мы будем придерживаться другой методологической установки, согласно которой модель употребления некоторого референциального средства должна не только описывать некоторые случаи употребления, но и подтверждать или опровергать гипотезы о влиянии тех или иных факторов. Мы покажем, что объяснительная модель референциального выбора должна быть многоуровневой, в том смысле, что эти факторы принадлежат различным описательным уровням языка, а не только одному уровню - семантике или синтаксису. Единственный способ проверить влияние факторов на различных уровнях - это исследовать природу этих факторов на представительном корпусном материале. В настоящем исследовании мы выбрали именно этот путь.

1.2 Материалы и метод

Анафора - сложный механизм и усваивается полностью относительно поздно, ср. (de Week 1991; Childers and Tomasello 2001, Millogo 2005). Сложность функционирования анафорического механизма в дискурсе отчасти является причиной того, что, несмотря на пристальное внимание исследователей, многие методологические и теоретические вопросы в области анафоры остаются открытыми. Другая причина - историческая: долгое время занятие лингвиста состояло буквально в том, чтобы размышлять над отдельными примерами, в лучшем случае, вырванными из контекста, а чаще просто придуманными. Результатом этого процесса стало появление системы абстрактных, независимых от коммуникативных функций правил, пригодных для объяснения того или иного языкового употребления в этих примерах (ср. Chomsky 1981, 1995; Reihnart 1983). Такой способ формально-синтаксического изыскания известен также под несколько саркастичным именем armchair linguistics, поскольку, грубо говоря, все, что нужно для исследования - это кресло и собственная языковая компетенция. Подробнее мы остановимся на этом подходе в подразделе 1.2; на данном этапе достаточно отметить, что настоящее исследование не разделяет его исходных положений. Хотя метод интроспекции может оказаться чрезвычайно полезным на отдельных стадиях исследования, опасно основывать целые теории только на нем, то есть без отсутствия эмпирической базы.

В 1990-х годах лингвисты самых различных лингвистических направлений в своих исследованиях все чаще стали обращаться к корпусам. Использование корпусов влечет за собой ряд преимуществ перед психолингвистическими методами и методом интроспекции, основные из которых необходимо перечислить:

  1. возможность проводить исследование на материале большого объема;

  2. эффективная, автоматизированная обработка данных;

  3. проведение исследования на материале естественных языковых примеров;

  4. воспроизводимость исследования.

В настоящее время корпуса широко используются в исследованиях лексических и грамматических явлений. Так, в современных грамматиках английского языка (Huddleston and Pullum 2002; Biber et al. 1999) используются примеры из корпусов и количественные данные, основанные на этих корпусах. Однако в дискурсивном анализе - области, в которой более, чем где-либо, важна роль контекста - корпусный метод до сих пор используется недостаточно (ср. McEnery and Wilson 1996, 2000; Kennedy 1998; Biber etal. 1998).

В данной работе мы использовали корпуса английских и немецких газетных текстов: RST Discourse Treebank (Carlson et al. 2003), Potsdam Commentary Corpus (Stede 2004) и NEGRA (Skut et al. 1997). Первые два корпуса были выбраны потому, что они являются на сегодняшний день единственными, которые обладают аннотацией по риторической структуре (Mann and Thompson 1987; Mann and Thompson 1988, см. 3.1.2), как показано на Рис. 1. Возможность исследовать эффект риторической структуры на большом корпусе текстов делает возможным неосуществимые ранее исследования, поскольку этот фактор является потенциально релевантным, но наименее изученным фактором референциального выбора. Таким образом, выбор английского и немецкого языков для исследования был продиктован, в первую очередь, имеющимися корпусами, хотя любой язык мог бы стать объектом исследования: влияние фактора иерархической структуры дискурса на референциальный выбор практически не исследовано эмпирически. Кроме того, общие механизмы взаимодействия иерархической структуры дискурса и референциального выбора могут иметь универсальный характер.

Рис. 1: Пример аннотированного по риторической структч ре текста из корпуса RST Discourse Tree ban к

Чтобы воспользоваться преимуществами риторической аннотации для
изучения референциального выбора, необходима аннотация но референции.
Поскольку эта аннотация отсутствовала в выбранных корпусах, одной из
главных целей данной работы была дополнительная аннотация этих корпусов,
а именно, аннотация по референции (см. 1.3). Таким образом, в конечном
счете мы использовали корпуса, содержащие аннотацию и но риторической
структуре, и по референции, ср. Рис. 2
1І1ИІИИ^І1ИД,ЦЦШІ.иі..Ж..И.Ш.АЛ.И..И„..і.И я—І— ^ujuei

FUe Setttngi Dteply loott ип

"

[me ] ao'cM^c-a: wiling [treml

that oe ту job - gel | [; --.(t what |:мн,,1 oe entitiec to. aays [B-n -i'-.^Uri. a clutni ;ufervisor .vhu fie* in [fn.irn

ад» ,| ІЦЛ фгрм _:-- «flee]

[T-e . ;о'ізг- nouw 9iat [Ms Johnson] 1 inciting] has been deemeo unsafe by town officials ; But [е-гіє] asks a workman toting |thehrif.i:s[ [from me іаьп] to give [her] a boost through an open first- floor winoow.

Once insiae. |ane] spends nearly four hours measuring ana diagramming each room [mine so- year-die house.] garnering ечоидп information в estimate what [it] would cost to rebuild [it]

| [She] snaps photos |от me fcucriej'ioors] ana [tre oisster thai ha< faiar *#/*/[from the wans || Рис. 2: Лшкпация no референции

Кроме того, мьі использовали дополнительный корпус немецких текстов, NEGRA (Skut et al. 1997), уже аннотированный по референции, поскольку этот корпус изначально содержал ряд видов семантической аннотации, которая отсутствовала в двух других корпусах.

Тексты, использующиеся в приводимых в данной работе примерах, принадлежат одному из вышеупомянутых корпусов, если не указано иных

источников. Немецкие примеры, цитированные в данном работе, будут дополнительно обозначаться буквой Н рядом с номером, например (2.5Н). Примеры текстов см. Приложение.

Общие характеристики вышеперечисленных корпусов представлены в

Табл. 1. Более подробно корпуса описываются в разделе 4.2.

Табл. 1: Корпуса и их основные характеристики

1.3 Цели и задачи работы

Механизм референции в языке сложен по своей природе и, как уже было отмечено выше, усваивается достаточно поздно. Эта сложность тесно связана со свойствами референциальных средств: с неоднородностью и полифункциональностью их употребления. Общепринятым взглядом на референциальные средства является деление на категории простых полных

5 Единицы текста, использующиеся в Теории Риторической Структуры (Mann and Thompson
1988), по размеру приблизительно равные клаузам.

6 Из-за отсутствия риторической аннотации в корпусе NEGRA было невозможно определить
число дискурсивных единиц с высокой степенью надежности.

7 Из-за отсутствия синтаксической аннотации в RST Discourse Treebank невозможно было
определить число клауз и предложений с достаточной степенью надежности.

8 Референциальные выражения включают все определенные ИГ, включая местоимения, так и
неопределенные ИГ, если они выступают в роли антецедента.

ИГ (с артиклем и без артикля, вместе с атрибутами и без), имен собственных, указательных ИГ, указательных местоимений, личных местоимений и нулей, ср. (Ariel 1990). Все перечисленные референциальные средства входят в объект нашего изучения. При этом, как остроумно отмечает Е.В. Падучева (1985:10), «исследование, посвященное референции в естественном языке, с неизбежностью обращается в исследование о местоимениях». Местоимения являются базисным классом средств конкретной референции, присутствующим во всех языках.

Нашей главной задачей является разработка методологии и проведение корпусно-ориентированного исследования по референции с целью достичь лучшего понимания механизмов референциального выбора и добиться систематического описания свойств дискурсивного употребления основных референциальных средств с упором на местоимения.

Несмотря на то, что проблематика факторов прономинализации являлась объектом пристального внимания исследователей, важный аспект остался без внимания. Насколько нам известно, до сих пор местоимения третьего лица рассматривались как один гомогенный класс. Действительно, местоимения образуют один класс слов, с лексико-семантической точки зрения. Однако, действительно ли класс, рассматриваемый под ярлыком «личные местоимения» в традиционной грамматике, функционально однороден или же существуют различия между местоимениями внутри этого класса? Требует ли, скажем, посессивные местоимения такой же уровень активации, что и актантные местоимения?

Важным, а в теориях Гросс и Сайднер (Grosz and Sidner 1986) и Кристеи и др. (Cristea et al. 1998) единственным рассматриваемым фактором, влияющим на доступность и тем самым на референцию, является иерархическая структура дискурса. Однако до сих пор этот фактор был мало изучен. Известно, что способ описания и интерпретации иерархической структуры является спорным вопросом среди исследователей. Помимо этого, аннотация корпусов по иерархической структуре является сложной задачей, и корпуса с такой аннотацией можно пересчитать по пальцам, что затрудняет

корпусный анализ данного фактора. По большей части, в связи с этими объективными обстоятельствами, у существующих подходов есть ряд проблем:

неединообразность используемого материала, теоретических предпосылок и, в связи с этим, проблема плохой сопоставимости выводов;

отсутствие солидной эмпирической проверки.

В данной работе мы используем корпусный метод, но важно отметить, что сам по себе он не является панацеей от всех болезней. Результаты исследования во многом зависят от качества аннотации и решений о том

какие теоретические установки и конвенции используются как основание для аннотационных решений;

что подлежит аннотации;

каким способом осуществляется аннотация;

какой формат и какие технические средства для этого используются.

Промежуточной целью на пути к эмпирическому исследованию была аннотация корпуса по референции, поскольку до сих пор не существует корпусов, в которых были бы объединены и риторическая, и анафорическая аннотация (см. 1.2). В свою очередь, промежуточной целью на данном этапе была разработка адекватного концепта аннотации, создание аннотационного стандарта, инструкций по аннотации и проведение аннотации.

Как правило, аннотация, а также язык запроса позволяют извлечь лишь ограниченный объем информации. Поэтому для этого часто используются эвристические методы. Стратегия по последующей обработке информации непосредственно определяет, с какими предвиденными и непредвиденными сложностями столкнется исследователь на данном этапе. Таким образом, разработка этих стратегий также входила в цели настоящей работы.

Итак, главные цели исследования состояли в следующем:

предоставить ресурс, который может быть использован в
дальнейших исследованиях - корпус, аннотированный по

референции;

разработать и проверить в действии аннотационный стандарт;

внести методологическую и теоретическую ясность в изучение особенностей употребления различных типов личных местоимений;

рассмотреть влияние предположительно релевантных факторов на референциальный выбор;

прояснить влияние линейной и риторической структуры дискурса на референциальный выбор;

как следствие предыдущего пункта, прояснить взаимодействие дискурсивной структуры и когнитивной доступности;

провести исследование всех перечисленных вопросов на материале двух языкво: английского и немецкого.

1.4 Научная новизна

Наш интерес не ограничивается локальной анафорой, часто объяснимой на основании синтаксических правил в предалах одного предложения, что часто являлось темой исследований по анафоре до сих пор. Мы также рассматриваем межсентенциальные анафорические связи, которым до сих пор уделялось неоправданно мало внимания в литературе. Однако уже в прошлом десятилетии этот пробел был замечен: так, результаты, представленные в корпусном исследовании (McEnery et al 1997), показывают, что большинство местоимений кореферентны объектам, упомянутым за пределами клаузы.

Новизна данной работы определяется ее задачами: 1) разработать методологию корпусной разметки по референции; 2) осуществить аннотацию корпусов по референции и 3) показать возможности изучения условий употребления референциальных средств на этих корпусов текстов. Важной характеристикой этого исследования является то, что анафорическая разметка была произведена несколькими независимыми аннотаторами. Такой подход прямо противоположен исследовательской традиции, согласно которой утверждения производились на основании интуиции одного человека -

самого исследователя. Более того, использованные в исследовании корпуса обладают на сегодняшний день уникальной чертой: разметкой по риторической структуре (Mann and Thompson 1988). Предыдущие попытки эмпирической проверки влияния фактора риторической структуры на анафору с помощью корпусов, аннотированных и по референции, и по риторической структуре ограничивались данными небольшого объема (ср. 52 статьи Wall Street Journal, 1.241 предложения, 454 анафорических местоимения в Tetreault and Allen 2003).

Итак, подытожим основные характеристики работы, которые, несомненно, по отдельности присущи уже имеющимся исследованиям, однако, не имеют аналогов в совокупности:

в работе одновременно представлены и прикладной, и теоретико-методологический аспекты;

для теоретических и методологических выводов используется репрезентативный корпус естественного, а не сконструированного

дискурса;

материал состоит из целостных дискурсов, а не примеров, состоящих из одного-двух предложений;

суждения делаются не исключительно на основании интуиции одного исследователя, а на интуиции многих авторов, тексты которых вошли в корпус;

теоретические изыскания производятся в духе психологически адекватных подходов к референции в дискурсе;

исследовательским вопросом является не грамматичность или неграмматичность рассматриваемого предложения, а степень маркированности языковых употреблений;

результаты интерпретируются как тенденции, категории определяются недискретно, а континуально;

исследование проводится на материале двух языков (английскорго

и немецкого), что позволяет делать весомые предположения об универсальности выводов.

1.5 Теоретическое и практическое значение

Данное исследование вносит вклад в методологию изучения референциальных средств. Анафорическая разметка по сей день является одним из самых сложных видов аннотации, и для нее по-прежнему не существует единого стандарта. Техническая реализация аннотации по кореферентности осуществляется по большей части вручную (за исключением локальной референции местоимений 3 лица, для которых уже существуют примеры надежных автоматических алгоритмов, ср. Morton 2000)9. Для разметки анафорических отношений за пределами отношения тождества, а также для структурно более сложных референциальных форм, чем местоимения, даже ручная разметка представляет собой проблему с точки зрения надежности. В данной работе предлагается аннотационная схема, которая является реакцией на эти проблемы и в соответствии с которой были аннотированы по референции исследовательские корпуса.

Далее, описание принципов, контролирующих и регулирующих употребление отдельных типов референциальных средств, является необходимым шагом на пути к пониманию общих механизмов референциального выбора: как это видно из самой лексемы, референциальные «средства» являются частью механизма референциального выбора в целом.

Кроме непосредственно вклада в теорию языка и методологию корпусных исследований референции, данная работа может найти применение в области прикладной лингвистики, как, например в NLP - автоматической обработке естественного языка (natural language processing). Прикладные цели - это, например, разработка методов для обработки текстовой информации, ср. (Abney 1991). Понимание того, как функционирует, например, дистантная местоименная анафора, можно использовать для

Применение таких алгоритмов не беспрепятственно из-за ограничений, связанных с компьютерным форматом и доступностью для свободного пользования.

улучшения производительности систем по автоматическому разрешению и генерированию анафоры и текста (Stede 1999; Kibble and Power 2000; Kelleher and Genabith 2004; Dale and Mellish 1998; Marcu 1997, McCoy and Strube 1999; Soon et al. 2001; Stede and Chiarcos 2004; Соколова и Болдасов 2005). Разрешение и генерирование анафоры важно для таких компьютерных языковых приложений, как машинный перевод: без механизмов разрешения анафоры невозможно обеспечить адекватный перевод текста с одного языка на другой (например, при работе с текстами на языке, в котором род маркируется грамматически и в котором, наоборот, род не маркирован). Лексические соответствия референциальных средств в разных языках также должны быть изучены и имплементированы в системах машинного перевода. Обзор исследований 1990-х годов в области резолюции анафоры содержится в работе Миткова (Mitkov 2002), а также в сборниках релевантных конференций, как, например, Discourse Anaphora and Anaphor Resolution Conference, cp. (Branco et al. (eds.) 2005).

Понимание связи дискурсивной структуры и анафоры также может использоваться в прикладных целях. Так, существуют попытки автоматического экстрагирования дискурсивной структуры текста на основании формы анафорических выражений (Poesio 2004с).

1.6 Апробация работы

Основные части диссертации были представлены и обсуждены на Пятой международной конференции по анафоре и разрешению анафоры (Discourse Anaphora and Anaphor Resolution Colloquium, Сан Мигуэль (Португалия), сентябрь 2004 г.), на Шестой международной конференции по прагмасемантике (Szklarska Poreba Workshop on the Roots of Pragmasemantics, Шкларска Пореба (Польша), февраль 2005 г.), на конференции лингвистов-аспирантов (Вартий (Германия), июль 2005 г.), на международной конференции по корпусной лингвистике (Бирмингем (Великобритания), июль, 2005), на Четвертой международной конференции по контрастивной

лингвистике (International Contrastive Linguistics Conference, Сантьяго де Компостела (Испания), сентябрь 2005 г.) и на Шестой международной конференции по мультидисциплинарным подходам к дискурсу по теме «Выделенность в дискурсе» (Хорин/Берлин (Германия), октябрь 2005 г.).

1.7 Структура работы

Настоящая работа построена таким образом, что, начиная с третьей главы, в каждой главе излагаются результаты исследования - ответы на тот или иной вопрос, поставленный в 1.3; теоретические гипотезы и методологические решения сопровождаются эмпирическими исследованиями.

В Главе 2 «Референция в дискурсе» мы рассмотрим теоретические рамки исследования: когнитивный подход к языку и проблему мотивированности языковых явлений (2.1), понятийный аппарат работы и устройство механизма референции в дискурсе (2.2), а также его когнитивную мотивацию (2.3) и индикаторы когнитивной мотивации (2.4).

В Главе 3 «Фактор дискурсивной структуры и расстояния» мы обратимся к фактору дискурсивной структуры и произведем анализ его влияния на референциальный выбор. В 3.1 мы коснемся двух аспектов устройства дискурса: линейного и иерархического. Раздел 3.2 посвящен анализу важных теорий дискурсивно-структурной доступности - теории вен (Cristea et al. 2000) и модели стеков (Grosz and Sidner 1986). В разделе 3.3 предлагается метод по унифицированной репрезентации обеих теорий, с помощью которого в 3.4 производится эмпирическая проверка и сравнение обеих теорий. В 3.5 и 3.6 разрабатывается альтернативное понятие риторического расстояния; эмпирическая проверка и сравнение с другими теориями описано в 3.7.

В Главе 4 «Аннотация крупного корпуса для изучения референциального выбора» рассматриваются методологические и технические принципы анафорической аннотации, положенные в основу аннотационной схемы, на основании которой были аннотированы по референции исследовательские корпуса (RST Discourse Treebank и Potsdam Commentary Corpus). Раздел 4.1 освещает status quo в области дискурсивной аннотации и, в особенности,

анафорической аннотации. В разделе 4.2 описываются имеющиеся корпуса, за которым следует описание принципов их аннотации по референции, произведенной в рамках настоящего исследования. В разделе 4.4 излагаются особенности методологической и технической имплементации данной схемы. Глава 5 «Корпусное исследование факторов референциального выбора» посвящена эмпирическому исследованию на корпусном материале и содержит теоретические результаты работы. В 5.1 описываются пилотные исследования, а в 5.2 излагается исследование на основном материале, аннотированном по референции в соответствии с целями настоящей работы. Исследованию подлежали следующие группы факторов: свойства референта (5.2.1), свойства антецедента (5.2.2), свойства пары анафора и антецедента (5.2.3), комплексные эффекты (5.2.4) и другие факторы (5.2.5).

Ограничения теорий когнитивной доступности и возможности их дополнения

Соответствие степеней доступности определенным типам референциальных средств непроизвольно. Доступность, согласно Ариель, является производной от трех факторов:

информативность (соответствует количеству лексической информации, содержащейся в ИГ, ср. простые ИГ vs. местоимения);

однозначность референции (так, местоимения 1-2 лица имеют более однозначную референцию, чем местоимения 3 лица);

фонологический «размер» референциального выражения: формальный размер, наличие или отсутствие ударения - короткие и безударные формы соответствуют высокой доступности.

Чем больше информативность, однозначность референции и чем длиннее форма выражения, кодирующего референт, тем ниже доступность. И наоборот: безударные, короткие и неинформативные формы соответствуют высокой доступности (ср. Рис. 3).

Однако каждый из этих критериев независимо друг от друга не является определяющим для референта: это основной аргумент Ариель в пользу доступности. Так, Ариель утверждает, что местоимения this/that, this/it, ударные/безударные местоимения не различаются с точки зрения информативности (чем была вызвана критика семантистов, ср. Reboul 1997), следовательно, выбор между ними определяется степенью доступности.

Если при наличии доступного референта в ментальной модели говорящего, выбирается выражение, маркирующее более низкую доступность, это выражение с большой вероятностью кореферентно другому, новому объекту.

Тогда как Ариель предлагает классификацию референциальных средств по степени кодируемой ими доступности, Гундел и др. (Gundel et al. 1993) строят свою иерархию, Givenness Hierarchy, на понятиях памяти и внимания. Поэтому в модели Гундел и коллег референциальные средства играют чисто иллюстративную роль, и, в связи с этим, не претендует на исчерпывающую классификацию референциальных средств.

Каждый статус соответствует наличию или отсутствию репрезентации референта в структурах памяти. В противовес Ариель (Ariel 1990), Гундел и др. утверждают, что референциальные средства, соответствующие всем статусам «ниже» данного, являются потенциально возможными альтернативами (Gundel et al. 1993). Каждый последующий статус включает в себя предыдущие, например, то, что является „activated , является также и „familiar" и т.д. Начиная с ,familiar" и выше, уже существует некоторая репрезентация в памяти, начиная с „activated речь идет уже о кратковременной памяти. Статус „type identifiable" соответствует новому дискурсивному референту, который утверждается в дискурсе за счет принадлежности к некоторому типу, обозначенному в его лексическом составе. Для идентификации этого референта адресату достаточно знать лексическое значение ИГ.

Статусу „referential" могут соответствовать новые дискурсивные референты, при этом имеется в виду определенный объект, если адресат может предположить, что о нем дальше будет идти речь. Неопределенное this представляет собой как раз такой пример, и, по мнению Гундел и др., не является просто специфическим употреблением указательного местоимения и поэтому должно выделяться в отдельный класс референциальных выражений. Ассоциативной анафоре Гундел и др. присваивают статус „uniquely identifiable " но не , familiar", то есть местоимение в этом случае не является подходящим референциальным средством. Однако в более поздней работе утверждается, что фактически любое референциальное средство может использоваться для кодирования имплицитного референта (Gundel 1996).

Влияние риторической структуры по сравнению с линейной

Концепт референциального расстояния подвергся критике в одной из самых ранних работ по изучению воздействия структуры дискурса на анафору (Fox 1987). В работе Фокс производится неформальный, квалитативный анализ естественно-языковых примеров на основании Теории Риторической Структуры . На основании небольшой выборки письменных текстов Фокс находит ряд систематических корреляций между определенными типами

риторической структуры и употреблением местоимения или полной ИГ. Фокс признает, что при близких расстояниях (1-2 клаузы) между местоимением и его последним предшествующим упоминанием, употребление местоимения можно предсказать и на основании референциального расстояния. Однако не все типы случаев можно объяснить таким образом. В целом, Фокс выделяет два типа структур, при которых употребление местоимения предсказуемо: активную (active) и контрольную {controlling). Структура называется активной, если в момент ее формирования также происходит формирование ее ядерного узла или сателлита.Структура называется контрольной, если ее ядро или сателлит находится в активном состоянии.

Структура на Рис. 9 также представляет собой активный тип (в А находится антецедент, в С - местоимение) - несмотря на то, что между С и А находится еще один узел. Этот узел является ядром в симметричном отношении «перечисление» (list) . Каждый узел в отношении list напрямую связан с вершиной. Вершина, таким образом, находится в активном состоянии и является подходящим антецедентом для местоимения. Возможность прономинализации в данном случае объясняется спецификой отношения перечисления: повторное упоминание референта предсказуемо, ер риторическую структуру примера из корпуса на Рис. 10. Каждый узел группы 7-9 одинаково удален от узла антецедента, sie они {см. группа 6-9), так что хотя анафор ihre их более удален от антецедента линейно, он является близким к антецеденту риторически. am Ende [5] Группа западных журналистов находится с визитом по приглашению Талибана в одной разрушенной деревне в Афганистане. [6] Аутентичное место, и все же корреспонденты не до конца понимают, что они наблюдают своими глазами: [7] Что уже было разрушено? [8] Кто это разрушил? [9] И чьим инструментом в конце концов станет их репортаж

Контрольную структуру Фокс также именует как return pop - тип структуры, при котором некоторый узел связан не с предыдущим узлом, а с самым вершинным узлом (ср. связь С с А на Рис. 11). Хотя В линейно ближе к С, чем А, путь к В идет «в обход», через А. Таким образом, с точки зрения дискурсивной структуры, С является более близким к А, чем к В. Этим можно объяснить употребление местоимений в предикациях, которые не являются непосредственно соседними по отношению к предикации, в которой находится антецедент.

Кроме того, Фокс утверждает, что референциальное расстояние Гивона (Givon 1983) предсказывает больше местоименных употреблений, чем это имеет место в действительности. Если же принять во внимание такой дискурсивный фактор, как начало нового риторического фрагмента, то можно предсказать появление полных ИГ вместо местоимений в таких контекстах и тем самым уменьшить число неправильно предсказанных местоимений.

Фокс предсказывает употребление местоимений в конструкциях типа return-pop, если выполняются три условия:

между анафором и антецедентом присутствуют упоминания данного референта в тексте;

структура между узлами анафора и антецедента - простая. Полные ИГ предсказываются в следующих случаях:

если условия для прономинализации не выполняются;

если узел, содержащий антецедент не находится в активном или контрольном состоянии;

если узел является началом нового риторического сегмента, даже если условия для прономинализации выполняются23.

Подход Фокс представляет собой квалитативный анализ естественноязыковых примеров взаимодействия риторической структуры и анафоры и является прогрессивным для свеого времени исследованием, однако единый формальный критерий оценки этого взаимодействия отсутствует.

Под риторическим сегментом понимается части риторического графа, объединенные в одно «риторическое» целое. 3.2 Теории дискурсивно-структурной доступности

В данном разделе мы рассмотрим две конкурирующих теории референциальной доступности, использующие в своих утверждениях иерархическую дискурсивную структуру: Теорию Стеков (stack model) (Grosz and Sidner 1986), далее ТС, и Теорию Вен (veins theory) (Cristea et al. 1998; Cristea et al. 2000), далее ТВ.

Формальные подходы к структуре дискурса и анафоры строятся на правиле, называемом right-frontier constraint (Asher 1993; Webber 1991). В этом правиле сформулировано необходимое условие для местоименной референции (а также для анафоры в целом): осуществление анафорической отсылки возможно только к тем узлам дерева, которые непосредственно подчиняют или структурно предшествуют настоящему сегменту. На этом принципе строится модель фокусных стеков Гросс и Сайднер (Grosz and Sidner 1986), о которой и будет идти речь далее.

Согласно теории стеков, структура дискурса состоит из трех уровней, связанных между собой: языковой структуры, интенциальпой структуры и когнитивной структуры.

1. Языковая структура {linguistic structure) , соответствует тексту, членному на сегменты.

2. Интенциональная структура {intentional structure): соответствует глобальной структуре текста, которая состоит из дискурсивных сегментов, соединяющихся между собой отношениями подчинения и структурного предшествования: dominance и satisfaction-precedence. Каждое высказывание несет в себе некоторое намерение - коммуникативную цель участников дискурса - Discourse Segment Purpose, или DSP. Интенциальная структура представляет собой дерево, корень которого является главным коммуникативным намерением дискурса. Отношения между сегментами определяются следующим образом: Намерение 1т доминирует над целью 1„, если достижение цели 1„ является частью достижения 1т. Намерение 1„ структурно предшествует намерению 1т, если достижение 1„ происходит в первую очередь.

3. Когнитивная структура (attentional structure): отвечает за состояние ментальной модели участника дискурса и отслеживает, какие дискурсивные референты активированы (salient), а какие нет. Когнитивная структура представляет собой стек, изменения в котором соответствуют изменениям в интенциальной структуре. Потенциальные антецеденты анафорических выражений в данном сегменте образуют так называемые фокусные пространства {focus spaces). Каждое такое фокусное пространство соответствует доминирующему или равноправному сегменту. Фокусные пространства добавляются {pushed) в стек, как только начинается новый дискурсивный сегмент, и удаляются из стека (popped), как только он заканчивается.

Существующие аннотационные схемы

Еще в 2001 году авторы стандартного учебника по корпусной лингвистике пишут о состоянии дел в анафорической аннотации, что анафорческая аннотация может выполняться только вручную(МсЕпегу and Wilson 200142).С другой стороны, даже выполненная вручную аннотация по референции являлась и является объектом интенсивных споров и дискуссий. Причина разногласий состоит в том, что существует слишком большое число аспектов с точки зрения теории и практики, которые ігужно учесть и которые могут быть потенциально релевантны. Даже если исследователи и ставят перед собой похожие цели, результатом часто являются аннотационные схемы, соответствующие различным подходам к анафоре и различной степени детализаци. Например, существуют попытки как аннотации целых анафорических цепочек, так и только пар анафора и антецедента. В одних работах антецедентом считается самое первое текстовое упоминание референта, в других - самое последнее перед данным. И, наконец, пока что можно говорить только о слабых попытках стандартизировать аннотацию по анафоре; большая же часть аннотацонных проектов руководствуется прежде всего узкими исследовательскими интересами и целями. (до) 1997 UCREL

В проекте Lancaster/IBM (UCREL) изначально были поставлены высокие цели: аннотировать все возможные виды анафорических отношений, включая ассоциативную анафору (Leech and Garside 1991; Fligelstone 1992; Garside et al. 1997). Для этой схемы характерна высокая детализация. Были аннотированы различные типы анафоры - местоименная и именная, эллипсис, местоимения в генерическом употреблении, а также катафора. Целью было исследовать потенциал программ по разрешению анафоры, основанных на вероятностных алгоритмах. Анафорические отношения были размечены в соответствии с классификацией Халлидэя и Хасан (1976):

REF (coreference), SUBST (substitution), ELL (ellipses), IMP (implied anaphora), OF (NP with inferrables of-complement), predicative, MISC (miscellanous), МЕТА (metatextual reference).

Кроме того, был предусмотрен способ маркирования референциальной неоднозначности. Однако способ аннотации ассоциативной анафоры, а также референции к фрагментам текста (ср. возможігую референцию указательных ИГ) отсутствует. Окончательная версия этой схемы представляет собой упрощенный вариант, из соображений надежности, скорости и теоретической нейтральности аннотации (то есть исходную планку оказалось необходимым снизить) (Tanaka 2000).

На основании UCREL был аннотирован корпус текстов Associated Press - Lancaster Anaphoric Treebank, состоящий из 100.000 слов. Кроме анафорической разметки, корпус был аннотирован грамматически (POS) и сегментирован по предложениям.

Схема MUC возникла в начале 1990-х годов в рамках проекта по

экстрагированию информации на основании статистических алгоритмов -Message Understanding Conference (Hirschman 1998). Для этого требовался корпус, в котором размечена референция в самом широком смысле, то есть, включая все ИГ, кореферентные друг другу. MUC - это, пожалуй, самая распространенная на настоящий момент схема, она имплементирована в универсальном формате SGML. Однако едва ли ее можно охарактеризовать как стандарт в полном смысле этого слова, так как аннотации подлежит только отношение кореферентности. Однако, к сожалению, в области анафоры это, пожалуй, единственный пункт, по которому эксперты могут найти согласие. Поэтому каждая аннотационная схема, претендующая на широкий круг исследовательского применения, должна быть совместима с MUC. Недостатком корпусов MUC является их мальнький размер (всего 318 коротких диалогов).

DRAMA является первой схемой, в которой был предложен способ аннотации ассоциативной анафоры (ср. inferrables - 2.1; 4.3.3) - полных ИГ или (реже) местоимений без текстового антецедента. DRAMA базируются на теоретическом понятии дискурсивной модели, см. 2.1.1). В остальном, эта схема не отличается от MUC. DRAMA (Passoneau 1996) дала начало схеме MATE (Davies 1998, Poesio 2004b) и ее последователю GNOME (Poesio 2004a,b).

Другие: de Rocha 1997

В (de Rocha 1997) представлена первая схема, в которой производится попытка объединить структуру дискурса и анафору и в то же время предназначена для аннотации более, чем одного языка. Эта схема была разработана для аннотации устного португальского дискурса и фрагментов корпуса London-Lund с целью исследовать отношение анафоры и топикальной структуры дискурса. Для этого были размечены топики дискурса, сегментов и суб-сегмептов. Были также аннотированы различные типы анафоров и антецедентов, в том числе имплицитные антецеденты, топикальный статус антецедента, а также источник информации, необходимой для интерпретации антецедента - синтаксические, дискурсивные знания или знания о лексической сочетаемости. Классификация анафорических отношений - более строгая, чем в схемах, основанных на классификации Халидея и Хазана (Halliday and Hasan 1976). В то же время, это более сложная и детальная схема, чем UCREL, и, таким образом, чем все предыдущие, и поэтому она очень сложна в применении, что является ее недостатком.

Корпусное исследование: предварительные замечания

В данном разделе мы обратимся к комплексному анализу факторов референциального выбора на репрезентативном корпусном материале (ср. Табл. 30), который содержит аннотацию в соответствии с принципами, описанными в Главе 3. Всего мы будем выделять четыре группы факторов: свойства референта, свойства антецедента, свойства пары анафора и антецедента, а также комплексные эффекты. При этом мы вернемся к фактору иерархического и линейного расстояния, а также рассмотрим следующие факторы, как в совокупности с другими факторами, так и отдельно:

центральность референта в дискурсе

грамматическая роль

лексическая форма антецедента

синтаксический параллелизм

позиция в предложении

референциальный статус антецедента.

Значимыми для референциального выбора считаются те факторы, которые демонстрируют разное распределение относительно рассматриваемых референциальных средств.

Для оценки роли референта в дискурсе была предусмотрена характеристика «центральность» (ср. понятия thematic importance, Givon 1990; protagonisthood, Kibrik 2000, см. также 2.4.2), вычисляемая на основании размеченных в корпусе референциальных цепочек.

Гипотезы, лежащие в основе исследования данного фактора, таковы: Гипотеза 1: Местоимения более зависимы от фактора центральности, чем остальные референциальные средства, а именно, местоимения употребляются, когда референция производится к центральным объектам дискурса, чаще, чем другие референциальные средства. Гипотеза 2: Чем выше расстояние до антецедента местоимения, тем важнее роль центральности референта. Гипотеза 3: Функция указательных местоимений - осуществлять референцию к только что введенным в дискурс, (еще) нецентральным объектам дискурса. Суть перечисленных гипотез интуитивно очевидна: чем центральнее референт в дискурсе, тем значимее его репрезентация в ментальной модели участников дискурса. Наиболее дискурсивно выделенные референты остаются дольше в памяти и являются более доступными. В рамках нижеизлагаемого исследования центральность определялась как абсолютная центральность, а именно, упоминание референта в более, чем 50% предложений в тексте. Для измерения расстояния использовалась мера линейного расстояния (см. 3.1.1). При рассмотрении центральности в корпусе РСС оказалось, что данный эффект достаточно слаб сам по себе: лишь от 6% до 33% от некоторого типа референциального выражения обозначают центральный референт в дискурсе (см. Табл. 31).

Тем не менее, тенденции в распределении процентных соотношений в немецком корпусе показывают, что местоимения наиболее часто, по сравнению с другими референциальными формами, осуществляют референцию к центральному персонажу или объекту дискурса.

В корпусе RST Discourse Treebank абсолютная центральность играет еще менее значимую роль: максимальное значение - 16%, ср. Табл 32. Посессивные местоимения наиболее часто осуществляют референцию к центральным объектам дискурса.

Указательные местоимения осуществляют референцию к центральным объектам дискурса только в одном случае (а в корпусе РСС всего три раза). Это подтверждает гипотезу о том, что указательные местоимения 73 осуществляют референцию к нецентральным объектам дискурса (см. Гипотеза З в начале раздела).

Итак, центральность не является достаточно сильным фактором сама по себе, чтобы можно было проводить различия между употреблением референциальных средств только на основании этого фактора. Тем не менее, в обоих языках местоимения кодируют центральные референты чаще, чем остальные референциальные средства. Возможно, центральность является компенсирующим потерю активации фактором, например, при увеличении расстояния. Рассмотрим изменение частотности референции местоимений к центральным объектам дискурса в зависимости от расстояния.

Прямой зависимости прономинализации от центральности при увеличении расстояния в обоих корпусах не наблюдается ни у актантных (ср. RST Discourse Treebank, Табл. 33), ни у притяжательных местоимений (RST Discourse Treebank, Табл. 34). У актантных местоимений процентное соотношение референции к центральным объектам при больших расстояниях даже меньше, чем при минимальном расстоянии. При этом поведение местоимений не сильно отличается от поведения простых ИГ с центральными референтами с увеличением расстояния (Табл. 35).

Похожие диссертации на Корпусно-ориентированное исследование референции : Принципы аннотации и анализ данных