Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Нахождение анафорических связей при автоматическом анализе текста (На материале английского языка) Ахренова Наталья Александровна

Нахождение анафорических связей при автоматическом анализе текста (На материале английского языка)
<
Нахождение анафорических связей при автоматическом анализе текста (На материале английского языка) Нахождение анафорических связей при автоматическом анализе текста (На материале английского языка) Нахождение анафорических связей при автоматическом анализе текста (На материале английского языка) Нахождение анафорических связей при автоматическом анализе текста (На материале английского языка) Нахождение анафорических связей при автоматическом анализе текста (На материале английского языка) Нахождение анафорических связей при автоматическом анализе текста (На материале английского языка) Нахождение анафорических связей при автоматическом анализе текста (На материале английского языка) Нахождение анафорических связей при автоматическом анализе текста (На материале английского языка) Нахождение анафорических связей при автоматическом анализе текста (На материале английского языка)
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Ахренова Наталья Александровна. Нахождение анафорических связей при автоматическом анализе текста (На материале английского языка) : Дис. ... канд. филол. наук : 10.02.21 : Москва, 2003 219 c. РГБ ОД, 61:04-10/168-6

Содержание к диссертации

Введение

Глава I. История вопроса: машинный перевод и автоматический анализ текста. Автоматический информационный поиск 12

1. История становления и развития машинного перевода 14

2. Современное состояние автоматического синтаксического анализа текста 23

3. Современное состояние автоматического семантического анализа текста 39

Выводы к главе 1 59

Глава II. Анафорические связи как центральная проблема современного синтаксического анализа 62

1. Понятия референции и дейксиса в лингвистике 62

2. Место анафоры в общей лингвистике 79

2.1. Анафорическая номинация как частный случай вербализации анафорической ситуации. Понятие анафорической номинации 81

2.1.1. Анафор и антецедент; анафорическое и антецедентное выражение; анафорическое отношение 84

2.1.2. Субститут анафорического выражения 85

2.1.3. Эксплицитная и имплицитная анафора. Квазиантецедент, квазиантецедентное выражение 91

2.1.4. Эталонная номинация антецедента 93

2.1.5. Проблема границ антецедента и анафора 94

2.2. Семантика анафоры 99

2.2.1. Семантика анафоры в широком и узком смысле 100

2.2.2. Типы семантических отношении между антецедентом и квазиантецедентом 106

2.3. Анафорическое выражение 114

2.3.1. Структура анафорического выражения 114

2.3.2. Классы анафорических выражений 116

2.4. Процедура анафорической номинации 131

Выводы к главе II 134

Глава III. Алгоритм нахождения анафорических связей при автоматическом анализе текста 137

1. Место анафоры в прикладной лингвистике 137

2. Алгоритм нахождения анафорических связей при автоматическом анализе текста. Проверка эффективности работы алгоритма 153

2.1. Морфологический фильтр. Оценка возможных антецеднтов 156

2.2. Семантические свойства антецедентов 157

2.3. Местоположение анафора по отношению к антецеденту 158

2.4. Роль личных анафорических местоимений в английском предложение 160

2.5. Местонахождение личных анафорических местоимений 3-го лица единственного числа в тексте 166

2.6. Результаты теста 172

Выводы к главе ш 174

Заключение 176

Библиография 179

Приложения 188

Введение к работе

Прикладная лингвистика зародилась в середине XX века и как научная
дисциплина получила название «структурная, прикладная и математическая
лингвистика», которое сохранилось до сегодняшнего дня. В отечественной
|) традиции прикладная лингвистика четко делится на квантитативную (матема-

тическую) лингвистику, изучающую применение количественных методов при исследовании лингвистических явлений, и компьютерную (вычислительную, инженерную) лингвистику, которая посвящена разработке и реализации автоматизированных систем обработки речевых и текстовых сообщений, в последние годы все чаще называемых речевыми и текстовыми лингвистическими процессорами (ЛП).

В начале своего пути компьютерная лингвистика была в основном

представлена модельными и экспериментальными автоматизированными

информационно-поисковыми системами и системами машинного перевода,

5 которые в дальнейшем пополнились автоматизированными системами

распознавания и синтеза отдельных слов, а также автоматическими словарями.

Сейчас прикладная лингвистика представляет собой дисциплину, которая объединяет большое количество разнообразных проблем, связанных с решением практических задач, часто выходящих за рамки самой лингвистики. В разное время на первый план в ней выходят и различные проблемы, на которых и сосредотачиваются основные усилия. Вследствие ряда объективных причин в отечественной прикладной лингвистике одной из таких актуальных задач является разработка лингвистического обеспечения различного рода автоматических и автоматизированных систем. Это и системы автоматического перевода, и системы информационного поиска, и системы автоматизированного управления. Все большую актуальность в настоящее время приобретает разработка систем искусственного интеллекта.

Если первоначально разработка лингвистического обеспечения велась

преимущественно в плане моделирования и формализации естественного языка, то сейчас первичным является моделирование понимания естественного языка. Такая задача первоначально решалась применительно к ведению диалога между человеком и компьютером. Она заключалась в том,

і) чтобы осуществить перевод вопроса, обращенного к компьютеру, с

естественного языка на язык внутреннего представления информации, принятый в данной системе. Для этой цели, как правило, использовался семантический язык в виде фрейма, сети или языка исчисления предикатов (Перцова 1980). Тот факт, что компьютер на осмысленный вопрос дает такой же осмысленный ответ, можно рассматривать как своего рода свидетельство того, что здесь имеет место понимание. Но о моделировании собственно понимания в этом случае можно говорить лишь условно (Новиков 2000).

С большим основанием к пониманию следует отнести более сложный класс задач, связанных с анализом и пониманием полных текстов.

v Н.Н. Леонтьева в одной из своих последних работ убедительно показала,

что необходимость моделирования понимания в той или иной форме присутствует во всех основных видах систем, связанных с автоматической обработкой информации, представленной на естественном языке (Леонтьева 2000).

Результатом такого компьютерного понимания является та или иная информация, которая извлекается компьютером из текста и фиксируется в виде различных семантических представлений. При этом основным инструментом, используемым для автоматического понимания, являются различного рода знания, предварительно аккумулируемые в системе. Роль знаний в этом процессе, несомненно, велика, о чем свидетельствуют данные, характеризующие понимание текста человеком. Так, например, в работе Н. Рафиковой экспериментально доказывается теоретическое положение о том, что в основе понимания, осуществляемого человеком, лежит актуализация определенных структур знания в результате воздействия на когнитивную

сферу языковых единиц различного уровня (Рафикова 2000). Но понимание не сводится только лишь к актуализации знаний. Известно, что знать и понимать — это не одно и то же. «Можно знать нечто и не понимать его действительного смысла, можно успешно действовать, но не понимать сущность происходящего» (Гусев, Тульчинский 1985, 17). Поэтому глубокое и полное понимание, которое, конечно же, в значительной степени базируется на знании, все же выходит за его рамки, поднимается над ним и представляет собой, возможно, особый вид знания, своего рода «знание о знании». Такой переход означает переход на уровень смысла, который участвует в процессе осмысления и как средство и как его конечный результат. Вне этого понимание и смысл оказываются комплиментарными понятиями, т.е. одно предполагает другое. «Понятия смысла и понимания являются соотносительными и не могут рассматриваться в отрыве друг от друга. Смысла также нет вне понимания, как и понимание есть усвоение некоторого смысла», — пишут по этому поводу С.С. Гусев и Г.Л. Тульчинский (Гусев, Тульчинский 1985,42).

Наметившаяся тенденция в плане моделирования понимания в автоматических системах, особая роль смысла в этом процессе, в то же время крайняя противоречивость и неопределенность представлений об этом явлении — все это является основанием для того, чтобы активизировать усилия, направленные на изучение смысла, мышления, понимания и, соответственно, языка как продукта этих процессов психической деятельности человека.

Важность изучения этих процессов подчеркивается, в первую очередь, тем, в каком русле идут современные исследования в области компьютерной лингвистики. Здесь необходимо отметить работу группы ученых под руководством профессора Новикова А.И. над экспериментальным изучением смысла (Новиков 2002), также работу Леонтьевой Н.Н., связанную с автоматической обработкой информации, представленную на

естественном языке (Леонтьева 2000). Бесспорно, заслуживают упоминания исследования в области обучения при помощи компьютера и разработки основных стратегий компьютерного обучения в лингвистике, а также разработки тестирующих и моделирующих программ обучения и т.д., описанных в книге Потаповой Р.К. «Новые информационные технологии и лингвистика» (Потапова 2002).

К решению задач, выдвинутых современными системами искусственного интеллекта и другими, которые мы условно называем системами автоматического понимания или анализа текста, теоретическая лингвистика оказалась не готова. Она не предложила способов формирования таких единиц, которые воспринимались бы другой, внешней системой, не разработала «словарей» соответствий между лингвистическими и экстралингвистическими понятиями. Лингвистический анализ не строит крупных единиц «навстречу» единицам, описьшающим факты и события действительности и отношения между ними.

В результате образовался разрьш, на одной стороне которого — лингвистические сущности, единицы, которые строятся только лингвистическим анализом (внутренние единицы), на другой — система понятий конкретной области знаний (внешние единицы). Два языка — внутренний и внешний — оказались не в состоянии найти точек соприкосновения друг с другом.

В результате практические системы весь свой искусственный интеллект тратят на преодоление этого разрыва, причем для решения конкретной задачи в каждой узкой предметной области этот разрьш преодолевается заново.

Мы делаем вывод, что в любой модели анализа текста необходимо сочетание двух подходов — информационного и лингвистического.

Как результат обобщения, или как теоретическое обоснование разных типов прикладных систем, разработана абстрактная модель, названная

информационно-лингвистической моделью (ИЛМ), в рамках которой можно проследить по шагам все звенья автоматического понимания текста. Коротко говоря, ее смысл сводится к тому, что из одного и того же естественного текста (ЕТ) система может извлекать разную информацию для разных пользователей в зависимости от их интересов, объема знаний и от того, какие модули компьютерного знания подключены к процессу понимания ЕТ. Такой подход (возможность извлечения разных «смыслов» из единого множества текстов, своего рода лингвистическая относительность) обосновывается и практической необходимостью (действительно, разным пользователям нужна разная информация из текстов), и соображениями конструктивного характера: отдельные модули создаются как самостоятельно работающие подсистемы, которые включаются и вьпслючаются в разных режимах работы системы.

Концептуальные структуры текста желательно создавать на основе хороших лингвистических представлений текста. Это означает учет всех свойств текста — от графематических особенностей до свойств связности текста — и привлечение описаний объектов предметной области (ПО) в виде тезаурусов или других способов задания специальных знаний. Кроме того, концептуальные структуры необходимо соотносить с возможными запросами пользователя (это сфера информатики) и с языком адресата информации. Важно также знание того, каковы внутренние установки и цели автора текста (это прагматика - сравнительно новая область теоретической лингвистики).

Пока никому не удалось реализовать такую модель, которая может учесть все эти аспекты и выдавать Адресату (или пользователю) необходимую информацию из произвольного корпуса текстов. Тем более важно рассмотреть теоретически, из каких «кубиков» складывается механизм автоматического понимания.

Как показывает современная практика работы с системами машинного

перевода наиболее «слабыми» местами любой системы являются блоки автоматического синтаксического и семантического анализа текстов. Но данные проблемы являются глобальными и тяжело решаемыми, поэтому мы должны начинать процесс решения этих проблем поэтапно, а не комплексно. Должны сначала сделать эти самые «кубики», а уже потом построить полновесную модель автоматического синтаксического или семантического анализа.

В нашей работе мы остановились на формировании одного такого «кубика», а точнее - на построении алгоритма нахождения анафорических связей. Надо отметить, что данный аспект находится на стыке семантики и синтаксиса и занимает умы многих ведущих ученых мира, так как, решив эту проблему, мы сможем снять ряд трудностей и задач не только в области прикладной лингвистики, но и в области лингвистики текста.

Так объектом исследования являются анафорические связи личных анафорических местоимений 3-го лица единственного и множественного числа в современной газетной политической статье.

В качестве предмета исследования мы выбрали установление антецедентов автоматическим способом, посредством выявления формальных характеристик смысловых и содержательных зависимостей.

В соответствии с объектом и предметом нашего диссертационного исследования мы определили следующую цель исследования: систематизация формальных средств выражения анафорических связей и зависимостей для основного состава личных местоимений английского языка определенного функционального стиля.

Частными задачами исследования являются:

- изучение контекстных проявлений синтаксических связей
анафорического типа для выбранного состава местоимений;

- проверка их алгоритмическим способом;

- составление алгоритмов нахождения анафорических связей для прикладных целей.

Основными методами и приемами исследования мы считаем: дистрибутивный метод, сопоставительный метод, метод прямого перевода, количественный анализ лингвистических явлений синтаксического характера, связанных с анафорой.

Материалом исследования послужили английские и американские газеты (издающиеся в Великобритании "The Times", "The Guardian", "The Independent" и США "Washington Times") за период с 2000 по 2003 год. Объем проанализированного материала составил более 1200 текстов политических статей. Всего было отобрано и проанализировано по 500 примеров на каждый случай употребления анафорических местоимений 3-го лица единственного и множественного числа мужского и женского рода.

Для анализа выбраны средства массовой коммуникации, обладающие достаточной авторитетностью (британская газета "The Times" - один из старейших и широко цитируемых источников информации не только в Великобритании, но и во всем мире; не менее известна пользующаяся репутацией «серьезного» издания американская газета "Washington Times").

Научная новизна исследования заключается в том, что современный политический текст не изучался с точки зрения выявления анафорических связей в целях автоматической переработки, не существует достаточно эффективных алгоритмов для нахождения таких связей и для более широкого использования таких алгоритмов, например, в составлении обучающих программ.

Теоретическая значимость работы объясняется тем, что решение задачи автоматического нахождения анафорических связей есть часть важной и не решенной до сих пор проблемы автоматического

синтаксического анализа естественных языков. Здесь также есть выход в теорию текста и фундаментальные положения языковой деятельности и языкового мышления.

Практическая значимость состоит в использовании

"Jb: разработанных алгоритмов нахождения анафорических связей для задач

машинного перевода, автоматического индексирования,

автоматического получения содержания и смысла текста, в построении

человеко-машинного интерфейса и систем искусственного интеллекта.

На защиту выносятся следующие положения:

1. Анафора играет большую роль в автоматическом синтаксическом
и семантическом анализе текста, так как без эффективного разрешения
анафорических отношений не может быть удовлетворительного
синтаксического и семантического анализа. Авторы современных
систем автоматического анализа и синтеза зачастую упускают из вида

/ этот немаловажный аспект функционирования языка.

  1. Разрешение анафоры требует оптимального алгоритмического взаимодействия как семантических, так и синтаксических факторов, в котором преобладающую роль занимают синтаксические факторы.

  2. Тип языка - аналитический или флективный - оказывает существенное влияние на состав и структуру определения анафорических связей.

4. С точки зрения алгоритмического разрешения анафоры наиболее
целесообразен подход, основные принципы которого были заложены
при разработке проекта Kit-Fast в рамках исследования Eurotra-D и

| впоследствии развиты и дополнены в рамках нашей работы.

5. Созданный нами алгоритм нахождения анафорических связей
обеспечивает эффективность на уровне 80%.

Апробация работы. Результаты работы обсуждались на шестой Международной конференции ассоциации LATEUM на базе МГУ им.

М.В. Ломоносова (сентябрь 2000 г.); на научно-практических конференциях на базе Коломенского государственного педагогического института (март 2002, апрель 2003); на научно-практической конференции Московского государственного областного университета (март 2002); на Международной научно-практическая конференция «Языки мира и мир языка», на базе Московской Академии Экономики и Права (январь 2003). Основное содержание диссертационного исследования отражено в 6 публикациях.

Современное состояние автоматического синтаксического анализа текста

Как видно из предыдущего параграфа в настоящее время машинный перевод приобретает все большую актуальность. Развитие систем машинного перевода идет от простых систем к более сложным, в которых главенствующую роль играет машина и учитываются все более сложные языковые ситуации. Причем совершенствование лингвистического обеспечения происходит одновременно с совершенствованием программного. В результате этого работа потребителя с системой машинного перевода значительно упрощается, осуществляется переход на качественно новый уровень развития, система становится все более технологичной.

Но, наряду с бесспорными достижениями в области автоматического анализа текста существует огромное количество не решенных до сегодняшнего дня проблем. Пожалуй, наиболее сложными моментами в построении эффективно функционирующих систем МП является разработка алгоритмов автоматического синтаксического и семантического анализа.

Профессор Ю.Н. Марчук в книге «Основы компьютерной лингвистики» пишет, что «как ранее, так и в настоящее время вокруг синтаксического анализа много бесплодных дискуссий, не имеющих никакого выхода в прагматику автоматического синтаксического анализ». Здесь можно также сослаться на мнение А.С. Нариньяни, который утверждает, что попытки построения интерфейса на основе синтаксического анализа делались много лет, но не дали положительных практических результатов. В данном параграфе мы бы хотели проанализировать имеющуюся информацию по данному вопросу и сделать вывод о том, почему же именно синтаксический и семантический анализ представляют наибольшую сложность для лингвистов. Синтаксисом называется раздел лингвистики, который имеет дело с сочетаемостью и линейным порядком слов внутри предложения. Теоретическую лингвистику больше интересуют сравнение грамматик естественных языков и синтаксические законы, применимые одновременно к большому количеству разных языков, то есть типология. Целью компьютерной лингвистики в области синтаксиса является построение автоматизированного анализатора отдельного языка. Этот анализатор должен уметь выделять простые предложения в составе сложного, устанавливать связи между словами и по возможности строить полное синтаксическое дерево предложения. Если теоретические исследования описывают как письменный язык, так и устную речь, то компьютерные программы имеют дело только с грамматикой письменного языка. С одной стороны, круг задач в компьютерной лингвистике значительно уже по сравнению с теоретической, но с другой - их решение требует значительно большей строгости и формальности описания.

Недаром швейцарский ученый-лингвист Фердинанд Де Соссюр провел аналогию между системой языка и шахматами. Как не меняются суть и правила игры в зависимости от размера доски или цвета фигур, так сохраняют сходство грамматические структуры и законы внешне абсолютно разных языков. Белопольный слон никогда не займет черную клетку; каждое слово занимает только отведенное его роли место в структуре или линейном порядке предложения (например, в русском существительное не может стоять до предлога, от которого оно зависит; в английском же языке законы синтаксиса просматриваются более четко, т.к. к примеру в английском предложении порядок слов фиксирован). Любая удачная комбинация в партии есть продуманная последовательность ходов, где каждая фигура защищена другой, и, если фигура удалена от «своих» и остается без защиты, она будет съедена или заперта фигурами противника, а партия проиграна. Грамматически верное и однозначное высказывание - результат хорошо построенной непрерывающейся структуры, где каждое слово имеет «хозяина» (Компьютерра 2002). Если же слово не связано ни с одним из других слов в предложении, оно «выбивается» из контекста, искажая смысл всего высказывания.

Один из главных критериев правильности синтаксической структуры - принцип проективности: структура проективна, если ни одна из стрелок не пересекает другую стрелку. Проективность можно проиллюстрировать примером И. Ножова (см. выше Рис. 1). Пример на Рис. 2 является непроективным.

В русской разговорной речи возможен свободный порядок слов. Большинство предложений письменного языка соблюдают закон проективности, поэтому программы синтаксического анализа включают в себя косвенно или в явном виде фильтр на непроективность. Требование проективности синтаксической структуры предложения универсально для большинства индоевропейских языков.

Степень свободы линейного порядка слов в предложении определяется сложностью морфологии языка. Так, русский перевод английской фразы «The farmer kills the duckling», то есть «Фермер убивает утенка», имеет 3 способа линейного расположения слов во фразе без ущерба принципу проективности («Утенка убивает фермер», «Утенка фермер убивает» и т. д.), в то время как любая перестановка слов в английском эквиваленте приводит либо к изменению смысла высказывания («The duckling kills the farmer» - «Утенок убивает фермера»), либо к грамматической неправильности («Kills the farmer the duckling»). Падежные окончания русских существительных позволяют свободно менять порядок слов во фразе, сохраняя смысл исходного высказывания (кто и кого убил).

Анафорическая номинация как частный случай вербализации анафорической ситуации. Понятие анафорической номинации

Р. Перкинс (1992) провел оригинальное лингво-антропологическое исследование ряда грамматикализованных дейктических категорий (таких, как лицо местоимений, инклюзивность / эксклюзивность, близость от говорящего, грамматическое время). На материале языковой выборки из нескольких десятков языков Перкинс проверял гипотезу о связи между числом дейктических различий в языке и сложностью культуры, пользующейся этим языком (сложность культуры оценивается по антропологическим критериям — таким, как тип хозяйства, оседлость/кочевье, классовая структура и т.д.). Согласно статистическим данным Перкинса, чем сложнее культура, тем меньше дейктических категорий грамматикализовано в используемом ею языке.

В исследовании X. Дисселя (1999) детально рассмотрено основное средство пространственного (а также и предметного и временного) дейксиса, а именно указательные местоимения, или демонстративы. Диссель различает демонстративы нескольких синтаксических типов -субстантивные (Как в русской фразе А это что такое?), адъективные (Это кресло удобное), адвербиальные (там) и «идентифицирующие» (вот). Помимо наиболее распространенного противопоставления по близости/дальности относительно дейктического центра (обычно — местонахождения говорящего), в языках мира встречаются более сложные дейктические системы, основанные на видимости/невидимости референта для говорящего, на расположении референта выше/ниже говорящего (напр., в лезгинском - нахско-дагестанская семья), на расположении референта относительно водных преград — выше/ниже говорящего по течению реки, ближе к реке/дальше от реки по сравнению с говорящим, на той же/на другой стороне реки по сравнению с говорящим (атабаскские языки Аляски). Демонстративы обладают редкой для служебных слов особенностью — они этимологически никогда не происходят из лексем других классов. Таким образом, демонстративы входят в базовый морфологический состав языков. Вероятно, это объясняется именно их дейктической функцией: дейксис представляет собой один из древнейших и наиболее фундаментальных механизмов человеческого языка.

В современной лингвистике постепенно формируется типология языков с точки зрения использования дейктических категорий. Так, С. Левинсон противопоставляет два типа языков с точки зрения того, какой момент времени принимается за основу при письменной коммуникации — момент создания сообщения или момент его получения адресатом. Одни языки склонны к выражениям типа Я пишу это сегодня, а ты получишь это завтра, другие — к выражениям типа Я написал это вчера, а ты читаешь это только сегодня.

Подробно исследованы дейктические системы отдельных языков. Так, в работе Л. Гренобль (1998) описывается дейктическая система русского языка. Части I, II этой работы представляют собой полное таксономическое описание русских дейктических средств и одновременно хорошее введение в современные представления о дейксисе.

Также выделяют производные виды дейксиса. До сих пор речь шла лишь об одном фундаментальном типе дейксиса - так называемом первичном дейксисе. Существует, по крайней мере, три различных явления, которые производны по отношению к первичному дейксису и относительно самостоятельны от него: вторичный дейксис, анафора и текстовый дейксис. Как вы видите, многие лингвисты считают анафору одним из видов дейксиса.

При первичном дейксисе указание осуществляется с опорой на дейктический центр «говорящий, здесь, сейчас». В дискурсе могут создаваться альтернативные дейктические центры, куда виртуально помещается мысленный субъект, и тогда возникает явление вторичного дейксиса. Рассмотрим высказывание: Увидев удивленные лица хозяев, Иван понял, что его здесь не ждут. В придаточном предложении что его здесь не ждут, обозначающем косвенную речь, содержатся три дейктических элемента — его, здесь и настоящее время , — которые основаны на мысленном дейктическом центре. Местоимение 1-го лица меня в таких случаях заменяется на местоимение 3-го лица, а пространственные и временные дейктические элементы могут оставаться неизменными. Явления такого типа Е.В. Падучева (1996) называет «нарративным режимом интерпретации». Перенос дейктического центра может быть грамматикализован, например, в таком глагольном времени, как плюсквамперфект (событие, предшествующее некоторому другому событию, принимаемому за точку отсчета). Ю.Д. Апресян (1986) исследовал дейктические элементы в лексической семантике широкого круга языковых единиц и ввел для их описания понятие «наблюдатель». Например, странно сказать На дороге показался я, так как смысл глагола показаться включает идею наблюдателя, отделенного расстоянием от наблюдаемого. Явления вторичного дейксиса имеют длительную историю изучения. В частности, они были подробно описаны В.Н. Волошиновым (1930).

Известно, что большинство формальных средств, способных употребляться дейктически, могут также употребляться и анафорически. Анафора — упоминание референтов, уже активированных в рабочей памяти говорящего и адресата. Так, при анафорическом употреблении местоимений 3-го лица говорящий часто опирается на то, что соответствующий референт только что был упомянут в предшествующем дискурсе. Вторичное анафорическое употребление дейктических элементов основано на метафоре, уподобляющей память человека очевидному физическому окружению коммуникативного акта. (Данная трактовка анафоры как явления, производного от дейксиса, иногда именуется «локалистской».) Хотя понятие анафоры в первую очередь связывается с употреблением именных групп, в действительности аналогичный перенос происходит и с другими типами языковых единиц, имеющих в своем значении шифтерные компоненты, например наречий. Ср. высказывания Вася, я чувствую: клад находится где-то рядом ( рядом с говорящим ) и Молодые люди чувствовали, что клад находится где-то рядом ( рядом с активированным референтом «молодые люди» ). Широко известно сопоставление дейктического и анафорического механизмов, предложенное Дж. Лайонзом (1977).

Не могут употребляться анафорически лишь наиболее специализированные дейктические элементы — я, ты, здесь, сейчас. Е. В. Падучева формулирует эту особенность местоимений 1 и 2 лица как «обязательность дейктических местоимений» (т.е. невозможность полных именных групп на их месте). Тем не менее, местоимения 1 и 2 лица множественного числа могут содержать анафорический компонент — это относится, например, к местоимению мы, обозначающему говорящего плюс еще кого-то, в том числе третьих лиц. В высказывании типа Маша дала согласие, и скоро мы поженимся местоимение мы является одновременно (и раздельно) дейктическим и анафорическим.

Типы семантических отношении между антецедентом и квазиантецедентом

Эти случаи, с некоторой долей условности, мы будем относить к анафоре эксплицитной, поскольку мыслимое ЯВ, которое могло бы служить вербализацией для антеедента, близко к квазиантецедентному выражению и соотношение между ними стандартно.

Таким образом, приходится признавать наличие квазиантецедента и в некоторых случаях эксплицитной анафоры. Далее в примерах квазиантецедентных выражений в таких случаях регулярно выделяется.

Разница в семантико-синтаксическом классе вербальных коррелятов квазиантецедентов и антецедентов имеет место прежде всего в том случае, когда антецедентное выражение является предикацией, выраженной целой фразой, и обозначает некоторую ситуацию, а АВ обозначает некоторую сущность, которую мы условно здесь называем ситуацией, мыслимой как факт (это понятие близко к понятию ситуативного терма): Министр обороны Франции подал в отставку. Этот таг был вызван чрезвычайной ситуацией, сложившейся в стране.

Здесь анафор — ситуация, мыслимая как факт — с АВ этот шаг и субститутационное выражение — уход в отставку министра обороны. Квазиантецедент — представление о ситуации — выражен квазиантецедентным выражением, совпадающим с целым предложением. Антецедент должен быть выражен номинализованной предикацией, т.е. иметь вербальный коррелят другого семантико-синтаксического класса — класса отглагольных имен: уход в отставку министра обороны Франции. Именно к этому мыслимому номинату здесь сделана отсылка типа ЭТОТ.

Хотя в последнем примере вербальные корреляты отличаются семантико-синтаксическим классом, они имеют одно и то же лексическое наполнение и, по-видимому, если не одинаковые, то, по крайней мере, сходные денотативные статусы. Однако говорить здесь об одном и том же общем ЯВ, по-видимому, нельзя, так как соответствующие денотативно-ориентированные ЯВ относятся к разным классам.

Предикация при номинализованном АВ не обязательно бывает выражена отдельным предложением, это может быть инфинитивная группа, конструкция с причастием и деепричастием, например: Быть знаменитым некрасиво. Не это подымает ввысь (Б.Л. Пастернак). Я увидел его купающимся в море в холодную погоду, но удивило меня не это. Переписывая чужие тексты в течение долгого времени, можно было при этом многому научиться, стать широко образованным по тому времени человеком. Разница в семантико-синтаксическом классе соответствующих ЯВ может иметь место одновременно с различием их денотативных статусов. Аграрная Россия превратилась в мощную индустриальную державу, о чем в юности мы могли только мечтать. В примере анафор имеет АВ что (относительное местоимение, являющееся аналогом местоимения это, употребляющегося в независимом предложении) и субстантивное выражение (потенциальное) превращение России в индустриальную державу. Квазиантецедент — представление о ситуации — имеет вербальный коррелят, выраженный предикацией Аграрная Россия превратилась в мощную индустриальную державу. Антецедентное выражение отличается от квазиантецедентного выражения и классом ЯВ (номинализация вместо предикатного выражения), и ДС (потенциальное превращение вместо реально совершившегося). В примере представлена отсылка типа ЭТОТ: анфор тождествен антецеденту.

Перейдем к рассмотрению случаев, когда квазиантецедент и антецедент имеют в качестве вербальных коррелятов одно и то же общее ЯВ, но в разных денотативных употреблениях. В этих случаях они являются разными номинатами, и между ними усматривается отношение равноименности (Е.В. Падучева (Падучева 1981) говорит в аналогичных случаях об отношении равнолексемности). Типы соотношения денотативных статусов вербальных коррелятов квазиантецедента и антецедента рассматриваются ниже на примере отсылок типа ЭТОТ. При отсылках типа ЭТОТ денотативный статус антецедентного выражения, субституционного выражения и АВ, естественно, совпадают. Ниже в комментариях к примерам ДС отмечается только для квазиантных выражений и антецедентных выражений.

Можно считать, по-видимому, что появление в тексте общего ЯВ в том или ином денотативном употреблении активизирует в сознании говорящего и адресата ту или иную часть спектра других денотативных употреблений этого общего ЯВ.

В основу исчисления возможных типов соотношения положена классификация денотативных статусов именных групп, предложенная Е.В. Падучевой в 1979 году. Будем различать четыре основных денотативных статуса: термовое референтное употребление, термовое нереферентное употребление, автонимное употребление и предикатное употребление. В соответствии с этой классификацией теоретически возможны 12 типов несовпадений ДС квазиантецедентных выражений и антецедентных выражений. Не все они, однако, реально представлены.

Кроме того, возможен случай, когда квазиантецедентное и антецедентное выражение имеют один и тот же денотативный статус, но обозначают разные конкретные единичные объекты. Значит, всего следует рассмотреть 13 типов равноименности: Квазиантецедентное выражение и антецедентное выражение — ИГ в термовом референтном употреблении. Они обозначают разные единичные объекты.

Алгоритм нахождения анафорических связей при автоматическом анализе текста. Проверка эффективности работы алгоритма

Анафора и дискурс. Здесь автор выделяет четыре основных поисковых системы, функционирующих на сегодняшний день и на основе этих систем строит свою классификацию: 1) тендерные системы (Gender systems); 2) системы переноса функции (Switch-function systems); 3) системы переноса ссылки (Switch-reference systems); 4) системы «выводов» (Inference systems).

До сих пор речь шла только о центральном типе анафоры — случаях, когда анафор имеет легко отождествимый антецедент и между ними имеется явная кореферентность. Эта модель действительно является основной - и с точки зрения частоты в дискурсе, и с точки зрения места в системе языка, но необходимо упомянуть и несколько более сложных и периферийных случаев, подробно обсуждавшихся в литературе.

Во-первых, антецедент может линейно следовать за анафором; в таких случаях говорят о катафоре. Ср. начало песни А.Васильева и Г.Иващенко: (7) Куда его ни зашвырни, а бумеранг летит по кругу. Катафора особенно характерна для некоторых языков, например английского. Как правило, катафорический антецедент не может быть дальше от анафора, чем в соседней предикации.

Во-вторых, встречаются случаи анафорических выражений, не кореферентных антецеденту - чаще всего цитируется пример Л.Карттунена: (8) Тот мужчина, который дал свой банковский чек мудрее, чем тот, который дал его своей любовнице. Такого типа примеры иногда именуют анафорой равнозначности, в противоположность «обычной» анафоре кореферентности. В-третьих, часто встречаются случаи так называемой косвенной, или ассоциативной, или выводимой анафоры, при которой референт не был непосредственно введен в претексте, а лишь каким-то образом связан с антецедентом, например (пример Дж.Лакоффа и Дж.Росса, 1972): (9) Джон стал гитаристом, так как считал, что это прекрасный инструмент. Типы семантических отношений между анафором и антецедентом могут быть очень разнообразны, в том числе часть - целое, элемент/подмножество — множество, участник — ситуация, слот фрейма - фрейм, причина - следствие и т.п. Суть явления косвенной анафоры состоит в том, что антецедент активирует не только свое непосредственное означаемое, но и целую сеть связанных с ним концептов и/или референтов, и в дальнейшем говорящий может упоминать их с большей легкостью, чем аналогичные, но не активированные концепты и референты.

В-четвертых, в устной коммуникации, предполагающей наличие общего для говорящего и адресата физического окружения, часты случаи конситуативной анафоры вовсе без текстового антецедента. Пример Е.А.Земской (с соавторами): (Конситуация: А. держит в руках цветы.) Б.: —Давай их в большую вазу. Механизм такого рода анафоры в точности такой же, как и при обычной анафоре с текстовым антецедентом, за тем исключением, что референт активирован в рабочей памяти не через языковой, а через визуальный канал. Примеры такого рода показывают, что референциальный выбор непосредственно контролируется когнитивным статусом референта, а не текстовым антецедентом. В-пятых, понятие анафоры иногда распространяют на повторное упоминание не именных, а предикатных концептов. В таких случаях говорят о предикативной анафоре, например: Коммунисты предложили устроить президенту импичмент, но демократы с этим не согласились. Петя думает так же, как и я. В некоторых языках для предикативной анафоры используются специальные служебные глаголы, типа английского do. Предикатная анафора — весьма важное явление, но изучена она пока в меньшей степени, чем анафора именная. Выделяются два больших класса АС : АС, выступающие в простых АВ, и АС, выступающие в составных АВ. Каждому классу простых АВ соответствует свой набор анафорических средств. Тип отсылки редко отражается в простом АВ. Разнообразие АС, употребляющихся в простых АВ, объясняется тем, что они различают и другие компоненты значения, не имеющие прямого отношения к анафорической функции. Внутри группы АС, выступающих в одном и том же классе простых АВ, по этим дополнительным компонентам значения может быть произведена более дробная классификация. Перечислим основные признаки противопоставлений, отраженные в приводимой далее таблице: — независимость употребления; по этому признаку противопоставлены АС, употребляющиеся в составе независимого предложения (он, там) и относительные АС (который, где): — степень близости; признак выражает степень близости соответствующего номината к говорящему как в прямом (пространственном или временном), так и в переносном смысле; по этому признаку противопоставлены местоимения он, здесь местоимениям тот, там (в таблице они записаны в одной клетке через косую черту) ; — тип отсылки; по этому признаку, например, местоимение это противопоставлено местоимениям такое, другое; — локативно -темп ор алъная серия; признак выражает характер локализации и направление движения во времени и пространстве; по этому признаку, например, местоимение «здесь» противопоставлено местоимениям сюда, отсюда; — рефлексивность; по этому признаку противопоставлены нерефлексивные местоимения «он, его» рефлексивным местоимениям «себя, свой».

Похожие диссертации на Нахождение анафорических связей при автоматическом анализе текста (На материале английского языка)