Содержание к диссертации
Введение
Глава 1. Пространственные отношения, методы их описания. История вопроса 10
1.1. Изучение пространственных показателей в языках мира: текущее состояние исследований 10
1.1.1. Изучение пространственных предлогов в европейских языках 12
1.1.2. Работы типологического направления 15
1.1.3. «Психолингвистическое» направление .' 18
1.2. Описание и систематизация русских предлогов 26
1.2.1. Смысловые отношения, передаваемые русскими предлогами 27
1.2.2. Парадигмы предлогов. Системы значений именной локативности 29
1.3. Обзор существующих классификаций пространственных отношений 33
1.3.1. Классификация локативности И. Пете 34
1.3.2. Классификация ПрО по А.Д. Великорецкому 36
1.3.3. Классификация ПрО по Б. КомрииН. Смиту 38
1.3.4. Плюсы и минусы представленных классификаций с точки зрения их использования в системе машинного перевода 39
Глава 2. Параметры классификации пространственных отношений 42
2.1. Локальная ситуация и ее участники 42
2.2. Основы классификации ПрО. Терминология 49
2.2.1. О методе классифицирования. Метаязык описания ПрО 49
2.2.2. Параметр локализации, его значения 52
2.2.3. Параметр ориентации, его значения 57
2.3. Проблемы при выделении ПрО 60
2.4. Отличия предложенного списка ПрО от существующих классификаций 65
Глава 3. Пространственные отношения в русском, английском и турецком языках 70
3.1. Выражение ПрО в естественных языках 70
3.1.1. Выражение ПрО в русском языке 71
3.2.1. Выражение ПрО в английском языке 76
3.2.2. Выражение ПрО в турецком языке 78
3.2. Сравнение способов выражения ПрО в трех языках 83
Глава 4. ПрО в многоязычной системе МП (при переводе с английского языка на русский и турецкий языки) 89
4.1. Система МП Кросслейтор. Этапы перевода 89
4.1.1. Общее описание системы 89
4.1.2. Этапы анализа 91
4.1.3. Этапы синтеза 97
4.1.4. Пример преобразований предложения при анализе и синтезе 104
4.2. Преобразования локальных конструкций на этапе анализа английского предложения 106
4.2.1. Выделение локальных конструкций 106
4.2.2. Алгоритм обработки локальных конструкций 109
4.3. Преобразования локальных конструкций на этапах синтеза 123
4.3.1. Правила синтеза 123
4.3.2. Правила синтеза локальных конструкций для русского языка 124
4.3.3. Правила синтеза локальных конструкций для турецкого языка 129
4.4. Конструкции, создающие трудности при переводе 133
4.4.1. Отсутствие выражения ПрО в языке 133
4.4.2. Конструкции с глаголами «быть» и «иметь» 135
Заключение 141
Приложение 1. Таблица-перечень пространственных отношений 143
Приложение 2. Примеры перевода предложений системой МП Кросслейтор
(с английского языка на турецкий язык) 147
Список сокращений 148
Библиография
- Работы типологического направления
- О методе классифицирования. Метаязык описания ПрО
- Выражение ПрО в русском языке
- Преобразования локальных конструкций на этапе анализа английского предложения
Введение к работе
Настоящее исследование посвящено описанию пространственных отношений, их представлению и передаче в многоязычной системе машинного перевода Кросслейтор. Эта система машинного перевода разрабатывается с 2001 года лабораторией автоматизированных систем обработки лингвистической информации (АСОЛИ) в Институте прикладной математики им. М.В. Келдыша РАН.
Передача пространственных отношений (далее ПрО) — их анализ и синтез — в системе Кросслейтор была выбрана в качестве предмета исследования ввиду того, что с одной стороны, эта задача является достаточно компактной1, а с другой — потому что ПрО и способы их выражения мало изучены именно в контексте машинного перевода (особенно, учитывая специфику восточных языков, в частности турецкого). Пока не приходится говорить об универсальности в смысле исчисления всех языковых возможностей членения логической категории пространства (для решения этой задачи должен быть привлечен материал всех известных языков), но задача стандартизации уже выделенных и описанных в литературе ПрО вполне может быть поставлена и во многом решена уже сейчас.
На тему ПрО написано большое количество работ, однако практически нет таких, где ПрО были бы систематизированы и классифицированы таким образом, чтобы их было легко обрабатывать в системах машинного перевода. Само понятие ПрО понимается разными исследователями по-разному. Семантически ПрО, говоря словами М.В. Всеволодо-вой, можно определить, как «соположение в пространстве какого-либо предмета, действия (события), признака и некоторого пространственного ориентира». На синтаксическом уровне, с которым мы и будем иметь дело в данной работе, определить формально, что такое
В алгоритмах синтаксического анализа и синтеза предложения можно вычленить довольно много отдельных частей, занимающихся определенными грамматическими явлениями: одна группа правил занимается обработкой времен глагола, другая — временными отношениями, третья — причинными и т. д. Поэтому алгоритм обработки пространственных отношений можно легко вычленить.
ПрО оказывается не так легко — для этого необходимо рассмотреть локальную ситуацию2 и перечислить ее участников, поэтому пока мы ограничимся лишь некоторым наборов примеров локальных ситуаций из русского языка: мальчик идет из школы, я положила книги в шкаф, возьми масло из холодильника, Ира живет недалеко от станции, кошка вылезла из-под шкафа. Подчеркнутые именные группы (далее они будут определены как именные группы слова-ориентира) и являются наиболее сложными местами при переводе локальных конструкций — необходимо составить такой алгоритм их анализа и синтеза, чтобы на выходе системы машинного перевода (далее МП) постулировались нужные падежи, предлоги, послелоги или служебные имена.
Существует достаточно много способов выражения ПрО в естественных языках: это и морфологические способы (добавление словоизменительных (падежных) или словообразовательных аффиксов), и синтаксические (использование служебных имен, предлогов/послелогов, изменение порядка слов, инкорпорация), и лексические (использование наречных лексем: далеко, близко и др.) В рассматриваемых нами языках, а именно — в русском, английском и турецком, используются падежи, предлоги и служебные имена/послелоги. Рассмотрим несколько примеров:
Девочка стоит около двери. — для выражения ПрО используется предлог «около» и родительный падеж слова-ориентира «дверь» .
The girl is standing at the door. — для выражения ПрО используется предлог «at».
Kiz kapinin yaninda duruyor. — для выражения ПрО используется служебное имя «yanmda» и родительный падеж слова-ориентира «карі» /дверь/.
Актуальность темы передачи ПрО при МП обусловлена тем, что ни одна система МП не может функционировать без подобного модуля. Отсутствие классификации ПрО, которая была бы необходимой и практически достаточной для дифференциации пространственных значений в заданных языках, создает трудности при создании алгоритмов анализа и синтеза при МП. Особенно такая классификация оказывается нужна в системах МП, ориентированных на несколько разных по своему грамматическому строю языков. В этой связи разработка такого представления ПрО и создания такого списка ПрО, которые включали бы в себя все оппозиции, релевантные для заданных языков, и только их, в настоящее время является актуальной задачей.
В современной лингвистике попытки описать ту или иную часть инвентаря выражения категории пространства предпринимались неоднократно и достаточно успешно.
2 Понятие локальной ситуации будет подробно описано в Главе 2. Пока скажем только, что имеет-
ся в виду ситуации расположения объекта где-либо или его перемещения или передвижения куда-либо.
3 Подробнее о терминологии описания локальных ситуаций см. Главу 2. раздел 2.1.
Существует большое количество исследований, посвященных семантике пространственных показателей в языках мира, есть ряд типологических исследований в этой области. Ядро этой группы составляют работы, связанные с именами Л. Талми, С. Свору, В.А. Плунгяна, а также исследования, проводимые в Институте психолингвистики им. Макса Планка (г. Неймеген, Нидерланды). Однако следует отметить, что при наличии довольно большого количества работ в этой области тема далеко не исчерпана — естественные языки предоставляют огромный материал по сопоставлению средств выражения в них пространства. На данный момент существуют описания лишь для небольшого количества самых распространенных языков. Данные турецкого языка вообще, насколько нам известно, никогда не привлекались. Исследования же, посвященные созданию списков ПрО в целях передачи их в системах МП, практически отсутствуют.
Объектом данного диссертационного исследования являются способы выражения ПрО в естественных языках. В работе приводится контрастивный анализ средств выражения ПрО в русском, английском и турецком языках. Это необходимо для выполнения основной цели работы — создания алгоритма передачи ПрО в многоязычной системе МП Кросслейтор (с английского языка на русский и турецкий). Для достижения поставленной цели использовались индуктивный метод и метод оппозиций. Их комбинация позволила соотнести все теоретические возможности выделения ПрО с реальными средствами отображения пространственных значений в рассматриваемых языках. ПрО в диссертационной работе дифференцируются по двум параметрам: локализации и ориентации. Было выделено 27 значений параметра локализации и 5 значений параметра ориентации. Перемножение этих чисел дает 235 возможных ПрО. В рассматриваемых языках не было зафиксировано выражение трех из них. Таким образом, действующий список ПрО включает в себя 232 ПрО, каждое из которых зафиксировано, по крайней мере, в одном из трех языков. Оставшиеся три не были включены в список, однако вполне возможно, что данные других языковых групп дадут дополнительный материал и позволят внести и эти отношения в общий список ПрО.
Указанные предмет и цель настоящего исследования обусловили постановку и последующее решение следующих конкретных задач:
дифференцировать ПрО — вычленить параметры классификации ПрО, необходимой и достаточной для их передачи в системе МП;
провести контрастивный анализ способов выражения ПрО в русском, английском и турецком языках;
составить алгоритм анализа ПрО с английского языка (каждому английскому предлогу поставить в соответствие определенное ПрО; для многозначных предлогов указать условия выбора того или иного соответствующего ему ПрО);
составить алгоритм синтеза ПрО для русского и турецкого языка (для каждого ПрО найти подходящие способы выражения в русском и турецком языках).
Научная новизна настоящего диссертационного исследования заключается в том, что на основании проведенного исследования был создан список семантических отношений с пространственным значением, релевантный для многоязычной системы МП, ориентированной на русский, английский и турецкий языки. Этот список также может быть использован в системах МП, ориентированных на большинство европейский языков и языков тюркской группы.
Был также осуществлен контрастивный анализ способов выражения ПрО в трех языках, позволяющий в дальнейшем использовать его при создании алгоритмов анализа и синтеза ПрО в многоязычной системе МП.
Впервые на материале турецкого языка были исследованы способы выражения ПрО в языке тюркской группы.
Материалом для исследования послужили данные трех языков (русского, английского и турецкого), извлеченные из грамматических описаний и работ более общего характера. В качестве источников извлечения пространственных значений, а также средств их выражения использовались новейшие издания авторитетных толковых словарей анализируемых языков ([Merriam-Webster 1998]; [Ефремова 2000, 2001], [Turkce Sozliik 1998]), наиболее полные перекрестные двуязычные словари ([MultiLex 1997], [Большой турецко-русский словарь 1998], [Щербинин 1998], [Щека 2004], [Altai Sozliik 2002], [Cagda Tiirkce-Ingilizce Sozlugu 1983]), стандартные и фундаментальные грамматики ([Quirk 1982]; [Русская грамматика 1980], [Кононов 2002]), учебные грамматики ([Пулькина, Захава-Некрасова 2000], [Щека 1996], [Кузнецов 2004]), а также справочные издания по морфологии ([Аксененко 1956,1962]; [Кузнецова, Ефремова 1986]; [Рейман 1982]; [Тихонов 1985]). Наряду с существующими грамматическими описаниями главным источником информации о локативных показателях в турецком языке была непосредственная работа с носителями языка. Сведения об употреблении пространственных показателей брались из корпуса оригинальных текстов.
Теоретически значимые результаты исследования. В диссертационном исследовании проводится контрастивный анализ средств выражения ПрО в трех языках — русском, английском и турецком. Создается список ПрО, необходимый и достаточный для их передачи в системе МП, для каждого из выделенных ПрО показывается, какие параметры могут влиять на выбор пространственного показателя (падежа, предлога, послелога) при
описании пространственных ситуаций перемещения, движения и местонахождения. Впервые в рамках МП описывается модуль обработки ПрО для трех языков — русского, английского и турецкого.
Практическим результатом работы является создание алгоритма, позволяющего адекватно передавать ПрО при переводе с английского языка на турецкий и русский языки. Этот алгоритм встроен в качестве отдельного модуля в многоязычную систему МП Кросслейтор, разрабатывающейся с 2001 года лабораторией автоматизированных систем обработки лингвистической информации в Институте прикладной математики им. М.В. Келдыша РАН.
Разработанный список выражения ПрО в русском, английском и турецком языках в дальнейшем может быть использован в качестве лингводидактического материала при обучении английскому и турецкому языку, а также русскому как иностранному.
Апробация результатов исследования. Основные положения диссертации были представлены в докладах и выступлениях на V Международной конференции «Исторические источники Евроазиатских и Североафриканских цивилизаций: компьютерные подходы» в Москве (июнь 2003), на Международной конференции Диалог'2004 (Москва, июнь 2004) и на Международном конгрессе востоковедов ICANAS-XXXVII (Москва, август 2004). Работа прошла обсуждение на кафедре теоретической и прикладной лингвистики Российского государственного гуманитарного университета.
Кроме того, результаты работы использовались автором при создании двуязычных словарей: Мансурова О.Ю. Карманный турецко-русский словарь. — М.: ACT: Восток-Запад, 2005. — 252 с; Мансурова О.Ю. Современный турецко-русский словарь. — М.: ACT: Восток-Запад, 2005. — 222 с; Мансурова О.Ю. Карманный русско-турецкий словарь. — М.: ACT: Восток-Запад, 2006. — 300 с; Мансурова О.Ю. Русско-турецкий турецко-русский словарь. — М.: ACT: Восток-Запад, 2006.— 923 с.
Практические результаты диссертационного исследования использовались также при преподавании автором турецкого языка студентам 1—4-го курсов Института лингвистики Российского государственного гуманитарного университета.
Структура работы. Диссертация состоит из Введения, четырех глав, Заключения, Библиографии и Приложений. Во Введении дается общая характеристика настоящего диссертационного исследования, формулируются цели и задачи работы, использованный материал, ее актуальность и научная новизна. Глава 1 посвящена истории изучения ПрО. В ней содержится обзор имеющейся лингвистической литературы, посвященной ПрО и методам их описания, рассматриваются существующие классификации ПрО, их плюсы и минусы применительно к целям МП. В Главе 2 обсуждаются критерии выделения ПрО.
Эта глава посвящена созданию теоретической базы: в ней выбираются основы описания ПрО таким образом, чтобы классификация была стройной и, конечно, обоснованной теоретически, а метаязык — удобным для использования его в системе МП и в то же время не слишком сложным. ПрО дифференцируются при помощи двух параметров: локализации (27 значений) и ориентации (5 значений). Их пересечение дает 235 теоретически возможных ПрО. Практический список состоит из 232 ПрО — три из теоретически возможных ПрО не были зафиксированы ни в одном из рассматриваемых языков, поэтому не были включены в общий список. Глава 3 посвящена контрастивному анализу способов выражения ПрО в русском, английском и турецком языках. Для каждого языка подробно описывается, как в нем выражаются ПрО. Сравнительная таблица способов выражения ПрО в русском, английском и турецком языках позволяет на материале трех языков сделать выводы о том, какие ПрО в языках выражаются одинаково, а какие — нет; где наблюдаются «дыры» — отсутствие формального способа выражения данного ПрО. Отдельно приводится информация, касающаяся грамматического строя турецкого языка. В Главе 4 рассматриваются вопросы, связанные с передачей ПрО в системах МП, в частности, в многоязычной системе МП Кросслейтор. В главе приводится краткая характеристика всех этапов работы системы, после чего рассматривается представление ПрО в системе Кросслейтор и их обработка на этапах анализа и синтеза. В этой же главе обсуждаются основные проблемы, встающие при машинной обработке ПрО, отдельный раздел главы посвящен сложным моментам, являющимся причиной возникновения неоднозначности или ошибок при переводе. В Заключении подводятся основные итоги проведенного исследования. В Приложениях приводится полный список выделенных автором настоящего исследования ПрО, а также список примеров перевода предложений с английского на турецкий язык, осуществленного системой МП Кросслейтор. Библиография содержит список использованной в работе литературы.
Работы типологического направления
В существующих работах типологического направления наблюдается во многом схожая картина — до настоящего момента в основном обсуждались общие проблемы и методика изучения пространственных значений в типологическом аспекте. Тем самым, исследований, посвященных непосредственно типологии пространственных значений и пространственных систем, среди типологических работ практически не существует. Основная масса исследователей сосредоточена не столько на семантике конкретных показателей, сколько на более общих проблемах концептуализации пространства в естественном языке. Многие из этих работ тесно связаны с психолингвистической проблематикой. К работам такого рода относятся, например, книга С. Свору, статьи Л. Талми, С. Левинсона, М. Боверман.
Лишь очень немногие из существующих работ посвящены непосредственно типологии пространственных значений и показателей, выражающих эти значения. В их число входят отдельные статьи представителей «психолингвистического» направления — М. Боверман и С. Левинсона, а также статья В.А. Плунгяна [Плунгян 2002].
Прежде чем перейти к обзору текущего состояния типологических исследований, следует отметить, что существующие работы по типологии пространственных значений во многом остаются разрозненными. В этом заключается их разительное отличие от исследований, например, по семантике глагольных категорий.
Так, известно, что основные принципы исследования глагольных категорий в межъязыковом аспекте были заложены в классических работах Б. Комри, Э. Даля, Дж. Байби и некоторых других исследователей. В дальнейшем на основе этих работ возникло огромное количество статей, посвященных различным частным проблемам, в которых происходило дальнейшее развитие, уточнение и обсуждение дискуссионных вопросов.
Что же касается пространственных показателей, то первая собственно типологическая работа [Svorou 1994] фактически не получила никакого резонанса в последующих публикациях. Показательным в этом отношении является, например, тот факт, что в статье [Levinson, Meira 2003], обобщающей результаты работы целой группы исследователей, эта книга даже не упоминается. Более плодотворными оказались статьи Л. Талми и М. Боверман, давшие начало целой серии исследований.
Основной вклад Л. Талми в изучение пространственных категорий связан с развитием типологии глаголов движения. В классических работах этого исследователя (см. [Talmy 1975, 1985, 2000]) обращается внимание на то, что языки мира могут довольно сильно отличаться друг от друга по семантике глаголов движения. Эти различия прежде всего касаются того, какая именно информация о ситуации движения включена в глагольный корень и какие компоненты ситуации движения выражаются вне глагольного корня другими языковыми средствами. В зависимости от этого в языках мира Л. Талми выделяет несколько базовых моделей включения в глагольный корень информации о ситуации движения («моделей лексикализации»).
В книге «Грамматика пространства» С. Свору [Svorou 1994] также рассматриваются сходства и различия между языками в том, каким образом в языке кодируются и выражаются ПрО. Внимание С. Свору сосредоточено на семантике пространственных показателей в языках мира, а также их происхождении и диахронической эволюции. Основные результаты, полученные в этой работе, состоят в следующем.
Во-первых, на материале языковой выборки показано, что в число диахронических источников пространственных показателей в языках мира входит достаточно узкий набор лексем, регулярно повторяющихся в различных языковых ареалах. Наиболее распространенными примерами таких лексических источников являются глаголы движения, а также названия частей тела ( голова , спина ) и частей объектов ( верх , перед ). Кроме того, здесь были предложены три модели реинтерпретации существительных, по которым лексемы-источники могут эволюционировать в грамматические показатели (ан тропоморфная, зооморфная и ландшафтная). В совокупности эти три модели достаточно убедительно объясняют пути эволюции пространственных показателей, и, кроме того, позволяют делать предсказания о возможных путях эволюции для того или иного лексического источника.
Во-вторых, было подтверждено выдвинутое в начале работы предположение о том, что число значений, выражаемых в языках мира тем или иным типом пространственных показателей, также ограничено. Для проверки этого предположения было проведено типологическое исследование показателей со значением в пространстве перед ориентиром и в пространстве за ориентиром . В результате были выявлены и описаны различные дополнительные значения (как пространственные, так и непространственные), которые в языках мира могут выражаться этими показателями, а также выдвинуты предположения о механизмах развития дополнительных значений из базовых. Помимо обсуждения теоретических вопросов, практическим результатом этой работы стало описание полисемии показателей, выражающих нахождение перед и за ориентиром.
Таким образом, мы видим, что Л. Талми и С. Свору не ставят своей целью подробное описание семантики пространственных показателей. Акцент в их работах ставится скорее на проблемах концептуализации пространства в языковых выражениях.
Другой типологической работой является статья В.А. Плунгяна, посвященная категории глагольной ориентации. Следует, однако, отметить, что многие положения, сформулированные в этой статье, с успехом могут быть приложены не только к категории глагольной ориентации, но и к пространственным значениям вообще. В этой статье сделана попытка классифицировать пространственные значения, которые в языках мира могут быть выражены при помощи показателей «глагольной ориентации» (то есть аффиксом в составе глагольной словоформы или аналитическим элементом в глагольной синтагме, имеющим пространственное значение). В частности, здесь предлагается различать локализации относительные (ориентир задан непосредственно в контексте) и абсолютные. Дальнейшее внимание автора сосредоточено на более детальном анализе значений, выражаемых абсолютными локализациями, среди которых выделяются предметные, гравитационные, антропоцентрические и дейктические (более подробно см. [Плун-гян 2002]).
О методе классифицирования. Метаязык описания ПрО
При создании списка ПрО в данном исследовании мы в основном опирались на работу А.Д. Великорецкого «Типология пространственных значений» [Великорецкий 2002], классификацию ПрО В. Comrie и N. Smith [Comrie, Smith 1977], а также исследования М.В. Всеволодовой [Всеволодова, Владимирский 1982] и И. Пете [Пете 2004]. Все эти работы описаны в разделах 1.2-1.3 первой главы. Классификации вышеназванных авторов имеют между собой много общего — все авторы выделяют объект и ориентир, локативные роли; пространство членится практически на одни и те же топологические зоны. Однако иерархия классификации, вычленяемые оппозиции и, естественно, терминология сильно различаются.
Классификация, предлагаемая М.В. Всеволодовой, наиболее иерархична из всех, в ней выделяется наибольшее число оппозиций. И. Пете, опираясь в чем-то на классификацию М.В. Всеволодовой, несколько упростил ее, одновременно в чем-то дополнив. Отличием его классификации является то, что он делит все локальные отношения на точечные, линейные и окружные. При этом локативные роли «местонахождение», «директив-старт», «директив-финиш», «трасса» оказываются релевантными только для точечных локальных отношений.
Классификации А.Д. Великорецкого и В. Comrie & N. Smith менее иерархичны (в них присутствуют всего два классификационных признака — ориентация и локализация), но при этом более алгоритмичны.
В данном исследовании мы постарались выделить те элементы существующих классификаций, которые позволили бы создать список ПрО, оптимальный для целей МП. Грамматика, построенная на базе такой классификации, должна, с одной стороны, охватывать все выделенные и описанные в литературе ПрО (хотя бы для некоторого набора языков), а с другой стороны, быть достаточно стройной и максимально обобщенной, чтобы ее легко было обрабатывать алгоритмически. В работе при выработке параметров классификации ПрО мы старались сделать ее менее иерархичной, ограничившись двумя классификационными признаками. Все ПрО, релевантные для данных языков были учтены.
При построении системы пространственных значений лингвистами обычно применяются различные методы, которые, естественно и неизбежно, сочетаются.
Практически все авторы специально упоминают связанный с компонентным анализом метод оппозиций, справедливо оценивая его как удобный инструмент для разработки классификации средств выражения пространственных значений40.
Между тем попытка охватить весь языковой материал стройной системой оппозиций приводит к известным упрощениям, в результате которых создаваемая в процессе семантического исследования классификационная схема «...не исчерпывает всей сложности пространственных представлений, ...и не позволяет выявить индивидуальные пространственные значения отдельных единиц» [Маляр, Селиверстова 1998: 13].
К субъективным недостаткам метода оппозиций относится потенциальная опасность того, что часть материала, не укладывающаяся или плохо укладывающаяся в схему, будет либо субъективно расклассифицирована, либо останется за рамками исследования .
В современной типологии широко используется индуктивный метод в виде опросов информантов, а также работы с лексикографическими и текстовыми корпусами, что способствует максимально полному вычленению всех возможных ПрО в исследуемых языках и ведет к открытости списка пространственных значений, что естественно для типологического исследования: число языков не ограничено, следовательно, список значений открыт и постоянно пополняется. Сочетание основополагающего принципа «от зна чения — к форме» с индуктивным методом построения классификации, которая предполагает открытость списка ПрО, опирается, в свою очередь, на логический подход, логическое исчисление ПрО в рамках соответствующей понятийной категории. Не теряет своей актуальности идея о том, что «...процесс познавательной деятельности лингвиста должен быть циклическим, чередующим индуктивный, таксономический метод восхождения от формы к ее значению, с дедуктивным, воссоздающим процесс перехода от постулированного значения к выражающей его форме» [Кибрик 1992: 25].
При создании классификации ПрО в целях использования в системах МП эти два метода неизбежно сочетаются. С одной стороны, сначала происходит вычленение ПрО в исследуемых языках (с которых или на которые осуществляется перевод), с другой стороны, существует жесткая необходимость уложить все ПрО отношения в какую-то схему, в идеале построенную по принципу оппозиций. Неизбежное же упрощение здесь вполне допустимо, так как на данный момент перед прикладными лингвистами не стоит задача создания системы МП, позволяющей переводить все тексты грамматически и стилистически идеально.
Итак, мы ждем от классификации: стройности (что позволит экономно расходовать программные ресурсы) и при этом максимально возможного охвата языковых данных.
В настоящей работе используется в основном терминология И.А. Мельчука и В.А. Плунгяна: взаиморасположение предметов будет отображать параметр локализации, а характер ситуации (статичная или динамичная, если динамичная, то какой именно тип движения присутствует) — параметр ориентации42. Метаязык описания ПрО должен быть максимально простым, логичным и мнемоничным, поэтому для обозначения категорий, в отличие, например, от принятых в работе А.Д. Великорецкого43, были выбраны слова русского языка как максимально мнемоничные для русскоязычных читателей.
Выражение ПрО в русском языке
В этой главе будет показано, как ПрО выражаются в русском, английском и турецком языках, а такнсе будут описаны основные сложности, возникающие при поиске соответствий при передаче ПрО с одного языка на другой. В первой главе уже говорилось о том, что способы выражения ПрО в естественных языках бывают разными: морфологическими (аффиксы), синтаксическими (предлоги, послелоги) и лексическими (наречные лексемы). В русском языке для выражения ПрО используются предлоги и падежи, в английском — предлоги, и в турецком — падежи, служебные имена (также стоящие в определенном падеже) или послелоги.
Нужно отметить, что далеко не все ПрО, имеющие стандартные способы выражения в одном языке, имеют соответствующие им стандартные способы выражения (или же вообще могут быть выражены) в другом языке (подробнее см. 4.4.1). Например, для ЛОК_под в русском языке существуют способы выражения ПрО для всех пяти ориентации: ЛОК_под, стат. лежать под столом, ЛОК_ под, ненапр. бродить под крышей, ЛОЕ_ под, старт вынуть из-под стола, ЛОК_ под, финиш положить под стол, ЛОК_ под, трасса пройти под столом, тогда как для ЛОК_перед в русском языке есть только варианты выражения ЛОК_перед, стат., ЛОК_перед, ненапр. и ЛОК_перед, трасса. В турецком же языке существуют пять вариантов выражения и для этого ПрО: ЛОК_перед, стат. evin onunde durmak — стоять перед домом ЛОК_перед, ненапр. evin onunde komak — бегать перед домом ЛОК_перед, старт evin oniinden gitmek — отойти от передней части дома ЛОК_перед, финиш evin бпідпе gelmek — подойти к дому спереди ЛОК_перед, трасса evin oniinden komak — пробегать перед домом
В случае отсутствия стандартного способа выражения некоторого ПрО в Таблицах способов выражения ПрО в трех языках (№ 8-Ю) в соответствующей клетке таблицы ставится прочерк. Для передачи же таких ПрО в системе МП — например, если переводить с более «богатого» с точки зрения способов выражения в нем ПрО (например, турецкого языка), на более «бедный» (русский, английский языки) — приходится обходиться хотя бы приближенной передачей смысла. В таких случаях алгоритм обработки ПрО должен предлагать замены, позволяющие, пусть и с небольшим искажением смысла, перевести данную конструкцию. Например, ИГ «от + Род. п» не является точным выражением в русском языке ЛОК_перед, старт: она маркирует перемещение л-объекта не из пространства перед ориентиром, а из пространства около ориентира. Такой вариант не является точным переводом, однако в общих чертах передает смысл, и поэтому был выбран для синтеза в системе Кросслейтор (см. описание алгоритмов синтеза русского и турецкого языков в Главе 4).
В этом разделе будет показаны способы выражения ПрО в русском языке. Столбцы приведенной ниже Таблицы № 8 выражают параметр локализации, а строки — параметр ориентации. Пересечение параметра локализации и ориентации дает соответствующее ПрО, способы выражения которого в русском языке и приводятся в этой клетке таблицы.
Напомним, что ПрО выражаются в русском языке предложными группами. Таким образом, нам необходимо прописать для каждого ПрО, какое сочетание «предлог + падеж слова-ориентира» маркирует это ПрО в русском языке.
Интересны различия выражения в русском и английском языках директива-финиша для случаев движения л-объекта (идти, бежать и т. п.) и перемещения л-объекта [класть, вешать и т. п.) . Для многих значений параметра локализации выражение ориентации финиш есть только для локальных конструкций перемещения: Я положил ручку перед тобой, но не Я пошел (куда?) перед дом64. В таблице эта оппозиция передается следующим образом: если конструкции перемещения и движения для данной локализации выражаются по-разному, то клетки столбца финиш делятся на две части, верхняя обозначает случай двююения: Я пошел к-рядом с домом, а нижняя — перемещения. Например, верхняя часть клетки таблицы, соответствующей ЛОК_напротив, финиш, пустая (нельзя сказать Пойти (куда?) напротив дома. В нижней части этой клетки приведена ИГ напротив + Род. п.: Наш сосед выгрузил щебенку прямо напротив входа в гараоїс.
В данной работе по умолчанию мы описываем только нормативные случаи, поэтому и отмечается отсутствие значений директива-старта и финиша у локализаций НА и ПЕРЕД (ср. невозможность форм типа подъехал перед дом, отъехал сперед дома, дым поднимается над дом, опускаться с-над дома— возможные в польском, сербском и других славянских языках), а также МЕЖДУ и СРЕДИ (ср. неотмеченность для нормативного языка 3мея ускользнула между камни, 3мея выползла из-меэюду камней). В литературном языке при необходимости маркировать эти отношения используется дескрипция, например, со словами расщелина, промежуток и подобными: Я стоял и вглядывался в промежуток между тибетскими холмами. (Мулдашев). Однако, как показывает материал интернета, в разговорной речи подобные употребления для последнего случая существуют: Когда просыпаюсь, то, закрыв глаза, вюісу, что из меокду бровей светит белым светом [Всеволодова2005: 26].
В Таблице № 8. Способы вырао/сения ПрО в русском языке, приведенной в этой главе, указываются все способы выражения, имеющиеся в языке для каждого ПрО. При отсутствии стандартного способа выражения ПрО, в таблицах ставится прочерк. В алгоритме синтеза русского языка (см. п. 4.3.2) каждому ПрО соответствует уже только один способ его выражения в русском языке. Вместо прочерков будут предлагаться соответствующие замены.
В английском языке ПрО маркируются предлогами (например, on the table «на столе») или реже лексически (on the other side of «на другой стороне»). Все предлоги управляют основным падежом существительных и косвенным падежом местоимений (ср. I took the book from that man — I took the book from him.)
Для многих значений параметра локализации, как это уже было описано для русского языка, разделяются случаи с глаголами движения (верхняя часть клетки таблицы) и с глаголами перемещения (нижняя часть).
Преобразования локальных конструкций на этапе анализа английского предложения
К сожалению, не все варианты ПрО можно различить, используя СХ участников локальной ситуации. Например, практически невозможно различить значения ЛОК_около, финиш и ЛОК_общ., финиш у предлога against при СХ (процесс) = «направленное движение».
Существует также ряд слов, которые не подчиняются общим закономерностям. И чем распространеннее предлог, тем большее количество слов имеют с ним особую сочетаемость. Возьмем для примера предлог in. Основные его значения приведены в таблице. Однако для русского человека что-то изображается «на» картине — картина воспринимается как плоскость, для англичанина что-то будет изображаться «в» картине: in a picture. Такие случаи в большинстве своем невозможно предсказать, необходимо прописывать отдельные правила-исключения для всех таких «разночтений». Например, in the picture после этапов английского анализа превратится в picture ЛОК_общ., стат.. В правилах же синтеза русского языка, помимо общего правила преобразования «ЛОК_общ., стат. — -в + Пр. п.», будет прописано специальное правило-исключение: «картина ЛОК_общ., стат.» «на — картина Вин. п.».
Схожесть контекстов употребления некоторых английских предлогов просто поразительна: She studies at Cambridge. Она учится в Кембридоюе (университете), но She lives in Cambridge. Она живет в Кембридже (городе).
Если для анализа такие случаи не представляют особых трудностей — в обоих случаях будет постулироваться ЛОК_общ., стат., — то для синтеза английского предложения практически невозможно запрограммировать нужный вариант выражения ЛОК_общ., не-напр. (in или at). Единственное, что можно сделать в такой ситуации— это прописать употребление этих предлогов с наиболее частотными глаголами.
С правилами синтеза предложений любого языка дело обычно обстоит проще, чем с правилами анализа— не нужно перебирать все варианты выражения каждого ПрО, можно ограничиться синтезом лишь одного (обычно выбирается наиболее частотный). Тем не менее, проблемы остаются: во-первых, кроме того что каждому ПрО необходимо поставить в соответствие нужный падеж и/или служебное слово/послелог, необходимо еще решить, что сделать с теми ПрО, которые в языке не выражаются стандартно. Для этого обычно приходится использовать перефразирование, но и оно не всегда оказывается возможным.
Возьмем для примера ЛОК_над, старт, выражающийся в английском языке при помощи from over. Дословный перевод словосочетания from over his eyes на русский язык будет примерно следующий: с-иад его глаз {из пространства над его глазами, сверху его глаз). Однако ни один из приведенных вариантов не годится для литературного перевода. Человеку при переводе такого словосочетания помогает контекст, а также его чувство языка: возможно, можно пренебречь смыслом «над» и перевести просто «из его глаз». В системе МП алгоритм может учитывать контекст только в очень ограниченном объеме. Для большинства случаев этого оказывается достаточно, однако когда стандартного выражения ПрО в языке не зафиксировано, алгоритм подставляет вместо него выражение ближайшего к нему по смыслу ПрО, имеющего стандартный способ выражения в данном языке (все эти замены также приведены в таблице).
Еще один пример: ЛОК_среди, старт — по-английски это ПрО выражается сочетанием from among— «It is difficult for me to choose the best from among my students)). При переводе на турецкий язык никаких проблем не возникает — используется послелог ага-smdan, полностью передающий смысл английского предлога. При синтезе же на русский язык предложения, имеющего в своем составе такое ПрО, приходится как бы заменять from among на from (вместо ЛОК_среди, старт синтезировать ЛОК_общ., старт): «Мне трудно выбрать лучшего из студентов)). И таких случаев оказывается довольно много.
Все ПрО обрабатываются на этапе преобразования СинСемП в СинП, на который английские предложения поступают уже в виде деревьев зависимостей, претерпев все преобразования этапов анализа и семантической обработки. Задача этого этапа — привести дерево к такому виду, чтобы для превращения его в грамматически правильное предложе 123 ниє русского или турецкого языка нужно было только расставить слова в нужном порядке, приписать необходимые грамматические характеристики (этим занимается этап синтаксического синтеза), а затем по параметрам восстановить нужные грамматические формы слова (этап морфологического синтеза).
ПрО приходят на этап преобразования СинСемП в СемП в виде вершин объектов, подчиненным глаголам движения, статическим глаголам, глаголам перемещения (см. п. 4.2.1) или существительным:
Такие «пространственные поддеревья» надо преобразовать — приписать объекту нужный падеж и добавить предлог или служебное имя/послелог (в случае необходимости). Например, для обработки ПрО ЛОК_под, финиш нужны следующие правила: для русского языка: