Содержание к диссертации
Введение 5
Глава 1 Проблема перехода от скрытой категории определенности-неопределенности (КОН) к ее грамматическому выражению в языке с
артиклями 10
1. Определенность-неопределенность как грамматическая и как
скрытая функционально-семантическая категория 10
2. Используемая терминология 16
3. Проблема перевода значений скрытой категории одного языка
в граммемы соответствующей грамматической категории другого
языка 20
3.1. Разные подходы к определению перевода 20
Типы расхождений между исходным текстом и текстом перевода 24
Проблема перевода скрытых категорий одного языка в граммемы другого для систем автоматического перевода 26
3.4. О проблемах организации словаря 32
4. Специфика перевода научно-технической литературы 41
Выводы 48
Глава 2 Контексты реализации значений функционально-семантической КОН в
русском языке и грамматической КОН в английском языке 53
1. Методологические подходы к решению проблемы адекватной интерпретации "скрытой" КОН в русском языке при переводе на
английский 53
2.Факторы, позволяющие локально фиксировать значения
ФСКОН для русского языка 57
Прямые лексические показатели 58
Косвенные семантико- синтаксические показатели: 59
2.3. Актуальное членение предложения как косвенный
показатель КОН 61
Косвенные грамматические показатели 63
Косвенные лексические показатели 66
2.6 Механизмы формального описания факторов локального
фиксирования значения ФСКОН для русского языка 81
3. Поддающиеся формализации факторы выбора артикля в
английском языке 90
3.1. Употребления, обеспечиваемые словарем (или
грамматической характеристикой лексемы в словаре) 95
Формализуемые употребления нулевого артикля 101
Формализуемые употребления определенного артикля 103
Формализуемые употребления неопределенного артикля... 106
Выводы 108
Глава 3 Статистический анализ поведения КОН в исследуемом тексте 112
1. О методике проведения анализа исследуемых текстов 112
2. Анализ детерминации предметной лексики в научном тексте 115
2.1. Словарь текстовых операторов 117
2.1.1 Семантические классы текстовых операторов 122
2.1.2 Примеры численных соотношений по отдельным
текстовым операторам 128
2.2. Анализ заголовков 132
3. Статистический анализ контекстов, влияющих на выбор
детерминатора именной группы в английском тексте 138
4. Правила предпочтения выбора артикля на основе
статистических данных 142
4.1. Система правил 142
4.2. Трудности и противоречия, связанные с анализируемыми
контекстами 147
5 Эксперимент по проверке адекватности полученной системы
правил 149
Выводы 158
Заключение 161
ПРИЛОЖЕНИЕ 1 Статьи из переводных и толковых словарей, посвященные
английскому определенному артиклю 166
ПРИЛОЖЕНИЕ 2 Список анализируемых заголовков из книги А.Е. Кибрика
"Методика полевых исследований" 172
ПРИЛОЖЕНИЕ 3. Результаты сравнительного тестирования некоторых
промышленных систем машинного перевода 175
ПРИЛОЖЕНИЕ 4. О методике тестирования лингвистического программного
обеспечения 199
Библиография 204
Источники , 204
Литература 204
Словари , 210
Введение к работе
Исследования категории определенности-неопределенности (КОН) как в морфологическом, так и функционально-семантическом аспекте, поднимают широкий пласт теоретических проблем, связанных с референцией, семантикой артиклей в артиклевых языках, типами соответствия одноименных артиклей в разных артиклевых языках (например, каковы семантические различия между определенным артиклем во французском и в английском языке), а также типами соответствия между проявлениями скрытой категории определенности-неопределенности в безартиклевых языках и ее грамматическими показателями (детерминаторами) в артиклевых. Именно этот последний аспект будет находиться в фокусе внимания данной работы. В качестве исследуемой пары языков были выбраны русский (исходный язык, безартиклевый) и английский (язык перевода, артиклевый).
Кроме теоретического аспекта (изучение поведения КОН на всех уровнях описания языка: фонетическом, морфологическом, синтаксическом, семантическом, логическом, прагматическом), в исследованиях такого рода существует еще и прикладной аспект. Он связан с поиском алгоритма осуществления грамматически (и, по
возможности, семантически) адекватного перевода с безартиклевого языка на артиклевый в системах автоматического (машинного) перевода, а также с построением правил употребления артикля в процессе обучения артиклевому языку как иностранному людей, для которых родным является безартиклевый язык. Тестирование существующих систем машинного перевода показывает, что результат расстановки артиклей в тексте нельзя признать удовлетворительным, что делает решение данной задачи важным и актуальным. В нашем исследовании мы в первую очередь сосредоточимся именно на прикладном аспекте.
В рамках теоретических исследований, посвященных КОН, и шире, проблемам референции, накоплен богатый материал для сопоставительного анализа, имеющего прикладную ориентацию. В связи с этим возникает вопрос, нельзя ли при помощи довольно простых с лингвистической точки зрения, механизмов повысить качество перевода уже существующих систем автоматического перевода, не перерабатывая радикально их идеологию. Возможно несколько способов улучшить результат:
1) Дополнить синтез блоком, обеспечивающим отслеживание
тождественных референтов по всему тексту
2) Дополнить словарь системы специально разработанным
множеством помет, помогающим выставить правильное значение
категории определенности-неопределенности в тексте перевода, а также построить систему правил продукции вида "Если X, то У", основанную, с одной стороны, на всех теоретических описаниях поведения категории как в языке исходного текста, так и в языке перевода, а с другой, на статистической регулярности ее выражения при именных лексемах в тексте.
С нашей точки зрения, наиболее реалистичен второй способ. Следует сделать оговорку о том, что тип систем перевода, рассматриваемый в данной работе, не строит семантическое представление всего текста, но проводит его морфологический анализ (полная атрибуция словоформы в тексте) и синтаксический анализ (в частности, система умеет вычленять именные группы и определять их синтаксическую вершину). Некоторые семантические сведения предусмотрены в структуре словарной статьи словаря системы, который является одним из важнейших ее компонентов. Однако речь идет не только об улучшении перевода, выполняемого машиной, но и об облегчении процесса порождения текста на иностранном языке человеком. Поскольку наивная картина мира носителей артиклевого и безартиклевого языка по-разному фиксирует в языке определенность-неопределенность, то, по всей видимости, нельзя говорить о полном постижении смысла этой категории в иностранном языке. Поэтому заранее согласившись с
тем, что ошибки при расстановке артиклей неизбежны, мы ставим перед собой в данном исследовании задачу выяснить вопрос о том, возможно ли руководствоваться некоторыми статистическими характеристиками при переводе текста с русского языка на английский с целью повышения качества перевода и насколько высокой будет цена неизбежных при этом ошибок. В качестве подъязыка, который предположительно обслуживается системой автоматического перевода, выбран подъязык научных текстов (или, немного шире, подъязык научно-деловой прозы). Материалом исследования послужили русский текст и перевод на английский язык книги А.Е. Кибрика "Методика полевых исследований" ([Кибрик 1972] и [Kibrik 1977]). Исследовалась детерминация в первую очередь предметной (тематической) лексики (т.е. лексики, формирующей смысловое пространство данного текста), а также общенаучной лексики (являющейся своего рода логической предикатной сеткой, "цементирующей" текст). При обработке данных использовалось лингвистическое программное обеспечение (конкордансы, компьютерные словари), созданное компаниями ABBYY Software House, МедиаЛингва, Информатик, New Media Generation, Polyglossum. Для тестирования систем машинного перевода (Socrat версии 2.0 и Stylus версии 2.5.1), данные которого приводятся в разделе "Приложение 4"
использовались тексты научно-популярных статей по компьютерной тематике. Для выявления контекстов употребления артиклей в английском языке использовались авторитетные грамматики и словари английского языка, список которых приводится в соответствующем разделе Библиографии.
Практическое применение результатов данного исследования может осуществляться в трех направлениях:
Улучшение качества перевода, выполняемого существующими системами машинного перевода.
Оптимизация правил употребления артикля при обучении английскому языку как иностранному
Улучшение качества текста, порождаемого человеком на английском языке как иностранном (например, при написании научной статьи на английском языке).
Значительная часть данного исследования была выполнена в рамках проекта типологического описания языков компании ABBYY Software House.