Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Исследование результатов машинного перевода герундия: особенности анализа и критерии редактирования Бабушкина Наталья Владимировна

Исследование результатов машинного перевода герундия: особенности анализа и критерии редактирования
<
Исследование результатов машинного перевода герундия: особенности анализа и критерии редактирования Исследование результатов машинного перевода герундия: особенности анализа и критерии редактирования Исследование результатов машинного перевода герундия: особенности анализа и критерии редактирования Исследование результатов машинного перевода герундия: особенности анализа и критерии редактирования Исследование результатов машинного перевода герундия: особенности анализа и критерии редактирования Исследование результатов машинного перевода герундия: особенности анализа и критерии редактирования Исследование результатов машинного перевода герундия: особенности анализа и критерии редактирования Исследование результатов машинного перевода герундия: особенности анализа и критерии редактирования Исследование результатов машинного перевода герундия: особенности анализа и критерии редактирования
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Бабушкина Наталья Владимировна. Исследование результатов машинного перевода герундия: особенности анализа и критерии редактирования : особенности анализа и критерии редактирования : дис. ... канд. филол. наук : 10.02.21 СПб., 2006 242 с. РГБ ОД, 61:07-10/827

Содержание к диссертации

Введение

ГЛАВА 1. Современные технологии в помощь переводчику 13

1.1 Терминология в области переводческих технологий 13

1.2 Типология компьютерных систем в помощь переводчику 15

1.3 Вспомогательные системы поддержки перевода 19

1.4 Системы машинного перевода 34

1.5 Автоматизированное рабочее место переводчика 40

1.6 Оценка качества машинного перевода 42

ГЛАВА 2. Герундий в английском языке: образование, функции, дистрибуция 49

2.1 Специфика герундия для машинного перевода 49

2.2 Формы герундия: особенности употребления и перевода 51

2.3 Именные и глагольные валентности герундия 56

2.4 Герундиальные предикативные комплексы 59

2.5 Омонимия герундия и других ing-овых форм и категорий 61

ГЛАВА 3. Машинный перевод герундия 82

3.1 Неточности и ошибки в машинном переводе герундия 82

3.2 Преобразование герундия на лексико-морфологическом уровне 84

3.2.1 Отсутствие перевода при наличии неопознанных слов 85

3.2.2 Ошибки в переводе членов омонимического рядавых словоформ с разной частотностью употребления . 87

3.2.3 Перевод устойчивых сочетаний с композитов 90

3.2.4 Особенности машинного перевода сложных слов и лексики определенной предметной области 93

3.3 Особенности преобразования mg-форм на уровне групп 94

3.3.1 Особенности перевода групп с предложным управлением . 95

3.3.2 Особенности перевода простых именных герундиальных групп 109

3.4 Преобразование герундия на уровне функциональных сегментов . 125

3.4.1 Перевод герундия в функции подлежащего 126

3.4.2 Перевод герундия в функции части сказуемого 129

3.4.3 Перевод герундия в функции беспредложного дополнения . 130

3.5 Преобразование герундия на уровне предложения 133

Заключение 140

Список принятых сокращений 144

Список использованной литературы 146

Список использованных словарей 175

Список использованных справочных изданий 176

Приложение

Введение к работе

Современный уровень развития техники, информационных технологий и средств коммуникации обеспечивает доступ к большим объемам многоязычной информации. Ввиду постоянного расширения и усложнения информационных потоков вопрос о скорости и качестве их обработки стоит особенно остро. Обработка «вручную» связана со значительными временными и материальными затратами, поэтому в настоящее время невозможно обойтись без систем, обеспечивающих переработку информации, — лингвистических автоматов различных типов. В настоящей работе рассматриваются системы, предназначенные для одного из видов обработки текста — перевода: системы в помощь переводчику и системы машинного перевода (МП).

Актуальность темы исследования. Сегодня существует целый ряд систем в помощь переводчику, которые не выполняют перевод всего текста: электронные словари, системы переводческой памяти, программы обеспечения и поддержки локализации и др. Эти системы чрезвычайно популярны в переводческом сообществе, успешно применяются для облегчения и ускорения работы, однако не решают вопроса автоматического получения перевода — для этих целей предназначены системы МП.

Создание системы МП, осуществляющей перевод, качество которого
соответствует профессиональным потребностям специалистов и переводчи
ков, остается пока недостижимым по ряду причин: технических, кибернети
ческих, лингвистических. Разработки, направленные на улучшение качества
работы систем МП, ведутся постоянно: осуществляются попытки слияния
систем машинного перевода и систем переводческой памяти, ограничивается
тематическая область, расширяются автоматические словари. Тем не менее,
переводы, выполняемые современными системами МП, требуют редактиро-
к вания, при этом для решения сложных случаев редактору необходимо знание

и языка перевода, и исходного языка, поскольку анализ исходного текста/ предложения приходится проводить заново.

Таким образом, особой проблемой, возникающей при реальном использовании компьютерных систем в практике перевода, является установление принципов и приемов редактирования результатов машинного перевода, выявление диагностических признаков, по которым редактор должен обращаться к исходному тексту и проверять синтаксическую и семантическую корректность переводного текста. Установление таких «контрольных точек» возможно только на основе сравнительно-статистического изучения большого объема текстов на исходном языке и их машинных переводов. Такой поход позволяет выделить сложные в сопоставительном аспекте синтаксические яв-

f ления и конструкции, модели их перевода, наметить возможные изменения

действующих алгоритмов перевода, выявить те проблемные конструкции, на перевод которых необходимо обращать внимание при редактировании.

В силу названных причин изучение возможного упрощения процесса редактирования и создание максимального удобства пользования действующими системами МП является актуальным.

Настоящая работа посвящена исследованию возможностей упрощения редактирования и улучшения качества машинного перевода на русский язык на примере герундия, неличной формы английского глагола. Дело в том, что

1 как при ручном, так и при машинном переводе этой формы часто возникают

ошибки и неточности. Трудности в обработке герундия объясняются его мно-говалентностью (он сочетает в себе валентности глагола и существительного), широким использованием в различных функциях, наличием в английском языке нескольких омонимов герундия, а также отсутствием в русском языке подобной глагольной формы.

Теоретической основой исследования послужили следующие поло
жения:
. 1) создание системы высококачественного профессионального машин-

ного перевода, не требующего редактирования, в настоящее время невозможно (Л. Н. Беляева, Р. Г. Пиотровский, W. J. Hutchins);

  1. постредактирование текста машинного перевода представляет собой необходимый этап в процессе осуществления профессионального перевода (J. Allen, W. J. Hutchins);

  2. герундий, являясь своего рода уникальной многовалентной формой английского языка, сложен для перевода и распознавания в тексте (Л. Г. Верба и Г. В. Верба; К. А. Гузеева и С. И. Костыгина; Е. А. Корнеева; Е. А. Зверева, И. К. Лихачева и Н. С. Щукарева) и создает особые трудности при машинном переводе.

Объектом исследования является герундий английского языка, его функционирование в научно-техническом тексте и особенности его перевода на русский язык с помощью систем машинного перевода, а предметом — способы парсинга и модели машинного перевода герундия.

Гипотеза исследования — контрастивный анализ текстов и их машинных переводов позволяет выделить словоформы и конструкции, вызывающие сложности для алгоритмизации при машинном переводе, и установить необходимые изменения алгоритмов перевода, а также определить конструкции, трудности в переводе которых неразрешимы на уровне алгоритмизации и могут быть устранены только редактированием.

В соответствии с этим целью диссертационной работы является разработка рекомендаций по редактированию перевода герундия, а также определение возможных изменений алгоритмов машинного перевода герундия на основе изучения моделей его употребления в современном специальном тексте и моделей его машинного анализа и перевода.

Для достижения указанной цели необходимо решить следующие задачи:

классификация современных систем в помощь переводчику, изучение общих принципов их работы и возможностей рационального использования систем для оптимизации переводческого процесса;

исследование особенностей организации систем машинного перевода как систем, производящих лингвистический анализ текста в полностью автоматизированном режиме;

исследование герундия, неличной формы английского глагола, как одной из наиболее сложных форм для перевода на русский язык: выявление дистрибуции и валентностей герундия, изучение омонимии герундия и других ш-овых форм и категорий английского языка, а также определение моделей функционирования герундия в специальном тексте;

! изучение реализованных в системе МП моделей машинного анализа и

перевода герундиальных употреблений, установление причин возникновения ошибок и неточностей анализа герундия и их влияния на качество перевода;

выделение особо сложных для машинного анализа и перевода герунди
альных конструкций, определение возможных изменений алгоритмов
системы МП, а также критериев редактирования машинных переводов
и составление рекомендаций по написанию текстов, предназначенных
для перевода с помощью системы МП.

Материалом исследования послужили тексты по сейсмологии, издан
ные в 1994-2000 гг., общим объемом около 260 000 словоупотреблений. По
тематике указанные материалы относятся к специальным научно-техничес
ким текстам и являются примерами реальных современных текстов. Методом
сплошной выборки из указанных текстов выделялись употребления mg-OBbix
омонимов: самого герундия (около 1350 употреблений), а также других
/wg-овых форм и категорий, оказавшихся проблемными для МП из-за слож
ности разрешения омонимии с герундием. Все выделенные примеры (на
ч уровне предложения) в пакетном режиме были переведены системой МП.

Основной системой МП для проведения анализа послужила система SILOD-

Windows в виде библиотеки прикладных программ WORD+, разработанная в лаборатории машинного перевода РГПУ им. А. И. Герцена.

Методы исследования. Собранный языковой материал был проанализирован с помощью методов синтаксического, семантического, статистического и контрастивного анализа, а также методов компьютерного моделирования.

Научная новизна исследования заключается в том, что:

1) создано комплексное описание функционирования герундия в совре
менном научно-техническом тексте;

  1. впервые разработана типология герундиальных конструкций, представляющих сложность для систем МП;

  2. впервые систематизированы ошибки и неточности, возникающие при машинном переводе герундия;

  3. разработаны рекомендации по их устранению и редактированию.

На защиту выносятся следующие положения:

1. Контрастивный анализ исходных текстов и их машинных переводов,
осуществляемый на разных уровнях реализации, является инструмен-

у том исследования дистрибуции лингвистических явлений и особеннос-

тей их автоматического анализа и перевода.

  1. Герундий как многофункциональная и многозначная форма английского глагола представляет особую сложность для машинного анализа на всех уровнях и, соответственно, для машинного перевода.

  2. В тексте машинного перевода следует различать ошибки и неточности. Неточности связаны со стилистической некорректностью переводного предложения, они не препятствуют его пониманию, но требуют редактирования при создании текста в издательских целях. Ошибки

* возникают в случае неправильного определения грамматического ста-

туса конкретных форм, препятствуют пониманию текста, и для их ре-

дактирования необходимо производить анализ исходного предложения заново.

  1. Ошибки и неточности возникают на всех уровнях машинного анализа текста. Способы установления и исправления ошибок индивидуальны для каждого уровня. На основе выявления основных ошибок и неточностей в представительной выборке текстов могут вноситься изменения в действующие алгоритмы системы МП и словарные статьи автоматического словаря.

  2. Установление критериев редактирования машинных переводов и составление рекомендаций редактору позволяет ускорить и упростить процесс редактирования.

Теоретическая значимость исследования заключается в том, что:

  1. комплексное описание герундия, включающее его теоретическое исследование и рассмотрение функционирования в современном специальном тексте, способствует дальнейшему развитию алгоритмов парсинга для машинного перевода;

  2. установлена необходимость и целесообразность анализа особенностей перевода на различных уровнях реализации системы машинного пере-вода, что способствует дальнейшему развитию теории машинного перевода и вносит вклад в переводоведение;

  3. определена целесообразность интеграции систем машинного перевода и систем переводческой памяти в аспекте упрощения редактирования и уменьшения его объема;

  4. предложенная методика сопоставительного исследования текстов на основе применения системы машинного перевода вносит вклад в методологию современных контрастивных исследований.

ft Практическая значимость исследования состоит в разработке реко-

мендаций по вопросу о методах установления и устранения ошибок при редактировании МП, а также комплекса изменений в действующие алгоритмы

МП и рекомендаций по написанию текстов, предназначенных для последующего машинного перевода. Результаты исследования могут быть использованы для улучшения качества работы действующих систем машинного перевода с английского языка на русский, в подготовке редакторов текстов МП, а также при обучении переводу, поскольку многие случаи, вызывающие сложности при МП, также сложны и для переводчиков.

Рекомендации по использованию результатов исследования. Выделенные в тексте сложные модели употребления герундия могут быть использованы при обучении переводчиков, а также редакторов текстов. Рекомендации по устранению ошибок могут найти применение в работе не только с системой SILOD-Windows, но и с другими системами перевода с английского языка на русский.

Кроме того, проведенный обзор современных систем МП может быть использован в качестве справочного материала при выборе системы для использования в условиях профессиональной переводческой службы или для личного использования. Эта же справочная информация может найти применение в курсах обучения машинному переводу.

Описание герундия может быть использовано в курсе обучения теоре-k

тическои и практической грамматике английского языка, а массив примеров

употребления и перевода герундия — при усовершенствовании систем

машинного перевода специальных текстов, в частности, их лексической базы.

Апробация работы. Основные положения диссертации обсуждались
на международной конференции «Прикладная лингвистика без границ»
(Санкт-Петербург, март 2004 г.), международной конференции «Прикладная
лингвистика в науке и образовании» (Санкт-Петербург, март 2006 г.), межву
зовской научно-практической конференции «Язык и межкультурная комму-
ь никация» (Санкт-Петербург, май 2004 г.), а также на заседаниях кафедры

прикладной лингвистики РГПУ им. А. И. Герцена. По теме диссертации опубликованы 5 работ общим объемом 1 п. л.

Объем и структура работы. Диссертация состоит из введения, трех глав, заключения, списков принятых сокращений, использованной литературы (229 наименований, из них 156 — на английском языке), словарей (2), справочных изданий (7) и 7 приложений. Основные научные результаты исследования представлены в 25 таблицах. Общий объем работы — 242 стр., из них 176 стр. — основное содержание и 66 стр. — приложения.

Во введении обосновывается выбор темы исследования и ее актуальность, определяются теоретическая основа, объект, предмет, цель, задачи, гипотеза, материал и методы исследования, раскрыта его научная новизна, сформулированы положения, выносимые на защиту, аргументируется теоретическая и практическая значимость, даны рекомендации по использованию результатов исследования, отражена апробация работы.

В первой главе диссертации «Современные технологии в помощь переводчику» излагаются основные предпосылки исследования. Изучается классификация современных компьютерных систем в помощь переводчику, рассматриваются системы МП, производящие собственно лингвистический анализ текста. Изучаются проблемы оценки качества МП и рассматриваются различные подходы к оценке качества, определяется роль редактирования в процессе машинного перевода. Кроме того, приводится обзор современных компьютерных систем в помощь переводчику.

Во второй главе «Герундий в английском языке: образование, функции, дистрибуция» рассматривается глагольная форма герундия как одна из наиболее сложных форм для машинного анализа и перевода. Изучаются морфологические и синтаксические свойства герундия, непосредственно влияющие на результат его машинного анализа. Описываются результаты исследования выборки современных научно-технических текстов на предмет определения моделей функционирования герундия в текстах такого типа. Рассматривается омонимия герундия и причастия как наиболее сложный тип омонимии ing-овых форм для машинного разрешения.

Третья глава «Машинный перевод герундия» посвящена моделям машинного анализа и перевода герундия. Исследуется процедура машинного анализа герундия на всех уровнях преобразования: лексико-морфологичес-ком, уровне групп, функциональных сегментов и предложения. Выделяются ошибки, зачастую препятствующие пониманию текста и требующие пристального внимания редактора, и неточности, которые необходимо исправлять только в том случае, если текст предназначается для издательских целей. Предложены рекомендации по внесению изменений в действующие модели парсинга и в автоматический словарь системы, а также рекомендации по редактированию текстов МП и советы авторам текстов, предназначенных для последующего машинного перевода.

В заключении формулируются основные выводы и результаты исследования.

В приложениях рассматривается перевод сложных форм герундия (Приложение 1), разрешение омонимии герундия и отглагольного существительного (Приложение 2), а также приводятся сводные таблицы примеров машинного перевода герундия на разных уровнях анализа (Приложения 3-7).

Типология компьютерных систем в помощь переводчику

В последние двадцать лет были разработаны основы типологии КСПП, которая принимается практически всеми разработчиками и исследователями (Nirenburg 1987: 11-15; Lehrberger 1988: 201-202; Hutchins 1992 а: 3-5; 2000; Беляева 1996 6: 380-387; 1998: 173-174; 2001: 50; Баранов 2003: 172-177), однако нельзя говорить о том, что вопрос типологии решен окончательно. Рассмотрим сначала упомянутую «традиционную» типологию, а затем — современный взгляд на переводческие системы (Hutchins 2001 б; 2002). В соответствии с уже устоявшейся традицией существующие системы классифицируются по двум основным параметрам: количеству языков, степени автоматизации. Рассмотрим каждый из этих параметров. 1.

По количеству языков, с которыми работает каждая конкретная система, системы делятся на: 1) бинарные — рассчитанные на выбранную пару языков; 2) многоязычные — рассчитанные на работу с несколькими выбранными языками (больше двух). В зависимости от архитектуры системы перевод может осуществляться либо только в одном, либо во всех возможных направлениях, т. е. исходный язык и язык перевода могут меняться местами в соответствии с требованиями пользователя. В настоящей работе, как уже отмечалось выше (см. 1.1), изучается перевод с английского языка на русский и, соответственно, бинарные системы, работающие с этими двумя языками. 2. По степени автоматизации компьютерные системы в помощь переводчику делятся на: 1) полностью автоматизированные системы перевода; 2) системы перевода с неполной (частичной) автоматизацией. Рассмотрим системы более подробно. К первой категории относятся системы, осуществляющие полностью автоматический высококачественный перевод (Fully Automatic High Quality Translation — FAHQT) (Flanagan 1997: 26; Kay 1997: 4; Hutchins 1992 a: 147-148; 2001 6; Koby 2001: 1; Somers 2003 a: 6), который называют также полностью автоматическим машинным переводом (Fully Automatic Machine Translation — FAMT) (Lehrberger 1988: 201; Кутыев 2001; Говорун 2001: 16-26) или полностью автоматическим понятным переводом (Fully Automatic Understandable Translation — FAUT) (Flanagan 1997: 26). Далее в настоящей работе к таким системам будет применяться термин системы машинного перевода (системы МП). Системы этого типа, в свою очередь, классифицируются по стратегии, лежащей в основе их построения.

Специфика каждой из стратегий подробно в настоящей работе не изучается: заметим только, что все ведущие современные системы перевода с английского языка на русский построены на основе единой стратегии — трансфера. Работа систем МП с трансфером рассматривается в разделе 1.4. Системы перевода с неполной (частичной) автоматизацией классифицируются по отведенному компьютеру объему работы (Nirenburg 1987: 11-15; Lehrberger 1988: 201-202; Беляева 1996 б: 380-387; 2001: 50). Такие системы используются для выполнения следующих типов перевода: а) перевод, осуществляемый компьютером при участии человека (машинный перевод с участием человека) (Human-Aided Machine Translation — НАМТ) (Hutchins 1992 а: 150-154; Somers 2003 в: 13); б) перевод, осуществляемый человеком с использованием компьютера (Machine-Aided (or Assisted) Human Translation — МАНТ) (Hutchins 1992a: 149-150; Somers 2003 B: 13). Рассмотрим эти типы перевода более подробно. При машинном переводе с участием человека основной перевод осуществляется машиной, а переводчик выступает главным образом в роли редактора текста. Системы, производящие указанный тип перевода, предполагают большую степень автоматизации по сравнению с предыдущим типом систем и обязательно включают в себя элементы семантического и синтаксического анализа. В свою очередь, системы этого типа классифицируются по стратегии вовлечения человека в процесс переработки текста. Эта стратегия определяется тем, на каком этапе переводчик участвует в процессе: основная часть работы выполняется компьютером, а человек осуществляет пред-, пост- или интерредактирование. Следует отметить, что наиболее распространено постредактирование. Если перевод осуществляется человеком с использованием компьютера, предполагается, что переводит человек, обращаясь к компьютерной поддержке для выполнения неких рутинных операций. Подобная компьютерная поддержка включает в себя работу систем, обеспечивающих обращение к автоматизированным словарям и справочникам, систем по работе с терминологией, прецедентных систем (Рубашкин 2005: 115-123) типа переводческой памяти и т. п. (смотри 1.3). В англоязычной терминологии для таких систем также существует ряд почти синонимических номинаций: Computer-Aided Human Translation — CAHT (Flournoy 2001) и Machine-Aided Translation — MAT (Glossary 2006: 58). В русском языке нет общепринятого термина для обозначения систем этого типа, в настоящей работе они будут называться вспомогательными системами поддержки перевода (ВСПП). Разделение систем с частичной автоматизацией на указанные выше два типа достаточно условно: некоторые исследователи относят к ВСПП лишь системы переводческой памяти (см. стр. 25), а системы по работе с терминологией рассматривают как отдельное направление (Glossary 2006: 58-59), либо объединяют оба типа систем как средства человеко-машинного перевода (Hutchins 1992 а: 3). Выше была рассмотрена традиционная типология систем в помощь переводчику. Ее основы закладывались в то время, когда разработка системы МП, способной полностью заменить труд переводчика технического и специального («нехудожественного») текста, рассматривалась в качестве основной цели исследований.

Осознание того факта, что даже современный уровень развития компьютерной техники не позволяет создавать системы такого класса, в основном ввиду особенности структуры и семантики естественного языка (Пиотровский 1979: 47-55; 1999 а: 43-97; 1999 6: 6-9; Беляева 1988: 11; 1999: 74; Melby 1999: 8-9; Multilingual Authoring... 2001; Arnold 2003: 119-142; Witherington 2006: 47), несколько изменило акценты и приоритеты разработок в области переводческих технологий (Hutchins 1999; 2001 б), и, соответственно, рассмотренная выше типология не отражает в полной мере современной точки зрения на машинный перевод. В настоящее время большинство разработок ориентировано на технологии, способные максимально облегчить работу переводчика-профессионала, а также на создание программ, обеспечивающих межъязыковое общение для обычного пользователя (системы перевода электронной почты, веб-страниц и т. п.) (Hutchins 2001 а: 11-16, 2001 б; 2003 б: 5-26). В этом аспекте системы МП рассматриваются уже не как основное средство получения качественного перевода, а, скорее, как средство ознакомления с содержанием текста и создания чернового (рабочего) варианта перевода, который по мере необходимости впоследствии обрабатывается с помощью специализированных программ редактирования (Povlsen 2001; Allen 2003: 313-315), но, в ос

Формы герундия: особенности употребления и перевода

Как отмечалось выше, герундий — неличная форма глагола, сочетающая в себе свойства глагола и существительного. При этом герундий не обладает морфологическими категориями числа и падежа существительного, но имеет морфологические глагольные категории временной соотнесенности, Indefinite и Perfect, и залога, Active и Passive (Сборник упражнений... 1962: 98; Новицкая 1979: 108-109; Иванова 1981: 83; Блох 1994: 100; Корнеева 2004: 161; Гузеева2006: 231-232).

Существуют различные точки зрения по вопросу, может ли герундий определяться артиклем, как и существительное. Большинство исследователей английского языка считают, что артикль может стоять только перед существительным (Бархударов 1973: 223; Новицкая 1979: 111; Liles 1979: 132; Kilby 1984: 128; Грамматика английского глагола... 2000: 137; Грузинская 2000: 215; Качалова 2003: 294; Верба 2004: 128-129; Корнеева 2004: 161), однако авторы некоторых грамматик английского языка считают возможным артикль и перед герундием (Close 1975: 80; Huddleston 1984: 313). Для машинного анализа артикль перед ш -овой формой во многих случаях является нейтральной единицей, т. е. его наличие / отсутствие не влияет на правильность определения статуса ш -формы и ее связей с окружающими словоформами. Однако при переводе некоторых двухкомпонентных именных герундиальных групп система МП SILOD-Windows верно определяет связи внутри группы благодаря тому, что считает артикль перед герундием ненормативным (см. стр. 111). Это происходит в группах, где герундий является препозитивным определением к существительному, определяемому артиклем, и артикль, соответственно, ставится перед герундием. Учитывая все вышесказанное, а также тот факт, что во всей выборке не было выделено ни одного употребления герундия, определяемого артиклем, будем рассматривать возможность постановки артикля только перед существительным, но не перед герундием.

В современном английском языке имеются четыре различные формы герундия. Все герундиальные формы образуются от основы глагола с помощью -ing. Существуют различные точки зрения на морфемную принадлежность -ing: в грамматиках английского языка эта морфема рассматривается чаще как суффикс, но иногда — и как окончание (Ильиш 1971: 22-23). В настоящей работе для решения переводческих задач определение морфемной принадлежности -ing не является принципиальным. Следует отметить, что модальные глаголы не образуют форм герундия, а пассивные формы герундия образуются лишь от переходных глаголов, а также от объектных глаголов, имеющих в личной парадигме форму страдательного залога. В таблице 1 представлены примеры образования всех форм герундия — как от переходных глаголов (to translate), так и от непереходных (to go) (Гузеева 2006: 232).

Согласно данным, приведенным в таблице 1, у герундия существуетлишь одна простая форма — Indefinite Active, остальные формы образуются спомощью вспомогательных глаголов. Результаты проведенного исследования текстовой выборки позволяют утверждать, что именно простая форма наиболее часто используется в тексте: она способна выражать различные значения временной соотнесенности, включая предшествование (Родионов 1967: 81-88; Павлова 1977: 75-89; Грамматика... 2003: 262; Качалова 2003: 283; Верба 2004: 120-122; Корнеева 2004: 164-167), а вместо форм пассива чаще используется придаточное предложение (Барабаш 2001: 146).На всю текстовую выборку встретились лишь пять примеров употребления аналитических форм, что составляет около 0,3% от всех употреблений герундия: три примера содержат герундий в форме Indefinite Passive и по одному примеру — в форме Perfect Active и в форме Perfect Passive.Аналитические формы герундия чрезвычайно сложны для МП как в плане узнавания, поскольку состоят из нескольких словоформ, каждая из которых может употребляться самостоятельно, так и в плане выбора переводного эквивалента. Дело в том, что они часто требуют перевода придаточным предложением (Аполлова 1977: 104), структура которого зависит от самой словоформы и ее окружения, поэтому единую модель перевода для МП задать трудно. Поскольку частота употребления аналитических форм герундия крайне мала, переводы указанных форм отдельно рассматриваются не в тексте глав 2 и 3, а в приложении 1.

Отрицательная форма герундия чаще всего образуется так же, как у других форм глагола, т. е. с помощью отрицательной частицы not, которая стоит непосредственно перед герундием (Биренбаум 1993). Отрицание может также выражаться и отрицательным местоимением по (как у именных категорий), но лишь в том случае, если герундий выполняет в предложении функцию подлежащего или используется в конструкции с there is (Бархударов 1973: 224; Крылова 2003: 213). Отрицательная форма герундия используется в тексте крайне редко: во всей выборке было зафиксировано только три употребления, поэтому ее перевод подробно рассматривается не в главе 2, а в приложении 1.Подводя итог всему вышесказанному относительно употребляемых в реальном тексте форм герундия, можно сделать вывод о том, что, за редким исключением, аналитические и отрицательная формы герундия в тексте не используются. Таким образом, в настоящей работе будет анализироваться машинный перевод герундия в форме Indefinite Active без отрицания.Как было отмечено выше, при машинном анализе герундия возникают два основных типа сложностей, связанных со следующими факторами: установление связей и зависимостей между герундием и его ближайшим окружением, определение статуса герундия по отношению к другим омонимичным формам, т. е. разрешение омонимии в пользу герундия.

Поскольку система МП анализирует ближайшее окружение словоформы и проводит анализ в рамках одного предложения (а не текста в целом), указанные сложности при машинном анализе разрешаются на основе внесенной в АС информации о дистрибуции и валентностях той или иной ing-овой формы. Корректность описания валентностей и особенностей дистрибуции слова в словарной статье АС предопределяет результат автоматического анализа. Поэтому исследование потенциально возможных и реальных типовых контекстов слова представляет особо важную задачу.Рассмотрим валентности герундия: ему присущи как глагольные, так и именные валентности. Такими же глагольными валентностями обладают и другие неличные формы глагола, в частности — причастие, а набор именных валентностей выделяет герундий среди глагольных форм. При описании типовых моделей употребления герундия используются следующие обозначения:

Преобразование герундия на лексико-морфологическом уровне

Применительно к лексико-морфологическому уровню сложно говорить о моделях анализа (парсинга) и перевода, поскольку на этом уровне перевод практически сводится к выбору соответствий из словаря, а не к сложным алгоритмам анализа. На лексико-морфологическом уровне возможны только ошибки. Ошибки перевода на лексико-морфологическом уровне присущи не только герундию — они встречаются при переводе любых словоформ и категорий. Можно отметить несколько типов лексико-морфологических ошибок, выделенных при переводе герундиальных (и других ing-овых) употреблений в обработанном массиве текстов. К таким ошибкам относится отсутствие перевода в случае неопознанных слов, а также собственно ошибки, возникающие при переводе: членов омонимического ряда ing-овых словоформ с разной частотностью употребления, терминологических устойчивых сочетаний и композитов, сложных слов (с префиксами и т. п.), специальной лексики определенной предметной области.

Рассмотрим перечисленные типы ошибок. В тех случаях, когда герундиальных примеров недостаточно, будем обращаться к примерам ошибочного перевода причастия и отглагольного существительного в конструкциях, подобных герундиальным, поскольку аналогичные ошибки могут возникать и при переводе герундиальных конструкций. Указанные словоформы, как и герундий, выделяются в исходном предложении жирным шрифтом. Далее в конструкциях, где функции и дистрибуция отглагольного существительного совпадают с герундиальными, существительное будет интерпретироваться нами как герундий и обозначаться, соответственно, Ving(n), поскольку в таких конструкциях указанные ing-овые формы максимально сближаются и единственным критерием их различения является наличие отглагольного существительного в словаре (что отличается от словаря к словарю), в то время как герундий, являясь не частью речи, а глагольной формой, в словари как самостоятельная единица не вносится. Кроме того, в тех контекстах, в которых определение статуса ing-овой формы как герундия или отглагольного существительного не является принципиальным для машинного анализа, мы будем квалифицировать отглагольное существительное как герундий. Ниже перевод выделенных в исходном предложении употреблений герундия (и других /wg-овых форм), одиночных или в составе модели, выделен в примерах машинного перевода подчеркиваем.

Появление непереведенных слов в тексте перевода связано с отсутствием этих слов в АС или же с недостатком / неточностью информации, введенной в словарную статью соответствующей словоформы (в основном речь идет об информации, характеризующей словоизменение). Наличие неопознанных слов в предложении может в значительной мере повлиять на качество его перевода: поскольку категориальная принадлежность таких слов не установлена, возможны ошибки в лексико-грамматическом анализе всего предложения, что, соответственно, приводит к неверному переводу (см. приложение 3, табл. 7). Как показывают примеры из таблицы 7 (приложение 3), в исследованном массиве текстов неопознанные герундиальные формы в большинстве случаев не повлияли на общий анализ предложений, в которых они встретились: эти словоформы просто оставались непереведенными, не вызывая дополнительных ошибок в переводе предложения в целом. Возможно, это связано с тем, что неопознанные герундиальные употребления встретились в сравнительно несложных конструкциях, к тому же с предложным управлением; перевод таких герундиальных конструкций представляет наименьшую сложность для систем МП (см. 2.3, 2.5, 3.3.1). В примерах №№ 1 и 3 (таблица 7) герундий стоит непосредственно после предлога и за ним следует предлог, что указывает системе МП на то, что предлог в препозиции относится к герундию, а предлог в постпозиции — к зависимым от герундия словам. Этой информации достаточно для выявления зависимостей в этом сегменте предложения. В примере № 3 (таблица 7) перевод герундия осложняется тем, что в нем используется пассивная форма герундия, требующая описательного перевода, поэтому машинный перевод таких конструкций всегда требует редактирования (см. приложение 1). В примере № 2 (таблица 7), герундий также управляется с помощью предлога, а следующий за герундием артикль «разделяет» mg-овую форму и следующую зависимую от нее именную группу. Учитывая эту информацию, система МП верно относит предлог к герундию и правильно анализирует зависимости в группе, не опознавая при этом сам герундий. В примере № 4 (таблица 7), группа с неопознанным герундием переведена неверно: система МП не смогла установить связи внутри группы из пяти элементов — rehabilitating seismically hazardous existing buildings. Ошибка в этом случае связана, скорее, со сложностью перевода многокомпонентных именных групп (см. стр. 122), чем с неопознанным словом, так как после ввода соответствующего слова в АС связи по-прежнему определяются неверно: Руководство предназначено, чтобы помогать местные юрисдикция в принуждении сообщили решениям по опасным существующим зданиям сейсмически реабилитация путем обеспечения с общенациональной точки зрения соответствующих методических рекомендаций . Несмотря на то, что наличие неопознанных слов может не влиять на анализ предложения в целом, как в примерах из таблицы 7 (приложение 3), при появлении таких слов в переводе (если только это не резервированные слова (см. 1.4)), редактору следует обратиться к исходному предложению, проверить все переводное предложение с точки зрения правильности лексико-грамматического анализа и лишь затем вставить непереведенное слово. Уменьшить количество неопознанных слов в тексте перевода можно путем введения соответствующих словоформ в АС. Неопознанные слова — наиболее распространенный тип лексико-грам-матических ошибок в переводе герундия.

Рассмотрим следующий по частоте встречаемости тип. Некоторые члены ряда mg-овых омонимов употребляются в тексте значительно чаще, чем другие словоформы того же омонимического ряда. Рассмотрим следующие примеры: словоформу referring в качестве причастия, которая также может быть герундием; словоформу regarding как предлог, которая также может быть герундием и причастием; словоформу following в качестве прилагательного, которая также может быть предлогом, существительным, причастием и герундием (ср.: Иванова 1981: 84). Зачастую только эти самые распространенные характеристики и вводятся в АС, поэтому другие категории того же омонимического ряда не распознаются при анализе текста, что ведет к ошибочному переводу. Примеры перевода таких омонимов, встретившихся в исследованной текстовой выборке, приведены в таблице 8 (приложение 3). Причастие referring (см. примеры №№ 1, 2 в табл.8, приложение 3) часто встречается в деловой переписке и в документации в составе сочетания referring to, в начале предложения вводя оборот со значением относительно, касательно . Такое сочетание введено в АС системы МП как иконический оборот. Поскольку омонимичный герундий в основном употребляется в тек сте также с предлогом to в постпозиции, он не распознается системой, а принимается за указанное сочетание (см. пример № 1 в табл. 8). Кроме того, причастие referring (to) в составе аналитической формы глагола Continuous (will be referring) не распознается системой МП и тоже переводится неверно — рассматривается как указанное выше сочетание со значением относительно (см. пример № 2 в табл. 8). Для улучшения качества перевода можно перенести сочетание referring to как иконический оборот из общего автоматического словаря системы МП в специализированный словарь «Бизнес», поскольку такое сочетание в значении относительно, касательно наиболее часто встречается в деловых текстах. В таком случае в переводе текстов по теме «Бизнес» referring to, часто употребляющееся в качестве указанного сочетания, будет верно распознаваться системой МП, а редактору необходимо будет обращать внимание на перевод встречающихся реже неличных форм от глагола refer: герундия и причастия (как в приведенных выше примерах). В переводе текстов любой

Особенности преобразования mg-форм на уровне групп

Самое большое количество ошибок семантико-синтаксического анализа и, соответственно, перевода, приходится на уровень групп: в английском языке сильна беспредложная связь, нет категории грамматического рода, нет развернутой падежной системы, возможна конверсионная омонимия и т. п.; иными словами набор формальных показателей, на которые система МП опирается при анализе групп, сравнительно невелик. Основные сложности возникают с определением границ групп и семантических связей между ее элементами (Беляева 2004: 47-48). В результате анализа выборки текстов удалось установить, что ошибки в определении статуса герундия возникают в основном при переводе беспредложных конструкций, в то время как перевод конструкций, в которых герундий управляется с помощью предлога, чаще содержит неточности.

Ниже будут рассмотрены модели машинного анализа и перевода, основные ошибки перевода герундиальных групп и возможные методы их исправления. Следует отметить, что лексико-морфологические ошибки и неточности в дальнейшем не учитываются при рассмотрении уровня групп, функциональных сегментов и предложения — во внимание принимаются только грамматические ошибки.3.3.1 Особенности перевода групп с предложным управлением

Под группами с предложным управлением понимаются группы, образующиеся по модели p+Ving+(N), где (N) — существительное или местоимение в общем падеже, другая именная категория или именная группа. Иными словами, в таких группах предлог относится к mg-овой форме и стоит непосредственно перед ней.

В таких группах система МП практически всегда (единичные ошибки приведены в табл. 17, приложение 4) верно определяет статус герундия. Это можно объяснить тем, что, поскольку основные сложности возникают при снятии омонимии типа герундий / причастие (см. 2.5), при переводе предложных конструкций предлог является индикатором герундия.Связи внутри группы также устанавливаются системой МП верно, поскольку зависимость между элементами, как правило, линейная: следующий элемент зависит непосредственно от предыдущего, что является наиболее простой схемой для машинного анализа и перевода. Структура зависимостей в группе соответствует модели p+Ving— (N). Отношения между предлогом и mg-овой формой обозначены знаком +, указывающим на соседние позиции словоформ, так как не сам предлог непосредственно управляет ш -овой формой, а словоформа, стоящая перед предлогом, управляет указанной формой с помощью предлога.

Таким образом, в переводе герундиальных групп с предложным управлением ошибки встречаются редко: статус герундия и связи внутри группыопределяются правильно, но возможны неточности в выборе предложных эквивалентов и в падежном согласовании.Как отмечалось выше, в группах с предложным управлением предлог стоит непосредственно перед герундием. Группы, где удаление между /Vzg-овой формой и предлогом составляет один или более шагов, встречаются достаточно редко. Правильность перевода таких групп требует проверки при редактировании, поскольку система МП может не установить связь между ing-овоя формой и предлогом и перевести группу по моделям перевода именных групп с беспредложной связью (см. 3.3.2).

Исключение составляют такие группы с удалением предлога и герундия на один или два шага, в которых словоформы, разделяющие предлог и герундий, не могут употребляться с предлогом, например, наречие. Такие конструкции переводятся системой МП правильно, например:This expression can not be derived by solely relying on mathematical models for aggregating expert opinions — Это выражение не может быть выведено исключительно путем надежды на математические модели для соединения экспертных мнений .

Конструкции, в которых герундий и относящийся к нему предлог разделены одной или несколькими словоформами, встречаются в тексте сравнительно редко; в конструкциях с герундием удаление между ним и предлогом в большинстве случаев нулевое.Герундиальные группы с предложным управлением могут выполнять в предложении функции предложного дополнения, обстоятельства, постпозитивного определения. Это наиболее частотные функции герундия в обработанной выборке (см. табл. 3). Хотя система МП при анализе на уровне групп и не дифференцирует синтаксические функции, в настоящей работе определение синтаксических функций групп с предложным управлением целесообразно для установления возможных ошибок перевода и составления рекомендаций по редактированию.Перейдем к анализу машинного перевода герундиальных групп в зависимости от образующих их предлогов, а также от выполняемых группами функций. Сначала остановимся на предлогах и предложных сочетаниях, с которыми герундий употребляется в тексте, и рассмотрим соотношение между реализованной системой МП моделью перевода и рекомендуемой моделью. Под рекомендуемой моделью перевода далее понимается не единственно правильная, а усредненная модель, передающая значение оригинала и в достаточной степени приемлемая для максимального количества возможных синтаксических функций группы с тем или иным предлогом.

Исследование дало возможность установить состав предлогов, с которыми герундий реально употребляется в текстах, и частоту его употребления с каждым из них. Частота употребления с конкретным предлогом зависит прежде всего от значения (многозначности) самих предлогов английского языка: с многозначными предлогами герундий употребляется в тексте более часто, чем с однозначными.

Поскольку предлог как отдельная категория не является темой настоящего исследования, мы не останавливаемся подробно непосредственно на значении каждого из них, а рассматриваем их в составе конструкций с герундием, учитывая частоту употребления герундия в сочетании с каждым отдельным предлогом, а также синтаксические функции соответствующих сочетаний (см. табл. 6). При описании моделей далее используются следующие сокращения: Доп. — синтаксическая функция дополнения, Опр. — синтаксическая функция определения, Обет. — синтаксическая функция обстоятельства.Отметим, что данные таблице 6 относятся лишь к обработанному объему текстов и могут не соответствовать научным и специальным текстам в целом. Тем не менее, можно сделать вывод о том, что наиболее часто с герундием употребляются четыре предлога: by, for, in и of

Похожие диссертации на Исследование результатов машинного перевода герундия: особенности анализа и критерии редактирования