Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Теоретические основы и методы построения систем фразеологического машинного перевода Хорошилов Александр Алексеевич

Теоретические основы и методы построения систем фразеологического машинного перевода
<
Теоретические основы и методы построения систем фразеологического машинного перевода Теоретические основы и методы построения систем фразеологического машинного перевода Теоретические основы и методы построения систем фразеологического машинного перевода Теоретические основы и методы построения систем фразеологического машинного перевода Теоретические основы и методы построения систем фразеологического машинного перевода Теоретические основы и методы построения систем фразеологического машинного перевода Теоретические основы и методы построения систем фразеологического машинного перевода Теоретические основы и методы построения систем фразеологического машинного перевода Теоретические основы и методы построения систем фразеологического машинного перевода Теоретические основы и методы построения систем фразеологического машинного перевода Теоретические основы и методы построения систем фразеологического машинного перевода Теоретические основы и методы построения систем фразеологического машинного перевода
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Хорошилов Александр Алексеевич. Теоретические основы и методы построения систем фразеологического машинного перевода : диссертация ... доктора технических наук : 05.13.17.- Москва, 2006.- 251 с.: ил. РГБ ОД, 71 07-5/182

Содержание к диссертации

Введение

Глава 1. Единицы языка и речи в системах автома тической обработки текстовой информации 10

Глава 2. Концепция фразеологического машинного перевода текстов с одних естественных языков на другие 29

2.1. Предварительные замечания 29

2.2. Концепция фразеологического машинного перевода текстов 34

2.3. Пути реализации концепции фразеологического машинного перевода 35

2.3.1. Некоторые общие соображения 35

2.3.2. Морфологический анализ и синтез русских и английских слов 37

2.3.3. Семантико-синтаксический анализ и синтез текстов 54

2.3.4. Концептуальный анализ и синтез текстов 59

2.3.5. Разрешение грамматической неоднозначности английских слов с помощью метода аналогии 67

2.3.6. Трансфер 72

Выводы 75

Глава 3. Архитектура систем фразеологического машинного перевода 77

3.1. Декларативные и процедурные средства систем машинного перевода 77

3.2. Общий порядок работы системы RETRANS 79

Выводы 88

Глава 4. Автоматизация составления и ведения словарей для систем фразеологического машинного перевода 90

4.1. Предварительные замечания 90

4.2. Составление словарей наименований понятий с контролем по тезаурусу 91

4.3. Составление словарей наименований понятий без контроля по тезаурусу 102

4.4. Установление переводных соответствий между русскими и английскими словами и словосочетаниями по параллельным текстам (билингвам) 107

4.4.1 Статистический метод установления переводных соответствий между словами 107

4.4.2. Статистический метод установления переводных соответствий между словосочетаниями 108

4.4.3. Установление переводных соответствий между., словами и словосочетаниями в процессе интерактивного перевода текстов с одного языка на другой ПО

4.5. Общий порядок автоматизированного составления и ведения фразеологических машинных словарей 111

Выводы 114

Глава 5. Опыт создания и эксплуатации систем фразеологического машинного перевода 116

5.1. Начальный этап создания системы RETRANS 116

5.2. Дальнейшее развитие системы RETRANS 122

5.3. Опыт эксплуатации системы RETRANS 123

Выводы 124

Заключение

Введение к работе

Современное человеческое общество характеризуется высоким уровнем активности в различных областях деятельности (экономика, политика, наука, техника, культура и др.). Это привело к быстрому росту объемов информации, циркулирующей между отдельными лицами и коллективами людей, и к трудностям по их освоению. Создалась ситуация, которую стали обозначать термином "информационный взрыв".

Положение осложнилось еще и тем, что между странами и народами существуют языковые барьеры, которые при возрастании потоков информации стало трудно преодолевать. Традиционные методы их преодоления (обучение языкам и переводческая деятельность) оказались недостаточными. Возникла необходимость искать альтернативные пути решения проблемы.

Возможность поиска новых путей решения проблемы появилась к середине 50-х годов прошлого столетия, когда были построены первые электронные вычислительные машины. Эти машины являются по существу универсальными алгоритмическими машинами, на которых можно решать не только "вычислительные" задачи, но и любые другие задачи, описываемые с помощью алгоритмов: логический вывод, распознавание образов, машинный перевод текстов, игра в шахматы и многие другие.

Перевод текстов с одних языков на другие - сложный творческий процесс, требующий от переводчика не только соответствующей лингвистической подготовки, но и хороших знаний предметных областей, к которым переводимые тексты относятся. Он осуществляется на основе восприятия и понимания человеком исходного текста и последующей передачи его содержания средствами выходного языка. При этом переводятся не столько значения слов и их последовательностей, сколько мыслительные образы, порождаемые в сознании переводчика под их воздействием.

Системы машинного перевода текстов с одних естественных языков
на другие моделируют работу человека-переводчика. Их эффективность
зависит прежде всего от того, в какой степени в них учитываются
объективные законы функционирования языка и мышления. А эти законы
пока еще недостаточно изучены. Поэтому, решая задачу машинного
перевода, необходимо учитывать богатый опыт межнационального
общения и опыт переводческой деятельности, накопленный
человечеством. Этот опыт свидетельствует о том, что в процессе перевода
текстов в качестве основных единиц смысла выступают прежде всего не
отдельные слова, а фразеологические словосочетания, выражающие
понятия. Именно понятия являются теми элементарными

мыслительными образами, используя которые можно строить более сложные мыслительные образы, соответствующие переводимому тексту.

Первые эксперименты по машинному переводу, подтвердившие принципиальную возможность его реализации, были проведены в 1954 г. в Джорджтаунском университете (г. Вашингтон, США). Вскоре после этого в промышленно развитых странах мира были начаты исследования и разработки, направленные на создание систем машинного перевода (систем МП). И хотя с тех пор прошло более полстолетия, проблема машинного перевода все еще не решена на должном уровне. Она оказалась значительно сложнее, чем это представляли себе пионеры и энтузиасты МП конца пятидесятых - начала шестидесятых годов прошлого века.

Первое разочарование наступило уже через 12 лет после начала работ по машинному переводу, когда в 1966 г. был опубликован доклад Консультативного комитета по автоматической обработке текстовой информации (Automatic Language Processing Advisory Committee -ALPAC), созданного при Национальной академии наук и Национальном исследовательском комитете США. Этот комитет рассмотрел состояние и основные проблемы перевода текстов - в основном русскоязычных - на английский язык и на другие языки в США и в Западной Европе, в том числе с помощью ЭВМ. Комитет пришел к выводу, что "хотя в настоящее время и имеются системы, осуществляющие перевод обычных научных текстов с использованием машины, реального МП нет. Более того, нет никаких оснований считать, что он возникнет в недалеком будущем или вообще в какие-либо реально планируемые сроки" [82].

В качестве второго авторитетного свидетельства неблагополучного состояния исследований и разработок в области машинного перевода можно рассматривать заявление руководителя японской государственной программы по машинному переводу профессора Макото Нагао из университета Киото, сделанное им в одном из своих докладов, опубликованном в 1982 г. Он заявил следующее: "Всякая разработка систем машинного перевода рано или поздно зайдет в тупик. Наша разработка также зайдет в тупик, но мы постараемся, чтобы это случилось как можно позже". А в 1984 году он опубликовал статью [97], в которой предложил новую концепцию машинного перевода. Согласно этой концепции тексты должны переводиться по аналогии с другими текстами, ранее переведенными вручную

До Макото Нагао аналогичные идеи высказывал профессор Белоногов Г.Г. В 1975 году он сформулировал концепцию фразеологического машинного перевода текстов, которую опубликовал в предисловии к книге Д.А. Жукова "Мы - переводчики" [45]. Главным тезисом этой концепции является утверждение, что при переводе текстов в качестве основных единиц смысла следует рассматривать не отдельные слова, а фразеологические сочетания, выражающие понятия, отношения между понятиями и типовые ситуации. Отдельные слова также могут

использоваться, но во вторую очередь. Более подробно эта концепция изложена в главе 2.

В качестве пионеров машинного перевода в России выступили такие ученые как Панов Д.Ю., Ляпунов А.А., Мухин И.С., Вельская И.К [62, 63]. За ними последовали Кулагина О.С., Мельчук И.А., Моторин Ю.А.,. Марчук Ю.Н.,. Пиотровский Р.Г. и многие другие.

Надо отдать должное пионерам МП и их ближайшим последователям. Они немало сделали в области теории и практики машинного перевода. Но многие важнейшие проблемы ими не были решены. Например, до последнего времени неудовлетворительно решалась проблема выбора переводных эквивалентов для слов и словосочетаний исходного текста.

При решении этой проблемы стремились прежде всего получить грамматически правильный пословный перевод, а полисемия слов разрешалась в основном процедурными средствами на основе учета их синтаксических и семантических признаков. Поэтому системы МП первых трех десятилетий их развития можно охарактеризовать как системы семантико-синтаксического преимущественно пословного перевода. Словосочетания здесь также использовались, но в меньшей степени.

На наш взгляд, семантико-синтаксический преимущественно
пословный машинный перевод текстов не имеет перспективы, так как в
естественных языках смысл словосочетаний, как правило, не сводим или
не полностью сводим к смыслу составляющих их слов, и при переводе он
не может быть "вычислен" на основе синтаксических и семантических
признаков этих слов. Поэтому концепция семантико-синтаксического
преимущественно пословного перевода должна быть заменена на
концепцию
семантико-синтаксического преимущественно

фразеологического перевода [36]. Такой подход в большей мере соответствует природе естественных языков.

Целью настоящего исследования является разработка теоретических основ и методов построения систем фразеологического машинного перевода текстов с одних естественных языков на другие (на примере русского и английского языков).

Предметом исследования - понятийный состав русских и английских текстов, их семантико-синтаксическая структура, структура переводных соответствий между наименованиями понятий.

В процессе работы над диссертацией использовались следующие методы исследования: 1) Выявление понятийного состава русских и английских текстов по их репрезентативным выборкам; 2) изучение структуры переводных соответствий между смысловыми единицами русского и английского языков и составление двуязычных фразеологических словарей; 3) моделирование на ЭВМ процедур фразеологического машинного перевода текстов с русского языка на

английский и с английского на русский; оценка эффективности построенных моделей.

Основные научные результаты работы:

1. Дано теоретическое обоснование возможности создания систем
фразеологического машинного перевода текстов с одних естественных
языков на другие.

  1. При участии автора (а последние пять лет и под его руководством) разработана и реализована в виде действующей компьютерной модели система фразеологического машинного перевода текстов с русского языка на английский и с английского на русский -система RETRANS.

  2. Разработан ряд основополагающих принципов и методов построения систем фразеологического машинного перевода, в частности:

  1. Методы автоматизированного составления и ведения фразеологических машинных словарей. На основе этих методов к концу 2005 г. были составлены русско-английский и англо-русский политематические машинные словари общим объемом более 5 млн. 200 тыс. словарных статей.

  2. Методы семантико-синтаксического анализа и синтеза русских и английских текстов.

  3. Принципы построения и алгоритмы функционирования интерфейса пользователя системы фразеологического машинного перевода, позволяющего быстро настраивать эту систему на перевод текстов различной тематики.

3.4 Принципы функционирования системы RETRANS в среде телекоммуникационных сетей типа Internet и Intranet, позволяющие осуществлять машинный перевод текстов в режиме удаленного доступа.

Научная новизна работы:

1. Научная новизна работы состоит прежде всего в том, что автором
диссертации совместно с коллективом разработчиков была впервые
предложена, обоснована и реализована в виде действующей
компьютерной модели архитектура системы фразеологического
машинного перевода текстов с русского языка на английский и с
английского на русский. Тем самым была доказана возможность
фразеологического машинного перевода текстов с одних языков на
другие. Это создало реальные перспективы выхода из того тупика, в
котором в началу 80-х годов прошлого столетия оказались исследования
и разработки по машинному переводу, ориентированные на семантико-
синтаксический преимущественно пословный перевод.

2. Создание системы фразеологического машинного перевода
текстов стало возможным благодаря тому, что автором были разработаны

методы, алгоритмы и программы автоматизированного составления и
ведения словарей для такой системы и совместно с другими ее
разработчиками были составлены русско-английский и англо-русский
фразеологические политематические машинные словари

беспрецедентного объема - 2,6 млн. словарных статей каждый. Эти словари покрывают лексический состав современных текстов на 99,7% и представляют собой мощную двуязычную концептуальную модель широкого спектра областей человеческой деятельности.

Практическая значимость работы:

В диссертационной работе получены научные результаты, которые позволили впервые построить промышленную систему фразеологического машинного перевода политематических текстов с русского языка на английский и с английского на русский.

Первая промышленная версия системы RETRANS была создана в 1993 году [28, 29], а в 1996 году она была зарегистрирована в РосАПО (свидетельство об официальной регистрации № 960342 от 30.07.1996 г.). В дальнейшем система RETRANS непрерывно совершенствовалась, создавались ее различные версии и в 2005 году она была зарегистрирована в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам под именем "Система фразеологического машинного перевода политематических текстов с русского языка на английский и с английского на русский RETRANS-2005" (свидетельство об официальной регистрации № 2005612876 от 7.11.2005 г.). Система RETRANS обеспечивает такое качество перевода, которое позволяет ее использовать в различных государственных учреждениях России и за рубежом.

Апробация:

Результаты исследований и разработок автора опубликованы в 49-ти тезисах докладов и научных статьях [24, 28, 29, 31-37, 39, 61, 75, 80, 88], а также в одной монографии [38]. Они неоднократно обсуждались на научных конференциях и реализованы в промышленных версиях системы фразеологического машинного перевода RETRANS.

Личный вклад автора в исследования и разработки:

Автор в течение более двадцати лет работал в ВИНИТИ в научном коллективе, проводившем под руководством проф. Белоногова Г.Г. широкий спектр исследований и разработок в области компьютерной лингвистики: автоматическое обнаружение и исправление орфографических ошибок в русских и английских текстах; автоматическая классификация документов, их автоматическое реферирование, индексирование и поиск; автоматическое составление различного рода

словарей для систем автоматической обработки информации; машинный перевод текстов с русского языка на английский и с английского языка на русский.

Наиболее значительными являются исследования и разработки, выполненные автором в области фразеологического машинного перевода. Здесь он лично разработал методы, алгоритмы и программы автоматизированного составления и ведения фразеологических машинных словарей и методы семантико-синтаксического анализа и синтеза русских и английских текстов. С 2001 года и по настоящее время он осуществляет руководство всеми работами по дальнейшему развитию системы RETRANS.

Диссертация состоит из пяти глав и одиннадцати приложений. В первой главе обсуждаются различные точки зрения на статус единиц языка и речи и даются рекомендации по использованию этих единиц в системах автоматической обработки текстовой информации. Приводятся статистические данные о повторяемости в русских и английских текстах их отрезков различной длины, которые были получены путем анализа репрезентативных выборок из этих текстов.

Во второй главе излагается концепция фразеологического машинного перевода и указываются пути ее практической реализации. Описываются методы морфологического, семантико-синтаксического и концептуального анализа и синтеза текстов.

В третьей главе рассматривается архитектура системы фразеологического машинного перевода и описывается порядок ее функционирования. Четвертая глава посвящена проблеме автоматизации составления и ведения словарей для систем фразеологического машинного перевода. Предлагаются методы решения этой проблемы. В заключительной пятой главе кратко излагается история создания системы RETRANS и описывается опыт ее промышленной эксплуатации. В Приложении приведены фрагменты машинных словарей, примеры перевода текстов с английского языка на русский и с русского на английский, руководство пользователя системы RETRANS 2005, руководство администратора системы RETRANS SERVER 2005 и другие материалы, подтверждающие основные положения диссертации.

Концепция фразеологического машинного перевода текстов

Концепцию фразеологического машинного перевода можно свести к следующим принципам:

1. Основными единицами языка и речи, которые прежде всего следует включать в машинный словарь, должны быть фразеологические единицы (словосочетания, фразы). Отдельные слова также могут включаться в словарь, но они должны использоваться только в тех случаях, когда не удается осуществить перевод, опираясь только на фразеологические единицы.

2. Наряду с фразеологическими единицами, состоящими из непрерывных последовательностей слов, в системах машинного перевода могут использоваться и так называемые "речевые модели" -фразеологические единицы с "пустыми местами", которые могут заполняться различными словами и словосочетаниями, порождая осмысленные отрезки речи.

3. Реальные тексты, независимо от их принадлежности к той или иной тематической области, обычно бывают политематическими, если они имеют достаточно большой объем. И отличаются они друг от друга не столько словарным составом, сколько распределениями вероятностей появления в них различных слов и словосочетаний из общенационального словарного фонда. Поэтому машинный словарь, предназначенный для перевода текстов даже только из одной тематической области, должен быть политематическим, а для перевода текстов из различных предметных областей - тем более.

4. Для систем фразеологического перевода необходимы машинные словари большого объема. Такие словари должны создаваться прежде всего на основе автоматизированной обработки двуязычных текстов, являющихся переводами друг друга, и в процессе функционирования систем перевода.

5. Наряду с основным политематическим словарем большого объема, в системах фразеологического машинного перевода целесообразно использовать также набор небольших по объему дополнительных тематических словарей. Дополнительные словари должны содержать только ту информацию, которая отсутствует в основном словаре (например, информацию о приоритетных переводных эквивалентах словосочетаний и слов для различных предметных областей, если эти эквиваленты не совпадают с приоритетными переводными эквивалентами основного словаря).

6. Основным средством разрешения полисемии (многозначности) слов в системах фразеологического перевода является их использование в составе фразеологических словосочетаний. Дополнительным - аппарат дополнительных тематических словарей, где для каждого многозначного слова или словосочетания указывается его приоритетный переводной эквивалент, специфичный для рассматриваемой предметной области.

7. Большую роль в системах фразеологического машинного перевода текстов могут играть процедуры морфологического и синтаксического анализа и синтеза текстов, построенные на основе принципа аналогии. Эти процедуры позволяют отказаться от хранения в словарях большого объема грамматической информации и порождать ее по мере необходимости автоматически, в процессе перевода. Они делают систему перевода открытой - способной обрабатывать тексты с "новой" лексикой.

8. Наряду с переводом текстов в автоматическом режиме, в системах фразеологического машинного перевода целесообразно предусмотреть и интерактивный режим их работы. В этом режиме пользователь должен иметь возможность вмешиваться в процесс перевода и настраивать дополнительные машинные словари на тематику переводимых текстов.

Как уже указывалось, основные положения концепции фразеологического машинного перевода были сформулированы в 1975 г. Далее они развивались и уточнялись в процессе разработки системы RETRANS. В этой работе принимал участие и автор диссертации [28, 29, 31,36,38].

Из предыдущих рассуждений следует, что пословный грамматический перевод текстов с одних естественных языков на другие не имеет перспективы, так как в общем случае нельзя создать такой алгоритм, который бы позволил построить адекватный перевод исходного текста в виде последовательности переводных эквивалентов слов, входящих в состав этого текста. Но если в качестве альтернативы пословному переводу рассматривать возможность перевода текстов по аналогии с ранее выполненными переводами, то и здесь возникает ряд затруднений.

Например, трудно себе представить такое положение, чтобы текст, написанный на каком-либо языке, полностью совпадал с другим ранее написанным и переведенным на иностранный язык текстом. Нельзя также ожидать и полного совпадения достаточно крупных отрезков этого текста (глав, параграфов, абзацев и др.) с соответствующими отрезками ранее написанных и переведенных текстов. В связи с этим возникает закономерный вопрос: а по аналогии с какими фрагментами ранее переведенных текстов можно переводить новые тексты? По аналогии с предложениями? Но, как следует из таблиц 1.4 и 1.5 главы 1, непрерывные отрезки текстов длиной более десяти слов повторяются очень редко (их суммарная частота не превышает одного процента). Тогда придется ориентироваться только на короткие предложения, отдельные слова и фрагменты текстов (словосочетания) длиной, как правило, не более 10-12 слов. А это и будет семантико-синтаксический преимущественно фразеологический перевод!

Конечно, наряду с переводными эквивалентами относительно коротких фрагментов текстов можно включать в машинные словари и переводные эквиваленты более длинных фрагментов. Но при этом следует иметь в виду, что тогда машинные словари будут в значительной мере заполняться "мертвым" балластом - словарными статьями, обращения к которым в процессе перевода текстов будут очень редки или даже их совсем не будет.

При разработке систем фразеологического машинного перевода наиболее трудной и трудоемкой задачей является задача составления достаточно мощных машинных словарей. От объема этих словарей и, прежде всего, от удельного веса в них фразеологических словосочетаний будет зависеть качество перевода. И эти объемы должны быть достаточно большими, чтобы обеспечивать хорошее покрытие текстов. А насколько большими?

Напомним, что в развитых языках мира (например, в русском или английском) количество различных слов превышает один миллион, а количество наименований понятий, выраженных словосочетаниями, исчисляется сотнями миллионов [36]. Машинные словари такого объема быстро создать не удастся, но, как показывает опыт, на первых порах можно получить удовлетворительное качество перевода и при наличии в словарях всего только нескольких миллионов словарных статей, из которых не менее 80% должны быть словосочетаниями. При этом обеспечивается покрытие политематических текстов в среднем на 99,7%.

В дальнейшем словари должны постоянно наращиваться и, по мере роста в них количества фразеологических сочетаний, качество машинного перевода будет улучшаться. Эта задача не может быть решена ручными методами. Для ее решения необходимо создавать систему автоматизации составления и ведения машинных словарей. Проблемы разработки такой системы описываются в главе 4.

Автоматический фразеологический перевод текстов с одного языка на другой должен выполняться в три этапа. На первом этапе проводится семантико-синтаксический анализ исходного текста, при котором осуществляется его членение на предложения и выявление их концептуальной и синтаксической структуры.

Семантико-синтаксический анализ и синтез текстов

В системах автоматической обработки информации семантико-синтаксический анализ текстов проводится с целью формализованного представления их структуры - выделения в них смысловых единиц и установления связей между ними. При этом структура текстов может интерпретироваться по-разному и описываться на различных формализованных языках. Конкретные цели и результаты анализа тоже могут быть разными. По этому поводу М. Веттлер пишет [105, стр.131]: "словосочетанием "анализ предложений" (Satzanalyse) обозначается множество различных процедур, которые имеют между собой лишь то общее, что предложения каким-то образом расчленяются и трансформируются в другую структуру. При этом всегда необходимо уточнять, на какие составные части расчленяется предложение". Если говорить о "естественных" составных частях текста, то ими, по-видимому, являются, прежде всего, речевые отрезки, обозначающие понятия: слова, словосочетания, фразы, сверхфразовые единства. Морфемы (корни, префиксы, суффиксы) тоже являются значащими отрезками текста, но они не обозначают понятий, если не становятся самостоятельными словами.

Основной структурной единицей текста традиционно считается предложение. Некоторые лингвисты склонны даже рассматривать его в качестве основной единицы смысла. Предложения выступают в тексте не изолированно друг от друга, а в тесной смысловой связи. В основе этой связи лежат мыслительные образы тех конкретных или абстрактных объектов (ситуаций, явлений), которые человек имеет в виду, когда он порождает текст. Образы этих объектов имеют определенную структуру. Кроме того, они дополнительно структурируются человеком при их описании на естественном языке. Соответственно этому структурируется и текст.

При прочтении текста у читателя, как и у автора текста, возникнет определенный мыслительный образ. Мыслительные образы автора текста и его читателя обычно не тождественны, но в основе своей они должны быть сходными. Иначе акт коммуникации (передачи информации) с помощью текста можно считать несостоявшимся.

В процессе передачи информации с помощью текста происходит не столько исчерпывающее описание мыслительных образов его автора, сколько инициация процесса порождения соответствующих мыслительных образов у читателей. Поэтому текст не столько "выражает" смысл текста, сколько стимулирует появление у человека соответствующих мыслительных образов, и значительная часть содержания текста оказывается "между строк". При этом важную роль здесь играет правильное соотношение между информацией, явно выражаемой в тексте, и информацией, которая подразумевается, "умалчивается". Если в тексте умалчивается слишком много, то он становится непонятным, если в нем слишком много известной информации, то он вызывает раздражение.

Письменный текст, как и звучащая речь, развертывается последовательно во времени, т.е. имеет линейную структуру, тогда как мыслительные образы "многомерны". При их словесном описании может быть принят различный порядок линейной развертки, но цель описания должна быть в основном одна и та же - воссоздание в сознании читателей мыслительных образов, подобных мыслительным образам автора текста. Такое воссоздание осуществляется постепенно, путем восприятия предложения за предложением и "монтажа" возникающих при этом частичных образов в целостный мыслительный образ, соответствующий содержанию текста. При этом в каждом предложении элемент его актуального членения "тема" выполняет роль "стыковочного узла", служащего для подключения нового частичного мыслительного образа, обозначаемого этим предложением, к ранее построенному мыслительному образу.

Описанная модель восприятия текста позволяет объяснить тот факт, что связи между предложениями выражаются в большинстве случаев с помощью лексических повторов: в "стыковочных узлах" предложений повторяются наименования понятий предшествующего текста либо буквально, либо в виде синонимических и эллиптических конструкций, либо в виде родовых наименований понятий и местоимений. Для связи с предыдущим текстом применяются также средства, основанные на указании координат его фрагментов (слов и выражений типа "на основании вышеизложенного", "рассмотренный нами ранее", "описанный в главе...", "в приведенном выражении" и т.п.

При описании синтаксической структуры текстов удобно опереться на какую-либо ее формализованную модель, например, на модель дерева зависимостей. Согласно этой модели каждое предложение представляется в виде дерева, в узлах которого находятся слова. Слова соединяются друг с другом стрелками, выражающими отношения непосредственной доминации и направленными от подчиняющего (определяемого) слова к подчиненному (определяющему). Степень дифференциации этих отношений может быть разная. Причем, чем больше степень дифференциации, тем сложнее процесс описания текстов.

Выше мы уже говорили о том, что в системах автоматической обработки информации семантико-синтаксический анализ текстов проводится с целью формализованного представления их структуры -выделения в них смысловых единиц и установления связей между ними. Для эффективного решения этой задачи необходимо не только уметь выделять в текстах составляющие их смысловые единицы (слова и словосочетания), но и располагать информацией о понятиях, ими представляемых. А еще лучше иметь модель человеческого мышления, в которой была бы достаточно полно представлена система знаний о мире - "модель мира". Но в настоящее время этого нет. Поэтому еще долго придется мириться с тем, что процедуры семантико-синтаксического анализа текстов будут приближенными.

Кроме того, для создания "точных" алгоритмов семантико-синтаксического анализа текстов, необходимо, чтобы функционирование языка происходило по строгим "правилам", т.е. чтобы язык представлял собой некое исчисление. Но естественный язык не исчисление. В нем, если и есть какие-то правила, отмечаемые лингвистами (например, "правила грамматики"), то они имеют размытые сферы применения и неточны. Язык является универсальным средством общения между людьми, и трудно ожидать простого решения проблемы его моделирования. Наверное прав был Ф. де Соссюр, когда он утверждал что язык доступен человеку только на феноменологическом уровне [74, стр. 142]. Он подобен "черному ящику", у которого можно наблюдать только его входы и выходы, а о "механизме" его функционирования можно только строить предположения.

Процедуры автоматического синтаксического анализа стали разрабатываться с конца 50-х годов прошлого столетия в связи с решением задачи машинного перевода текстов с одних естественных языков на другие. Создатели таких процедур ограничивались, как правило, анализом структуры предложения, которое рассматривалось как некоторая последовательность слов, связанных друг с другом "смысловыми" отношениями. В качестве формализованной модели структуры предложения обычно использовалось дерево зависимостей.

Общий порядок работы системы RETRANS

Порядок работы системы RETRANS при переводе текстов с русского языка на английский и с английского на русский примерно один и тот же. Поэтому мы рассмотрим его на примере русско-английского перевода.

При переводе текста с русского языка на английский сначала производится его членение на предложения и выполняется морфологический анализ входящих в него слов. По результатам морфологического анализа проводится синтаксический анализ текста, после чего он расчленяется на отдельные слова и словосочетания длиной от двух до 16-ти слов. Отдельные слова и слова, входящие в словосочетания, сопровождаются их порядковыми номерами по тексту и нормализуются. Нормализованные слова и пословно нормализованные словосочетания далее интерпретируются как поисковые образы слов и словосочетаний и хешируются (см. параграф 2.3.4 главы 2).

Далее выделенные из текста слова и словосочетания ищутся в русско-английских машинных словарях (в основном политематическом и в одном из дополнительных тематических словарей). Входами в словари служат хешкоды поисковых образов русских слов и словосочетаний, упорядоченные по возрастанию их численных значений. Хешкоды поисковых образов русских слов и словосочетаний, извлеченных из текста, также упорядочиваются по возрастанию численных значений. Поиск в словарях ведется методом "скользящего начала" в сочетании с методом "деления пополам". В результате поиска из словарей выбираются английские переводные эквиваленты русских слов и словосочетаний, сопровождаемые порядковыми номерами и сочетаниями порядковых номеров русских слов в исходном тексте. Затем переводные эквиваленты упорядочиваются по возрастанию численных значений сопровождающих их номеров слов и их сочетаний.

Следующим этапом перевода является выбор для каждого фрагмента исходного текста единственного переводного эквивалента или единственной серии переводных эквивалентов (если в словаре указывается серия переводных эквивалентов). При этом предпочтение оказывается тем эквивалентам или их сериям, которые покрывают более длинные фрагменты исходного текста или, при равенстве их длин, тем эквивалентам, которые были выбраны из дополнительного тематического словаря. Альтернативные варианты перевода исключаются. Результаты этого этапа перевода представляются в виде структуры, приведенной в таблице 3.1. В середине этой таблицы по вертикали расположены порядковые номера слов исходного текста. Слева и справа от них - элементы исходного текста и их переводы: слева - слова русского текста, справа - английские эквиваленты русских слов и словосочетаний.

В режиме автоматического перевода для каждого слова и словосочетания исходного русского текста выбирается только один (первый) английский переводной эквивалент из числа указанных в таблице 3.1. Затем следует синтез выходного текста, который выполняется с использованием результатов поиска по словарю, результатов синтаксического анализа исходного русского текста и результатов морфологического анализа английских слов, входящих в состав переводных эквивалентов.

Результаты синтеза английского текста имеют структуру, аналогичную структуре, приведенной в таблице 3.1. Отличие состоит лишь в том, что здесь каждое слово и словосочетание русского текста сопровождается только одним английским эквивалентом. При необходимости, изменяются формы английских слов и порядок их следования а также делаются пометы об изменении порядка следования слов. Эта структура далее используется для построения выходного английского текста.

Работа системы RETRANS в интерактивном режиме поначалу (пока не сформирована структура, приведенная в табл. 3.1) ничем не отличается от ее работы в автоматическом режиме. Затем, когда эта структура сформирована, пользователь может корректировать промежуточные результаты перевода. При этом есть возможность обнаруживать слова и словосочетания, для которых в словаре не указаны их переводные эквиваленты или эти эквиваленты не соответствуют контексту или указано несколько эквивалентов, но на первом месте стоит эквивалент, не соответствующий контексту. В случае отсутствия у некоторых слов переводных эквивалентов они могут быть указаны человеком; если эквиваленты не соответствуют контексту, они могут быть заменены на другие; если их несколько, то есть возможность выбрать только те из них, которые соответствовали контексту. Наконец, можно из слов и словосочетаний входного текста формировать новые словосочетания длиной от двух до 16-ти слов и указывать для них переводные эквиваленты.

В состав системы RETRANS включен пакет программ, который позволяет обнаруживать редакционные правки, сделанные переводчиком, формировать на их основе словарные статьи и вводить их в дополнительные словари соответствующей тематики. Таким образом систему машинного перевода можно настраивать на различные предметные области.

Машинные словари и средства их автоматизированного пополнения и настройки, созданные на начальных этапах разработки системы RETRANS (1993-1998 г.г.), сыграли большую роль в ее дальнейшем развитии. Но опыт практической эксплуатации этой системы выявил необходимость введения некоторых изменений в структуру словарей. Так, наряду с основными политематическими и дополнительными тематическими словарями системы были введены еще и дополнительные словари пользователей. При этом имелось в виду, что при переводе текстов с одного языка на другой будут одновременно использоваться три словаря: основной политематический словарь, один из дополнительных тематических словарей и один из словарей пользователей.

Словарь пользователя (СП) служит для тонкой настройки системы машинного перевода, выполняемой самим пользователем при переводе текстов по конкретной тематике. Кроме того, СП дает возможность использовать при переводе ранее созданные словарные массивы. В отличие от основного политематического словаря и дополнительных тематических словарей, содержимое которых может изменяться только разработчиками системы машинного перевода, словарь пользователя может создаваться и изменяться пользователем по своему усмотрению.

По структуре словарных статей словарь пользователя аналогичен основному политематическому и дополнительным тематическим словарям, но он отличается от них количеством возможных вариантов перевода, указываемых для входных наименований понятий. Здесь для каждого входного наименования понятия может указываться только один вариант перевода. Отличается словарь пользователя также и способом его хранения в файле. Это связано с необходимостью оперативного изменения содержимого словаря и тем, что его объем значительно меньше, чем объем словарей других типов.

Каждая запись СП описывает наименование одного понятия исходного языка, которое может иметь длину от одного до 16-ти слов. Его переводной эквивалент также может иметь длину от одного до 16-ти слов. Словарь может включать до 65 тысяч словарных статей.

Пользователь системы RETRANS может создавать практически неограниченное количество своих словарей по различным тематикам, но в процессе перевода конкретного текста используется только один словарь. При необходимости, можно объединить несколько словарей в один словарь.

Установление переводных соответствий между русскими и английскими словами и словосочетаниями по параллельным текстам (билингвам)

Установление переводных соответствий между русскими и английскими словосочетаниями является более трудной задачей, чем установление переводных соответствий между словами, так как границы слов определяются проще, чем границы словосочетаний. Границы словосочетаний для одного языка (например, русского) могут определяться на основе синтаксического анализа текстов, но в этом случае возникают затруднения с определением границ единиц смысла (словосочетаний или слов) для другого языка, так как словарные единицы, выражающие один и тот же смысл, на русском и на английском языках могут состоять из разного количества слов (см. пары словосочетаний "колесная пара" - "wheel and axle set", "стандартная платформа" - "standard flat wagon", "счетчик времени стоянки" - "parking meter").

При установлении переводных соответствий между словосочетаниями можно опираться на гипотезу, аналогичную гипотезе, сформулированной в п. 4.4.1: "Если два предложения являются переводами друг друга, то для каждого словосочетания одного из предложений с высокой вероятностью найдется эквивалентное ему по смыслу словосочетание или слово из другого предложения". Следовательно, если для некоторого русского словосочетания подобрать множество включающих его русских предложений и множество английских переводов этих предложений, то в английских предложениях будут многократно встречаться переводы этого словосочетания и входящих в его состав слов. При этом переводы слов, входящих в состав русского словосочетания, будут располагаться в английских предложениях контактно. Это дает возможность определять границы английских словосочетаний, являющихся переводами русского словосочетания, так как эти словосочетания будут состоять из наиболее частых слов.

Установление переводных соответствий между русскими и английскими словосочетаниями может проводиться в следующем порядке:

1) Расчленение параллельных текстов (билингв) на пары предложений, являющихся переводами друг друга и нумерация этих пар;

2) Выделение из русских предложений словосочетаний и присвоение им номеров пар предложений;

3) Сортировка словосочетаний п.2 и исключение из полученного массива словосочетаний с малой частотой встречаемости;

4) Выборка для заданного русского словосочетания всех пар предложений, включающих это словосочетание (по номерам пар предложений п.2);

5) Составление по выбранному в п.4 массиву пар предложений частотного словаря английских слов, выделение из него частых слов;

6) Маркировка частых слов в английских предложениях п.4 и выборка из них непрерывных последовательностей маркированных слов. Редактирование последовательностей (исключение предлогов и союзов, стоящих в начале и в конце этих последовательностей);

7) Составление частотного словаря последовательностей (словосочетаний) п.6;

8) Выборка из частотного словаря словосочетаний п.7 самого частого словосочетания (или двух самых частых словосочетаний) в качестве английского переводного эквивалента (переводных эквивалентов) заданного русского словосочетания;

9) Повторение п.п. 4-8 для всех словосочетаний словаря п.З. no

С помощью описанной процедуры был обработан массив пар заголовков научно-технических документов на английском и на русском языках объемом более 1 млн. пар (тот же, что и в п. 4.4.1). В результате был получен русско-английский словарь словосочетаний объемом около 10 тыс. словарных статей.

Установление переводных соответствий между разноязычными словами и словосочетаниями в процессе интерактивного перевода текстов с одного языка на другой

Методы, описанные в п.п. 4.4.1 и 4.4.2, позволяют устанавливать переводные соответствия между разноязычными словами и словосочетаниями в автоматическом режиме, но точность результатов здесь сильно зависит от частоты повторения выбираемых соответствий -чем выше эта частота, тем меньше вероятность ошибки. Однако повышение пороговой частоты повторения выбираемых переводных соответствий приводит к уменьшению их количества, а ее снижение - к росту ошибок и, следовательно, к росту объема работ по корректировке выходных результатов. Альтернативным методом решения задачи здесь может быть установление переводных соответствий между разноязычными словами и словосочетаниями в процессе интерактивного перевода текстов с одного языка на другой. При этом частота встречаемости наименований понятий в текстах не будет оказывать никакого влияния на качество получаемых результатов.

Существо этого метода заключается в следующем. На вход системы фразеологического машинного перевода RETRANS подается массив англо-русских билингв (массив английских предложений и их переводов на русский язык), и осуществляется автоматический перевод первого английского предложения на русский язык. Полученный перевод сравнивается с первым русским предложением массива билингв. Если этот перевод оказывается правильным, то переходят к обработке следующей пары предложений. Если неправильным, то первое английское предложение повторно переводится на русский язык в интерактивном режиме. При этом переводчик имеет возможность корректировать переводные эквиваленты английских слов и словосочетаний и формировать новые английские словосочетания и их переводные эквиваленты. Полученные таким образом переводные соответствия между английскими и русскими словами и словосочетаниями заносятся в словарь пользователя.

По окончании процесса перевода всего массива англо-русских билингв словарные статьи словаря пользователя используются для пополнения и корректировки одного из дополнительных тематических словарей системы RETRANS. Это делается с помощью специальной программы. В процессе ее выполнения входы словарных статей словаря пользователя сравниваются с входами словарных статей тематического словаря. Если они совпадают, то переводные эквиваленты словаря пользователя заносятся в словарные статьи тематического словаря в качестве приоритетных переводных эквивалентов. Если не совпадают, то словарные статьи словаря пользователя включаются в дополнительный тематический словарь в качестве самостоятельных словарных статей.

Далее проводится "чистка" дополнительного тематического словаря: из него исключаются словарные статьи, входы и приоритетные переводные эквиваленты которых совпадают с входами и приоритетными переводными эквивалентами основного политематического словаря, а также словарные статьи, входы которых не совпадают ни с одним из входов основного словаря. Последние включаются в основной словарь в качестве новых словарных статей.

Установление переводных соответствий между разноязычными словами и словосочетаниями может также осуществляться и в процессе интерактивного перевода одноязычных текстов, без привлечения билингв, а формируемый при этом словарь пользователя может использоваться для пополнения основного политематического словаря системы RETRANS и ее дополнительных тематических словарей.

Похожие диссертации на Теоретические основы и методы построения систем фразеологического машинного перевода