Содержание к диссертации
Введение 4
Глава 1. Типология СМП и место трансферних
систем в классификациях СМП 9
Трансфер и основные концепции машинного перевода 12
Системы прямого перевода 16
Трансферные системы 18
Системы других типов 24
Системы фразеологического перевода 26
Системы смешанного типа 28
Семантические СМП 30
Характеристики трансфера .33
Трансфер в мультиязыковых системах 34
Модульность трансфера 39
Связь трансфера с другими компонентами СМП, межэтапные интерфейсы „44
1.7 Новые технологии разработки программного обеспечения
применительно к системам машинного перевода трансферного
типа 46
Выводы к главе 1 54
Глава 2. Уровни трансфера 56
2.1 Лексический трансфер 58
2.1.1 Организация трансферного компонента 64
2.2Синтаксический трансфер 69
2.3 Типология переводных соответствий и трансфер 75
Выводы к главе 2 86
Глава 3. Оценка трансфера в современных системах
машинного перевода 87
Методика оценки трансфера в современных СМП 88
Причины ошибок 92
33 Ошибки лексического трансфера 95
3.4 Ошибки синтаксического
трансфера 97
Выводы к главе 3 98
Заключение 100
Библиография 102
Приложение 118
Введение к работе
Настоящая работа посвящена анализу и сравнительно-типологическому описанию современных систем машинного перевода в контексте наличия, способов организации и функционирования в них трансферного компонента, его характеристик.
Системы машинного перевода по праву считаются одним из основных приложений теорий искусственного интеллекта, его неотъемлемой частью. Они представляют собой один из многих способов устранения естественного языкового барьера наряду с классическим подходом к переводческой деятельности, созданием искусственных универсальных языков (например, Эсперанто). Однако машинный перевод обладает рядом черт, отличающихся от других способов преодоления языкового барьера. Машинный перевод превосходит остальные методы преодоления межъязыковых границ в оперативности и количестве информации, обрабатываемой за относительно короткое время. Что касается качества выполненных переводов, то классический перевод значительно превосходит в этом аспекте перевод автоматический. Несмотря на значительное превосходство по качеству, классический немашинный перевод стоит дороже перевода машинного в пересчете на единицу времени, что становится заметным фактором при переводе больших текстовых массивов.
Очень часто машинный перевод подвергается критике (иногда справедливой) за дороговизну исследований и разработки систем, кроме того, процесс создания системы достаточно долгий и кропотливый, где, как и при создании любого программного обеспечения, основные трудности возникают не на этапе
теоретических исследований, моделирования, выработке концепций, а на этапе отладки системы, обнаружении ошибок и сбоев. При этом забывают, что подготовка квалифицированного переводчика — также процесс небыстрый и трудоемкий. Ведь недостаточно просто хорошо владеть родным и иностранными языками, чтобы осуществлять полноценную переводческую деятельность.
Значительное влияние на разработку систем машинного перевода оказывает и развитие коммуникационных технологий, и рост глобальной сети Интернет. Наряду с развитием сетевых технологий увеличиваются объемы и потоки информации, причем с ростом глобальных сетей (прежде всего Интернет) увеличиваются потоки разноязычной информации, подлежащей переводу. Кроме того, помимо лингвистических и информационных проблем современных СМП в данной работе проводится исследование новых тенденций в развитии лингвистического, математического и программного обеспечения современных СМП.
Выбор темы данного исследования обусловлен в первую очередь недостаточной степенью исследованности трансфера, одного из ключевых понятий архитектуры СМП, что в свою очередь, говорит об актуальности рассматриваемых в работе задач.
Научная новизна работы заключается в комплексном подходе к проблеме трансфера, с учетом его лингвистических, архитектурных и машинных характеристик. Впервые также осуществлен анализ СМП с количественной и качественной оценкой трансферных характеристик системы. Проанализированы СМП трансферного типа, работающие с русским, немецким и английским языками.
Целью работы является исследование компонента трансфера в современных СМП, его характеристик, способы разработки,
эффективность, влияние качества работы трансфера на суммарную эффективность системы.
Дня достижения поставленной цели потребовалось разрешение следующих задач:
изучение эволюции понятия «трансфер» с момента его появления по настоящий момент;
изучение типологических описаний СМП, содержащих в своей основе признаки трансфера;
выявление характеристик трансфера и их теоретическое обоснование;
разработка методов составления трансферного компонента;
анализ и типология трансферних ошибок, их связь с ошибками других типов, методы их прогнозирования и устранения;
комплексный анализ трансфера в современных СМП.
Теоретический аспект данной работы заключается в определении лингвистических характеристик трансфера на двух этапах: машинном и предмашинном. Теоретическая значимость данного исследования заключается в возможности использования результатов исследования при разработке систем, содержащих трансферный компонент в явном виде. Также предполагается создание лингвистических программных инструментов для создания и дополнения трансферних словарей, на основе полученных результатов. В рамках исследования рассматриваются основные концепции и модели машинного перевода: перевод с интерлингвой, модель переводных соответствий и их разновидности. Предполагается рассмотреть все технологии машинного перевода, проанализировать их архитектурные и лингвистические особенности, выявить их
взаимосвязь с трансфером, а также возможности комбинирования различных подходов к моделированию машинного перевода.
Практические задачи исследования направлены на разработку методов реализации теоретически обоснованных критериев создания и функционирования трансфера. Практическая ценность данной работы заключается в том, что на основе трансферных исследований можно воспользоваться методами отбора и составления переводных соответствий, методами архитектурного конструирования системы, а также более эффективно сочетать лингвистическое и программное обеспечение СМП, используя современные технологии проектирования и программирования, сетевых и коммуникационных технологий.
Исследование имеет два аспекта: исследование текстов на русском, немецком, английском языках, их анализ для организации трансфера, и сопоставительный анализ современных действующих трансферных систем машинного перевода. Материалом исследования стали более 200 небольших текстов на русском, немецком, английском языках, общим объемом около 30 000 слов. Тематика текстов— общенаучная, компьютерные технологии, подъязыки компьютерных технологий: сети, микропроцессоры, операционные системы, базы данных, языки программирования, спецификации аппаратного обеспечения и программных протоколов и интерфейсов. Источником языкового материала послужила специальная литература, технические спецификации и документации, руководства по эксплуатации, а также тексты аналогичной тематики иноязычных ресурсов глобальной сети Интернет. Кроме того, объектом исследования стали действующие доступные системы машинного перевода: Promt, Stylus, Socrat, Power Translator, Systran, Transit, Спринт, Retrans, Ertrans.
Методами исследования послужили сопоставительные исследования лексики, принцип «черного ящика», метод аналогии, типологическое сопоставительное описание, разработана методика отбора из текстов переводных соответствий и методика количественно-качественной оценки эффективности трансфера.
На защиту выносятся следующие положения:
Трансфер в самом общем определении этого понятия применим практически к любой системе машинного перевода, если он представляет собой машинный перенос значения единицы входного языка на соответствующие единицы.
В основе трансферных СМП лежит модель переводных соответствий, трансфер осуществляет поиск и установление переводных соответствий.
Важную роль в разработке эффективных СМП играют новые компьютерные, коммуникационные и информационные технологии, новейшие технологии проектирования, разработки и распространения программного обеспечения. Особенно сильное влияние на развитие технологий машинного перевода оказывает глобальная сеть Интернет, ставшая также средой для разработки, тестирования и распространения систем машинного перевода.
Трансферный компонент СМП взаимодействует с другими этапами обработки текста при переводе, его эффективность зависит от корректного функционирования всех уровней анализа.
Ошибки, допускаемые системами машинного перевода на этапе трансфера, существенно влияют на суммарную эффективность лингвистического обеспечения системы машинного перевода.