Введение к работе
Исторические события 1 мая 2004 года, когда Европейский Союз принял в свои члены десять новых стран-участниц, остро поставили вопрос о необходимости разработки средств поддержки социальной коммуникации в условиях обмена электронной информацией на глобальных и национальных языках. В качестве одного из таких средств может рассматриваться система машинного перевода. В реферируемом диссертационном исследовании изучается круг проблем, связанных с созданием системы машинного перевода с латышского на русский язык, предназначенной для поддержания социальной коммуникации. Следует отметить, что именно данное направление перевода приобрело сегодня особую важность как минимум по двум причинам:
русский язык по-прежнему является вторым (после латышского) языком общения в латвийском обществе;
значительная часть русскоязычного населения не владеет государственным латышским языком на должном уровне, достаточном для осуществления социального взаимодействия.
При решении задачи создания системы латышско-русского машинного перевода для поддержания социальной коммуникации следует учитывать существование практических систем, предоставляющих возможность перевода текстов с латышского языка и на латышский язык. Руководствуясь лингвистическими и кибернетическими принципами построения лингвистических процессоров, принципами модульности архитектуры и открытости системы (Ю. Д. Апресян, Л. Н. Беляева, Р. Г. Пиотровский), проектируемую систему можно создавать как модуль действующей системы машинного перевода (МП), как одну из основных составляющих автоматизированной компьютерной системы - лингвистического автомата (ЛА).
Таким образом, актуальность темы реферируемой работы продиктована:
необходимостью разработки и совершенствования средств поддержания социальной коммуникации в многоязычном обществе;
целесообразностью создания системы латышско-русского машинного перевода для поддержания социальной коммуникации в Латвии;
насущными потребностями прикладного языкознания (в частности машинного перевода и компьютерной лингвистики), связанными с тем, что латышский и русский языки недостаточно изучены с точки зрения перевода, сопоставительного языкознания и мало изучены с точки зрения их представления в системах машинного перевода.
Теоретической базой исследования послужили положения:
- теории коммуникации: об объеме и соотношении понятий
«коммуникация» и «общение» (В. В. Дрыбин, В. П. Конецкая, А. С. Нариньяни,
В. Н. Переверзев, А. В. Соколов, Р. С. Цаголова), о структуре модели
коммуникации и ее компонентах (В. Б. Кашкин, Г. Лассуэлл, Р. Г. Пиотровский,
В. Н. Переверзев, А. В. Соколов, К. Шеннон, Р. Якобсон);
теории речевых актов: о структуре речевого акта (Дж. Л. Остин, Дж. Р. Серль) и стратегии речевого поведения (Г. П. Грайс);
теории перевода: об особенностях процесса перевода как части процесса коммуникации (Е. В. Бреус, В. С. Виноградов, В. Н. Комиссаров, А. А. Паршин, Г. М. Стрелковский);
компьютерной (инженерной) лингвистики: о принципах построения лингвистических автоматов (Л. Н. Беляева, К. Р. Пиотровская, Р. Г. Пиотровский);
машинного перевода: о стратегиях реализации систем машинного перевода, способах описания лингвистических алгоритмов и словарных баз (Ю. Д. Апресян, Л. Н. Беляева, И. М. Богуславский, Д. By, Л. Л. Иомдин, М. Карл, Ф. Коэн, Ю. Н. Марчук, С. Ниренбург, Р. Г. Пиотровский, И. И. Убин, X. Ушкорайт, Дж. Хатчинс).
Гипотезой исследования является предположение о том, что система латышско-русского машинного перевода может:
создаваться на основе имеющихся в структуре многофункционального лингвистического автомата модулей автоматической переработки текста на государственном (латышском) языке;
использоваться как средство поддержания социальной коммуникации в латвийском обществе, позволяя пользователю, не знающему или плохо знающему государственный язык, преодолевать языковой барьер.
В соответствии с этим целью исследования является установление принципов выбора и модификации системы машинного перевода с государственным языком и встраивания систем машинного перевода, предназначенных для поддержания социальной коммуникации, в структуру лингвистического автомата.
Сформулированная цель диктует постановку и решение следующих задач:
исследование особенностей и параметров социальной коммуникации, разработка модели социальной коммуникации при использовании системы машинного перевода в качестве посредника;
изучение общих принципов работы систем машинного перевода и выявление специфики системы машинного перевода для поддержания социальной коммуникации;
анализ существующих типов лингвистических автоматов и практических систем машинного перевода с латышским языком, выбор прототипической системы для встраивания латышско-русского модуля;
рассмотрение архитектуры прототипической системы машинного перевода и определение особенностей реализации латышско-русского модуля;
исследование структурных и языковых особенностей оформления текстов, функционирующих в социальной коммуникации, на латышском языке;
разработка и реализация в прототипической системе процедуры машинного перевода текстов, функционирующих в социальной коммуникации, с латышского языка на русский;
экспериментальное апробирование и предварительная оценка эффективности использования разработанного модуля.
Цель и задачи определили ход, материал и методику исследования.
Объектом исследования является система машинного перевода в структуре лингвистического автомата, предназначенная для поддержания социальной коммуникации.
Предметом исследования являются особенности организации системы машинного перевода, предназначенной для поддержания социальной коммуникации, в структуре лингвистического автомата.
Основным материалом исследования являются системы машинного перевода, тексты на латышском языке, функционирующие в социальной коммуникации, практические грамматики латышского и русского языков.
В ходе диссертационного исследования применялись методы лингвистического анализа языкового материала (метод оппозиций, методы словообразовательного, грамматического, стилистического, дистрибутивного, структурного анализа), сопоставительного анализа систем машинного перевода и грамматик латышского и русского языков, методы и приемы компьютерной лингвистики.
На защиту выносятся следующие положения:
система латышско-русского машинного перевода для поддержания социальной коммуникации может быть встроена в структуру многофункционального лингвистического автомата, поддерживающего функцию машинного перевода для государственного (латышского) языка;
система машинного перевода для поддержания социальной коммуникации отличается от других типов систем машинного перевода по цели, с которой получатель вступает в процесс коммуникации, и типу текстов, для перевода которых предназначена;
система латышско-русского машинного перевода может рассматриваться как необходимый компонент процесса социальной коммуникации в латвийском обществе, позволяя пользователю, не знающему государственный (латышский) язык, преодолевать языковой барьер.
Научная новизна результатов исследования заключается в следующем:
установлены принципы выбора, модификации и встраивания систем машинного перевода с государственным языком, предназначенных для поддержания социальной коммуникации, в структуру лингвистического автомата;
разработана модель социальной коммуникации при использовании системы машинного перевода в качестве посредника;
определены общие и частные требования, которым должна соответствовать система машинного перевода для поддержания социальной коммуникации;
определены типы морфологических и синтаксических преобразований, необходимых при латышско-русском машинном переводе;
разработан и реализован в системе латышско-русского машинного перевода комплекс правил для реализации процедур синтаксического трансфера и согласования.
Теоретическая значимость исследования заключается в том, что:
установлена необходимость и целесообразность создания системы машинного перевода для поддержания социальной коммуникации, что способствует дальнейшему развитию теории машинного перевода и вносит вклад в переводоведение;
определены принципы и методы выбора, модификации и встраивания систем машинного перевода с государственным (латышским) языком для поддержания социальной коммуникации, что служит основой дальнейших лингвистических исследований по созданию систем машинного перевода с латышского языка на другие национальные языки, а также с других государственных языков;
разработан комплекс правил для реализации процедур синтаксического трансфера и согласования в модуле латышско-русского машинного перевода, что способствует дальнейшему развитию алгоритмов парсинга для машинного перевода.
Практическая значимость результатов диссертационного исследования определяется тем, что созданная система латышско-русского машинного перевода может использоваться в качестве средства поддержания социальной коммуникации жителями Латвии, которые не владеют государственным языком, для преодоления языкового барьера. Разработанный модуль может использоваться стационарно на компьютере пользователя, а также в дальнейшем может применяться на сайтах социально-политических институтов Латвии. Комплексное описание типологии лингвистических автоматов в соответствии с типами коммуникации способствует дальнейшему развитию и применению многофункциональных лингвистических автоматов.
Достоверность и научная обоснованность теоретических и практических результатов исследования обеспечивается:
использованием в качестве теоретической базы фундаментальных исследований отечественных и зарубежных авторов по теоретической и прикладной лингвистике;
адекватностью технологий, которые используются для решения поставленных задач (готовые модули автоматической переработки текста на латышском и русском языках входят в структуру лингвистического автомата Tildes Birojs и используются в различных пользовательских приложениях в его составе);
- предложенной автором системой верификации качества работы модулей машинного перевода.
Таким образом, в ходе работы получены достоверные теоретические и практические результаты, на основании которых сделаны основные выводы исследования.
Рекомендации об использовании результатов диссертационного исследования. Основные результаты исследования могут быть использованы в курсах лекций по решению лингвистических задач с помощью компьютера, по лингвистическим автоматам, проблемам передачи информации при переводе, машинному переводу и автоматической переработке текста, а также при разработке спецкурсов для студентов бакалавриата, обучающихся по профилю «Иностранный язык и компьютерная лингводидактика», и магистратуры, обучающихся по профилю «Информационные технологии в филологическом образовании».
Апробация результатов исследования состоялась на международных конференциях «Human Language Technologies» (Каунас, Литва, октябрь 2007 г.), «Прикладная лингвистика в науке и образовании» (Санкт-Петербург, Россия, март 2008 г.), «Диалог» (Бекасово, Московская область, Россия, июнь 2008 г.), аспирантских семинарах по машинному переводу в Nordic Graduate School of Language Technologies (Ґетеборг, Швеция, октябрь 2008 г., январь 2009 г.), заседаниях кафедры прикладной лингвистики Российского государственного педагогического университета им. А. И. Герцена, собраниях коллектива отдела языковых систем компании Tilde (Рига, Латвия, 2005-2009 гг.). По теме диссертации опубликовано 5 работ общим объёмом 2,65 п. л.
Объем и структура диссертации. Работа состоит из введения, двух глав, сопровождающихся выводами, заключения, списка использованной литературы, включающего 285 наименований, в том числе 130 на иностранных языках, списка использованных словарей, включающего 5 наименований, и глоссария. К диссертации прилагается список географических названий (Приложение 1) и список имен и фамилий (Приложение 2), включенных в двуязычный латышско-русский переводной автоматический словарь, а также тестовый корпус, созданный для проведения экспериментов по предварительной оценке эффективности использования системы на материале текстов на латышском языке, функционирующих в социальной коммуникации. В состав тестового корпуса вошли двести латышских предложений, их ручные и машинные переводы (Приложение 3). Общий объём работы составляет 262 страницы печатного текста: основное содержание работы изложено на 202 страницах, 60 страниц занимают приложения.