Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Анализ и синтез многокомпонентных одноэлементных именных групп в действующей системе лексического машинного перевода и повышение её эффективности (на материале английского микроподъязыка антенно-фидерных устройств) Ионов Анатолий Иванович

Анализ и синтез многокомпонентных одноэлементных именных групп в действующей системе лексического машинного перевода и повышение её эффективности (на материале английского микроподъязыка антенно-фидерных устройств)
<
Анализ и синтез многокомпонентных одноэлементных именных групп в действующей системе лексического машинного перевода и повышение её эффективности (на материале английского микроподъязыка антенно-фидерных устройств) Анализ и синтез многокомпонентных одноэлементных именных групп в действующей системе лексического машинного перевода и повышение её эффективности (на материале английского микроподъязыка антенно-фидерных устройств) Анализ и синтез многокомпонентных одноэлементных именных групп в действующей системе лексического машинного перевода и повышение её эффективности (на материале английского микроподъязыка антенно-фидерных устройств) Анализ и синтез многокомпонентных одноэлементных именных групп в действующей системе лексического машинного перевода и повышение её эффективности (на материале английского микроподъязыка антенно-фидерных устройств) Анализ и синтез многокомпонентных одноэлементных именных групп в действующей системе лексического машинного перевода и повышение её эффективности (на материале английского микроподъязыка антенно-фидерных устройств) Анализ и синтез многокомпонентных одноэлементных именных групп в действующей системе лексического машинного перевода и повышение её эффективности (на материале английского микроподъязыка антенно-фидерных устройств) Анализ и синтез многокомпонентных одноэлементных именных групп в действующей системе лексического машинного перевода и повышение её эффективности (на материале английского микроподъязыка антенно-фидерных устройств) Анализ и синтез многокомпонентных одноэлементных именных групп в действующей системе лексического машинного перевода и повышение её эффективности (на материале английского микроподъязыка антенно-фидерных устройств)
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Ионов Анатолий Иванович. Анализ и синтез многокомпонентных одноэлементных именных групп в действующей системе лексического машинного перевода и повышение её эффективности (на материале английского микроподъязыка антенно-фидерных устройств) : ил РГБ ОД 61:85-10/146

Содержание к диссертации

Введение

ГЛАВА I. Пути и способы поэтапного повышения эффективности систем машинного перевода и улучшения качества машинных переводов 21

Часть I. Этап лингво-статистического и инженерно-информационного моделирования исследуемого подъязыка 22

Часть П. Машинные словари в системах машинного перевода 26

Раздел I. Машинные словари действующих систем машинного перевода 29

1.1. Автоматические словари МАОС 29

1.2. МС в системе бинарного МП Чимкентского пединститута 32

1.3. МС в системе МП АМПАР 33

1.4. МС системы МП НЕРПА 36

1.5. АС ВЦП "Мультилекс" 38

Раздел 2. Машинные словари экспериментальных и проектируемых систем машинного перевода 42

2.1. Лингво-техническая система 43

2.2. МС системы Ш АМПАР-2 44

2.3. Система МП ФРАП 44

2.4. АС системы ЛИШОРАН 46

2.5. АС с нежесткими связями 47

2.6. МС системы ЯРАП 48

2.7. Система лексико-синтаксического МП научно-технических текстов 49

2.8. Многоцелевой автоматический словарь русского языка в системе универсальной структуры БАНК 52

2.9. МС системы МП СИМПАР 54

Часть III. Алгоритмы систем машинного перевода 55

3.1. Алгоритм синтаксического анализа и синтеза группы "Статистика речи" 57

3.2. Алгоритм семантико-синтаксической переработки предложения в системе немецко-русского 58

3.3. Алгоритм поиска синтаксических связей 59

3.4. Алгоритм семантико-синтаксического МП 60

3.5. Алгоритм семантических моделей 61

ВЫВОДЫ 63

ГЛАВА П. Анализ и синтез многокомпонентных одноэлементных именных групп в действущей системе лексического шинного перевода 66

Раздел I. К постановке проблемы 66

Раздел 2. Структура автоматизированного машинного комбинированного словаря АМКОС 69

Раздел 3. Двухкомпонентные одноэлементные именные группы микроподъязыка "Антенно-фидерные устройства"... 79

3.1. Перевод именных групп н + ЇЇ„ типа STOKE WALL .79

3.2. Особенности переработки именных групп с " IHG " формами 82

3.3. Именные группы с переводной схемой к + Pr + її .83

3.4. Именные группы, требующие описательного перевода .83

3.5. Особые виды именных групп 84

Раздел 4. Особенности анализа и синтеза трехкомпонентных одноэлементных именных групп микроподъязыка "Антенно-фидерные устройства" 88

4.1. Именные группы с переводной схемой ц + IT + и 88

4.2. Именные группы с переводной схемой Е + Adji + И*.. 89

4.3. Именные группы с переводной схемой Adji + Adj2+ ІЦ..89

4.4. Именные группы с переводной схемой лйд9 + N- + N 91

4.5. Именные группы с переводной схемой її, + PI. + її? 92

4.6. Именные группы с переводной схемой Adj + N .92

4.7. Именные группы с переводной схемой їц + N + її ,,,93

4.8. Именные группы с переводной схемой к, + Prep + Ad^ + N2 93 -

4.9. Генные группы с переводной схемой Н- + Np + Prep + N1 94

4.10.Именные группы с переводной схемой к + її .95

4.II. Именные группы с переводной схемой її, + Prep + її? + н, - 95

4.12.Именные группы с переводной схемой її, + Prep + її, + Н2 96

4.ІЗ.Именные группы с переводной схемой Adj? + її, ,96

4.14.Именные группы с переводной схемой Adj, + її, .97

4.15.Именные группы с переводной схемой Adj. + її- + N? .97

4.1.Именные группы с переводной схемой Adj + їїр ,98

4.17.Именные группы с переводной схемой Adj, + їїр + її .98

4.18.Именные группы с переводной схемой PI + ЇЇ, + її, .,99

4.19.Категории именных групп, представленные одним употреб лением .99

Раздел 5. Переработка четырехкомпонентных одноэлементных именных групп микроподъязыка "Антенно-фидерные устройства" 104

Выводи

Заключение 115

Литература

Введение к работе

В документах ХХУІ съезда КПСС, ноябрьского (1982 г,) Пленума ЦК КПСС содержится комплексная программа развития экономики, повышения ее эффективности, ускорения научно-технического прогресса во всех отраслях народного хозяйства.

Машинная переработка научно-технической информации, включая машинный перевод, призвана в значительной степени способствовать решению узловых вопросов научно-технического прогресса в важной сфере, как механизация, автоматизация и научная организация управленческой деятельности в масштабе всей страны С 153,8 3. Партия наметила целый ряд мер по совершенствованию управления, главными из которых являются следующие: улучшение планирования, контроля и учета, дальнейшее укрепление и развитие материально-технической и информационной базы управления П,67-691. По этим основным направлениям осуществляется и дальнейшее совершенствование управления в военной области, причем на данном этапе важнейшим условием эффективности управления войсками выступают широкое внедрение научной организации труда и активное использование современной вычислительной техники [2,12-133.

Умелое использование средств автоматизации способствует повышению боеготовности и боеспособности войск, увеличивает эффективность боевого применения оружия и техники, значительно сокращает объем ручного труда должностных лиц органов управления и соответственно расширяет возможности для творческой деятельности командиров и штабов.

Электронно-вычислительная техника позволяет значительно сократить время прохождения информации, облегчает выполнение необ-

ходимых оперативно-тактических расчетов, обеспечивает своевременное нанесение ударов по наиболее важным объектам противника, уточнение боевых задач подчиненным войскам, поддержание тесного взаимодействия между разнородными силами и различными видами оружия.

Применение АСУ позволяет повысить эффективность борьбы со средствами массового поражения, обеспечить быстрый сбор информации и ее оперативную переработку [2,133«

Актуальность исследования. Как отметил ХХУІ съезд КПСС, решение целого ряда стоящих перед экономикой страны задач предусматривает " „ нацеленность на экономию, на более полное и рациональное использование того, чем располагает страна, требует нового подхода ко многим вопросам хозяйствования" 1,561.

В практике военного дела одно из главенствующих мест занимает своевременный сбор, обработка и передача текстовой информации, извлекаемой в ходе переработки различных материалов военно-специального характера, в том числе и научно-технических текстов [129,241. Основным направлением поиска способов оптимизации процесса автоматизированного извлечения текстовой информации в двуязычной ситуации является создание систем машинного перевода (СШ), которые могли бы осуществлять этот процесс с использованием минимума машинных программ и подпрограмм и оперативной памяти ЭВМ [129,33.

Необходимость минимизации количества интерпретируемых ЭВМ программ обусловлена тем, что зачастую военным лингвистам и инженерам приходится решать ту или иную задачу лингвистического и инженерного (математического) моделирования систем Ш, предназначенных для эксплуатации в условиях различных ограничений на объем используемой оперативной памяти ЭВМ и на машинное время. Выходом в

таких условиях эксплуатации- ЭВМ является разработка систем МТС, органично сочетающих принципы экономичности* автономности и компактности.

На нынешнем этапе развития отечественного МП с английского языка на русский военно-специальных, военно-технических и научно-технических текстов наиболее полно этим принципам отвечают автономные информационно-лингвистические системы САИЛС) Ш0С-І и МАОС-2, созданные ЛД. Нелюбиным (см. 1773 , CI263 , П273 , П2&1, П291, П301).

Данное исследование выполнено в рамках разработанной Л.Л. Нелюбиным стратегии построения систем ограниченного Ш документов и текстов, ориентированных на конкретный подъязык, которая в наибольшей степени соответствует теории и передовому опыту инженерной лингвистики у нас в стране и за рубежом ( ср. П35,53).

Цели и задачи исследования. Цель работы заключалась в разработке действующей системы Ш с английского языка на русский текстов микроподъязыка антенно-фидерных устройств . С учетом прагматики конкретного заказчика (один из ввузов) и исходя из необходимости вести разработку системы, предназначенной для работы в условиях ограничений на объем оперативной памяти ЭВМ и на машинное время, было решено строить систему МП на основе машинного словаря АЖОС (автоматизированный комбинированный машинный словарь) и одного алгоритма анализа и синтеза без использования в системе других алгоритмических процедур.

В ходе достижения цели исследования ставились и были решены следующие основные задачи: I) реализовать в эксплуатационном режиме систему МП с английского языка на русский текстов специального микроподъязыка антенно-фидерных устройств,для чего: а) со-

ставить на основе данных информационно-статистического и инженерно-лингвистического обследования ограниченного корпуса письменных текстов данного микроподъязыка машинный словарь словоформ и не-калькируемых многокомпонентных одноэлементных именных группа типа ЪЦ + и2+..Лп (т.н. "готовых форм", Сер. CI603); б) создать алгоритм анализа и синтеза калькируемых многокомпонентных одноэлементных именных групп (МОИГ) микроподъязыка и использовать его в качестве базового в системе МП; в) обеспечить эффективную эксплуатацию системы в условиях ограничений на объем используемой оперативной памяти ЭВМ за счет применения в выходной части АЖОС русских графических сокращений; г) разработать программное обеспечение системы; 2) дать краткий обзор путей и способов повышения эффективности отечественных систем МП в различных условиях эксплуатации ЭВМ; 3) рассмотреть этапы моделирования систем МП с целью выявления и учета тех факторов, которые способствуют достижению высокой эффективности проектируемых систем Ш и обеспечивают хорошее качество машинных переводов в различных режимах эксплуатации ЭВМ.

Материал и предмет исследования. Материалом исследования послужили письменные тексты микроподъязыка антенно-фидерных устройств который является составной частью базового подъязыка радиотехники и радиоэлектроники. Он характеризуется устойчивостью основных понятий и, соответственно, терминологии, его структура отличается четкостью, ясностью, логичностью 11130,83 -

Объем выборки составили 150000 словоупотреблений. Обследование проводилось на ЭВМ ДОС/ЕС 1020 по методике, принятой в группе "Статистика речи", и по программам , составленным автором.

Общи частотный список для всего обследованного корпуса со-

ставили 4371 словоформа. Покрываемость вероятностных рабочих текстов исследуемого микроподъязыка составляет 0,91, что с практической точки зрения обеспечивает получение машинных переводов такого качества, которое удовлетворяет информационным запросам конкретного потребителя»

На лексическом уровне тексты микроподъязыка антенно-фицерных устройств отличаются насыщенностью отраслевой терминологией (терминами являются 64% частотного списка словоформ, из них 65% - отраслевые) Сер- ГІ35, 1043), Микроподъязык характеризуется широким использованием в нем цифр, сокращений, условных обозначений, формул и эпонимов (ок. 21% всех словоупотреблений; ср* [135, 108—НОТ)

Основное терминологическое ядро микроподъязыка составляют имена существительные и именные группы, в основном одноэлементные типа и + IU-... И С13% объема выборки), которые наряду с их переводными схемами на русский язык и являются основным предметом данного исследования» При моделировании системы МП на основе базового алгоритма анализа и синтеза многокомпонентных одноэлементных именных групп (МОИГ) типа и +н + ...її мы исходили из того, что любой английский научно-технический и военно-специальный текст носит номинативный характер, а основными единицами номинации в нем вместе с существительными выступают свободные и связанные терминологические субстантивированные словосочетания типа it +w + ...и .В одной из двух 343 , EI97] специальных работ, посвященных проблематике автоматизированного анализа и синтеза английских терминологических субстантированных словосочетаний (именных групп) указывается на то, что в семантической структуре английских препозитивных словосочетаний типа и -ьи„+,,#ы наблюдается определенная регулярность ( 097,433). На основе учета особенностей структурно-се-

мантической и синтаксической компоновки таких образований нам удалось практически реализовать универсальный алгоритм их анализа и синтеза.

Имеется ряд теоретических исследований (напр.: Е341 , [79!1, Г891, UIZ], ГІІ93 , ГІ351, [153]), в которых обосновывается возможность создания универсального алгоритма анализа и синтеза различных именных групп. Однако предлагаемые варианты таких алгоритмов основываются на использовании громоздких и емких с точки зрения памяти ЭВМ семантико-синтаксических процедур, в связи с чем они практически не применяются в действующих отечественных системах Ш.

Предложенный нами алгоритм ориентирован на переработку ИГ типа и\ + llp+#,.N по одной (для каждого вида ИГ этого типа) переводной схеме с частичньтм использованием на этапе переноса исходного текста на машинный носитель информации и его сегментации процедуры пермутации компонентов, конституирующих именную группу.

Задача разработки универсального алгоритма анализа и синтеза МОЙГ (УААС МОИГ) повлекла за собой необходимость осуществления анализа микроподъязыка антеннофидерных устройств для выделения ИГ типа н + К?+«,., N . Из обследованного корпуса в 150000 с/у вьщелено 5138 таких ИГ. Данные их распределения по количеству компонентов приведены в таблице I.

Таблица I Распределение ИГ по числу компонентов

Научная новизна и практическая ценность работы.

До настоящего времени вопросы повышения эффективности систем МП и улучшения качества машинных переводов рассматривались либо как частные при решении глобальных теоретических проблем Ш, либо изолированно для отдельных этапов моделирования систем МП (1ЭТ, Ш21, ГІІ93, И493, П6Ч, П74Л f И933). По имеющимся у нас сведениям, пока нет ни одной специальной работы, посвященной детальному описанию методики поэтапного достижения высокой эффективности лексических систем МП на примере действующих систем- Данная работа призвана в определенной степени восполнить этот пробел.

На сегодняшний день в целом уже наметились основные тенденции дальнейшего совершенствования отечественных систем МП, главными из которых следует считать разработку систем МП для ограниченного МП документов и достижение семантико-синтаксического уровня машинных переводов (ср. 1321 , Г34], Г821, [893, CI353 , Г1493 П55], [1693, [197]) Тем не менее на современном этапе развития Ш актуальными остаются и вопросы повышения эффективности уже созданных действующих систем лексического МП. Здесь основные возможности лежат в области дальнейшей формализации процедур анализа и синтеза именных групп. Об этом свидетельствуют результаты и выводы, содержащиеся в исследованиях и публикациях, в той или иной мере касающихся проблем автоматизации переработки различных типов именных групп, функционирующих в реальных научно-технических текстах (см., напр.: C93t ПП, 141, Г323, 1823, [1143, П583, 11681, II98I).

В данной работе впервые предлагается строить действующую систему МП на базе универсального алгоритма анализа и синтеза многокомпонентных одноэлементных именных групп типа n1 4- ир+..а U * Реализация этого алгоритма становится возможной и эффективной бла~

годаря использованию в системе МП особо организованного машинного словаря АЖОС. Словарь АМКОС, продолжающий традицию машинных словарей МАОС, представляет собой автоматизированный словарь комбинированного типа, в котором такие лексические единицы, как словоформы и словосочетания, располагаются в одном блоке. Впервые в практике отечественного МП в состав словаря введен АС т.н."готовых форм" микроподъязыка (по терминологии 135,161-1623 некалькируе-мых ИГ), который выступает в качестве "внешнего" АС системы МП.

Также впервые в выходной части АМКОС применена система русских графических сокращений, что обеспечивает возможность осуществления автоматизированной переработки текстов без использования грамматических алгоритмов синтеза.

Новым является также и материал исследования, выбор которого был определен практическими нуждами заказчика.

Некоторые исследователи (263, 1793, ГІ293, П973) считают, что действующая система МП может создаваться исключительно на базе особо организованных машинных словарей, которые позволяют свести к минимуму процедуру морфологического, синтаксического и семантического анализа и синтеза. Однако следует отметить, что несмотря на появившуюся с внедрением в повседневную жизнь ЭВМ третьего поколения возможность создавать и реализовывать МС различных типов и назначений, их объем будет всегда обусловливаться конкретными условиями эксплуатации ЭВМ. Практика говорит о том, что лишь в некоторых случаях в распоряжении военного лингвиста-разработчика той или иной СМП будет находиться вся ЭВМ. В условиях есякого рода ограничений на режим ее эксплуатации на первый план выступает фактор максимального учета прагматики потребителя. Это положение не раз высказывалось в лингвистической литературе (см.: 253, 873, 1123,

[1293, 11521, [1533), однако в попытках создать "идеальные" системы МП многие специалисты, увлеченные теоретическими аспектами МП, не уделяют ему должного внимания. В нашей работе предпринимается попытка показать, что максимальный учет прагматики потребителя на всех этапах моделирования системы МП обеспечивает возможность повышения ее эффективности*

Практическая значимость и достоверность результатов исследования заключается в том, что в итоге лингво-статистического и инженерно-информационного обследования микроподъязыка антенно-фи-дерных устройство создана модель текстов данного микроподъязыка, послужившая основой для создания действующей системы Ш, работающей в эксплуатационном режиме в одном из ввузов.

Материалы алфавитно-частотного словаря микроподъязыка и словаря МОИ, а также фрагменты обследованных текстов с реально функционирующими в них переводными схемами ИГ используются в преподавании курса военно-технического перевода в ВКИ. Они могут эффективно применяться для составления тезаурусов по антенно-волновод-ной технике.

Методика исследования определялась задачами работы, ее в основном практической направленностью, конкретностью предмета исследования. На разных этапах использовались различные методы и способы исследования, среди которых основными были метод "личного опыта", опрос информантов-специалистов, функционально-коммуникативный, структурно-организационный и системный анализ предмета исследования, а также методика количественных и качественных оценок, В работе учтены данные обратной связи между разработчиками системы и потребителем.

Основные теоретические положения, выносимые на защиту, эаклю-

чаются в следующем:

  1. Наиболее эффективно лексические системы МП английских научно-технических текстов на русский язык строятся по методике,разработанной Л.Л-Нелюбиным и реализованной в принципах М/ЮС* Система МП создается для обслуживания конкретного подъязыка9 который должен удовлетворять требованиям полноты, конечности и формальной ограниченности, предъявляемым к малым лингвостилистическим подсистемам (микроподъязыкам).

  2. Создание любой системы МП требует максимального учета специфики и прагматики заказчика и потребителя МП, Учет этих факторов позволяет построить систему МП, успешно функционирующую в различных режимах эксплуатации ЭВМ.

  3. Система лексического Ш с английского языка на русских научно-технических текстов может создаваться на базе одного алгоритма и, в частности, на основе универсального алгоритма анализа и синтеза многокомпонентных именных групп типа и + н2 + .,. И .

  4. Эффективная работа универсального алгоритма и всей системы МП обеспечивается использованием в системе машинного словаря, в выходной части которого применена система русских графических сокращений. В условиях ограничений на режим эксплуатации ЭВМ и на объем ее памяти сокращения позволяют многократно уменьшить потребный для решения переводческих задач объем оперативной памяти ЭВМ, отказаться от применения в системе МП грамматических и синтаксических алгоритмов» обеспечивая тем самым экономную эксплуатацию ЭВМ при удовлетворительном качестве машинных переводов.

  5. Основным средством расчлененной номинации в английском научно-техническом тексте выступают свободные и связанные терминологические именные группы типа и + И9 4 . -. N - Качество машин-

ных переводов в значительном мере определяется характером процедур переработки именно этих ИГ. Для повыпения эффективности системы Ш и улучшения качества машинных переводов необходимо использовать АС некалькируемых ИГ этого типа, функционирующих в микроподъязыке.

6. На современном этапе развития МП большая роль в обеспечении эффективности систем МП принадлежит человеку» и в первую очередь редакторам. Долю их участия в функционировании системы МП можно снизить за счет использования процедур перегруппировки элементов исходного текста, и в частности ШИТ, на этапе переноса ИГ на машиночитаемый документ. Для этого на этом этапе следует использовать лингвистов-перфораторщиков.

Структура работы. Композиционно диссертация состоит из введения, двух глав, заключения и приложений.

Во введении обосновывается выбор темы исследования, ее актуальность, практическая значимость, намечаются основные пути решения поставленных задач, описывается материал исследования, раскрывается структура работы, ее практическая направленность.

Первая, теоретическая глава, посвящена главным образом рассмотрению тех способов, которые используются в практике отечественного МП для сокращения всякого рода затрат на разработку систем Ш, обеспечения их высокой эффективности. В ней автор делает попытку осмысления и обобщения накопленного теоретического и практического опыта промышленной эксплуатации систем Щ в нашей стране с целью прогнозирования основных направлений дальнейшего совершенствования лексических систем МП.

Во второй» исследовательской главе, автором осуществлен структурно-компонентный анализ многокомпонентных одноэлементных имен-

ньтх групп микроподъязыка "Ант енно фидерные устройства" с целью выделения некалькируемых ИГ в АС "готовых форм11, теоретически обосновывается и практически подтвервдается целесообразность использования в выходной части машинного словаря системы русских графических сокращений, обеспечивающей повышение эффективности системы МП в условиях ограничений на объем памяти ЭВМ и на машинное время. Значительное место в главе отведено рассмотрению структурных и семантических особенностей некалькируемых ИГ микроподъязыка, роли АС "готовых форм" в снятии лексико-грамматической неоднозначности при конфронтировании двух языков.

В заключении подводятся итоги проделанной работы, обобщаются результаты исследования, намечаются пути дальнейших изысканий по теме.

Приложение содержит частотный словарь (фрагмент) словоформ подъязыка, фрагмент алфавитного словаря "готовых форм" подъязыка, программу работы универсального алгоритма анализа и синтеза МОИГ с результатами, полученными в ходе переработки рабочих текстов микроподъязыка.

Апробация работы. Основные положения диссертации, итоги и результаты проведенных исследований отражены в следующих работах:

  1. Некоторые аспекты лингво-статистического анализа лексических единиц ограниченного подъязыка "Антенные устройства"- В кн.:II военная научно-техническая конференция: Тез.докл. и сообщений. Череповец, 1979, с.26-27.

  1. Автоматический словарь смешанного типа в системе автоматизированных отраслевых словарей МАОС. - В кн.;Материалы семинара "Статистическая оптимизация преподавания языков и инженерная лингвистика". Чимкент, 1980, с.70-72.

  1. Алгоритмы анализа и синтеза многокомпонентных лексических групп, - В кн.:Переработка текста методами инженерной лингвистики: Тез.докл* Шнек, 1982, с.69-70.

  2. Об одном способе повышения эффективности систем МП. - В кн.:Проблемы внутренней динамики речевых норм. Шнек, 1982, с.198-203.

  3. Использование сокращений на этапе синтеза выходного текста. - В кн.:СШТЛД, с. 179-180.

  4. Об одном подходе к проблеме анализа и синтеза двухкомпо-нентных одноэлементных именных групп английского научно-технического текста. - В кн.: Сб. Я 19. М., 1983, с.58-63.

  5. Способы повышения эффективности систем Ш в особом режиме эксплуатации. - В кн.: Международный семинар по машинному переводу. М., 1983, с.90-91.

МС в системе бинарного МП Чимкентского пединститута

Чимкентской группой "Статистика речи" с 1976 года производится промышленный машинный перевод с английского языка на русский американских и английских патентов, а также статей и монографий по химии полимеров Сем.: ГЗЗ, С253, CS61).

Опыт массовой переработки текстов показывает, что ориентация МС на перевод текстов всего подъязыка является слишком общей, так как выделяемые внутри подъязыка классы документов с особой структурой, терминологией, своеобразными устойчивыми сочетаниями требуют более четкой и корректной организации АС. В группе осуществляется идея создания ряда микрословарей, ориентированных на МП текстов узкой тематической и функциональной направленности. Такие словари позволят наиболее полно отразить общесемантическую структуру анализируемых текстов, а также являются эффективным средством снятия лексической неоднозначности.

Все сменные отраслевые словари подключаются к единому АС общеупотребительной лексики, составленному Минским коллективом "Статистика речи", но откорректированному в Чимкентской группе с учетом специфики функционирования и воспроизводимости ЛЕ в реальных текстах.

Основным критерием отбора лексики в АС является системность и частотность, с исключениями для ключевых терминов подъязыка, не обладающих высокой частотностью. Критериями для отбора оборотов являются идиоматичность словосочетаний, частотность, различия в семантико-грамматической структуре терминов-словосочетаний и их переводных эквивалентов. В АС вводятся также такие высокочастотные с/с, для которых возможен пословный перевод.

При подборе переводных эквивалентов используется информация о языке, об общесемантической структуре патентов, позволяющая не вводить в МС отдельные значения многозначных слов, не относящиеся к данной семантической области, и установить не только виртуальные, но и актуальные значения отдельных ЛЕ. Переход от виртуальных значений к актуальным осуществляется также путем опроса квалифицированных специалистов исследуемой области знания. Кроме того, разрабатывается алгоритм тезаурусного подхода к снятию лексической многозначности с учетом контекстного окружения слова, что позволит включить возможные переводы в различные семантические поля.

Базовый МС для промышленного МП создан на основе лингвоста-тистического обследования на ЭВМ английских текстов по химии полимеров объемом 400000 словоупотреблений. Он включает 8120 с/ф и 4115 оборотов, а АС, используемый для перевода статей и монографий, состоит из 10820 с/ф и 5204 оборотов. Базовый МС является открытой системой: он позволяет подключать различные блоки алгоритмов.

Работа системы МП АМПАР организована по этапам: этап первичной обработки текста, этап перевода, этап синтеза. Кроме того,ис 34 пользуется интерредактирование и постредактирование.

В СМП АШАР осуществляется синтактико-семантический анализ входных текстов. Связь слов в синтагмы и синтагм в предложения моделируется с помощью системы синтаксических функций слов и семантических кодов существительных и прилагательных. Такая система образует начальную сеть, внутри которой можно уточнять переводные соответствия с помощью категорий трансляционной грамматики, ориентированной на перевод в данной паре языков. Установление переводных соответствий на уровне лексики происходит с использованием контекстологического словаря для многозначных слов и словаря оборотов для фразеологических единиц (см.: LI083, ГІІ21, [633, C4I1 С641, CI803).

Для разрешения лексико-грамматической омонимии в системе AMQAP используется метод детерминант, являющийся частным случаем модели перевода по соответствиям. Разграничение переходных и непереходных глаголов осуществляется в основном на синтаксическом уровне с использованием элементов семантики в виде проверок на конкретные элементы предложения, причем нерегулярные формы задаются списком. Результативность данного способа составляет 95$. На этапе синтеза используются: - русский словарь, имеющий структуру многоосновного словаря; - таблицы словоизменительных классов русских слов. Словоизменительные классы, выделяемые внутри каждой части речи, организованы в таблицы, где для каждой грамматической категории отводится поле в два байта, куда записывается информация об основе и окончании, необходимых для образования данной категории;

АС системы ЛИШОРАН

Для системы досинтаксического анализа текстов ЛИНФОРАН в ВЦП РКНТ СССР разрабатывается словарь оборотов (см.: ПОИ, EI023).

В системах автоматической обработки текстов (АОТ) выделение оборотов происходит, как правило, уже после сравнения текста со словарем. Сведения об обороте обычно содержатся в словарной статье его ключевого слова. Руководствуясь этими сведениями, алгоритм анализа проверяет правый и/или левый контекст ключевого слова на наличие тех или иных слов в той или иной форме. Выделенный таким образом оборот получает статус самостоятельного члена предложения, а составляющие его слова по отдельности в дальнейшем уже не рассматриваются.

Что касается оборотов с изменяемыми компонентами, то такой подход является весьма эффективным. Однако есть класс словосочетаний, выделение которых допускает более экономное решение. Предлагаемый АС предполагается использовать для переработки словосочетаний с неизменяемыми компонентами.

Словарь оборотов служит для хранения ЛЕ,состоящих из нескольких слов, разделенных пробелами. Составные части этих ЛЕ неизменяемые. Каждый оборот отсылается к соответствующей словарной статье. Все содержащиеся в словаре обороты разбиты на группы с совпадающей первой буквой. Внутри каждой группы они располагаются в порядке занесения в словарь. Адрес каждой группы хранится в шапке словаря.

Обращение к словарю оборотов должно происходить всякий раз, когда начинается обработка очередного элемента текста в ходе гра-фематического анализа. По первой букве анализируемого элемента определяется адрес соответствующей группы оборотов, и все они поочередно сравниваются с последовательностью символов текста,начинающейся с этой буквы. Вьщелив оборот, система продолжает анализ текста и символа, стоящего непосредственно вслед за оборотом,

АС с нежесткими связями (г.Шнек) Существующие АС для машинного перевода имеют два серьезных недостатка: 1. Они являются"складом" соответствующих ЛЕ 2. Они имеют жесткие связи между образующими их единицами U703, Г72Л.

Многочисленные исследования психологов, физиологов, психолингвистов показали, что память человека не является ттростым "складом" информации. Вся входящая информация по определенным законам "увязывается" с тем, что уже есть в памяти человека. Необходима разработка механизма такой увязки.

В то же время происходящая в последнее время переоценка роли вероятностно-статистических методов в общей теории познания показывает, что вероятностные зависимости не вызваны неполнотой наших знаний о предметах и явлениях природы. Эти зависимости носят объективный характер. Любая развивающаяся и совершенствующаяся система содержит как связи случайные, так и детерминированные В применении к языку это проявляется в вероятностной теории значения линг-вистичееких единиц, нежесткости связей между отдельными единицами лексической системы человека.

Объединить все эти факты можно, используя словарь с нежесткими связями между образующими его единицами Основой такого еловаря является набор семантических дифференциальных признаков для каждого класса слов. Для конкретной области знания эти признаки имеют определенную вероятность их употребления. Каждая единица словаря представляется с определенной комбинацией семантических признаков. Тогда по одному такому признаку единицы будут объединены» например» в класс "существительные", по другому - в класс "одушевленные", по третьему - в класс "люди" и т.п. Так получается модель того факта, что каждое слово языка может входить в несколько лексико-семантических групп. Вероятности таких признаков помогут сделать из "словаря-склада" "словарь-механизм". Этот механизм даст возможность ввести в процедуру выбора переводного значения строгие критерии отбора при запоминании в выборе информации.

Алгоритм семантико-синтаксической переработки предложения в системе немецко-русского

Разрабатываемая система С Е6П , ГБ23 , C63J ) семантико-синтак-сического анализа немецкого предложения базируется на исчислении семантического пространства (СП) на основе АС словоформ, а также на грамматической и лексико-семантической интерпретации синтагматических отношений с/ф внутри немецкого предложения, а именно, синтаксических, семантических, фразеологических и терминологических взаимосвязей с/ф.

Грамматическая информация с/ф, которая однозначно реализуется лишь на семантико-синтаксическом уровне анализа, перерабатывается с помощью автоматического синтаксического словаря - списка сегментов, формализованных по функции грамматического согласования с/ф. По этому словарю осуществляется сегментация предложения. Межсегментный анализ выполняется интерфейсом, представляющим собой систему сопряжения семантико-синтаксической информации классов немецких слов, выделяемых в результате учета их валентности посредством специальных кодов, с соответствующей семантико-синтак-сической информацией их русских эквивалентов. На основе интерфейсного сопряжения семантико-синтаксической информации производится снятие лексической многозначности артиклей, предлогов, местоимений и местоименных наречий.

Благодаря введению лексических кодов, каждый из которых является представителем всей парадигмы с/ф одной лексемы, обеспечивается формализация фразеологии и терминологических словосочетаний в сжатом цифровом виде, а также более простая запись алгоритмов устренения лексической многозначности.

Алгоритм поиска синтаксических связей (г.Москва) В соответствии с теорией статистической организации текста, каждая языковая единица встречается в тексте с определенной частотой По данным ЧС сочетаемости английского языка (см.: і 112 ], Г 167 3) создаваемого в ЩИ на корпусе текстов объемом 10 млн. словоупотреблений, английскому глаголу свойственны 195 различных моделей связи. Из них от 5 до 10 наиболее частотных моделей составляют в тексте не менее Ь5%, встречающихся с высокой частотой у всех глаголов и составляющих не менее 60% связей любого глагола. Кроме того, для каждой синтаксической конструкции можно определить статистические закономерности ее расположения в линейной цепи.

Такие данные позволяют создать оптимальный алгоритм поиска синтаксических связей глагола в предложении. Алгоритм строится по принципу предсказаний. В определенных точках предложения выдвигаются предположения относительно возможного результата анализа в за 60 висимости от текстовой ситуации по убыванию частот вероятных для кавдой данной ситуации событий. Классификация глаголов по лексико -семантическим свойствам дает возможность использовать на разных этапах алгоритма синтаксического анализа три вида информации: а) типовые глагольные характеристики, свойственные всем членам класса; б) характеристики лексико-семантических групп глаголов; в) характеристики отдельных глаголов.

При совпадении предположений, сделанных в точках анализа,выделяется цепочка связанных с глаголом элементов. Дальнейший анализ предложения заключается в установлении связей элементов глагольной цепочки с остальными элементами предложения,

Алгоритм семантико-синтаксического МП Сг.Минск) Данный алгоритм (см. СІП, С35]) устранения многозначности использует концепцию тезаурусного распознавания смысла текста и представляет собой систему формальных правил, приводящую к актуализации виртуальных значений ЛЕ. Этап распознавания включает:

- моделирование лексических значений слов в терминах семантических признаков и построение семантического пространства для каждого указанного класса слов; эти тезаурусы используются затем для получения семантических кодов;

- описание реляционных моделей и выделение типов интеркомпонентных отношений (ТИСО) Сер. 1341) в анализируемых структурах;

- построение типовых эталонных матриц, в которых каждая матричная строка имеет вид бинарнойs тетрарной или иной комбинации семантических признаков.

Двухкомпонентные одноэлементные именные группы микроподъязыка "Антенно-фидерные устройства"...

Особенности переработки ИГ с " ing "-формами Следующей по численности категорией двухкомпонентных ИГ, которая вызывает трудности при машинной переработке, является группа ИГ, первый компонент которых представляет собой "ing "-форму. Всего выделена 31 (0,64 от общего числа) такая группа. Пример: balancing device (1) - симметрирующее устройство compensating element (1) - компенсирующий элемент reflecting layer (2) - отражающий слой Исходные ИГ этого типа имеют переводную модель i + Ng. Однако и их переработка может осуществляться по схеме N2+N,. (IT,-- отглагольное существительное). Мы считаем, что практическим потребностям потребителя будут отвечать и такие конфронты: balancing device - устройств. СИММетр. compensating element - 9ЛЄМЄНТ. КОМПЄНСИр. reflecting layer - слой, отражен. В МС " івд"-форш относятся к грамматическому классу її При анализе ИГ этой группы мы ставили задачу выявления тех из них, которые не могут быть переработаны приложением УААС МОИГ.

В данной категории ИГ исключением являются ИГ "receiving use" из-за нетерминологичности второго компонента. При ее переводе используется модель и2 + Pr +и1 : "использование для приема". Эта ИГ относится к разряду "готовых форм". Вторым исключением является ИГ "lightning protection" , также обрабатываемая по модели II2 + Pr + H.J , В КОТОрОЙ " lightning" ЯВЛЯеТСЯ N Спврв вод "защита от грозовых разрядов").

Особую категорию составляют двухкомпонентные ИГ с переводной схемой и2 + Pr + ЕГ1(37 ИГ). Все ИГ этой категории относятся к разряду "готовых форм" и включаются в АС "готовых форм".

Пример: antenna assembly (3) - антенна в сборе broadside arrangement (1) - установка К широкой СТОроне reflector spacing (2) - расстояние между рефлекторами В этой группе ИГ отмечается наименьшее по сравнению с другими категориями ИГ количество терминологических ИГ, относящихся к базовому подъязыку. В большинстве случаев второй компонент этих ИГ является терминологическим субститутом (по терминологии !9!). Здесь отмечено широкое представительство таких субститутов с обобщающим значением, как "use, assembly, arrangement, dimension, provision" и др. Данные терминосубституты представляют значительную трудность при определении для них однозначного переводного соответствия, так как они обладают весьма широким, обобщающим диапазоном значений. Эти трудности усугубляются тем, что эти слова могут служить для замещения в тексте самых различных многокомпонентных терминологических ИГ.

Вышеуказанные факторы говорят о том, что для корректного перевода ИГ этой группы подлежат включению в АС "готовых форм". Еще одной категорией ИГ, отнесенных нами к "готовым формам", является группа ИГ, требующая описательного перевода. Примерами таких ИГ являются следующие: bazookabalun (2) - симметрирующее устройство в виде трубы billboard antenna (2) - синфазная многовибраторная антенна с плоским вибратором phaseshifter technique {1) - метод, при котором используется фазовращатель

Структурно-компонентный анализ ИГ этой группы свидетельствует о весьма незначительном представительстве в ней терминологических ИГ базового подъязыка (из 28 ИГ лишь 5 можно с полным основанием отнести к базовым). Как следствие, ИГ данной категории характеризуются минимальной накопленной частотой (за исключением ИГ " bazooka balun " И "billboard antenna " С f = 2, остальные имеют f = I).

Трансформационный анализ ИГ этого типа говорит о весьма широком диапазоне их внутрикомпонентных смысловых связей, что значительно осложняет возможность передачи этих смысловых связей формальными способами. Мы считаем, что данные ЙГ должны либо включаться в АС "готовых форм 1, либо анализироваться предредактором, либо переводиться в ходе интерредактирования. В пользу их включения в АС "готовых форм" говорит также их немногочисленность.

Похожие диссертации на Анализ и синтез многокомпонентных одноэлементных именных групп в действующей системе лексического машинного перевода и повышение её эффективности (на материале английского микроподъязыка антенно-фидерных устройств)