Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Моделирование на таджикском языке английского простого нераспространенного предложения Зарипов Сайдахмад Асрорович

Моделирование на таджикском языке английского простого нераспространенного предложения
<
Моделирование на таджикском языке английского простого нераспространенного предложения Моделирование на таджикском языке английского простого нераспространенного предложения Моделирование на таджикском языке английского простого нераспространенного предложения Моделирование на таджикском языке английского простого нераспространенного предложения Моделирование на таджикском языке английского простого нераспространенного предложения Моделирование на таджикском языке английского простого нераспространенного предложения Моделирование на таджикском языке английского простого нераспространенного предложения Моделирование на таджикском языке английского простого нераспространенного предложения Моделирование на таджикском языке английского простого нераспространенного предложения Моделирование на таджикском языке английского простого нераспространенного предложения Моделирование на таджикском языке английского простого нераспространенного предложения Моделирование на таджикском языке английского простого нераспространенного предложения
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Зарипов Сайдахмад Асрорович. Моделирование на таджикском языке английского простого нераспространенного предложения : Дис. ... канд. физ.-мат. наук : 05.13.18 : Душанбе, 2003 89 c. РГБ ОД, 61:04-1/43-5

Содержание к диссертации

Введение

Глава 1. Особенности английского и таджикского простого нераспространенного предложения 16

1. Простое нераспространенное предложение 17

2. Определение, выражение и признаки подлежащего 18

3. Определение, выражение и признаки сказуемого 20

4. Согласование сказуемого по признакам подлежащего 22

5. Расположение членов в простом нераспространенном предложении 23

6. Концептуальная модель простого нераспространенного предложения .24

Глава 2. Построение формализованных моделей английского и таджикского простого нераспространенного предложения 27

1. Формализованный образ английского простого нераспространенного предложения 31

2. Формализованная анализирующая грамматика английского простого нераспространенного предложения 32

3. Формализованный образ таджикского простого нераспространенного предложения 34

4. Формализованная синтезирующая грамматика таджикского простого нераспространенного предложения 36

5. Исследование множеств V, D и грамматики G 40

6 Синтез таджикского простого нераспространенного предложения 43

Глава 3. Грамматика отображения формализованных образов английского и таджикского простого нераспространенного предложения 45

1. Отображение подлежащего 46

2. Отображение сказуемого 47

3. Отображение типа предложения 49

4. Отображение формализованных образов простого нераспространенного предложения 50

Глава 4. Программное обеспечение задачи автоматического перевода простого нераспространенного предложения 57

1. Алгоритм анализа английского простого нераспространенного предложения 59

2. Алгоритм перевода формализованного образа английского простого нераспространенного предложения 63

3. Алгоритм синтеза временных форм таджикского глагола 67

4. Алгоритм синтеза таджикского простого нераспространенного предложения 74

5. Англо-таджикский словарь основ 75

Заключение 77

Приложения 78

Список литературы 85

Введение к работе

Настоящая диссертационная работа посвящена проблеме автоматического перевода простого нераспространенного предложения (далее по тексту -ПІІЇТ) с английского языка на таджикский язык. Данная проблема является составной частью общей задачи автоматизации перевода (далее - АП) на таджикский язык.

Актуальность темы. Современный уровень межгосударственных и межнациональных экономических и научно-технических связей требует обеспечения высокого качества информационного обмена. В такой ситуации на первый план выдвигается скорость и качество перевода информации. Проблема частично решается увеличением количества квалифицированных переводчиков, рост которого заметно отстает от роста потребности в переводе информации. В этой связи в качестве единственного пути решения проблемы признано введение в переводческий процесс новых информационных технологий, базирующихся на компьютерных средствах обработки и передачи информации, что и стало предпосылкой для появления в 70-80 годах XX века нового научного направления, получившего название автоматический перевод. Данное направление занимается созданием систем автоматического перевода текста без вмешательства человека, не исключая при этом:

предварительную подготовку переводимого текста;

редактирование переведенного текста.

На протяжении многолетней истории развития данного направления выполнено огромное количество работ, касающихся различных аспектов проблемы АП. С точки зрения реализации АП в качестве предметной области таджикский язык выбран впервые. Этим и объясняется теоретическая и практическая значимость работ в этой области.

Актуальность темы диссертационной работы обусловлена обретением Республикой Таджикистан независимости и возникшей в связи с этим

необходимостью перевода с английского языка на таджикский язык большого объема информации.

Диссертационная работа выполнена в рамках плана научно-исследовательских работ Технологического Университета Таджикистана и Решений Правительства РТ по дальнейшему развитию таджикского языка как государственного.

Целью диссертационной работы является создание системы АП на таджикский язык английского ПНП.

Методы исследования. При разработке системы АП использованы методы создания формальных грамматик, отображения конечных множеств, алгоритмирования, программирования и проектирования СУБД.

Обзор существующих автоматических систем перевода. Теоретические основы разработки систем АП были заложены ещё в 60-х годах XX в работах Н. Хомского [32-34], А. В. Гладкого и И. А. Мельчука [5-6].

Исследования 70 - х и начала 80-х годов Ю. Н. Марчука [26], Ю. Д. Апресяна, И. М. Богуславского, Л. Л. Иомдина [2-3], [41], [47] по созданию формальных грамматик и алгоритмов АП с одного естественного языка на другой стимулировали создание машинных систем АП. Трудности в практической реализации таких систем обуславливались возможностями электронных вычислительных машин (ЭВМ), их недостаточным быстродействием и памятью. Тем не менее, с расчетом на перспективу были обозначены концептуальные направления в создании мощных и совершенных систем АП [6], [26], [34], [42].

Одно из направлений связывало успешное достижение практических результатов АП с усилением аналитической базы вновь создаваемых и уже действующих систем АП, и, тем самым, преодолением недостатков ЭВМ по быстродействию и объему памяти [5], [32].

Другое направление отдавало предпочтение созданию универсального программного обеспечения и совершенствованию компьютерных технологий,

обеспечивающих достаточные быстродействие и объем памяти для создания больших баз данных - автоматических словарей [39], [41], [44], [47].

Оба направления по созданию систем АП не могли полностью гарантировать качественный перевод, и, как следствие, не исключали процедуру пред- и постредактирования [38], [43], [46].

В 80-х годах XX столетия по всему миру были созданы промышленные системы АП. К зарубежным аналогам таких систем относятся ЭУРОТРА ("Eurotra", [39]), ВАЙДНЕР ("Weidner", [40]), МЕТЕО ("Meteo", [36]), СИСТР АН ("Systran", [38], [43], [46]) и др. По мнению специалистов, эксплуатирующих эти системы АП, они допускали следующие основные группы ошибок:

1. Морфологические (неправильный перевод артикля, частей речи, орфо
графические ошибки и т. п.).

  1. Семантические (пословный перевод идиоматических оборотов и устойчивых словосочетаний, неправильный перевод многозначного слова, неоднозначная интерпретация ядра и сателлитов сложного словосочетания).

  2. Словарные (невосполнимость необходимых для перевода слов непосредственно пользователем).

  3. Синтаксические (трудности, связанные с выделением и трансформацией для последующего перевода групп членов предложения).

И, как следствие предыдущих недостатков, необходимость постредактирования полученного перевода.

В основу разработки советских промышленных систем АП - англорусского (АМПАР [25], ЭТАП-2, [3]), немецко-русского (НЕРПА-2, [27]), французско-русского (ФРАП-2, [24], ЭТАП-1, [2]) положен принцип переводных соответствий, разработанный Ю. Н. Марчуком [26], в основу которого положено моделирование мыслительных операций человека в переводческом процессе. Согласно данного принципа переводчик переводит, сопологая текст с текстом, при этом осуществляется:

  1. разбор предложения путем рассмотрения слова с точки зрения грамматической семантики;

  2. структура предложения членится в терминах членов предложения;

  3. анализ и синтез происходит по некоторым отдельным осмысленным кускам;

  4. при анализе и синтезе происходит постоянная проверка на осмысленность, в ходе которой анализируемая синтагма сравнивается с предыдущей и последующими;

  5. каждая отдельно взятая переводческая задача допускает в большинстве случаев решение в виде последовательности достаточно формализованных шагов.

Ограничимся краткой характеристикой работы [3], посвященной системе электротехнического англо-русского перевода (ЭТАП-2). Система ЭТАП-2, по сравнению с аналогичными системами, имел целый ряд отличительных свойств лингвистического плана, в частности, в ней достигнуты:

  1. полная независимость описания входного и выходного языков;

  2. декларативность задания лингвистической информации, т.е. его полная независимость от алгоритма, имеющая по мнению авторов два основных достоинства:

- во первых, обеспечение доступности той лингвистической модели,
которая лежит в основе системы АП;

- во вторых, возможность легкой корректировки данной лингвистической
модели в ходе машинных экспериментов.

  1. стандартизованность форматов описания рабочих языков - входного английского и выходного русского.

  2. не ориентированность лингвистического обеспечения на конкретную предметную область, т. е. морфология и синтаксис рабочих языков рассчитаны на переработку самых различных научно-технических текстов.

  3. более высокие уровень, качество и скорость перевода.

6) новая архитектура лингвистического обеспечения: разделение правил на общие, частные и словарные и др.

Современный уровень развития информационных технологий, связанный с производством гиперкомпьютеров и созданием всемирной информационной системы ИНТЕРНЕТ, во главу угла ставит создание ИНТЕРНЕТ-совместимых систем АП, обеспечивающих "мгновенный" многосторонний перевод текста, в частности ИНТЕРНЕТ-сайтов на PC. На этом основаны принципы создания современных систем АП, примером которых может стать система ЭТАП - 3 [41]. Система АП ЭТАП-3 обеспечивает независимый двухсторонний (англорусский и русско-английский) перевод текста на базе обширных русского и английского комбинаторных словарей. Встроенные в систему АП ЭТАП-3 лексические функции используются в нескольких конкретных моментах алгоритма АП:

построение синтаксической структуры на базе определенных параметров;

перевод структуры в соответствующую словарную зону;

- восстановление пропущенных предлогов и глаголов.
Исследования по созданию систем АП с таджикского языка и на

таджикский язык были начаты в 90-х года XX века с формулировки концепции автоматизированного распознавания словоформ таджикского языка [29] и разработки на её основе методики автоматизированного распознавания элементов таджикского словаря, порождающих заданные словоформы [30].

В работе [29] решается задача распознавания произвольной словоформы таджикского языка, извлеченной из текста, т. е. определение всех морфем (корня, префиксов, суффиксов и окончаний), порождающих данную словоформу и отнесение порождающего корня и самой словоформы к соответствующим частям. Подчеркивается разрешимость данной задачи через тесное взаимодействие создаваемых элементов общей схемы процесса распознавания, таких как специализированный компьютерный словарь,

поисковая и диагностирующая системы, формальные грамматики распознавания произвольной словоформы.

В [30] реализован первый этап сформулированной в [29] концепции автоматизации морфологического анализа словоформ таджикского языка. В ней конкретно речь идет о построении эффективного алгоритма нахождения таких элементов компьютерного таджикского словаря, один из которых с большой вероятностью может оказаться порождающей основой исследуемой словоформы. В основу предлагаемого метода заложено фундаментальное утверждение: любая извлеченная из текста таджикская словоформа, либо содержится в словаре, либо образуется из соответствующего элемента словаря с помощью префиксов и постфиксов. В последнем случае этот элемент является основой словоформы и в качестве фрагмента целиком содержится в ней.

Дальнейшие исследования были посвящены основам автоматизированного морфологического анализа и синтеза слов таджикского языка [12-13] и задаче автоматизированного морфологического анализа и синтеза слов таджикского языка, образованных их отдельных частей речи [8-10], [13-17]. С точки зрения практической реализации АЛ наибольший интерес представляет работа [14], в которой разработана модель автоматического перевода с таджикского языка на английский язык словоформ, образованных от имен числительных.

В [12] предложены модели морфологического анализа словоформ таджикского языка, образованных из основ частей речи с учетом специфичных таджикскому языку многоуровневой аффиксации и наличия нормализованных и ненормализованных форм при словообразовании.

В [13] представлены математические модели морфологического анализа и синтеза слов таджикского языка, их компьютерная реализация осуществлена в [8-11] и [15-17].

Созданная система АП на таджикский язык английского ПНП по сравнению с описанными выше системами АП имеет следующие особенности:

  1. Система АП ПНП реализована с учетом преимуществ и недостатков существующих аналогичных систем;

  2. Система АП ПНП допускает привлечение человека только в качестве пред- и постредактора, исключая широко применяемый элемент интерредактирования, что обеспечивает достаточно автономный и ускоренный перевод.

  3. В системе АП ПНП в качестве подлежащего рассматриваются личные местоимения. Это обеспечивает реализацию общей концепции перевода при компактной базе данных.

  4. Система ПНП соответствует способности английского и таджикского ПНП нести полноту смысловой нагрузки, выраженной соответствующими субъектно-предикативными отношениями.

  5. Алгоритм перевода разделен на независимые блоки анализа и синтеза, функционирующие последовательно в процессе просмотра фразы слева направо.

Научная новизна и результаты. В работе, с учетом особенностей АП на таджикский язык, впервые предложены:

формализованное представление английского ПНП;

формализованное представление таджикского ПНП;

математическая модель отображения английского ПНП на таджикское ПНП;

- система автоматического перевода ПНП с английского языка на
таджикский язык на базе PC.

Все полученные в диссертационной работе результаты новые.

Практическая направленность диссертационной работы заключается в том, что её конечный продукт - программный комплекс - осуществляет автоматический перевод английского ПНП на таджикский язык. Этот комплекс, в применении к самому общему английскому предложению (при условии автоматического вычленения в нём главных членов), позволяет извлечь, по крайней мере, его примитивный смысл.

Теоретическая ценность работы состоит в том, что для таджикского языка построены элементы формальной грамматики, которая выступает в качестве теоретической основы для решения проблемы компьютерного перевода на таджикский язык текстов, представленных на любом естественном языке. И наоборот.

Публикации. Основные результаты работы отражены в пяти работах автора - [8-11], [31]. В совместной работе [31] постановка задачи осуществлена научными руководителями, разработка и компьютерная реализация выполнена диссертантом.

Структура работы. Диссертационная работа состоит из введения, четырех глав, приложений и списка литературы. В свою очередь, каждая глава разделена на введение и параграфы. Параграфы нумеруются в пределах отдельной главы. В диссертации используется сквозная нумерация основных формул.

Как уже отмечалось выше, объектом обработки предлагаемой системы АП ПНП является английское ПНП, а результатом её работы является таджикское ПИП. В начале дадим общее, в силу некоторых сходств в грамматических структурах исходного языка и языка перевода, определение понятия ПНП, а затем изложим постановку задачи АП ПНП и обоснование подходов к его решению.

Простым нераспространенным предложением как в английском, так и в таджикском языках будем называть предложение, состоящее только из двух членов - подлежащего (subject = мубтадо) и сказуемого (predicate = хабар).

Основная задача, решаемая в диссертации, заключается в компьютерной реализации АП - отображения английского ПНП в таджикское ПНП.

Процесс АП на таджикский язык английского ПНП опирается на использование англо-таджикского словаря, анализирующих и синтезирующих грамматик английского и таджикского языков и осуществляется по принципиальной схеме АП ПНП, изображенной на Рис. 1.1.

Ввод

1. Английское ПНП

2. Анализирующая грамматика

3. Формализованное английское ПНП

4. Отображение грамматик

5. Формализованное таджикское ПНП

6. Синтезирующая грамматика

Рис. 1.1.

Поступившее на вход компьютера английское ПНП {блок 1) подвергается в блоке 2 анализу на предмет распознавания подлежащего и сказуемого ( последнее, вообще говоря, может быть представлено в виде совокупности слов) и последующему присвоению членам предложения соответствующих грамматических признаков. Это позволяет в блоке 3 построить формализованный образ английского ПНП.

В блоке 4 на основании отображения грамматик словообразования в английском и таджикском языках, по существу, решается задача об определении грамматических признаков членов таджикского предложения по заданным признакам соответствующих членов английского предложения.

По получаемому в блоке 5 формализованному таджикскому образу английского ПНП в блоке 6 посредством обращения к англо-таджикскому словарю и использования правил синтаксиса таджикского ПНП воссоздается соответствующее таджикское ПНП.

В Главе 1 детализируется содержание блоков 1 и 7 принципиальной схемы АП ПНП с точки зрения особенностей английского и таджикского ПНП, как теоретической основы для осуществления одностороннего формализованного перевода с английского на таджикский язык.

Предлагается общая, как для английского, так и для таджикского языка, концептуальная модель ПНП, унифицирующая дальнейшее описание подходов к реализации принципиальной схемы АП ПНП. Это, в частности, упрощает

изложение концепции и формальное представление основополагающих утверждений лингвистического характера, а также формальное обозначение входных, промежуточных и конечных данных в системе АП ПНП.

С учетом изложенной унификации требований, предъявляемых к подобным математическим моделям, английское и таджикское ПНП приобретают общее формальное обозначение как многокомпонентный вектор, несущий информацию о типе предложения, об основах подлежащего и сказуемого, а также о признаках членов предложения ( число, лицо, залог и время), отражающих состояние подлежащего и сказуемого. Следует отметить, что введенный параметр - признак типа предложения обуславливает представление языком математической лингвистики конкретного порядка следования членов ПНП.

Таким образом, в Главе 1 для ПНП получена следующая концептуальная модель:

ПНП := {(основа подлежащего, признаки подлежащего);

(основа сказуемого, признаки сказуемого);

тип предложения}.

Определение, выражение и признаки подлежащего

В ПНП подлежащее состоит из одного слова и может быть выражено именными частями речи (существительное, прилагательное, числительное), личными местоимениями и другими. В роли подлежащего в предложении в обоих языках выступают именная часть речи (существительное, прилагательное, числительное), местоимение и наречие. Подлежащее имеет две основные значимые грамматические характеристики - число и лицо, непосредственно переходящие к сказуемому, особенно в таджикском языке. Таким образом, в таджикском языке число и лицо можно определить в отдельно взятом сказуемом - глаголе независимо от подлежащего. В рамках решаемой задачи АП ПНП ограничимся списком основных английских и таджикских личных местоимений, включенных в базу данных системы АП ПНП: Как главный член предложения, подлежащее имеет два основных грамматических признака: 1. Число ( number = шумора), принимающее значения: единственное (singular = танхо) или множественное (plural = чамъ); 2. Лицо (person = шахе), принимающее значения: 1-е, 2-е или 3-е. Кроме того, для грамматической структуры английского и таджикского ПНП применяется согласование сказуемого с продлежащим по признакам последнего, что подтверждает доминирующее место подлежащего в ПНП. Правда, согласование сказуемого по признакам подлежащего в таджикском ПИП обязательно для всех его типов, а для английского ПНП оно применяется не всегда и не в полной мере.

Подлежащее, как один из главных членов английского и таджикского ПНП, может быть выражено в следующей концептуальной форме: Приведем примеры идентификации английских и таджикских подлежащих-местоимений согласно такому представлению: 1 = 1 (singular number, 1-person), They = I (plural number, 3-person), Ман=Ман (шумораи танхо, шахеи 1), Шумо = Ман (шумораи чамъ, шахеи 2) Основа подлежащего содержится в словаре основ. Что касается признаков, которые описывают конкретное состояние подлежащего в ПНП, то, как известно, они характеризуются лицом и числом. При переводе основа английского подлежащего отображается в основу таджикского подлежащего, а грамматические признаки первого объекта - на соответствующие грамматические признаки второго объекта. Сказуемым называется слово или сочетание слов, раскрывающее действие, состояние или признак предмета, о котором говорится в предложении [4], [19], [35]. В отличие от подлежащего, сказуемое в ПНП может состоять из нескольких слов, одно из которых - основа глагола, а остальные -вспомогательные слова и глаголы, характеризующие состояние основного глагола в предложении [22]. Состояние сказуемого выражается такими признаками, как залог, время, аспект и др. [21]. Залог определяет действие самого подлежащего (действительный залог) или действие, направленное на подлежащее (страдательный залог). Аспект английского глагола предопределяется типом ПНП и предполагает присоединение к основе глагола слова "not" (для аспекта отрицания) для отрицательного типа ПНП, или же отсутствие такого слова (для аспекта утверждения) в утвердительном ПНП. Вопросительному английскому ПНП соответствует "вопросительный" аспект глагола, изменяющий порядок расположения составляющих его конструкции. Для таджикского сказуемого отрицательный аспект определяется присоединением к основному или вспомогательному глаголу префикса "на- " , а для утвердительного аспекта - отсутствие данного префикса. Вопросительный аспект таджикского глагола ничего в её конструкции не изменяет. Этот аспект глагола выражается лишь интонационно, а грамматически - знаком "?" в конце ПНП. Структура сказуемого в английском и таджикском предложениях с помощью графов изображена соответственно на Рис. 1.3 и 1.4. Вспомогательные глаголы подразделяются на следующие группы [4], [20]: 1) модальные глаголы: can, may, must, тавонист, тавон и т.п.; 2) глаголы, определяющие завершенность, вероятность, залог: have, should, be being, шуд, шав и др.; 3) глаголы, определяющие временные конструкции: shall, will, have been, хох, и др. Именная часть глагола присутствует при определенных глаголах. Например: to have a dinner - обедать, кор кард - (от) работал.

Формализованная анализирующая грамматика английского простого нераспространенного предложения

В предыдущем параграфе осуществлено описание формализованного образа английского ПНП. Формализованный образ (7) подвергается анализу посредством формализованной анализирующей грамматики (5), структура и примеры работы которой будут приведены в настоящем параграфе. Грамматикой анализа английского ПНП называется формальная грамматика (5), где: С- множество элементов базы данных (множество элементов английского ПНП); В- множество морфологических характеристик, {рь ..., ps} ; R - множество правил анализа английского ПНП где: B={n, p, as, vc, t }-грамматические характеристики английского ПНП; n - число (number) английского местоимения, n={singular, plural}; р - лицо (person) английского местоимения, р={ 1р, 2р, Зр}; as - аспект (voice) английского глагола as = {affirmative, negative}; vc - залог (voice) английского глагола vc = {active, passive}; t - время (tense) английского глагола; Yj - множество применимости правил Rj. Например: Уо - общее условие применимости правил анализа, предполагающее просмотр английского ПНП поэлементно слева направо; У2 - одно из условий применимости второго правила, предусматривающее наличие знака "?" в конце предложения. А следующие примеры приведены соответствуют работе анализирующей граматики (5) для варианта английского вопросительного ПНП.

Согласно приведенной во введении настоящей дисертационной работы принципиальной схемы задачи АП ПНП, результаты работы формализованной анализирующей грамматики (5), выражаемые в виде формулы (7), передаются оператору — отображению Р для отображения формализованного образа английского ПНП в формализованный образ таджикского ПНП, а затем, для дальнейшей обработки, в синтезирующую грамматику (6). Оператор-отображение Р будет описан в Главе 3. В последующих параграфах настоящей главы опишем формализованный образ таджикского ПНП и формализованную синтезирующую грамматику таджикского ПНП. Требования, предъявляемые к формализованному образу и к формализованной синтезирующей грамматике таджикского ПНП аналогичны с приведенными в первом параграфе настоящей главы требованиями относительно формализованного образа и формализованной синтезирующей грамматики английского ПНП. Перейдем к непосредственному описанию математической модели формализованного образа таджикского ПНП. Для таджикского ПНП предложена следующая математическая модель: Формализованная синтезирующая грамматика таджикского ГТНП (6) осуществляет синтез таджикского ПНП, формализованный образ которого, выражен формулой (9). Отметим, что при этом, ввиду использования метода аналогии, т.е. поиска основы с соответствующими параметрами (основы, числа и лица), связанного с конечным количеством английских и таджикских местоимений, синтез подлежащего осуществляется относительно проще, нежели синтез сказуемого. В связи с этим, считаем наиболее важным дать описание осуществляемого грамматикой (6) синтеза видо-временной формы таджикского глагола. Приведем некоторые базовые термины для применения формализованной граматики (6) в части синтеза видо - временной формы сказуемого в таджикском ПНП [9], [10]. Дериватом однокоренного слова (основы глагола) Vo , образованного путем конкатенации со словообразующими морфемами m(ct,), называется грамматическая форма V, имеющая вид

Отображение формализованных образов простого нераспространенного предложения

Анализ подлежащего - местоимения Рп предполагает поиск словарной статьи, начинающейся данным словом с идентичными основными характеристиками (число, лицо). В нашем примере данный этап дает г следующий результат I (s, Зр), где s - singular number (единственное число), Зр -3 person (3-е лицо). 3) Анализ структуры и вида предложения начинается с идентификации его типа. Тип предложения определяется специальным символом в конце предложения (".", "?", "!") . Каждому типу предложения присваивается соответствующий ему код. В нашем примере, наличие символа "." соответствует affirmative sentence (утвердительному предложению). 4) Анализ и перевод сказуемого происходит по стандартным формам (шаблонам) временных форм английского глагола. Например, идентификация формы will not have been turning on дает 4 категории информации для перевода: временную форму английского глагола will not have been E-ing (Future Perfect Continuous), идентичную временной форме таджикского глагола Ояндаи таркиби - будущее составное время, основу глагола turning on, отрицательный аспект глагола, и максимальную длину временной формы английского глагола, равную 6 словам. Варианты переводов временных конструкций английского на соответствующие временные конструкции таджикского глагола приведены в Таблице 3.1). 5) Тип предложения состоит из трех составляющих - affirmative (утвердительный), negative (отрицательный) и interrogative (вопросительный). Отрицательный (утвердительный) тип устанавливается определением наличия (отсутствия) в стандартной форме глагола вспомогательного слова not и его аналогов (not, nor, nobody, nothing, never, nowhere, nowise, nomore, n t) a вопросительный аспект - наличием знака "?" в конце предложения. В нашем примере отрицательный тип определен вспомогательным словом "not". 6) Определение залога английского глагола происходит на основании стандартных структур глагола в соответствующих залогах.

Например, главными признаками Passive Voice (страдательно залога) с аналогом в таджикском языке являются глагольные связки be E-ed (E-en) - V-a шуд (V-a шав)\ be been E-ed (E-en) - V-a шуда буд ; be being E-ed (E-en) - V-a шуда истода буд . Соответственно Active Voice (действительный залог) определяется отсутствием перечисленных глагольных связок. В нашем примере анализ глагольной конструкции will not have been turning on дает действительный залог. 7) Определение времени глагола является результатом сравнения сказуемого по заложенным в алгоритм стандартным временным формам английского глагола. В итоге программа придает сказуемому код соответ ствующей ему временной формы. Конструкция will not have been turning on дает время Future Perfect Continuous Tense, имеющий таджикский аналог Замони ояндаи таркиби (будущее составное время). 8) В Блок перевода английского предложения поступает следующая информация: Subject (І, Зр, s); Predicate (working; act.; fut. per/. cont.); Sentence Type (2) Перевод английского предложения осуществляется в следующем порядке: 1) Перевод подлежащего и его характеристик: 2) Перевод основы глагола: 3) Перевод сказуемого и его характеристик: Predicate (working; negat; act; fut.perf.cont.)= Хабар (кор кард; отр.; действ.; буд.сост.) где: Predicate, Хабар - соответственно английское и таджикское сказуемые; work, кор кард - соответственно основы английского и таджикского сказуемого; negative - отрицательный аспект (отр.); active - действительный залог (действ.); Sentense Туре (2) - тип отрицательного предложения ; negat. - отрицательный аспект глагола (отр.)\ singular number - единственное число (ед.); fut. per/, cont - future perfect continuous tense = таджикскому будущему сяс/яавному времени; 3 person - 3 лицо. 4)

Отображение структуры английского предложения на структуру таджикского предложения по следующим схемам: а) для английского утвердительного предложения: б) для английского отрицательного предложения: в) для английского вопросительного предложения: Таким образом Блок синтеза таджикского предложения получает информацию: Единственная рассматриваемая синтаксическая связка - предикативное синтаксическое отношение между подлежащим и сказуемым предполагает их последовательное присоединение в соответствии с типом предложения (для повествовательного предложения: Подлежащее + Сказуемое). Поэтому синтез таджикского предложения дает следующий результат: Вай нахохад гиронд. В результате осуществлен перевод

Алгоритм перевода формализованного образа английского простого нераспространенного предложения

Алгоритм состоит из 5 логически завершенных самостоятельных модулей, что позволяет корректировать каждый модуль не изменяя логику и содержание остальных модулей. Ниже приводятся основные обозначения и процедуры, характеристика входной, промежуточной и выходной информации, описание всех модулей и текст Алгоритма. Обрабатываемая Алгоритмом информация делится на входную, промежуточную и выходную. Входящая информация имеет следующую структуру: 1) Основа глагола. Обозначение - OS$. Может принимать два значения, отличающиеся следующими морфологическими характеристиками: основа прошедшего времени - V] основа настоящего времени -V2. OS$ состоит из следующих составляющих: где N - именная часть глагола, которая в свою очередь имеет вид: Например: ба хотир овард 2) Время глагола. Обозначение - I. Принимает числовое значение от 0 до 11 в соответствии с Приложением 3. Значение 1=4 отностится к глаголу наст, времени повелительного наклонения. 3) Определитель отрицания. Обозначение - NA. Определяет характеристику отрицательности, т.е. наличие (NA=1) или отсутствие (NA=0) в синтезируемой форме глагола префикса "на-" . 4) Число глагола. Обозначение - Q$. Определяет характеристику числа для синтезируемой формы глагола. Принимает значения: Е(динственное) и М(ножественное). 5) Лицо глагола. Обозначение - Q. Принимает значение лица глагола в зависимости от значений предыдущих параметров: 1(-е лицо), 2(-е лицо), 3(-е лицо). Промежуточная информация формируется декларативным путем и аналитически, т.е. в результате обработке алгоритмом входной информации. В него входят: 6) Вспомогательный глагол "буд". Обозначение В$ .

Формируется декларативно. Применяется в конструкциях со значениями 1= 7, 9. 7) Вспомогательный глагол "буда". Обозначение ВА$ . Формируется декларативно. Применяется в конструкциях со значениями 1= 8, 10. 8) Вспомогательный глагол "истода". Обозначение IS$ . Формируется декларативно. Применяется в конструкциях со значениями 1= 2, 9, 10. 9) Вспомогательный глагол "хох". Обозначение Н$ . Формируется декларативно. Применяется в конструкциях со значением 1= 11. 10) Словообразующий префикс "ме-\ Обозначение N$ . Формируется декларативно. Применяется в конструкциях со значениями 1= 1, 5, 6. 11) Временная форма глагола без личных окончаний. Обозначение Z$(I). Формируется аналитически. 12) Личное окончание глагола. Обозначение T$(Q). Формируется аналитически. Зависит от значений Q, Q$ и L$. 13). Продуктивные составляющие основы глагола Обозначение М$ и М1$. Формируются декларативно. М1$ = М$+"А". 14). Последняя буква продуктивной составляющей М$. Обозначение L$. Формируется декларативно. 15). Продуктивный словообразующий префикс. Обозначение W$. Формируется аналитически. 16). Мнимые словообразующие префиксы. Обозначение Р2$ и Р3$. Формируются декларативно. Состоят из 2-х (Р2$) и 3-х (Р2$) букв. Выходная информация состоит из одного параметра: 17) Синтезируемая форма глагола.

Обозначение - S$. Формируется аналитически. Является результатом работы всего алгоритма: S$ = Z$(I)+T$(Q). Описание модулей Алгоритма. Модуль 1 является основным при решении задачи АС видо - временных форм таджикского глагола. В его обязанности входят: 1. Прием входной информации о синтезируемой форме. 2. Обращение к остальным модулям. 3. Прием промежуточной информации. 4. Компоновка и вывод на экран (печать) искомой формы глагола. Вввод данных в данный модуль основывается на диалоговом режиме: данные вводятся после высвечивания запросов. В случае применения Алгоритма в совокупности с остальными элементами системы АП, данные будут считываться с определенного сектора базы данных, формируемого по результатам синтеза элементов исходного языка, с которого осуществляется перевод. Модуль 2 предназначен для определения тех глаголов, образование форм которых отличается от общего стандарта для большинства глаголов таджикского языка. "Нестандартные" глаголы определяются и для них корректируются значения Z$(I), что влечет за собой изменения конечной величины S$. Это производится путем сверки введенной основы с конкретным "нестандартным" глаголом с учетом номера искомой видо-временной формы глагола в соответствие с Приложением 4.

Похожие диссертации на Моделирование на таджикском языке английского простого нераспространенного предложения