Содержание к диссертации
стр.
ВВЕДЕНИЕ . 4
ГЛАВА I. МАШИННАЯ МОРФОЛОГИЯ ТЮРКСКИХ ЯШКОВ ... 12
Место морфологического анализа в системе АПТ 12
О необходимости создания машинной морфологии тюркских языков ,......,....., 13
3« Формальная классификация частей речи и грам
матических категорий в нашивной.морфологии 17
Рабочие понятия ММТЯ 26
Цеди и задачи ММТЯ . . . . 28
6. Воспроизводящая инженерно-лингвистическая
модель ММТЯ . 29
7. Алгоритм AHA - как композиция функций Р (сово
купность рекурсивных правил; ...... v. 30
7.0. Функция выделения единиц анализа (К). . . 32
7.1* Функция расчленения с/ф (Р) . 32
, .ч .....
7.2. Функция сопоставления информации (с). . 33
.... v '
7.3. Снятие омонимии основ и аффиксов на морфоло
гическом уровне (функция в) * 36
Формальное определение функции R . . . . 37
Омонимия, снимаемая при помощи сочетания аффиксов 39
Омонимия, снимаемая при помощи машинных аффиксов ....... 40
Омонимия» но снимаемая на морфологическом уровне * 41
Алгоритм ХНА тюркской словоформы .... * 42
Алгоритм снятия омонимии основ и аффиксов 45
Алгоритм снятия омонимии осиов ..... 49
Алгоритм снятия омонимии аффиксов .... 51
7.6. Преобразование информации (функции П) . . . 51
8. Краткие выводы 54
ГЛАВК П. РЕАЛИЗдря ВОСПРОИЗВОДЯЩЕЙ ИНКЕНЕРНО-ЛЙНГВЙСТИЧЕС-
КОИ МОЩИ ММТЯ НА МАТЕРИАЛЕ АЗЕРБАЙДЖАНСКОГО ЯШКА 56
I. Описание банка лингвистических данных 56
Машинные основы азербайджанского языка, распределение их пе зонам и характерные особенности ... 58
Машинные аффиксы азербайджанского языка, их грамматические характеристики и распределения
не зонам и педзенам ...... 63
2. Морфологическая я лексине-мерфелогнчвская индекса
ция машинных основ и аффиксов азврбавджанскеге
языка . 92
Кодирование графем 97
Адаптация обэдетюркскего алгорифма к азербайджанскому языку . 98
Проверка объяснительной силы модели анализа. . . 100
Краткие выводы ..... ... 102
ГЛАВА I. ШСШО-МОРФОЛОГИЧЕСКИЙ МП ТЮРКСКОГО ТЕКСТА НА
РУССКИЙ яшк . . . . 104
1. Проблема лексике-нерфелегнческогв МП с тюркских
языков 104
2. Общая структура азербайджанско-русского лексике-
иорфологичвскоге МП с элементами синтаксиса. . * 109
3« Особенности АС оборотов 112
4. Алгоритм лексикв-мерфелвгичвскеге МП тюркского
(азербайджанского; текста на русский язык с
элементами синтаксического анализа 114
5. Краткие выводы 122
ЗАКЛЮЧЕНИЕ ....................... 123
ЛИТЕРАТУРА . . . 125
Сокращения 136
Приложения 138
Введение к работе
Актуальность проблемы* В настоящее время в связи с бурным развитием науки и техники резко возрастают объемы информационных потоков. Создание систем, осуществляющих оперативную переработку и анализ этих потоков - одна из актуальных и чрезвычайно важных проблем, стоящих перед специалистами и учеными, работающими в области кибернетики, информатики и языкознания.
. Поиск, хранение и передача научно-технической информации,автоматическое составление рефератов и свертывание текстов с различными целями, машинный перевод, дешифровка текстов, а также построение обучающих автоматов во многом зависят от разработки проблем искусственного интеллекта - направления,задачей которого является создание антропоподобных машин,имитирующих работу человеческого разума,в том числе его лингвистического поведения/106;92;83;85/.
Известно,что задача полного автоматического анализа текста пока еще находится в начальной стадии ее решения, однако научно-технический прогресс и развитие культурных, экономических связей в обществе требуют скорейшего выполнения социального заказа на построение систем лингвистического беспечения АСУ и ЙПС,семантического МП,а также на разработку лингвистических аспектов искусственного интеллекта /77;8I;I0I;60;67;38/.
Смысловой и грамматический анализ с помощью ЭВМ является центральным модулем всех автоматических систем переработки текста. Вместе с тем,при разработке проблем АПТ и МП в настоящее время речь чаще всего идет о пословно-пообэротной переработке текста. Однако»остановиться на данном этапе и отказаться от разработки более полного и глубокого анализа текста было бы ошибочно/21;18/.
В частности, если говорить о тюркских и вообще агглютинативных языках, то задача автоматического анализа должна здесь решать-
5 ся иначе, чем это делается относительно флективных и флективно-аналитических языков.
В индоевропейских языках любая словоформа употребляется с одним или двумя аффиксами и приведение этих с/ф к словарному виду не представляет особых трудностей. Что же касается тюркских языков, то здесь словоформы могут содержать значительное число морфологических показателей, причем от каждой основы можно образовать тысячи форм /69;49/. Исследования на материале тюркских языков показывают, что "для обеспечения 70-%-ного покрытия словоформами наугад взятого текста достаточный объем выборки в агглютинирующем языке должен почти в 5 раз превосходить объем выборки флективно-аналитического языка и более чем в два раза быть больше, чем выборка флективно-синтетического языка" /12,с.37/. Поэтому для АПТ на тюркских, как, впрочем, и на всех агглютинирующих ланках, приходится строить АС, включающий машинные или традиционные основы (канонические формы), к которым с помощью специального ал-горитма должны приводиться текстовые словоформы. Вопрос этот чрезвычайно важен, поскольку применяющиеся в действующих системах МП алгоритмы анализа, оперирующие со словоформами, сводят до минимума морфологический анализ с/ф. Решение этой проблемы особенно актуально для агглютинирующих тюркских языков, для которых в силу особой специфики структуры с/ф, пословно-пооборотный МП малоэффективен.
Цель и задачи исследования. Исходя из приведенных выше соображений целью настоящей работы является разработка принципов автоматического морфологического анализа тюркской словоформы и построение математической модели морфологии тюркского текста с последующей реализацией ее в виде воспроизводящей инженерно-лингвистической модели (ВШШ) на материале азербайджанского языка.
Основной задачей работы является разработка ВИЛЫ тюркской морфологии, на базе которой строится машинный алгоритм АМА азербайджанского текста, который» в свою очередь, может быть использован в качестве одного из основных модулей различных систем АПТ -машинного перевода, индексирования, аннотирования, реферирования и т.д.
Указанная задача включает решение следующих конкретных вопросов :
I) составление ЧС азербайджанского газетного текста;
Z) составление АС основ и АС оборотов на базе наиболее употребительных основ и оборотов, отобранных из ЧС азербайджанского газетного текста;
построение унифицированного алгоритма АМА тюркского текста;
построение алгоритма лексико-морфологичеекого МП азербайджанского текста с элементами синтаксического анализа;
машинная реализация алгоритмов АМА и лексико-морфологического МП азербайджанского текста.
Научная новизна диссертации заключается в построении впервые лингвистической модели морфологического анализа тюркской с/ф, реализованной в виде ВШШ, т.е. алгоритмов и программ для ВС-ЭВМ, в формальном снятии омонимии сложнейших аффиксальных формантов тюркских языков, а также в ориентации морфологического анализа на синтаксические процедуры, которые являются следующим шагом в процесс машинной обработки тюркских текстов. Построенная математическая модель является удобным и корректным способом постановки лингвистической задачи, что обеспечивает рациональное построение алгоритма решения этой задачи.
Методика исследования. В соответствии с поставленной задачей
в работе использованы следующие методы:
лингвостатистические приемы отбора лексики и фразеологии,
методы инженерно-лингвистического и математического моделирования,
методы формального анализа текста, используемые при построении алгоритма АМА тюркского текста,
методы лексико-морфологического, синтаксического и семантического вероятностного машинного перевода, применяемые в ходе разработки лексико-морфологической системы МП азербайджанского текста с применением элементов синтаксического анализа.
Объектом исследования являются лексика тюркских текстов, регулярные средства выражения фиксированных грамматических отношений.
Материалом исследования являются азербайджанские газетные тексты, частотный и обратный словари азербайджанского языка и
морфологии тюркских языков (в частности азербайджанского языка),
*i
на основе которого формируется аппарат формальной машинной морфологии.
Основные теоретические положения защищаемые в работе, заключаются в следующем:
при решении прикладных задач необходимо построение прежде всего математической модели лингвистического объекта,
как в индоевропейских, так и в тюркских языках в связи с инженерно-лингвистическим моделированием и АПТ необходимо создание машинных морфологии; машинная морфология тюркских языков не обязательно должна копировать традиционные грамматические категории тюркских языков, АМА может опираться и на нетрадиционное выделение машинных аффиксов и формирование машинных основ,
используя формальные признаки, можно провести полный АМА
тюркской с/ф, в результате которого представляется возможность получить первичные грамматические характеристики, необходимые для последующих семантико-синтаксических этапов АЛА,
в процессе АМА тюркского текста основное внимание следует обратить на обработку словоизменительных аффиксов, что же касается словообразующих формантов, то они включаются в основы слов, которые представлены в АС и не подвергаются морфологическому анализу»
АМА должен предусмотреть не только отделение основ от словоизменительных аффиксов, но и, одновременно, разъединение аффиксов. Это дает возможность фиксировать для каждого аффикса присущие ему морфологические характеристики, что позволяет учесть основную грамматическую информацию, содержащуюся в с/ф.
наиболее существенным в АМА являются способы снятия омонимии и выделение случаев омонимии, которые должны быть сняты на синтаксическом и семантическом этапах анализа; здесь семантика выступает в качестве фильтра уже на морфологическом уровне, а синтаксис обращается к семантической информации еще до перехода на собственно семантический этап.
Практическая ценность работы заключается в создании унифицированного алгоритма машинного анализа тюркского текста, позволяющего осуществить полный автоматический анализ тюркской с/ф на морфологическом уровне, в результате чего обеспечивается получение грамматических характеристик, необходимых для последующих этапов анализа.
Система АМА успешно может применяться в решении следующих задач:
при создании лексико-морфологического МП тюркского текста,
при создании автоматизированных диалоговых систем, преднаа-
9 наченннх для общения с потребителем на естественной (одной из тюркских, в нашем случае азербайджанском) языке,
при создании обучающих лингвистических автомахов (ОЛА), позволяющих ускорить усвоение и изучение структуры тюркской с/ф и выделение словоизменительных аффиксов,
при решении некоторых задач, входящих в область лингвистического аспекта искусственного интеллекта,
при создании нормативных грамматик тюркских языков,
алгоритм Шк тюркского текста использован при разработке принципов построения словарного обеспечения турецко-русского : машинного перевода /6,с.5/.
Апробация работы. Результаты работы доложены на следующих конференциях, семинарах и совещаниях:
Школа-семинар по оптимизации преподавания иностранных языков с помощью технических средств, Кишинев,; сентябрь 1979г.
Семинар "Статистическая оптимизация преподавания языков и инженерная лингвистика", Чимкент, ноябрь 1980г.
Всероссийская третья школа-семинар "Обучающие лингвистические машины и оптимизация обучения языкам", Махачкала,июль 1981г.
Республиканская научная конференция "функциональные и конструктивные уровни языковой системы", Баку, 18-19 ноября 1980г.
Всесоюзная конференция "Переработка текста методами инженерной лингвистики", Минск, февраль 1982г.
Всесоюзный семинар по инженерной лингвистике в ЛГПИ им.А.И. Герцена (І979-І98ІГГ.).
7) Семинар при Институте языкознания АН Азерб.ССР (І9?7-І980п).
Публикации. Основные положения диссертации отражены в следую
щих работах:
I. Месте, автоматического морфологического анализа в системе
10 машинного перевода. - Изв.АН Аэерб.ССР, сер.лит.,языка и искусства, Ш I, 1981, с.68-71.
2. Машинная морфология тюркских языков (НМТЯ). Всероссийская
третья школа-семинар "Обучающие лингвистические машина и оптими
зация обучения языкам (тезисы докл. и сообщений)", 2-12 июля 1981
- - - - s
года, Махачкала, 1981, с.103.
Автоматический анализ тюркской словоформы (на материале азербайджанских газетных текстов). - В сб.:ИЛОПИЯ. -Л.:ДГПИ,1980, с.Иб-126.
Морфологический анализ тюркской словоформы с помощью ЭВМ,-Материалы республиканской научной конференции "функциональные и конструктивные уровни языковой системы (18-19 ноября 1980г.).Баку: АПШЯ,І98І,с.І0І-І03.
Применение ЭВМ г лингвистических исследованиях /обзорная
информация/, Баку:АЗШНТИ,1977.-35в.(в соавт.с В.Я.Пинесом).
------ >
Алгоритм морфологического анализа азербайджанского текста в системах МП и АИС. - Информационный листок,сер.Энергетика и автоматика,)!! 2,Баку: АЗНИИНТИ, 1980. - 4-е.(в соавз. с В.Я.Пинесом).
Морфологический анализ в ОДА. - ШСОПИЯ (5-15 сентября)*
........ . ч
Кишинев: Кишиневский сельскохоз.институт им.М.Ф.Фрунзе.-с.21( в сеавт. с А.Бабанаровын и Т.Садиковым).
Лексико-морфологнческнй МП азербайджанского текста на русский язык. - В сб.: Статистическая оптимизация преподавания языков и инженерная лингвистика. - Чимкент:Чим.пед.ин-ї,1980,с.257-260.
Система машинного анализа и синтеза тюркской словоформы. -В сб.Переработка текста методами инженерной лингвистики (тезисы докл.).Всесоюзная конференция 1-2 февраля 1982 года. - Минск: МГПИИЯ, 1982,сЛ9-50 (в соавт. с А.А.Пиотровской и Т.Садиковым).
Публикации по теме диссертации полностью отражают основное
содержание работы.
Реализация работы. Алгоритм AHA тюркского текста (на материа-ле азербайджанского языка), также алгоритм лексико-морфологическо-го МП азербайджанского текста на русский язык реализованы на ЕС-ЭВМ. Программа составлена А.А.Пиотровской.
Структура работы. Диссертация состоит из введения, трех глав, заключения, списка литературы, списка сокращений и двух приложений.
Первая глава диссертации посвящена проблеме создания машинной морфологии в связи с АПТ тюркского текста. В ней рассматриваются структура, задачи, основные единицы машинной морфологии, описывается формальная классификация частей речи и грамматических категорий в машинной морфологии» строятся алгоритмы снятия омонимии основ и аффиксов и AUA тюркского текста.
Вторая глава посвящена реализации воспроизводящей инденерно-дингвистической модели на материале азербайджанского языка. Здесь осуществляется адаптация общетюркского алгоритма AUA к азербайджанскому языку.
В третьей главе описывается алгоритм яексико-морфологического МП тюркского текста применительно к азербайджанскому языку* В заключении дане краткое обобщение результатов проведенного исследования.