Содержание к диссертации
Введение
1. Обзор исследований в области автоматической морфологической обработки русских именных и глагольных словоформ. общая задача математического описания 8
1.1. Характеристика объекта исследования 8
1.2. Обзор исследований в области автоматической морфологической обработки русских словоформ . 13
1.3. Постановка задачи математического описания . 23
1.4. Постановка задачи исследования 29
2. Системный к решению задачи математического описания грамматики словоизменения 32
2.1. Выбор структуры вектора окончания 32
2.2. Выбор структуры вектора смысла. Введение ограничительных компонентов вектора 36
2.3. Выбор структуры вектора смысла. Введение переменных компонентов вектора 40
2.4. Исследование механизмов влияния переменных компонентов вектора смысла на окончание 49
2.5. Разработка методики построения морфологической функции зависимости окончания от смысла 53
Выводы 63
3. Разработка математических юделей флективной обработки словоформ именных частей речи 64
3.1. Математическая модель флективной обработки словоформ именных частей речи адъективного типа склонения 64
3.2. Математическая модель флективной обработки словоформ именных частей речи субстантивного склонения 72
3.3. Математическая модель флективной обработки словоформ именных частей речи местоименного склонения 78
3.4. Математическая модель флективной обработки словоформ числительных 85
Выводы 91
4. Построение математической модем флективной обработки глагольных словоформ 92
4.1. Характеристика объекта моделирования 92
4.2. Выбор структуры вектора смысла 95
4.3. Формирование регистра глагольных флексий . ІОІ
4.4. Разработка математической модели глагольных флексий 106
Выводы 109
5. Практические приложения результатов исследований III
5.1. Характеристика системы флективной обработки русских словоформ III
5.2. Программная реализация морфологического анализа словоформ русского языка 118
5.3. Разработка алгоритма обнаружения и исправления искажений в окончаниях словоформ 128
5.4. Использование моделей флективной обработки русских словоформ в различных системах автоматической обработки текстовой информации 134
Выводы 138
Заключение 141
Список использованных источников 144
Приложения
- Постановка задачи математического описания
- Разработка методики построения морфологической функции зависимости окончания от смысла
- Математическая модель флективной обработки словоформ числительных
- Разработка математической модели глагольных флексий
Введение к работе
В решениях ХХУІ съезда КПСС отмечается большое значение научных исследований, направленных на более эффективное использование электронно-вычислительной техники: "Опережающими темпами развивать производство быстродействующих и вычислительных комплексов, периферийного оборудования и программных средств к ним"
/I/.
Использование ЭВМ для осуществления различных процессов обработки информации (перевод, аннотирование, реферирование, редактирование и т.п.) /2-А/ в условиях непрерывного роста потока научно-технической информации приобретает все большее народнохозяйственное значение. Эффективное использование вычислительной техники в этом направлении невозможно без создания действующих моделей естественных языков /2,3,5/.
В различных областях применения ЭЦВМ возникает необходимость обработки информации, представленной на естественном языке. В АСУ, включающих человека в качестве своего органического звена, основной формой передачи информации являются документы, содержащие значительное количество словарной информации. Моделирование на ЭЦВМ процессов ее обработки позволит автоматизировать многие виды интеллектуальной деятельности человека, расширить его возможности.
Основу АСУ составляют автоматизированные информационные системы (АИС) /6/, назначение которых автоматизация процессов накопления, поиска и обобщения информации. Эффективность АИС определяется их способностью обрабатывать информацию неформализованную или слабо формализованную.
Моделирование естественного языка и создание транслятора с этого языка на машинный позволило бы не только продвинуться в решении проблемы автоматизации информационных работ /7/, но и самым лучшим для человека способом решить проблему общения /8/. Последнее особенно важно при использовании ЭЦВМ в АСУ и других сферах, где необходимо обрабатывать текстовую информацию. Человеку удобнее выражать свои мысли в языковой форме, поэтому непосредственное общение на естественном языке было бы наиболее целесообразным /3,9/.
В связи с тем, что язык тесно связан с мышлением /10/, построение его моделей полезно также для автоматизации процесса творчества, создания искусственного интеллекта /II/.
Для создания модели языка необходимо формализовать разнообразные и многочисленные функции, реализуемые человеком при обработке речевой и текстовой информации. При этом моделирование языка должно осуществляться на различных уровнях (морфологическом, синтаксическом, семантическом и других).
Большой вклад в постановку и решение задач моделирования етественного языка внесли Г.Г.Белоногов, И.А.Большаков, А.Б.Глад-кий, Р.Г.Котов, О.С.Кулагина, А.А.Ляпунов, С.Маркус, Р.Т.Пиотровский, И.Хомский и многие другие ученые. В настоящее время разработано множество моделей естественных языков, формализующих различные уровни их функционирования /6,12-15/.
Внимание многих исследователей по-прежнему привлекает морфологический уровень языка, т.е. уровень обработки отдельного слова.
Проведенный в работе обзор литературных данных показал, что существующие формальные системы естественного языка (включающие модель морфологии как составную часть) не удовлетворяют всем требованиям, предъявляемым к действующим моделям, не обладая доста - 6 точной гибкостью и полнотой. Ряд моделей жестко ориентирован на один конкретный ВРЩ грамматической обработки (чаще анализ или синтез) /16-29/. При этом объектом моделирования является не весь язык, а отдельные его подмножества /30,31,32/, что не позволяет промоделировать отношения, существующие на множестве всего языка. В то же время представление математической модели естественного языка в виде системы логических уравнений, позволит без изменения лингвистического обеспечения решать любые задачи грамматической обработки различных уровней языка (в том числе и морфологического) как с полным, так и с частичным заданием начальных значений.
Необходимая составная часть действующих моделей естественных языков - модели разнообразных процессов грамматической обработки флексийных морфов (анализ, синтез, нормализация, обнаружение и исправление искажений и т.п.). Без моделей процессов флективной обработки словоформ невозможно осуществить грамматическую обработку всего слова, а значит словосочетаний и фраз естественного языка.
Исследования, проведенные в диссертационной работе, являются естественным продолжением работ авторов Л.И.Якименко, В.М.Бондарева, М.Ф.Бондаренко, Ю.П.Шабанова-Кушнаренко, А.Ф.Осыки и др.
Целью диссертационной работы является исследование и формальное описание на уровне отдельного слова процессов флективной обработки, а также рассмотрение возможностей использования разработанных моделей в различных системах автоматической обработки текстовой информации. Для достижения поставленной цели в работе разработаны математические модели флективной обработки словоформ русского языка на основе формального описания словоизменения системой логических уравнений, записанных на языке алгебры конечных предикатов /33/ (при этом формализовались отношения, существующие на всем множестве естественного языка).
Диссертация содержит введение, пять разделов, выводы, заключение, список используемой литературы, приложения.
В первом разделе сделан обзор исследований в области автоматической морфологической обработки русских именных и глагольных словоформ, обзор лингвистических исследований в области морфологии, а также охарактеризован объект исследования, поставлены общая задача математического описания и конкретные задачи исследования.
Во втором разделе разработан системный подход к решению задачи математического описания процессов флективной обработки, состоящий в описании заданного множества объектов в определенной стандартной форме /33/, а именно: в виде системы логических уравнений, записанных на языке алгебры конечных предикатов. В этом разделе рассмотрены также различные механизмы влияния грамматических признаков на флексии; разработана и проанализирована единая система грамматических признаков.
Третий и четвертый разделы посвящены разработке конкретных математических моделей словоизменения. В третьем разделе разработана модель именных частей речи, в четвертой - модель спряжения глаголов.
Пятый раздел посвящен различным аспектам использования результатов диссертации в системах автоматической обработки текстов русского языка.
Основные результаты опубликованы в работах /34-39/. Внедрение результатов диссертационной работы дало экономический эффект.
Диссертация выполнена на кафедре Вычислительной техники Харьковского ордена Трудового Красного Знамени института радиоэлектроники имени академика М.К.Янгеля.
Постановка задачи математического описания
Использование математического аппарата алгебры конечных предикатов дает возможность продвинуться вперед в решении задачи формализации естественного языка. Этот формализм позволяет описывать произвольные конечные совокупности языковых объектов в определенной стандартной форме. В настоящей работе объектом рассмотрения является множество русских флексий.
В морфологии русского языка существует определенная зависимость (отношение) между флексией и окружающим ее текстом. Задача состоит в математическом описании существующей зависимости, т.е. в формализации понятия флексии. Текст, окружающий окончание, неоднороден по отношению к нему. Будем различать ближний текст (граничащий с окончанием непосредственно в словоформе) и дальний текст (граничащий со словоформой, в которой находится интересующее нас окончание). Например, в тексте "мы разлучаемся со сказками" для окончания -ем- в слове разлучаемся ближний текст различа- и-ся, а дальний - мы со сказками.
В работе /77/ было введено так называемое текстовое отношение Т(Х,Y), (где Y - текст, X - смысл текста), выделяющее подмножество всех текстов из некоторого множества всевозможных строчек ограниченной длины, составленных из букв конечного алфавита. Текст рассматривается как многоуровневая структура, в которой из букв образуются морфы, из морфов - словоформы, из словоформ - предложения, из предложений абзацы и т.д. Отдельные части этой конструкции были названы фрагментами текста (буквы, морфы,словоформы, предложения и т.д.). В математической модели флективной обработки словоформ русского языка в качестве фрагмента текста из всех морфов слова выбрано окончание.
Действие текста, окружающего окончание (как ближнего, так и дальнего), заменим введением некоторого набора признаков, который в соответствии с идеями работы /94/ интерпретируем как смысл окончания. В диссертации под смыслом будем понимать набор промежуточных переменных, связывающих уравнения, описывающие окончания, с уравнениями, описывающими остальную часть текста. Набор значений этих переменных интерпретируем как значение смысла. Смысл рассматривается как переменный вектор Х=-(ос X ...лос ), где л? - число компонентов вектора смысла, а переменные. Xf , X »» х - компоненты смысла. Пусть у и t...t и - окончание,-где значением переменной ц. служит і -я по счету буква окончания. Набор У = ( у1л ij . Lj буквенных переменных уи уг ...,уп назовем переменным окончанием, набор значений этих переменных -индивидуальным окончанием или просто окончанием. Переменные Ц , у .., цп назовем компонентами переменного окончания, их значения - значениями компонентов окончания.
При построении математической модели флексии описывается фрагментное морфологическое отношение L(X,Y) отражающее связь между смыслом У и переменным фрагментом текста (флексийным морфом) У . Параметрами введенного отношения могут быть любые из компонентов вектора смысла. При этом Xе Н, V M , где И -множество наборов значений компонентов смысла, М - множество всевозможных последовательностей конечной длины, составленных из букв русского алфавита и символа пробела ( ы), который служит для заполнения свободных от букв мест в окончаниях.
Полагаем, что морфологическое отношение Ь(Х,У) выполняется тогда и только тогда, когда У выражает значение компонентов смысла X . Языковая практика говорит о том, что результат проверки условия выполнимости морфологического отношения должен быть однозначным (т.к. в противном случае человек не мог бы эффективно формировать- тексты) /77/.Например, пусть задан следующий набор компонентов смысла: имя прилагательное, единственное число, мужской род, родительный падеж, основа слова заканчивается на твердую согласную, окончание - ого.Чтобы установить, состоят ли исходные данные в морфологическом отношении, необходимо убедиться, что окончание - ого соответствует данному набору значений компонентов смысла. А т.к. это условие выполняется, то выполняется и морфологическое отношение.
Согласно принципу однозначности, окончание всегда однозначно зависит от его смысла. Этот принцип можно интерпретировать как требование полноты набора признаков (компонентов смысла), с помощью которого осуществляется выбор окончания (индивидуального). Набор признаков будем называть полным, если он при любых значениях признаков будет обеспечивать однозначность выбора соответствующей ему флексии. В качестве ее смысла примем любой набор признаков, удовлетворяющий требованию полноты. Под неполным смыслом флексии будем понимать набор, составленный из некоторых компонентов вектора смысла X . Смысл флексии в принятом ранее значении .будем называть полным смыслом. Понятия полного и неполного смысла флексии введены по аналогии с соответствующими понятиями для фрагмента текста /77/.
Итак, целью данной работы является построение математической модели флективной обработки русских словоформ путем формального описания фрагментного морфологического отношения L(X, YJ. Моделирование фрагментного отношения необходимо начать с выбора подходящей структуры многокомпонентных векторов X и Y . Структура вектора Y относительно проста. Ясно, что в качестве его компонентов необходимо выбрать буквы окончания. При этом нумерация букв ведется в пределах флексии слева направо. Что же касается выбора структуры вектора смысла Л , то здесь дело обстоит гораздо сложнее. Чтобы получить компактное и изящное описание фраг-ментного морфологического отношения Z/(X, YJ необходимо выбрать компоненты вектора X с учетом внутренней структуры языка. Для рационального решения этой задачи будем опираться на понятия, сфор мулированные морфологией русского языка. Критерием при оценке приемлемости того или иного понятия, выработанного языкознанием, должен быть,по-видимому, успех формализации естественного языка.
Разработка методики построения морфологической функции зависимости окончания от смысла
Упрощение описания морфологического отношения L(X,Y) может быть достигнуто различными способами. Прежде всего это теорема о разложении в алгебре конечных предикатов. Полученные в результате применения этой теоремы предикаты все же являются в достаточной степени сложными. Поэтому целесообразно провести декомпозицию морфологической функции.При построении математической модели флективной обработки словоформ адъективного скяонения формализуется морфологический предикат (в соответствии с подразделом 2.5):
Морфологический предикат L соответствует флексиям регулярных словоформ именных частей речи адъективного склонения. Предикат Z.._ соответствует флексиям нерегулярных словоформ. «о
Регулярное адъективное склонение имеют прилагательные, склоняющиеся по следующим образцам: новый, синий, редкий, свежий, к-цый, длинношеий, живой, сухой, большой, а также прилагательные на -ийся, например, вьющийся. Существительные адъективного склонения склоняются по образцам для прилагательных. Например, склонение слова вожатый такое же, как у образца новый. Примеры существительных адъективного склонения: учащийся, занятия, животное. К адъективному склонению принадлежат также местоименные прилагательные и порядковые числительные. Эти группы слов склоняются по образцам прилагательных. Например, местоимение каждый склоняется по образцу новый, порядковое числительное второй - по образцу живой. Образцы склонения приведены по данным работы /62/«
- 65 Особо остановимся на словоизменении причастий, которые являются глагольно-именной формой, совмещающей в себе признаки глагола/и имени прилагательного. Подобно глаголам причастия располагают категориями залога, вида и времени. От глагола с помощью специальных суффиксов могут быть образованы четыре причастные формы -две формы настоящего времени и две-формы прошедшего времени: слышать, слышащий, слышимый, слышавший, слышанный.
Однако причастия обладают неглагольным словоизменением, образуя падежные формы по адъективному склонению. Они изменяются по родам и числам, а страдательные причастия образуют краткие формы. Таким образом, с одной стороны причастия входят в систему спряжения глаголов, с другой - в систему словоизменения прилагательных адъективного склонения /38/. Поэтому в настоящей модели словоизменения причастия рассматриваются только в рамках адъективного склонения и вопреки традиционной грамматике как самостоятельная часть речи.
К нерегулярному адъективному склонению относятся словоформы некоего, некоему, некоем, некоей, выспрен, искренен и другие. Нерегулярные словоформы составляют 0,05$ от общего числа форм слов, приведенных в словаре /62/.
Максимальная парадигма адъективного склонения образуется изменением слова по падежам, родам и числам, а также по категории одушевленности - неодушевленности. К тому же парадигма включает противопоставление словоформ по признаку полноты (красный - полная форма, красен - краткая форма и виду окончания (красной - современное окончание, красною - архаичное). Споршй вопрос о вхождении или невхождении сравнительных и превосходных степеней в число форм словоизменения прилагательного в диссертации не рассматривается. С морфологической точки зрения образование степеней сравнения существенно отличается от собственно склонения, поэтому, в работе не рассматриваются сравнительные степени прилагательных /62/. Превосходные степени (например,.красивейший) выступают в качестве прилагательных (например, длиннющий).
Не все словоформы адъективного склонения имеют максимальную парадигму. Так сокращенную парадигму имеют существительные, местоимения и числительные, т.к. они не образуют кратких форм. У некоторой части прилагательных краткие формы практически почти не употребляются, например, сосновый - соснов. Но эти формы признаются потенциально существующими у всех частей речи адъективного склонения, т.к. в нашу задачу не входит описание запретов на те или иные наборы значений грамматических признаков. Модель описывает все реально существующие в языке формы, допуская при этом некоторые лишние реакции.
Математическая модель флективной обработки словоформ числительных
Особенностью склонения числительных является то, что они обладают нерегулярным словоизменением. Ранее уже отмечалось, что порядковые числительные имеют адъективное склонение (например, первый склоняется по образцу красный, второй - по образцу живой и т.д.). Поэтому к числительным как части речи отнесены все количественные и собирательные числительные (например, три, четыре, семеро). В свою очередь количественные числительные делятся на определенно-количественные (пять, сто) и неопределенно-количественные (столько, много) По составу числительные также классифи-цируются на простые (два, пять, сто, сколько, пятнадцать, двадцать), сложные (шестьдесят, восемьдесят) и составные (двадцать пять, триста двадцать один). Иногда к составным числительным причисляют так называемые дробные числительные типа четыре пятых. "Однако такие сочетания не могут быть отнесены к числительным. Они представляют собой имеющие количественное значение сочетания слов (часто с союзом и ), относящихся к разным частям речи" /44/. Например, в сочетании слов четыре пятых елово четыре является числительным и его словоизменение описывается в рамках числительного склонения. У составных числительных при склонении изменяется каждое слово, входящее в их состав, поэтому модель склонения подобных числительных состоит в последовательном моделировании склонения каждого составляющего слова.
В сложных числительных на -десят (пятьдесят), двести, триста, четыреота и числительных на-сот имеет место так называемое двойное склонение, т.е. склонение обеих составных частей (пять -десят , пятидесяти). При моделировании флективной обработки подобных числительных будем исходить из тезиса, что сложные числительные представляют собой последовательность простых числительных (например, пятьдесят - пять и десят), так что возможно моделирование склонения тольга простых числительных. Поэтому модель флективной обработки словоформ числительного склонения сводится к модели числительных с простыми основами. А это, в свою очередь, приводит к тому, что к простым числительным должны быть отнесены также слова десят, сти, ста и сот, которые в настоящей модели признаются самостоятельными. Без этого условия невозможно эффективное моделирование склонения сложных числительных пятьдесят, двести, триста, пятьрот.
Еще одной особенностью числительных как части речи является наличие внутри них различных типов склонения. Так числительные сколько, столько, много, немного, несколько /62/; собирательные числительные и оба образуют окончания по образцам нерегулярных словоформ адъективного склонения; третий - по образцам регулярных словоформ местоименного склонения, один - нерегулярных словоформ местоименного склонения; числительные миллион, миллиард, биллион и т.п. образуют окончания по образцам регулярных словоформ субстантивного склонения. Формализация флективной обработки числительных пять, шестъ, ... , двадцать, тридцать, пятьдесят, шестьдесят, семьдесят, восемьдесят и десят составляет содержание предиката L9f. . Особо оговорим склонение слова тысяча. Обычно это слово выступает в качестве существительного, склоняющегося по образцу туча. Реже тысяча выступает как числительное. В этом варианте оно образует окончания по нерегулярным словоформам субстантивного склонения.
Таким образом, предикату L . соответствуют следующие числительные: два, три, четыре, сорок, девяносто; ото, двести, триста, четыреста, пятьсот, шестьсот, семьсот, восемьсот, девятьсот, полтора, полторы, полтораста. Особенности склонения перечисленных числительных определяются начертанием графической основы.
Числительные не имеют противопоставления форм по числам, поэтому максимальная парадигма числительного склонения образуется изменением слова по падежам и родам, включая также противопоставление по категории одушевленности - неодушевленности (например, числительное два). При этом большинство числительных имеют сокращенные парадигмы, которые включают только изменения по падежам (например, т]эи, четыре). У числительных с сокращенной парадигмой признается омонимия родовых форм, а также одушевленных и неодушев- . ленных форм винительного падежа. Итак, в максимальную парадигму числительных включено противопоставление окончаний по признакам: acf - падеж, хг -род, х -одушевленность-неодушевленность.
Разработка математической модели глагольных флексий
Математические модели флективной обработки русских словоформ, разработанные в разделах 3 и 4 диссертадаонной работы, позволяют осуществлять всевозможные виды грамматической обработки флексий отдельно для спряжения и склонения, а внутри склонения отдельно для каждого его типа (субстантивного, адъективного и т.д".). На основе этих моделей может быть осуществлена и комплексная обработка флексий различным образом изменяемых слов. Для этого должна быть построена единая система логических уравнений, формализующая все флективные структуры.
Такая система уравнений может быть получена "силовым приемом", т.е. путем простого логического объединения всех ранее построенных моделей. Это привело бы к неоправданному росту длины и количества уравнений, что в конечном счете резко бы снизило скорость их решения.
В целях получения компактной системы уравнений на первом этапе минимизации был использован тот лингвистический факт, что в субстантивном, адъективном и местоименном типах склонения есть много общих моментов. Это позволило, используя методику, изложенную в разделе 2 настоящей диссертации, построить общую математическую модель этих типов склонения. На втором этапе (этапе логического объединения моделей числительного типа склонения и спряжения глаголов с моделью, полученной после первого этапа) дальнейшая минимизация получена за счет введения логических переменных для обозначения часто встречающихся частей формул. Критерием введения таких переменных является достижение упрощения всей системы уравнений.
Если введенные логические переменные Ь ...л і удовлетворяли условиям они заменялись одной буквенной переменной г. , заданной на множестве произвольно выбранных букв [ 6 Є ,..., 6[. Полагаем, что Z L -г- ив систему уравнений вводим дополнительное уравне-ние, задающее область определения переменной :
Более глубокая минимизация уравнений достигается путем использования общесистемных индивидуальных предикатов. Они используются в случаях, когда в уравнениях встречаются однотипные блоки, отличающиеся между собой начертанием переменных. Например, мо, vxof vxo, vxo, и , » , , v - "e „, последняя буква основы настоящего времени у глаголов, а ї? -основы именной части речи. Вводим предикат вида: ШЦП(х ) = X v х v X v ос t соответствующий понятию "шипящая лс и ш ш, буква". Вместо формулы X v х v О" v л? , записывается выражение ШЦП(х) , а вместо ХЖ Х! У v х" vx - ИіиП(х ). В модели флективной обработки словоформ использованы следующие общесистемные индивидуальные предикаты: ГЛ соответствует понятию "гласная буква" - а,е,ё,о,2»ы,э,ю,я,и; Зяз - "заднеязыч - из ная буква" - ,к,х; ШИП - "шипящая буква" - ж,ч,ш,щ; СП - "согласная буква" - б,в,г,д,ж, ,й,к,л,м,н,п,2, »т, ,х,ц,ч,ш,щ,ь. Несколько предикатов являются частными случаями введенных. Так, Гл соответствует множеству гласных букв без и; Шип - шипящих букв без щ; Сглн - согласных букв без заднеязычных, шипящих и ь,л,]э; Сгл - согласных букв без заднеязычных и шипящих. Использование целого комплекса средств минимизации позволило разработать экономичные модели первой (П.І.І), второй (П.1.2) и третьей (П.1.3) букв флексийных морфов. Уравнения, формализующие условия употребления буквы е в качестве значения первой буквы окончания (у ) и пробела - в каче стве второй ( и ) и третьей Су.) букв, являются избыточными. Эти значения могут быть определены из уравнений, соответствующих областям изменения переменных ц t ц и и уравнений для остальных значений букв. В дальнейшем в качестве идентификаторов логических уравнений будем использовать следующие обозначения Li - (П.І.І), L2 - (П.1.2), Lb - (П.І.З). Логические уравнения (П.I) содержат следующие промежуточные переменные СП.2): 1) 2) классы окончаний слов адъективного, субстантивного , местоименного типов склонения; 2) и классы окончаний слов числительного типа склонения ; 3) t классы окончаний глаголов; 4) 4) классы основ склоняемых слов; 5) S классы основ глаголов; 6) п t Г - некоторые логические произведения переменных системы; 7) к, Ь - некоторые логические суммы переменных системы; - 114 8) 20 некоторые логические выражения, содержащие ранее введенные промежуточные переменные. Под термином "переменные системы" будем понимать как переменные, эксплицирующие синтаксические и лексические признаки системы флективной обработки русских словоформ, так и промежуточные переменные, введенные в систему на этапе комплексной минимизации модели.