Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Математические модели мирфологических и фонетических отношений и их применение для автоматизации обработки речевых сообщений Бондаренко Михаил Федорович

Математические модели мирфологических и фонетических отношений и их применение для автоматизации обработки речевых сообщений
<
Математические модели мирфологических и фонетических отношений и их применение для автоматизации обработки речевых сообщений Математические модели мирфологических и фонетических отношений и их применение для автоматизации обработки речевых сообщений Математические модели мирфологических и фонетических отношений и их применение для автоматизации обработки речевых сообщений Математические модели мирфологических и фонетических отношений и их применение для автоматизации обработки речевых сообщений Математические модели мирфологических и фонетических отношений и их применение для автоматизации обработки речевых сообщений Математические модели мирфологических и фонетических отношений и их применение для автоматизации обработки речевых сообщений Математические модели мирфологических и фонетических отношений и их применение для автоматизации обработки речевых сообщений
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Бондаренко Михаил Федорович. Математические модели мирфологических и фонетических отношений и их применение для автоматизации обработки речевых сообщений : ил РГБ ОД 71:85-5/192

Содержание к диссертации

Введение

ГЛАВА I. Состояние вопроса и постановка задач исследования

I.I. Обзор разработок в области автоматизации языковой деятельности 12

1.2. Обзор исследований в области моделирования механизмов естественного языка 19

1.3. Анализ состояния исследований в области моделирования механизма словоизменения ... 24

1.4. Анализ литературных данных по моделированию механизмов словообразования и акустико- фонетической обработки словесного материала 28

1.5. Постановка задач исследования 33

ГЛАВА П. Аналитическое описание структуры слова

2.1. Членение словоформы на лингвистически значимые элементы 40

2.2. Аналитическое описание структуры окончания 48

2.3. Сегментация суффиксов и классификация сегментов 52

2.4. Исследование структуры корневых морфем . . 59

2.5. Математическое описание структуры приставок 63

Выводы по второй главе 69

ГЛАВА Ш. Разработка математической модели морфемы

3.1. Построение математической модели словоиз менения 70

3.2. Формализация распределения суффиксальных морфов в морфеме 85

3.3. Разработка математической модели грамматики корневых структур 92

3.4. Математическое описание законов сочетаемости морфов в префиксальном словообразовании 105

Выводы по третьей главе III

ГЛАВА ІУ. Разработка метода формирования смысловых оттенков и признаков элементов слова

4.1. Постановка задачи моделирования смысловых связей в слове 112

4.2. Формирование смысловых оттенков морфов 118

4.3. Формирование смысловых признаков морфов 122

4.4. Выявление порядка на множестве признаков 128

Выводы по четвертой главе . . 133

ГЛАВА У. Моделирование смысловых связей в слове

5.1. Формирование суффиксальных смысловых от тенков и признаков 134

5.2. Формализация смысла суффикса 144

5.3. Формирование префиксальных смысловых от тенков и признаков 148

5.4. Математическое описание смысла префикса 151

5.5. Формирование смысловых оттенков и признаков для корней 158

5.6. Моделирование семантики корня слова . . . 170

Выводы по пятой главе 175

Глава УІ. Математическое моделирование синтаксических связей

6.1. Постановка задачи 176

6.2. Математическое описание локальных связей в предложении 185

6.3. Математическое описание глобальных связей в предложении 191

6.4. Построение отмеченного дерева зависимостей простого предложения и перспективы даль

нейших исследований 198

Выводы по шестой главе 204

ГЛАВА УП. Математическое описание слоговых, акцентных и орфоэпических отношений

7.1. Формальное описание фонетической послоговой сегментации 205

7.2. Математическое описание акцентных типов русского языка 212

7.3. Математическое описание орфоэпических связей для согласных звуков русского языка 222

7.4. Математическое описание орфоэпических связей для гласных звуков русского языка 236

Выводы по седьмой главе . . . 244

ГЛАВА УШ. Дискретизация акустического представления слова

8.1. Эффект сглаживания в слухе и его использование для дискретизации речевых сигналов 245

8.2. Экспериментальное исследование дискретизированных фонограмм 252

8.3. Нормализация акустической диаграммы речевого сообщения. 263

8.4. Использование эффекта сглаживания в слухе для распознавания гласных звуков речи . . 267

8.5. Построение дискретного портрета слова . . 279

8.6. Принцип фонемного синтеза речи 286

Выводы по восьмой главе 291

ГЛАВА К. Практические приложения математических моделей слова

9.1. Разработка методов решения лингвистических уравнений 292

9.2. Автоматическое обнаружение и исправление ошибок в русских словоформах 302

9.3. Пример практического использования математических моделей лингвистических отношений в диалоговом тренажере 308

ЭЛ. Использование результатов исследований при построении системы автоматической обработки

речевых сообщений "Фонема" 321

Выводы по девятой главе 326

Основные выводы 327

Литература 329

Введение к работе

Взяв курс на интенсификацию всего народного хозяйства СССР, ХХУІ съезд КПСС сформулировал задачи дальнейшего роста производства, повышения эффективности и качества общественного труда /I/. Решение этих задач требует дальнейшего быстрого увеличения производительности труда на базе автоматизации производства. Это, в свою очередь, приводит к необходимости широкого применения средств автоматической обработки информации и автоматического управления, робототехники, к повсеместному использованию автоматизированных систем.

Достижение всех этих целей требует быстрейшего развития вычислительной техники, в особенности ее программного обеспечения. Запросы автоматизации требуют от ЭВМ способности к пониманию человеческого языка, достаточной 'сообразительности", способности к мышлению и к элементам творчества. В связи с этим перед разработчиками средств вычислительной техники ставится задача: обеспечить эту технику достаточно высокоорганизованным "интеллектом", основанном на машинном языке, приближающемся по своим функциональным возможностям к естественному языку человека.

Эта задача не допускает простого и быстрого решения. Возникают серьезные трудности принципиального характера. Из-за этих трудностей пока не дают желаемых результатов работы по автоматизации программирования, созданию автоматических систем высококачественного перевода с одного языка на другой, построению систем для автоматического распознавания достаточно сложных объектов, формированию способности машины понимать увиденное и услышанное и многие другие работы, направленные на решение иных, столь же важных вопросов.

Многие исследователи считают, что главная трудность, о ко-

_ 7 -

торую разбиваются все попытки радикально поднять интеллектуальные возможности ЭВМ, заключается в несовершенстве машинных языков. Последние существенно уступают по своим выразительным возможностям естественным языкам. Растет число сторонников того взгляда, что создание машинного "интеллекта" требует изучения и моделирования человеческого интеллекта и, в первую очередь, лезкащего в его основе естественного языка. Становится все более ясным,что при дальнейшем усовершенствовании машинных языков необходимо шире использовать принципы организации человеческого языка.

Существует большое число научных дисциплин, изучающих естественные языки: фонетика, морфология, синтаксис, лексикология, семасиология, стилистика и др. Однако обширные данные, накопленные этими науками за многие века их существования, не могут быть непосредственно использованы для совершенствования языка машины. Дело в том, что знания, содержащиеся в лингвистических трудах, предназначены для усвоения человеком, а не машиной. Эти знания неформализованы, поэтому они не могут быть непосредственно использованы для расширения возможностей вычислительной техники. Они должны быть предварительно математически описаны и промоделированы. Положение осложняется еще и тем, что явления языка даже на формальном уровне зачастую описаны недостаточно полно. Такое положение наблюдается уже в грамматике - наиболее простом разделе учения о языке. Академик В.В.Виноградов пишет: "Грамматический строй русского языка плохо изучен. Освещение многих грамматических вопросов основывается на случайном материале. Отсутствуют прочные теоретические основы, отсутствуют определения или точные описания основных грамматических понятий, особенно понятие слова и предложения" /93, с.9/.

Научные работы в области моделирования механизмов естественного языка находятся в настоящее время на начальной стадии своего

развития. Еще не сформирован общий подход к моделированию языка, нет ясности в вопросе о том, какой математический аппарат более всего подходит для формального описания языка. История развития моделирования естественных, языков изобилует случаями, когда попытки математического описания сложных явлений языка (например, грамматической или семантической структуры предложения) оказывались малоэффективными из-за не изученности более простых механизмов языка, на которых основаны эти более сложные структуры.

В настоящей работе в качестве главного объекта исследования и моделирования выбрано слово, представленное в звуковом или акустическом виде, а точнее - система различных механизмов его информационной обработки, которую осуществляет в процессе речевой деятельности носитель русского языка. Слово - это простейший и, вместе с тем, центральный объект в языке, поэтому моделирование слова должно рассматриваться как первоочередная задача при моделировании языка. Хотя слово - это всего лишь элемент языка, тем не менее оно имеет весьма тонкое строение, а процессы обработки слова сложны и многообразны. Проф.В.А.Звегинцев пишет: "Слово есть тонкий элемент речи, в котором, как в фокусе, сходятся все конструктивные стороны языка: лексика, грамматика и фонетика" /115, с.121/. Лингвистические знания о структуре слова и процессах его обработки весьма неполны, работы по математической формализации этих знаний находятся в начальной стадии развития. Недостаточная изученность слова серьезно тормозит работы по моделированию механизмов языка более высоких уровней и поэтому не позволяет эффективно использовать многие важные для народного хозяйства технические системы, которые основаны на автоматической обработке информации, представленной на естественном языке.

В диссертации на основе исследования иерархической структуры языка разработана и обоснована математическая модель лингви-

стических связей (законов языка) на уровне словесной обработки текстов русского языка, представленных в знаковом или акустическом виде.

Краткая аннотация нового, что вносится автором в исследование проблемы:

  1. Проведены исследования по созданию универсального математического аппарата для формального описания произвольных конечных отношений. В результате развита алгебра конечных предикатов и изучены ее свойства применительно к описанию лингвистических уравнений. Используемый математический аппарат обладает полнотой, универсальностью, единством выразительных средств и наглядностью формульных конструкций.

  2. Осуществлено формальное членение слова на иерархически взаимосвязанные части. Введены лингвистические переменные и области их определения, а также понятия ближнего и дальнего текста. Математически описаны связи между лингвистическими переменными, задающими отношения между отдельным морфом и окружающим его ближним текстом, механизм чередования и беглости букв.

  3. С целью исследования и математического описания влияния дальнего текста на морф разработан метод формирования смысловых признаков морфов и их значений - смысловых оттенков, описаны отношения порядка, выявленные на множестве' найденных признаков. Формально представлены связи между смысловыми признаками.

4-. Построены математические модели лингвистических связей для отдельных видов морфем: префиксов, корней, суффиксов, окончаний. Введено понятие семантической сети признаков и разработан метод ее математического описания. Построена семантическая сеть признаков для корней слов и выполнено ее математическое описание.

5. Осуществлено математическое описание морфологического отношения. За счет введения промежуточных логических переменных

и индивидуальных предикатов, формализующих лингвистические понятия, проведена минимизация системы уравнений, описывающих морфологическое отношение.

  1. На основе разработанной математической модели морфологического отношения описаны грамматические связи, существующие в беспредложном и предложном словосочетаниях, построена математическая модель простого распространенного предложения.

  2. На базе эффекта сглаживания в слухе разработаны метод и аппаратура для перехода к дискретному образу речевого сообщения и его нормализации. Выполнены эксперименты по определению частоты дискретизации речевых сообщений. Разработаны программные и аппаратурные средства ввода-вывода в ЭВМ речевых сигналов.

  3. Математически описаны связи между дискретным образом слова и его орфографическим представлением. Формализована и программно реализована процедура слогоделения.

  4. Математически описаны процедуры распознавания и синтеза гласных и согласных звуков слога, слова в целом. Разработанные методы распознавания позволяют осуществлять фонетическую классификацию звуков независимо от диктора.

10. В целом выполненвьв исследования представляют собой
единый комплекс научных и практических результатов, нацеленных
на решение задач автоматической обработки речевых сообщений,
представленных в знаковой или акустической формах.

В результате выполненных исследований на защиту выносятся основные научные результаты:

  1. Методология и метод математического описания лингвистических связей (законов языка) на уровне словесной обработки текстов русского языка, представленных в знаковой и акустической формах.

  2. Уравнения, математически описывающие морфологические

- II -

(словоизменительные и словообразовательные) связи в слове и синтаксические связи между словами (словосочетание и простое предложение).

  1. Уравнения,математически описывающие связи между осциллограммой, дискретным портретом, фонетической и орфографической представлениями речевого сообщения.

  2. Система программных и технических средств решения задач автоматической обработки текстовой информации, представленной в графической и акустической формах.

Совокупность научных результатов диссертации защищается как новое перспективное научное направление в области технической кибернетики и теории информации - математическое описание уравнениями алгебры конечных предикатов лингвистических связей (законов языка), важное для автоматизации обработки информации, представленной на естественном языке.

Выполненные в работе исследования проведены в соответствии с планом научно-исследовательских работ на 1976-1980 годы, утвержденным постановлением Президиума АН УССР № 229 от 26.06.76 г. по проблеме I.I.I7.5 "Математическое моделирование", планом важнейших научно-исследовательских работ на 1980-1985 годы, утвержденным постановлением Президиума АН УССР № 520 от 19.12.79 г., тема I.I2.9.7 "Разработать и исследовать программные и технические средства обработки словесной информации в человеко-машинных системах", планом важнейших научно-исследовательских работ на 1982-1985 годы, утвержденным планом АН СССР по проблеме "Кибернетика", тема 1.12.9.4(6) "Создание систем анализа и синтеза текстов".

Основные результаты и работа в целом апробированы на более чем 35 Всесоюзных, Республиканских и ведомственных симпозиумах, совещаниях, конференциях, заседаниях в 1967 * 1984 гг.

Анализ литературных данных по моделированию механизмов словообразования и акустико- фонетической обработки словесного материала

Одним из главных понятий морфологической структуры языка является понятие морфемы. Под морфемой понимается минимальная часть слова, встречающаяся в ряде слов и передающая некоторое грамматическое значение или дополнительный оттенок лексического значения /127,140/. Важнейшей задачей морфологии является исследование специфики морфем, их вычленимость и классификация.Этот этап описания морфологии как бы подготавливает описание морфо-образования, так.как модели сочетания исходных единиц в более крупные конструкции полностью зависят от отличительных признаков этих единиц, принципов их выделения, перечня их классов и т.п. Этот раздел в исследованиях по языку представляется различным образом.

В лингвистических работах традиционного плана сведения о морфемах даются, как правило, с привязкой к отдельным частям речи в виде более или менее полного их перечня, который сопровождается характеристикой передаваемых морфемами значений и общими сведениями об их сочетаемости /163,185/. В исследованиях дескрипти-вистов основное внимание уделяется разработке процедур вычленения морфем, их идентификации /99,205,212/. В работах по построению машинных грамматик морфемы, их значения и характеристики сочетаемости задаются обычно в виде исчерпывающего списка с самого начала /96/. Вопрос о способе получения каждой морфемы становится в этом случае второстепенным.

Модели образования новых слов в языке постоянно привлекают внимание лингвистов /100,138,140,161/. Причины для такого интереса весьма разнообразны и основательны. Например, формализация и построение процедур словообразования позволяет существенно сократить размеры машинных словарей в системах автоматической обработки текстов и системах автоматического понимания речи, автоматизировать процесс анализа "новых" слов, то есть слов, которые не. были помещены в машинный словарь.

В некоторых случаях без учета словообразования морфологический анализ вообще невозможен. Например, это имеет место в немецком языке, где очень распространено словосложение. Формализация словообразования может быть полезна для изучения какого-либо языка (например, русокого как иностранного) /141/. Но еще более настоятельно к изучению словообразования побуждают причины теоретического характера, так как без четкого понимания и формального описания процессов образования и понимания новых слов невозможно формально описать функционирование естественного языка в целом. Словообразование дает обширный материал для проверки гипотезы о системности языка, о его иерархической структуре /114,141,161/. Изучаются и классифицируются способы словообразования, которые проявляются во внешних изменениях компонентов структуры слова (трансформации, декомпозиции, трансаффиксации) /138/.

Одним из наиболее важных и сложных вопросов словоизменения является вопрос об описании сочетаемости морфем внутри слова. Иными словами, реаь идет о признаках, в терминах которых можно однозначно и формально описать, могут ли сочетаться две данные морфемы в пределах одного слова.

Традиционные грамматические категории и их значения являются хорошей базой для характеристики словоизменительных морфем, для описания словоизменительного раздела русской морфологии. Сложнее дело обстоит с признаками деривационных морфем, то есть с признаками, по которым производится выбор той или иной морфемы при образовании нового слова. В описаниях морфологии традиционного плана, кроме укрупненной классификации таких морфем (для образования существительных из глаголов, прилагательных из существительных и т.п.), имеются общие характеристики значения морфем (абстрактное качество, признак .деятеля и т.п.). Однако подобных признаков словообразовательных морфем недостаточно для построения реальных производных слов по заданным грамматическим и деривационным признакам и лексическому значению. Разработка системы элементов, достаточной для описания смысла отдельных единиц различных уровней языка, для характеристики сочетаемости этих единиц, для определения суммарного значения всего сообщения является одной из важнейших задач современной науки о закономерностях понимания и формирования информации на естественном языке. В этой связи можно указать на работы по компонентному анализу /198,206/, по теории семантических падежей /10,198/, по созданию всевозможных семантических сетей /199,218,219/, по непосредственному выделению признаков для словообразования /126,141/.

При изучении литературных источников нам не встретилось ни одной научной публикации, в которой бы содержались результаты моделирования механизма словообразования с привлечением признаков, основывающиеся на материалах традиционной грамматики. Отсутствие публикаций такого типа легко объяснимо. Дело в том, что в учении о словоизменении довольно хорошо (хотя и не полно) развита система признаков. В области же словообразования учение о признаках лишь едва намечено. В подобных работах содержатся сведения о смысловых оттенков суффиксов и префиксов, но остается невыясненным вопрос о том, значениями каких признаков эти оттенки являются /163,185/. Чтобы иметь возможность приступить к моделированию механизма словообразования, предварительно необходимо проделать большую чисто лингвистическую работу по формированию достаточно обширного набора удобных словообразовательных признаков.

Математическое описание законов сочетаемости морфов в префиксальном словообразовании

Как указывалось в 2,5, введение сегментированного регистра и задание области изменения всех переменных позволяет описать чередования и беглости в префиксальных морфах, иными словами, описать влияние ближнего текста. Введем в рассмотрение три грамматических признака (компонента смысла), позволяющих рассматривать непосредственно задачу математического описания префиксального словообразования русских приставок. Прежде всего введем переменную Д - тип морфологического преобразования со значениями с - словообразование, н - не словообразование. Принимая

Две, ограничиваем задачу рамками словообразования. В качестве второго смысла используется признак J$2 - способ словообразования со значениями п - префиксальный, н - не префиксальный. И, наконец,третий признак jS - происхождение приставки со значениями р - русское, и - иностранное. Это позволяет нам, введя в уравнения модели промежуточную переменную 7J - 1С & & , ограничить область функционирования модели рамками префиксального

В исследовании грамматики корневых структур принимал участие асп.Захарченко П.В. словообразования на множестве русских приставок. Далее сформируем полный и несократимый набор переменных признаков для формализации распределения префиксальных морфов в морфеме.

Под влиянием законов фонетической сочетаемости приставки, оканчивающиеся на согласную, реализуются в тексте двумя или более морфами, в то время как приставки, оканчивающиеся на гласную, в любом слове реализуются одним и тем же морфом. Для учета этого обстоятельства введем признак последней буквы приставки yf заданный на множестве конечных согласных префиксальных морфов:

На выбор определенного морфа морфемы может влиять как стоящая рядом приставка, так и корень слова. В результате этого влияния происходит оглушение последней согласной з в приставках через- , без- , раз- , "воз- , вз- и из- при соединении с морфами, начинающимися на глухие согласные, либо появление в конце морфа буквы ъ в результате присоединения приставки к словам, начинающимся на йотированную гласную. Для описания этих правил введем признак первой буквы мотивирующей основы Uz , определенный на множестве всех букв русского алфавита кроме - ъ и «ь не встречающихся в этой позиции в слове:

Поскольку разные классы букв, стоящие на первом месте в производящей основе, по-разному влияют на вид морфемы, целесообразно ввести именованные предикаты, разбивающие все множество букв и на классы влияний: йотированные - нейотированные гласные и глухие - звонкие согласные:

Появление буквы о в конце префиксальных морфов (подо-, разо-, обо- и др.) обусловлено более сложными правилами сочетаемости морфов. Для описания этих правил понадобится признак ys наличия варианта корня с беглой гласной между начальными согласными, принимающий значения -.н - наличие и о - отсутствие: а также признак второй буквы корня у. , заданный на всем множестве букв русского алфавита, кроме ъ. :

Помимо перечисленных выше типов влияния, на вид префиксального морфа может влиять также ударность приставки. Это относится к приставке раз : в ударной позиции реализуются алломорфы роз- , грос- , в безударной - раз- , рас-?, разо- , разъ- .

Для их описания необходимо ввести признак ударности приставки Us со значениями у - ударная, б - безударная:

Введенный набор признаков позволяет описать все правила выбора морфов префиксальной морфемы. В силу полноты набора введенных признаков y »y » "» s отношение Z// , описывающее влияние основы на выбор соответствующего морфа морфемы, задает некоторую функцию Р- F(y) . Описание этой функции сводится к описанию предикатов Р&(у) » обращающихся в единицу, когда переменная Р принимает значение & , (где & - буква префикса), во всех остальных случаях они равны нулю. Введенное ранее сегментированное представление морфов дает возможность при описании правил выбора ограничиться рассмотрением одной буквы, составляющей отличие данного морфа от других морфов той же морфемы.

Выявление порядка на множестве признаков

Все выявленные ранее грамматические признаки служат аргументами морфологической функции X Р(Ц) , где У -набор признаков, X - соответствующий этому набору морф, У=(Уі Уг,- Уп) где Уі 1/г Уп. признаки морфа X . Однако существует точка зрения, с которой эти признаки нельзя рассматривать как равноправные, В качестве примера возьмем два признака - часть речи и признак кратности со значениями "полный" и "краткий". Для всех частей речи, кроме имени прилагательного и причастия, деление на полные и краткие формы не имеет значения, так как там имеется только одна форма, которую можно с равным успехом назвать и полной, и краткой. За пределами прилагательных и причастий признак краткости является несущественной, фиктивной переменной. Признак краткости является существенным лишь при определенных значениях признака части речи. Значит, признак "часть речи" в некотором смысле предшествует признаку краткости.

Проявляемое таким образом неравноправие признаков имеет большое значение при построении алгебраической модели языка. Морфологическое отношение - это очень сложная конструкция, которая в целом трудно обозрима. Поэтому необходимо каким-то образом редуцировать морфологическое отношение к системе более простых отношений с тем, чтобы каждое из них изучить и математически описать в отдельности, а затем собрать эти подотношения в единое морфологическое отношение.

Эффективное средство такой разработки-сборки сложных функций дает теорема о разложении в алгебре конечных предикатов /173/. Пусть СУі /г, - п) - некоторый произвольно выбранный конечный предикат. Разложением по переменной называется следующее представление предиката f : (4.6) из них можно составить отношение . Здесь Zf,a2i .,., dK - оттенки признака Xi .

Разложение каждого вновь полученного предиката можно продолжить по переменной Хг и Т«Д» Д тех П0Рі пока не будет получена такая система простых отношений, которая допускает обозримое описание каждого своего элемента. Схему разложения исходного предиката можно задать в виде дерева, вершины которого соответствуют переменным, по которым ведется разложение, а дуги помечены значениями переменных. Для однозначного задания схемы разло жения одна из вершин дерева должна быть выделена. Эту вершину, соответствующую переменной, по которой разложена исходная функция, будем называть корневой вершиной. Висячие вершины или листья дерева означают далее неразлагаемые элементарные предикаты. Здесь мы будем рассматривать предельный случай, когда такими предикатами служат константы 0 и I. Каждой вершине графа соответствует одно поддерево, корнем которого она является. В поддерево входят вершины, лежащие на цепях, соединяющих корень поддерева с листьями, и не включающие корень дерева. Общее число вершин дерева равно суммарному количеству предикатов узнавания в формулах, выражающих данное разложение. Таким образом, минимизация общего объема формул может быть сведена к поиску дерева разложения заданного предиката с наименьшим количеством вершин.

Если ограничиться только выбором порядка переменных для раз ложения и не применять иных средств минимизации, то можно утвер ждать следующее. Общее число вершин дерева разложения заданного предиката минимально, когда корню каждого его поддерева соответ ствует переменная с наименьшей по мощности областью определения среди всех переменных, отвечающих вершинам этого поддерева.Иначе говоря, если fit, Мг fin. - мощности областей определения переменных #1 Уг, ,Уп- соответственно, причем ІЧі Мг - /іп, то минимальное разложение получится, если раскладывать исходный П -местный предикат по переменной , полученные в результате этого -У -местные предикаты - по переменной yz и т.д., завершив процесс разложения по переменной с наибольшей областью определения - U . Назовем такое разложение регулярным. В самом деле, число листьев дерева при любом порядке разло жения постоянно и равно . Количество вер шин, непосредственно предшествующих листьям (на втором ярусе де рева), не может быть меньше, чем С /f n. Число вершин третьего яруса не превышает С, /J4nf4a-Y в общем виде мини мально возможное число вершин С -го яруса дерева - С/ = С/ /finfin n-i i Следовательно, сумма Q может служить нижней оценкой числа вершин дерева для любого разложения. Простым подсчетом убеждаемся, что эта оценка достигается в случае регулярного разложения, т.е. число вершин регулярного дерева ми - 131 нимально.

Формирование смысловых оттенков и признаков для корней

Развитие методов обработки текстов на естественном языке установило тот факт, что объективное представление внешнего мира моделью невозможно без внесения в нее семантики. Или, говоря иными словами, "модель, в которой понятие совокупности дифференцированных семантических признаков вообще не вводится в рассмотрение, вряд ли целесообразно считать адекватной моделью естественного языка, поскольку такая модель не отражает основной особенности реального языка, семантика которого составляет связь между миром реальных объектов и миром единиц выражений" /118, с. III/.

Ограничимся определением признаков и исследованием механизма их появления на материале толковых словарей /Юб/. Такая литература содержит все необходимые сведения о действии признаков, а также указывает специфические черты, появляющиеся в той или иной корневой структуре в зависимости от характера ее употребления. В качестве множества текстов для выявления требуемого набора семантических признаков выступают словарные статьи словарей. Следует отметить, что существуют признаки, принимающие большое число значений (например, до 10 значений). Для устранения подобных явлений следует разукрупнить признак на несколько более простых, оставив сам признак в качестве элемента верхнего уровня абстракции, управляющего механизмом действий простых признаков.

В качестве примера воспользуемся разработанной методикой для формализации смысла корневых структур, обозначающих химические элементы и соединения. В определении смысла корневых структур участвуют 29 переменных, позволяющих достаточно подробно трактовать смысл каждой структуры. С целью ограничения выбранного множества корней из общей совокупности корней введем следующие переменные: уго - тип словаря со значениями о - основной, н - не основной; Уу - вид терминологии в химии со значениями с - соединения, э - элемент, о - остальные типы веществ; угг - вид естественнонаучных исследований со значениями х - химический, ф - физический, о - остальные виды.

Признаки уге? , tfz/ , y2z введены с целью зафиксировать словарь только из химических терминов. При этом такой набор формальных признаков резко уменьшает его объем. Однако, следует отметить, что использование таких признаков обусловлено только демонстрацией возможностей метода и не является необходимым условием для исследования смысла всех корней, составляющих химическую терминологию. Описание всех остальных признаков имеет своей целью определение непосредственной семантики структуры. Признак 4 2 - задает нам виды химических соединений и принимает значения с - соль, к - кислота, в - вода, о - остальные; У2у -признак, задающий типы солей - н - натриевая, о - остальные, к - калиевая; 1/25. - признак чистоты химических соединений п -прозрачная, м - не прозрачная (мутная), о - остальные; угб -признак цвета соединений б - бесцветная, ц - цветная; 4 -признак агрегатного состояния вещества - ж - жидкость, г - газ, м - металл, о - остальное; tfzg - признак,задающий представителей реакций замещения в - водород, о - остальные; гр -признак, задающий представителей реакции окисления к - кислород, о - остальные.

Следует отметить, что переменные могут следовать в произвольном порядке. Нумерация их обусловлена временем появления в тексте и отнюдь не указывает на их старшинство. Зададим оставшиеся семантические признаки: t/So - признак, характеризующий типы существующих газов - и - инертный, а -активный (не инертный), остальные; ув/ - признак цветовых ощущений - я - черно-серый, ж - желтый, с - синий, к - красный, о - остальные; иъг - признак свойства радиоактивности - р - радиоактивный, н-не радиоактивный, о - остальные; Цъ$ - признак способности веществ к горению - г - горючее, н - не горючее, о - остальные; 4у - признак происхождения элемента - м - минеральный, и - искусственный; U$s - признак подвижности соединений - п -подвижное, н - неподвижное; 4 - признак способности вещества к действию - с - способное, н - не способное; 4 - признак процесса принятия формы - п - принимающее, н - не принимающее; fa - признак характеристики свойств соединений - ф - форма, ц - цвет, о - остальное; J/5g - признак, обозначающий предметы используемые в химии - с - сосуд, б - бумага, о - остальное; Ц,0 - признак растворимости веществ - р - растворимое, н - не растворимое, о - остальное; - признак, обозначающий отношение к наличию масла - м - маслянистое, н - не маслянистое, о - остальное; j/ 2 - признак, задающий способность предмета иметь окраску - о - окрашивающееся, н - не окрашивающееся; 4 з - типы материалов для определения происхождения реакции - л - лакмусовые, н - не лакмусовые, о - остальные; Ущ - признак внутреннего строения вещества - а - атом, д -другие компоненты; 4з" - признак количества элементов -1-І, 2 - 2, 3 - 3, о - остальные; 4 - - признак действий, производимых при химических реакциях - н - нагревание, о - охлаждение, д - другое; у?? - характер химических процессов - з - замещение, н - не замещение, о - остальное; J/ - действия химических соединений - р - разрушающее, в - восстанавливающее, о -остальное.

Отметим, что присутствие во многих формальных признаках значения tfe (остальное) обусловлено тем, что возможны появле - 161 ния новых корневых структур, смысловые оттенки которых не вошли в состав значений признаков. В этом случае считается, что неназванное значенив неявно присутствует в у? . Анализ системы семантических признаков установил присутствие абсолютных и относительных признаков. Признаки, которые своими значениями покрывают всю предметную область и не требуют дополнительных значений Ц , будем называть абсолютными семантическими признаками. Соответственно, остальные признаки будем называть относительными признаками.

Изучение состава смысловых признаков установило тот факт, что не все признаки являются однородными. Среди них имеется набор главных признаков и группа признаков, имеющих подчинительный характер по отношению к основному. В качестве главных, как правила, выступают признаки, обеспечивающие "грубый" анализ и синтез корневых структур. Опишем процедуру определения главных и подчинительных признаков уже известных нам корней химических терминов. Как известна, класс таких структур составляет замкнутую предметную область в силу ряда ограничений, наложенных на нега при описании. В таком случае выбираем из системы признаков признак, допускающий разбиение области на более или менее равномерные части с максимально большим числом корней в них. Для нашего примера таким выступает признак и . В целях экономного описания вначале произведем- разбиение признаков, присутствующих в корнях, обозначающих химические элементы, а затем признаков, обозначающих химические соединения. Разбиение по признаку U для первого случая имеет вид, представленный на рис. 5.5. Признаки 2o 2t / являются основными и при разбиении не используются, так как не могут быть заменены другими признаками. Производя далее аналогичные действия (рис.5.6) для элементов, а также для соединений (рис.5.7; 5.8), в конечном результате мы будем иметь ситуацию, когда каждой корневой структуре из заданной предметной области будет соответствовать некоторый набор семантических признаков. Такой набор позволяет получать однозначное решение задач анализа и синтеза. Однако при дальнейшем анализе оказалось, что полученные наборы позволяют получить смысл требуемой структуры в весьма "грубой" обобщенной форме. Вместе с этим возможна замена каждого "грубого" признака группой остальных признаков, участвующих в описании семантического класса. Таким образом, налицо иерархическое строение семантической системы признаков.

Похожие диссертации на Математические модели мирфологических и фонетических отношений и их применение для автоматизации обработки речевых сообщений