Методы и средства порождения семантических конструкций естественно-языковых интерфейсов программных систем Личаргин Дмитрий Викторович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Личаргин Дмитрий Викторович. Методы и средства порождения семантических конструкций естественно-языковых интерфейсов программных систем : Дис. ... канд. техн. наук : 05.13.17 : Красноярск, 2004 166 c. РГБ ОД, 61:04-5/3413

Содержание к диссертации

Введение

ГЛАВА 1. Исследование задач формализации семантики языковых единиц в применении к созданию естественно-языковых интерфейсов 18

1.1. Проблема применения лингвистического аппарата в естественно языковых интерфейсах программных систем 18

1.1.1. Проблема исследования значения 18

1.1.2. Язык и речь, грамматика и семантика, другие предметы лингвистической науки и их применение в информатике 20

1.2. Семантические классификации языковых единиц в лингвистических базах данных 22

1.2.1. История составления словарей 22

1.2.2. Семантические поля, тезаурусы, темы и подтемы 25

1.2.3. Задача представления иерархии языковых единиц 27

1.3. Лингвистические исследования множества слов в речи 28

1.3.1. Тождественные элементы значения слов в тексте 28

1.3.2. Сильные и слабые импликации в тексте 31

1.3.3. Порождающие грамматики 32

1.4. Представление слов языка и проблема полисемии 34

1.4.1. Внутренняя структура слова, ядро и периферия 34

1.4.2. Дефинитивное и полное значение слова 36

1.4.3. Применение компонентного анализа 37

1.4.4. Лексико-семантические варианты в языке и речи 39

1.5. Единство формальных и смысловых характеристик слова в искусственных языках для машинного перевода 42

1.5.1. Системы типа «Интерлингво» и машинный перевод 42

1.5.2. Проблемы создания языка описания семантики 42

1.6. Табличный естественно-языковой интерфейс 44

1.7. Задачи диссертационной работы 46

Выводы к главе 1 48

ГЛАВА 2. Принцип объектных определений как основа классификации единиц языка 50

2.1. Формализация дефиниций 50

2.1.1. Общий вид формальной дефиниции 50

2.1.2. Последовательность классификаций единиц языка 53

2.1.3. Определение базиса понятийного аппарата словарных дефиниций 54

2.1.4. Представление языка 55

2.2. Принципы построения классификации 57

2.2.1. Множество классификаций 57

2.2.2. Множество отрицаний в определении классификации единиц языка 59

2.3. Семантика и семантическая классификация 62

2.3.1. Семантический и другие аспекты языка 62

2.3.2. Проблема построения классификаций вида Aj.Cj 68

2.3.3. Семы классификации 69

2.3.4. Геносемы 73

2.3.5. Классификация понятий 74

2.3.6. Синтагмы и валентности 74

2.3.7. Факты классификации 75

2.3.8. Высказывания 79

2.4. Понятийное пространство в целом 81

Выводы к главе 2 81

ГЛАВА 3. Словарь порождения языковых единиц как средство формирования «табличных» интерфейсов 83

3.1. Общие принципы построения словаря 83

3.1.1. Понятийное пространство и его наполнение 83

3.1.2. Классификация P1.D3 в целом 83

3.2. Уровни классификации 85

3.2.1. Вектор классификации слов и понятий 85

3.2.2. Валентностный уровень классификации 87

3.2.3. Уровень основных сем 89

3.2.4. Уровень локализации 89

3.2.5. Уровень свойств 90

3.2.6. Уровень отношений 93

3.2.7. Рекурсивное порождение последующих уровней классификации 95

3.3. Примеры понятий и их кодовых обозначений 96

3.3.1. Примеры понятий для уровня основных сем 96

3.3.2. Примеры понятий для валентностного уровня классификации 96

3.3.3. Примеры понятий уровня локализации 97

3.4.Семантический код описания смысла 98

3.4.1. Кодировка сочетаний групп слов 98

3.4.2. Кодировка стилистики языка 102

3.4.3. Формула слова и плановые языки 103

3.5. Типы классификаций 104

3.5.1. Словарь гиперонимов 104

3.5.2. Тематический словарь 105

3.5.3. Словарь дефинонимов 107

Выводы к главе 3 108

ГЛАВА 4. Программное обеспечение естественно языковых интерфейсов 110

4.1. Назначение системы «Электронный словарь» 113

4.2. Функции системы «Электронный словарь» 119

4.3. Состав и структура системы «Электронный словарь» 121

4.4. Входные и выходные данные 126

4.5. Функционирование системы «Электронный словарь» 128

4.6. Программная система «Электронный разговорник» 132

4.6.1. Назначение программы «Электронный разговорник» 132

4.6.2. Функции программы «Электронный разговорник» 133

4.6.3. Структура программы «Электронный Разговорник» 134

4.6.4 Входные и выходные данные программы «Электронный разговорник» 135

4.6.5. Описание работы программы «Электронный разговорник» 135

Выводы к главе 4 137

Заключение 139

Литература 139

Язык и речь, грамматика и семантика, другие предметы лингвистической науки и их применение в информатике
Лексико-семантические варианты в языке и речи
Множество отрицаний в определении классификации единиц языка
Состав и структура системы «Электронный словарь»

Введение к работе

Актуальность проблемы

В связи с проникновением компьютерной техники во все сферы человеческой деятельности, когда большая часть населения развитых стран общается с программным обеспечением, решая все более сложные задачи, остро встает проблема перехода от визуального и командного интерфейсов к построению интерфейсов программных систем на естественном языке.

Задача моделирования естественного языка является наиболее важной составляющей проблемы создания естественно-языковых (ЕЯ) интерфейсов. Ее решение включает как анализ фраз на естественном языке, так и генерацию текстов.

Главным инструментом для решения проблем анализа и порождения фраз и текстов является формализация семантики языка. Для построения естественно-языковых интерфейсов необходимо опираться на формальное описание семантики (системы смысла) единиц естественного языка. Таким образом, смысловая классификация единиц языка является актуальной задачей, определяющей успешность формализации смысла языка в приложении к взаимодействию программного обеспечения с пользователем. Классификация множества грамматически и семантически корректных фраз должна основываться на классификациях слов-понятий и сем языка. Успех описания семантики определяется степенью простоты и полноты лингвистической классификации слов и выражений языка. Сопоставление каждой единице языка или группе единиц соответствующей логико-математической формулы, описывающей их семантику, также является актуальной задачей, поскольку такое формальное описание дает возможность задавать лингвистические объекты с использованием математического аппарата, а также описывать их поведение на уровне

программных алгоритмов. Предложенные в работе модели позволяют формализовать такие лингвистические представления, которые ранее не получили строгого математического обоснования, но могут быть полезны для порождения семантически корректных фраз в рамках построения систем общения с программным обеспечением на естественном языке.

Методы оперирования естественным языком находят применение в системах машинного перевода, в системах поиска и обмена информацией, реферировании текстов, экспертных системах и других актуальных программных приложениях.

Цель диссертационной работы

Цель диссертационной работы состоит в создании методов смыслового анализа и порождения фраз и текстов естественного языка на основе авторской семантической классификации слов и понятий, а также в их программной реализации для создания основных элементов естественно-языковых пользовательских интерфейсов программных систем.

Задачи диссертационной работы

Проблема построения естественно-языковых интерфейсов в работе рассматривается с точки зрения построения семантико-лингвистическои модели и применения средств визуализации структуры естественного языка. Система визуализации основана на классификации единиц языка разных уровней. В свою очередь, построение на ее основе множества подстановочных таблиц позволяет реализовать алгоритмы генерации осмысленных высказываний. Множество подстановочных таблиц может быть положено в основу классификации более высокого уровня, чем классификация слов, - классификации высказываний. Для обеспечения единообразного доступа к элементам этих классификаций представляется необходимым сопоставить множеству языковых единиц одного уровня единую формулу, которая строится на основе общего для

данного множества единиц вектора семантических признаков, однозначно задающего классификацию языковых единиц данного уровня.

В работе ставятся и решаются следующие основные задачи:

Определение вектора семантической классификации для единиц естественного языка - слов и понятий.
Разработка метода классификации слов и понятий языка на основе вектора семантической классификации, определяющего положение слов в понятийном пространстве.
Разработка словаря-классификации языковых единиц английского языка (более 10 тысяч слов).
Разработка оригинальных алгоритмов анализа и синтеза фраз естественного языка на основе подстановочных таблиц словаря.
Реализация программного обеспечения для моделирования основных элементов естественно-языкового интерфейса, визуализирующего структуру парадигматических и синтагматических отношений естественного языка.

В рамках алгоритмической и программной реализации предложенной модели решаются следующие функциональные задачи.

Выполнение морфологического анализа и синтеза словоформ английского языка.
Реализация автоматической генерации транскрипции для испанского и немецкого языков на основе написания слов.
Реализация словаря-классификации слов и понятий естественного языка (английского, русского и др.).
Разработка программной системы генерации подстановочных таблиц.
Построение обучающих систем для проверки знания слов посредством генерации осмысленной речи.
Создание шаблонов составления писем на незнакомом языке.

Методы исследований

В работе используются методы компонентного анализа, математической лингвистики, аппарат порождающих грамматик, методология классификации семантических объектов, методы построения интеллектуальных систем и программного интерфейса.

Основная идея работы

Предлагается оригинальный принцип построения формальных определений смысловых единиц языка и естественного языка в целом, как единой системы описываемых друг через друга понятий.

Предполагается, что главным средством генерации осмысленных единиц языка при построении естественно-языковых интерфейсов является построение лингвистической классификации. Для этой цели исследуются предположения:

об атомарном строении смысла и последовательном сведении значения языковых единиц к «кванту» смысла;
об определении лингвистической классификации посредством вектора семантических признаков;
о наследовании смысловых единиц классификаций низкого уровня классификациями более высоких уровней в системе классификаций естественного языка.

Предложенная лингвистическая классификация используется для построения естественно-языковых интерфейсов. Построен словарь-классификация слов и понятий на основе заданного вектора признаков. Предложен способ построения подстановочных таблиц на основе предлагаемой классификации. Выполнена программная реализация алгоритмов обработки и генерации текстовой информации на основе базы данных подстановочных таблиц. Построение «табличного» естественно-языкового интерфейса осуще-

ствляется посредством визуализации структуры естественного языка в виде иерархии подстановочных таблиц.

Новые научные результаты, полученные в работе

В работе предлагается оригинальный метод классификации слов и понятий языка на основе определения вектора расположения слова в понятийном пространстве. Словарь-классификация языковых единиц английского языка является одновременно не имеющим близких аналогов словарем генерации подстановочных таблиц. Предлагаемый словарь позволяет на качественно новом уровне формально описывать подмножества естественного языка, связанные общей темой. Впервые это дает возможность полуавтоматически генерировать подстановочные таблицы, как модели подмножеств языка, на основе фрагментов общего для слов языка понятийного пространства. Построены оригинальные порождающие грамматики для задания элементов вектора классификации. В предлагаемой работе впервые в качестве средства генерации фраз для естественно-языкового интерфейса рассматриваются подстановочные таблицы. Реализовано оригинальное программное обеспечение для моделирования работы базовых составляющих естественно-языковых интерфейсов.

Положения, выдвигаемые на защиту

Предложен оригинальный метод классификации слов и понятий языка на основе определения вектора расположения слова в понятийном пространстве.
Разработан словарь-классификация языковых единиц английского языка (более 10 тысяч слов).
Разработаны оригинальные алгоритмы анализа и синтеза фраз естественного языка на основе подстановочных таблиц словаря.

4. Реализовано программное обеспечение для моделирования основных элементов естественно-языковых интерфейсов.

Практическая значимость

Генерация осмысленной письменной речи — одна из сфер приложения рассматриваемой теории с целью построения ясных и понятных пользователю систем взаимодействия с программным обеспечением. Предложенные методики должны в перспективе позволить генерировать и анализировать речь различной степени осмысленности, представлять информацию, выделенную из речи в виде данных когнитивной классификации, и тем самым обеспечить основы для создания естественно-языковых интерфейсов между человеком и машиной. Представленная система используется в работе программы «Электронный разговорник» для построения текстов на незнакомом языке и автоматической генерации письменной речи на английском языке.

Большинство теоретических результатов работы используется в сфере обучения иностранным языкам (английский, испанский), как самим автором, так и другими профессиональными преподавателями. Практически используется метод построения фраз на незнакомом языке на основе авторского словаря, позволяющего генерировать подстановочные таблицы, используемые далее для генерации осмысленной речи.

В перспективе полученные результаты могут быть использованы для создания автоматических систем перевода и реферирования текстов с последующим хранением, поиском и извлечением нужной информации. Это связано с тем, что в рамках предлагаемого подхода классифицируются не только слова языка, но и когнитивные факты. Предлагаемая классификация слов может служить инструментом для удаления из текста семантического шума и представления предложений в приведенном виде, что может практически использоваться в системах машинного перевода.

Достоверность и обоснованность

Достоверность и обоснованность результатов диссертации определяются:

— Сопоставлением основных положений работы с решением аналогич
ных задач другими исследователями.

- Построением реальных авторских классификаций сем, слов и предло
жений естественного языка.

— Практической апробацией программных продуктов для полуавтомати
ческой и автоматической генерации осмысленной речи, в том числе на незна
комом языке.

- Практическим использованием авторского пособия по составлению
фраз на незнакомом языке — словаря-разговорника.

Личный вклад автора

Все основные теоретические и практические результаты, изложенные в работе, получены непосредственно автором. В частности, предложен оригинальный метод практического представления семантики произвольных единиц языка, а также системы их классификаций. Метод основан на определении системы векторов семантических признаков, в частности, классификации слов и понятий естественного языка. Разработаны алгоритмы порождения естественного языка на основе предложенной классификации. Иллюстрируются алгоритмы и методы построения основных элементов естественно-языкового интерфейса на основе предложенной модели языка.

Апробация работы

Полученные результаты представлены на семинарах ИВМ СО РАН (2000-2003 гг.); на всероссийских семинарах «Вопросы теории и практики перевода», Пензенский государственный педагогический университет (Пенза, февраль 2002 и февраль 2003); на конференции молодых ученых ИВМ СО РАН (Красноярск, апрель 2002); всероссийской конференции «Вопросы тео-

-із-

рий и практики перевода», Сибирский технологический университет (Красноярск, март 2002); на специальном семинаре для преподавателей английского языка в Красноярском государственном педагогическом университете (Красноярск, апрель 2003).

Публикации

По теме диссертации опубликовано 8 работ, в том числе словарь-классификация слов и понятий английского языка «Комбинаторный разговорник».

Структура и объем работы

Диссертация состоит из введения, 4 глав, заключения и списка использованных источников. Основное содержание работы изложено на 151 странице текста, содержит 6 рисунков, 21 таблицу. Список используемых источников включает 97 наименований.

Основное содержание работы

Во введении дана краткая постановка задачи, обоснована актуальность темы диссертационной работы, даны постановка проблемы и краткое описание содержания диссертации. В первой главе представлено обоснование темы и задач диссертационной работы. Показана актуальность исследований в области формализации языка, а именно, его семантики, для построения систем анализа и синтеза речи. Эти исследования могут быть применены для создания естественно-языковых интерфейсов при решении таких задач как:

создание семантически ориентированных систем перевода;

создание систем автоматического реферирования, сортировки, хранения, поиска и представления информации;

обучение иностранным языкам и неязыковым дисциплинам с использованием программного обеспечения с естественно-языковым интерфейсом.

Также в первой главе выполнен сравнительный анализ существующих подходов и методов анализа семантики языка. Показано, что несмотря на наличие самых глубоких исследований языка в самых различных его аспектах, в настоящее время отсутствует единая теория семантики языка, которая бы представила множество всех единиц языка как один объект - множество классификаций со своими свойствами и единообразным доступом к любому его элементу. Это объясняет оторванность многих глубоких исследований семантической структуры единиц языка от программной реализации, обеспечивающей простой и ясный естественно-языковой интерфейс. Исследована проблема построения семантических классификаций и анализа структуры слова. Показано, что на сегодня не были сформулированы принципы построения произвольных понятий и не создана их единая классификация по универсальным признакам, актуальна проблема построения и множества семантических классификаций - от текстов и слов вплоть до сем и единого кванта смысла. Такой подход позволит релизовать представление достаточно больших пластов лексики в визуальной форме во взаимодействии «программное обеспечение — пользователь». В заключении первой главы сформулированы задачи диссертационной работы.

Во второй главе излагаются общие принципы построения классификаций слов и высказываний естественного языка. Показано, что любому понятию естественного языка сопоставляется смысловое определение на основе общего для единиц одной классификации вектора признаков, где каждое слово однозначно определяется комбинацией значений элементов этого вектора. Множество объектов, отношений и их отрицаний составляют формальную систему смыслового определения любого слова. При этом для всех единиц языка в рамках одной классификации можно получить единую формулу объектов и отношений, общую для всех слов языка, где каждое слово отличается от всех остальных уникальным набором отрицаний (или утверждений) внутренних семантических объектов или отношений. Последовательность отрицаний за-

дает вектор семантических признаков, описывающих основное семантическое значение любого слова. Вектор семантических признаков однозначно задает классификацию любых языковых единиц, которая может быть представлена либо в виде многомерного куба, либо в форме дерева классификации с одним классификационным признаком на каждом уровне. В этой же главе показано, что изменение последовательности составляющих вектора дает различные древообразные классификации, которые можно представить в форме различных словарей: словаря гиперонимов (общих и частных значений слов), словаря ассоциаций, комбинаторных словарей и т. д. Показано также, что для каждого уровня языка определяется своя семантическая классификация, свой семантический вектор и своя семантическая формула. Вместе они образуют последовательности классификаций, векторов и формул разного уровня. Во второй главе указывается на то, что представление классификаций в форме упорядоченного множества открывает большие перспективы в создании интерфейсов для решения задач построения фраз на незнакомом языке, поиска информации в базах данных и осуществления машинного перевода на основе представления высказываний в приведенном виде и использования подстановочных таблиц для обеспечения осмысленности фраз.

В третьей главе показывается практическая осуществимость построения предложенного вектора классификации и выявляется диапазон его значений. Показана возможность задавать значения вектора признаков, определяющих понятийное пространство, включающее любые слова естественного языка. Представленный в работе словарь на 10.000 слов английского языка сопоставляет словам понятия естественного языка. Этот результат дает возможность оперировать осмысленными подмножествами понятийного пространства слов и понятий языка и представлять подмножества слов в рамках естественноязыкового интерфейса для эффективного взаимодействия программ с пользователем. В главе третьей указывается на то, что такого рода интерфейс может явиться посредником между естественным языком общения людей и языком

команд и запросов в программных системах. Можно комбинировать группы слов в подстановочные таблицы, позволяющие порождать осмысленные фразы языка. В этой же главе показывается, что подстановочные таблицы служат основой для построения простых и эффективных естественно-языковых интерфейсов, где выбор конкретной фразы языка доступен как компьютеру, так и пользователю, в результате чего достигается соответствие внутренней структуры данных, алгоритмов порождения языка и доступа к данным через естественно-языковой интерфейс.

В четвертой главе дано описание программного обеспечения для моделирования «табличного» естественно-языкового интерфейса. Дано описание и характеристики системы «Электронный словарь», предназначенной для электронного представления слов языка в виде семантической классификации. Иллюстрируются реализованные в этой системе алгоритмы составления и редактирования подстановочных таблиц и подбора материалов для урока английского языка. Предлагаемая программа прошла апробацию на уроках английского языка. К работе прилагается акт о внедрении программы в работу Образовательным центром «Аспект». В четвертой главе также описывается разработанная на базе классификации слов языка система «Электронный разговорник». Система использует подстановочные таблицы, генерируемые программой «Электронный словарь». Электронный разговорник позволяет автоматически генерировать семантически осмысленные фразы английского языка, что может быть использовано для тренировки понимания фраз английского языка учеником в некоторой речевой ситуации. Программа «Электронный разговорник» позволяет составлять предложения на незнакомом языке полуавтоматически на основе введенных в программу шаблонов — подстановочных таблиц, при этом налагается запрет на генерацию семантически бессмысленных фраз. Разговорник предназначен также для экспериментального моделирования и исследования сочетаемости фраз, взятых из последовательности подстановочных таблиц, в целях автоматической генерации не только осмыс-

ленных предложений, но и осмысленных текстов языка. Программа «Электронный разговорник» используется учащимися для закрепления знаний лексики английского языка.

В заключении перечислены результаты диссертационной работы, показаны дальнейшие направления исследования, сформулированы основные выводы.

В приложении приводятся примеры подстановочных таблиц, позволяющих генерировать осмысленные фразы в приложении к построению естественно-языковых интерфейсов.

Автор выражает искреннюю признательность в первую очередь научному руководителю, доктору технических наук Людмиле Федоровне Ноженковои за неоценимую помощь в описании и оформлении предлагаемой модели естественного языка и чуткое научное руководство. Кроме того, автор хотел бы особенно поблагодарить доцента кафедры английской филологии КГПУ, кандидата филологических наук Тамару Михайловну Кругликову за научное руководство исследованиями в 1991-1997 гг., а также кандидата физико-математических наук, преподавателя КГПУ Ю. Безгочеву за ценные замечания по результатам исследований в эти же годы. Автор также выражает глубокую признательность кандидату физико-математических наук С. В. Комо-горцеву, кандидату педагогических наук Н. В. Эверт, кандидату физико-математических наук С. А. Шикунову, кандидату технических наук А. Ю. Зиновьеву, а также кандидату физико-математических наук А. М. Кутьину за продуктивные дискуссии по вопросам формализации естественного языка.

Язык и речь, грамматика и семантика, другие предметы лингвистической науки и их применение в информатике

В языкознании, в частности, в семантике, изначально выделяются два основных предмета лингвистической науки - язык и речь. Под языком понимается представление о лингвистических единицах в целом, а под речью -знаковое выражение определенных частных представлений о реальности средствами языка. Язык с точки зрения инженерной лингвистики представляет собой множество всех допустимых фраз — сочетаний слов. Традиционное средство порождения языка — порождающие грамматики. В традиционной лингвистике под языком понимают набор слов, дефиниций, правил и принципов, по которым строится речь. Под речью же понимается последовательность знаков — вербальных и невербальных - письменной и устной речи. Язык в большей степени рассматривает классификацию языковых единиц, представляя собой некую статическую систему. Речь, напротив, явление динамическое, предполагающее творческие и порождающие акты.

Грамматика как лингвистическая наука на протяжении всего «оптимистического» периода в исследовании проблем искусственного интеллекта, с 60-х по 70-е годы, когда большинство исследователей верило в скорое создание искусственного разума, занимала ведущее место. Даже системы порождения фраз были названы порождающими грамматиками. С конца 70-х, начала 80-х годов зреет пессимизм в отношении перспектив прохождения машиной теста Тьюринга в принципе. Так, например, ведущие сторонники пессимизма в отношении перспектив искусственного интеллекта Дрейфус и Хьюберт развивают тезис, о том, что машина не может мыслить, поскольку для мышления требуется понимание, а понимания не может быть там, где понимать некому [34].

Американские авторы часто ссылаются на парадокс «китайской комнаты». В комнате сидит один человек, перед ним, в различных ящиках, должны лежать карточки с китайскими иероглифами, и, не зная значений написанных на них слов, но руководствуясь определенными правилами, этот человек должен составить поэму на китайском языке. По мнению многих специалистов, этот парадокс показывает нелепость попыток построения искусственного интеллекта. Многие оптимисты при этом стали утверждать, что создать искусственный интеллект возможно, но невозможно при этом понять, как он будет работать, и необходимо просто экстенсивно наращивать аппаратное обеспечение машины [2, 95], уподобляя ее по сложности человеческому мозгу, тогда якобы компьютер, за счет самообучения, сам построит непостижимые ячейки памяти и связи между ними, превзойдя более костный естественный интеллект [5, 10]. Пиотровский Р. Г., напротив, считает, что естественный интеллект всегда будет превосходить искусственный, поскольку, если мы создали искусственный интеллект, то мы понимаем все то, чем он является, и, стало быть, сами вмещаем в себя больше, чем искусственный интеллект, а именно, интеллект естественный [72].

Однако, тут можно возразить, что составители компьютерных программ, обыгрывающих гроссмейстеров, не обязательно должны сами уметь обыгрывать гроссмейстеров. На наш взгляд, главным для построения программ, моделирующих естественную речь, должен быть принцип максимальной простоты, даже кажущейся примитивности таких систем, позволяющих человеку настолько успешно рефлектировать собственную мыслительную активность, что он смог бы достаточно легко перенести ее принципы на «бездушные» машины без потери эффективности, но при сохранении «понятности» таких систем.

При этом уже сейчас основные надежды на прорыв в области искусственного интеллекта (ИИ) возлагаются на исследования в области семантики, а именно, предметной области на стыке лингвистической семантики, инженерной лингвистики, философии и психологии. Именно на недостаток философского осмысления понятийной организации мира списываются сегодня основные сложности в области искусственного интеллекта и, в частности, создании естественно-языковых интерфейсов, позволяющих пользователю ясно представить структуру как данных в целом, так и их отдельных фрагментов [75].

Первые прообразы современных словарей появились еще до 20 века до нашей эры. В середине первого тысячелетия они уже были во многом схожи с современными словарями. Наибольший размах составление словарей приобрело с появлением книгопечатания, но многие билингвистические словари европейских языков появляются только в XVIII — XIX веках, а словари малых народов и того позже. В советский период в России словарному делу и языкам малых народов уделяется особое внимание [18].

Что касается науки о составлении словарей и ее особого места в системе наук, то этот вопрос был окончательно решен лишь во второй половине XX века [86]. Некоторые из основных решенных лексикологией вопросов — это определение видов словарей, структуры словаря, и, в частности, структуры словарной статьи. Л. П. Ступин выделяет пять главных признаков деления словарей на классы. 1) Объект описания. По этому признаку словари делятся на энциклопедические и лингвистические. Первые, в отличие от вторых, объясняют не слова как таковые, а предметы, вещи, события, явления, которые обозначены словами. 2) Объем вокабуляра, количество слов в словаре.

Лексико-семантические варианты в языке и речи

Набор правил вывода в порождающих грамматиках представляет собой то же, что и множество сильных и слабых импликаций языка, с той лишь разницей, что грамматики приспособлены к математическому аппарату для работы на вычислительных машинах, а импликации делятся на более или менее вероятностные (сильные и слабые). Множество правил порождающей грамматики не является читабельным для простого пользователя, что делает порождающие грамматики черным ящиком, при этом усложнение их структуры, например, путем введения семантических падежей, делает их еще менее познаваемыми и предсказуемыми, что к тому же делает составление такого множества правил делом весьма долгим. По нашим оценкам количество правил порождающей грамматики, необходимых для задания фраз, получаемых из подстановочных таблиц, настолько велико, что их хаотичная с точки зрения семантики запись вряд ли может быть осмыслена. Упорядочение же семантической структуры делает излишней саму идею порождающих грамматик как множества, а не структуры правил.

В лингвистике слово считается центральной категорией. Анализом структуры его формы и значения, так или иначе, занимаются все исследователи языка и речи.

Современные представления внутренней структуры значения слов как совокупности элементарных составляющих сем ведутся в нескольких направлениях. Первое направление состоит в анализе семантического состава слов, то есть того, какие семы присутствуют в слове. Второе направление заключается в представлении внутренней структуры слова как совокупности всех его значений. В рамках третьего направления рассматривается взаимодействие сем, их поведение в речи и т.п.

Словарная дефиниция, таким образом, является системой синтагматически связанных понятий, а компонентный анализ сопоставляет слову неупорядоченное множество признаков. Предлагаемый в работе метод состоит в определении для слова вектора признаков, где каждый признак интерпретируется как продолжение характеристики слова новыми признаками, что позволяет представлять множество отношений над семами в виде множества признаков.

Рассмотрим, что представляет собой система компонентов значения с точки зрения выделения подклассов сем компонентным анализом. Наиболее важными в этой связи являются следующие понятия: ядро (интенсионал) и периферия (экстенсионал) значения, гипероним и гиперонимические признаки, обязательные и возможные элементы значения. К ядру слова относятся общие компоненты значений различных лексико-семантических вариантов (ЛСВ) этого слова, к периферии же относятся особые характеристики и оттенки значения, представленного ядром.

Гиперонимом называется основной признак, который можно отождествить с рассматриваемым словом учетом его конкретизации другим признаком. Например: слово «стол» обладает гиперонимом «опора». Гипероним этого слова вместе с отличительным признаком составляет понятие «опора для мелких предметов». При этом понятие «игровой стол» является особым лексико-семантическим вариантом слова. В самом общем виде «нечто» - гипероним любого понятия. При этом средства языка могут позволить составить множество конструкций со значением: «сущность, обладающая признаком «А». В этом случае любой признак можно представить как гипероним. Например, гиперонимом слова «молоток» может быть не только понятие «орудие, которое ...», но также и понятие «предмет с твердым наконечником», «предмет с ручкой, который...» и т.д.

Таким образом, гипероним составляет ядро любого понятия. В ядро также включаются многие признаки, уточняющие значение этого гиперонима. В периферию слова включаются не обязательные вероятностные признаки этого слова, проявляющиеся в его отдельных значениях.

Например: «материальный объект» есть гипероним слова «коса» в трех его значениях. Первое значение этого слова относится к классу «волосы», второе значение — к классу «небольшой остров», третье — к классу «инструмент для срезания травы». Помимо понятия «материальный объект» в ядро этого понятия входит признак «длинный», подходящий для всех трех значений (лексико-семантических вариантов) этого слова. Понятия же «часть тела», «суша, окруженная водой» и «инструмент для срезания травы» находятся в периферии понятия «коса».

Проблема полисемии обусловлена именно тем, что за основу представления языка принимается именно форма слова, графическая или грамматическая. Идея упорядочения единиц языка в общем понятийном пространстве делает различные лексико-семантические варианты не «проявлениями» одной языковой единицы, а совершенно разными единицами языка, точками многомерного понятийного пространства. Выявление нужного лексико-семантического варианта (ЛСВ) является необходимой функцией ЕЯ интерфейса, поскольку полисемия единиц языка не позволяет однозначно интерпретировать их значение и обеспечить адекватное взаимодействие с пользователем. Предлагаемый в работе тип интерфейса на основе подстановочных таблиц позволяет решить эту проблему, поскольку соответствие фразы всей таблице, а не только одному ее элементу говорит о нахождении нужной интерпретации естественно-языковой информации.

Теперь остановимся на обязательных и возможных элементах значения слова. При этом любое высказывание можно привести к виду «А тождественно В», где под «А» подразумеваются все или некоторые «А», а под «В» - все или некоторые «В», например, фразу «большие уши» можно представить в виде фразы «некоторые уши суть большие объекты». Далее все высказывания можно разделить на четыре большие группы:

Множество отрицаний в определении классификации единиц языка

Классификация понятий языка представляется в форме дерева. Множество узлов дерева семантической классификации назовем понятийным пространством. Рассмотрим подробнее дерево классификации, вершинами которого являются единицы на выходе классификации, а единицы на входе классификации задают классификационные признаки. В дереве классификации выделяются уровни. На одном уровне классификации может быть только один классификационный признак. Признаки разных уровней составляют ряд (или вектор) признаков заданной классификации. Каждому признаку классификации соответствует множество возможных значений. Все признаки являются сложными, каждый из них состоит из конечного числа смысловых компонентов. В свою очередь, каждая из смысловых компонент является узлом другой классификации — меньшего масштаба. Семантическая классификация понятий строится на основе классифицируемых сем - «атомов смысла», составляющих структуру смысла слов.

Будем исходить из базового предположения, что язык представлен двумя аспектами, семантическим и формальным, обозначим их соответственно Pj и Рг. Каждый аспект можно представить в виде последовательности классификаций: геносем, сем и графем, слов и понятий, фактов и высказываний, соответственно обозначим их через D0, Di, D2, D3. Обозначение P«.Dp будем интерпретировать как классификацию (3 по аспекту а .

Классификации семантического аспекта: 0. Po.D0: Геносемы — специальные служебные самые мелкие смысловые единицы (объект, отрицание, тождество, равенство и т.п.), позволяющие интерпретировать более сложные единицы языка; 1. Po-Di: Семы - атомы смысла, составляющие структуру слов и понятий (существо, место, внутри, имплицировать и т.п.); 2. P0.D2: Понятия — смысловые единицы, соответствующие словам (дом, телефон, дружба, вещество и т.п.); 3. Po.D3: Факты - элементы знания из различных областей, факт - это некоторое утверждение, о котором можно говорить, что оно истинно или ложно, формально факт представляется как высказывание или предикат. Классификации формального аспекта опираются на синтаксическую структуру языка: 1. Po-Dj: Графемы - буквы языка; 2. Po-D2: Слова с их морфологической структурой для конкретного языка; 3. P0.D3. Высказывания — предложения в связном тексте. [53-57]. Семантический и формальный аспекты языка тесно связаны. Высказывание формально выражает некоторый факт, понятия выражаются словами, плановый язык должен в перспективе сопоставлять графемам слов семы, составляющие значения этих слов. Геносемы не соответствуют никаким формальным единицам языка и служат для выражения элементарного смысла. Каждая из перечисленных классификаций семантического и синтаксического аспектов имеет форму дерева. Обозначим уровни дерева классификации Qk , каждому из них соответствует один признак Gk вектора G признаков классификации: где Pa.Dp.QY — уровень Qy дерева классификации Dp аспекта Pa, а Pa.Dp.Gy — значение Gy вектора G дерева классификации Dp аспекта Pa. Вектор признаков Pa.Dp.G = Pa.Dp.Gb Pa.Dp.G2, P«.Dp.G3 ... Pa.Dp.Gy представляет собой последовательность признаков. Множество значений признака GY обозначим {Gy , GY , ...}. Каждое значение Gy является строкой символов — элементов этого значения, пусть Gy = Є1Є2...Є/. Множества строк GY; є {Gy1, GY2, ...} задаются перечислением, или при помощи порождающей грамматики. Каждый символ БЧ- значения признака вектора Pa.Dp.G является узлом предшествующей классификации eq = Pa.Dp.QYj(p, где QYjq) - у-й узел дерева ф-го уровня классификации Pa.Dp. Рассматриваемые в предыдущих параграфах множества смысловых единиц А, В, С,... являются единицами на выходе в последовательности классификаций, например: А -» Pa.Dp, В -» Pa.Dp+i, С - Pa.Dp+2.... Элементы множеств А, В, С,... соответствуют узлам соседних классификаций. Каждой семантической единице языка может соответствовать множество формальных единиц языка (синонимов): Pa.Dp.QY q) — { Pa+i-Dp-Qxco} , где т = 1, 2,3,..., со = 1, 2, 3,..., и наоборот, каждой формальной единице языка может соответствовать множество семантических единиц языка (значений и омонимов): и Pa+i.Dp.QTa) -» { Pa.Dp.QY)4)}, где у = 1, 2, 3,..., ф = 1, 2, 3,..., то есть имеет место отношение «многие ко многим».

Состав и структура системы «Электронный словарь»

Объединение единиц языка в классификацию дает, по существу, очередной плановый язык межнационального общения типа Эсперанто или языка Волапюк, что вряд ли найдет широкое применение, даже при всей логичности, строгости и законченности предложенной классификации. Хотя этот язык отличается чрезвычайной краткостью и лаконичностью, например, 60 букв фразы на этом языке (названном языком «oi» или «oig», что в переводе означает «то, на чем я сейчас говорю»): «ii ita U Al. ai qunp ziod. pU udl epU pa jugi. pU ita hal ilig. pU udE ugn ii Et U olE» переводятся следующими русскими фразами из 109 букв: «Я знаю этого человека. Это - молодой строитель. Он работает здесь пять лет. Он знает много языков. Он может помочь нам прочитать эту книгу».

В языке oi слова сами по себе не имеют определенного конфессионального значения, заранее определенный смысл имеют буквы-звуки этого языка, обладающие определенным значением в зависимости от позиции в слове. Выучив около 100-200 основных значимых букв, изучающий язык должен научиться комбинировать их в слова, а слова в предложения.

Сопоставление фонетико-графической и семантической классификации позволяет получить язык, удобный для кодировки значения слов и групп слов в словаре-классификации понятий и соответственно Smart таблицах. Приведем пример слов со своей кодировкой из группы слов «здания». Здание - (o-zz-A) Больница — (.. .)(L-(u-A-o- (o-zz-A)))

Госпиталь - (...)(.. .)(N- (we-F-we)) Санаторий - (...)(.. .(aaii)) Пункт питания - (u-A-o- (o-dd-А)) Ресторан - (.. .)(1- (oog)) Столовая - (..)(n- (oog)) Бар - (...(mm, u-A-O)) Здание для действий с одеждой — (u-A-o- (o-gg-A) Прачечная- (...(о- (o-N)-kk-o)(l-q-0)) Ателье-(...)(l-f-(0-q-l)) Данная кодировка позволяет очень компактно записывать значения слов в виде логико-лингвистического кода.

Под гиперонимом в лингвистике принято понимать более общее по значению слово, например, слово «родитель» по отношению к слову «отец» и слово «животное» по отношению к слову «кошка» являются гиперонимами.

Словарь порождения высказываний состоит из групп слов, комбинаторно сочетающихся друг с другом. Порядок расположения слов в этом словаре зависит от того, в какой последовательности расположены признаки, определяющие деление слов словаря на подклассы. Основные последовательности признаков определяют основные разновидности словаря порождения высказываний, в число которых входит три вида словарей: описываемый выше словарь гипонимов, тематический словарь и словарь дефинонимов. Словарь гипонимов показывает, какое понятие языка является общим, а какое частным, так, например: понятие «действие» соответствует более частному понятию «действие с идеей». В свою очередь, еще более частными понятиями являются понятия «степень уверенности» и далее группа антонимов: «утверждать», «верить», «допускать», «сомневаться», «отрицать», образующих шкалу по степени уверенности (количественный признак). Словарь гипонимов может быть использован для определения того, может ли одно понятие быть тождественным другому. Так. например, понятие «верить в А» вряд ли может означать «сомневаться в А», и «утверждать А» - никак не может означать «отрицать А», как говорил Аристотель «в одно и то же время, в одном и том же месте, в одном и том же смысле». На основании той же классификации можно заключить, что «яблоко» может являться «десертом», но не может являться «одеждой». Таким образом, можно отождествлять не только верхний и нижний узлы классификации (все А суть В), но и параллельные узлы разных уровней классификации (некоторые А суть некоторые В).

Тематический словарь представляет собой иное расположение групп слов словаря гипонимов. Те слова, которые успешно сочетаются друг с другом, образуют особые группы слов. Например, «глаголы движения» сочетаются с группой «места»: «Я еду в горы», «Он прибыл к морю». Множества групп слов, хорошо сочетающихся друг с другом, образуют темы. Сочетания групп слов могут быть валентностными, например, «едоки», «операции с пищей», «еда», и не валентностными (ассоциативными), например, «еда» и «здания для еды». Как в первом, так и во втором случае, эти группы слов выявляют связи слов в тексте, например: «Мы плотно поели. Кафе было роскошным. Официанты были очень обходительны». В этой фразе слова «плотно», «есть», «кафе», «официанты» относятся к одной теме «еда», что делает эти три грамматически не связанных предложения связанными по смыслу, (в противоположность следующим трем высказываниям: «Мы плотно поели. Парикмахерская была роскошной. Строители были очень обходительны»). Итак, если словарь гипонимов показывал соотношение общего и частного на множестве слов и понятий языка, то тематический словарь выводит на первый план той же самой классификации синтагматические и ассоциативные отношения между словами. Структура тематического словаря заключается в сопоставлении первому уровню классификации уровня больше пяти и далее — классификаций уровня меньше пяти:

Методы и средства порождения семантических конструкций естественно-языковых интерфейсов программных систем Личаргин Дмитрий Викторович

Язык и речь, грамматика и семантика, другие предметы лингвистической науки и их применение в информатике

Лексико-семантические варианты в языке и речи

Множество отрицаний в определении классификации единиц языка

Состав и структура системы «Электронный словарь»

Похожие диссертации на Методы и средства порождения семантических конструкций естественно-языковых интерфейсов программных систем