Содержание к диссертации
Введение
Глава I. Использование естественного языка (ЕЯ) в системах переработки информации 10
1.1. Сферы применения ЕЯ в автоматизированных системах 10
1.2. Семиотическая структура естественно-языковых текстов 17
1.3. Вопросы алгоритмизации процессов обработки ЕЯ сообщений в диалоговых системах 21
1.4. Особенности предлагаемого подхода 45
Глава 2. Принципы построения и основные процессы адаптивной системы естественно-языкового диалога (АСЕД) 49
2.1. Основные принципы построения и функциональная структура ...49
2.2. Состав словарной информации 53
2.3. Обучение языку диалога , 58
2.4. Организация знаний 60
2.5. Анализ входных сообщений и адаптация к языку диалога 62
2.6. Синтез ЕЯ сообщений 67
Глава 3. Организация знаний на основе пирамидальных сетей 70
3.1. Семантические сети в системах ЕЯ диалога 70
3.2. Алгебраическое описание пирамидальных" сетей 77
3.3. Алгоритм формирования пирамидальной сети 88
3.4. Семантическая сеть пирамидальной структуры 99
Глава 4. Построение и использование пн обработке ЕЯ сообщений модели проблемной области (МПО) и модели языка диалога 107
4.1. Схема формирования МПО 107
4.2, Формирование модели проблемной области ПО
4.3, Формирование модели языка диалога 117
4.3.1. Формирование лексики языка диалога 120
4.3.2. Сбучение распознаванию осмысленных слов 123
4.3.3. Сбучение распознаванию осмысленных словосочетаний 125
4.4. Обработка ЕЯ сообщений с использованием МПО и МЯД 131
Глава 5. Вопросы программно реализации АСЕД 143
5.1. Принципы программной реализаоди и архитектура 143
5.2. Взжимы работы и возможности реализащш 151
5.3. Прикладные задачи и эксперименты 156
Заключение 160
Литература 162
- Вопросы алгоритмизации процессов обработки ЕЯ сообщений в диалоговых системах
- Анализ входных сообщений и адаптация к языку диалога
- Алгоритм формирования пирамидальной сети
- Сбучение распознаванию осмысленных словосочетаний
Введение к работе
Цель и задачи работы. Современный этап научно-технического прогресса характеризуется интенсивным внедрением средств вычислительной техники буквально во все сферы производственной, управленческой и социальной деятельности общества.
Расширение сферы применения ЭВМ привело к выявлению класса сложных творческих задач проектирования, управления, научных исследований, полная априорная алгоритмизация которых в настоящее время затруднительна. Основным способом решения таких задач явля^-ется автоматизированный режим с использованием человеко-машинного диалога [38f39,f&5j* В связи с этим значительное место уделяется созданию программных средств обеспечения диалога пользователей с ЭВМ* Разрабатываются специальные языки диалога и создаются человеко-машинные системы, ориентированные на различные категории непрофессиональных пользователей [^7f/&f79j л Предлагаются специальные языки программирования, ориентированные на разработку диалоговых процедур, и создаются инструментальные системы автоматизации программирования диалоговых процедур $3,#5, №] %
Актуальным направлением решения проблемы эффективного общения непрофессиональных пользователей с ЭВМ является разработка средств организации диалога с ЭШ на естественном языке (Ш)[37,%?ff06j, Богатство и сложность естественного языка затрудняют решение проблемы в полной мере. На практике же для общения пользователей с ЭВМ достаточно использовать лишь проблемно-ориентированна часть ЕЯ, В силу этого разумный подход заключается в разработке практически действующих систем, обеспечивающих общение пользователей с ЭШ на профессионально-ориентированном подмножестве ЕЯ с определенными ограничениями на допустимые конструкции языка общения.
Различным аспектам, связанным с проблемой алгоритмизации
процессов содержательной обработки естественно-языковой информа
ции посвящен ряд исследований [$-8гН-№,76~$9/м Предлагаются проекты
систем, обеспечивающих естественно-языковое общение пользователей
с различными автоматизированными системами [5*8t№JS,№$j* Большин
ство известных к настоящему времени подходов ориентированы на фик
сированные подмножества ЕЯ и обеспечивают общение в рамках доволь
но узкой проблемной области, благодаря чему упростилась алгорит
мизация задач, связанных с неоднозначностью интерпретации лексики»
синтаксиса и семантики языка общения. Ознако узкая специализация
таких систем затрудняет их широкое практическое применение. В пос
леднее время появились проекты, в которых возможна ва&тройка к
языку общения путем описания человеком соответствующей информации
на специальном языке представления лингвистической и семантичес
кой информации Разрабатываются метасистемы програм
мирования, позволяющие генерировать проблемно-ориентированные
программные средства естественно-языкового общения ffffff#9] .
Перспективным направлением является разработка систем,ЕЯ общения, механизмы обучения и адаптации которых позволяли бы настраиваться на обработку различных подмножеств языка/и?^^7y/S3f/S^
Дель^иссертагщонной^работы состоит в разработке и реализации методов представления и формирования знаний, обеспечивающих настройку системы ЕЯ общения на обработку различных подмножеств флективных языков научно-технического характера и автоматическую адаптацию к новым лексико-грамматическим средствам.
Многолетний опыт исследований в области алгоритмизации процессов обработки естественно-языковой информации, накопленный специалистами в области машинного перевода, прикладной лингвистики, информатики и лингвистического обеспечения АСЇЇИУ показал несостоятельность подходов, в которых делались попытки создания
универсальных методов обработки текстовой информации на ЕЯ без привлечения в целях обработки сведений о проблемной ойл&ъш&,Щ№8/Ци В связи о этим на первый план яри создании систем ЕЯ общения выдвигаются следующие задачи:
разработка алгоритмических структур систем ЕЯ общения, обеспечивающих использование при обработке текстов на ЕЯ информационных моделей языка общения и проблемной области;
развитие средств представления знаний о языке общения и проблемной области;
разработка штодов формирования внутрисистемных моделей проблемной области и языка общения;
разработка адаптивных методов обработки текстовой информации, настраиваемых на различные языки общения.
Из перечисленных задач особое значение имеет развитие средств представления знаний, от которых зависят все функциональные процессы систем ЕЯ общения.
В соответствии с общей целью исследования в диссертации решаются следующие вопросы:
разработка развитых средств представления знаний в системе о языке общения и проблемной области;
разработка средств адаптации и обучения, обеспечивающих настройку системы на обработку различных языков общения;
программная реализация средств представления и формирования моделей языка общения и проблемной области.
Научная новизна и практическая ценность. Научная новизна исследования заключается в следующем;
разработан метод представления знаний в системе ЕЯ диалога на основе формализма пирамвдальных сетей, обеспечивающий настройку системы на разные языки общения;
разработаны методы формирования модели проблемной области и обучения языку общения;
- разработаны методы автоматической адаптации системы к новым для нее словам и словосочетаниям при обработке входных сообщений языка общения*
Практическая ценность диссертации заключается в автоматизации процесса обработки текстовой естественно-языковой информации в системах переработки информации, вследствие чего отпадает необходимость в трудоемком ручном кодировании исходных данных и декодировании результатов для многих практических задач проектирования, научных исследований, робототехники и автоматизации обучения с помощью ЭВМ.
Результаты диссертации использованы при реализации программной системы ШШШ, выполнении: 3 научно-исследовательских тем Института кибернетики академии наук Украинской ССР да-131.001 (І977г.-І980г.), НГЕ-511,01(197Эг.^1982г.)., PIE-5I0.G2(l979r,-1982г J и 4 договоров о научно-техническом сотрудничестве с организациями министерств общего мапганостроения СССР, электротехнической промышленности СССР, просвещения УССР и Госстандарта СССР»
Апробация и публикации. Основные результаты диссертации опубликованы в 9 работах[2№3t39$Z-$%J и были доложены на Всесоюзной конференции "Методы математической логики в проблеме искусственного интеллекта и систематическое программирование" (г.Паланга, 1Э80гФ), 2-ом Всесоюзном совещании по робототехническим системам (г.Минск, 1981г.), 3-ей Всесоюзной конференции "Переработка текста методами инженерной лингвистики11 (г.Минск, 1983г.), Всесоюзном семинаре "Диалог в автоматизированных системах" (г.Москва, 1981г.), конференции молодых ученых Института кибернетики АН УССР (г.Киев, 1980г.), 2-ой Республиканской конференции "Автоматизация научных исследований" (г.Киев, 1981г.), конференциях РДэНТП по организации знаний и принятию решений в прикладных системах искусственного интеллекта (г.Киев, 1980г., І9Е2Г.), следующих семинарах Научного
совета АН УССР по проблеме "Кибернетика": "Вопросы эвристического моделирования" (1980т,); "Теория и практика проектирования ЭШ" (I98ft\); "Проблемы проектирования автоматизированных банков данных" (1Э81г«); "Лингвистические проблемы проектирования информационных систем" (1981г.); "Организация и обработка информации сложной структуры" (1982г.),
Структура диссертации. Диссертация состоит иэ пяти глав» заключения и приложений. В первой главе обсуздаются основные проблемы алгоритмизации процессов обработки текстов естественного языка, показано место средств естественно-языкового общения в системах переработки информации, приводятся сведения о современном состоянии работ в области создания естественно-языковых средств общения, обосновывается предложенный в диссертации подход. Во второй главе рассматривается алгоритмическая структура адаптивной системы естественно-языкового диалога (АСЕД) и описываются основные функциональные процессы системы. В третьей главе излагаются вопросы представления знаний на основе пирамидальных сетей, описывается вариант пирамидальной сети, используемый для представления в АСЕД моделей языка диалога и проблемной области. Четвертая глава посвящена рассмотрению процессов формирования и использования при обработке ЕЯ сообщений моделей проблемной области и языка диалога, описываются методы адаптации и обучения языку диалога. В пятой главе обсуждаются вопросы програшной реализации АСЕД, описывается архитектура программной системы ОИИМП и приводятся примеры формализации моделей проблемной области и языка диалога для прикладных задач, В заключении приводятся основные результаты проведенных исследований и рекомендации по их использованию. В прилокении помещены документы о внедрении результатов диссертации и примеры решения прикладных задач.
Диссертаїщонная работа является самостоятельной частью коллективного исследования по разработке программных средств естественно-языкового общения, выполняемого под руководством В,П. Гладуна в лаборатории адаптивных информационных систем Института кибернетики АН УССР. В разработке и программной реализации средств естественно-языкового общения принимали участие В.П. Гладун, Т.П. Довгялло, Ю.М. Зверев, И.А. Сакунов, А.Л. Яворский (1978г.-1982г.), В.Н. Лопато (І978г.~І98ХгJ, Н.А. Черных (1980г. -1982г.)f И.А. Кириченко -(1982г.).
ШША I. ИСПОЛЬЗОВАНИЕ ЕСТЕСТВЕННОГО ЯЗЫКА (ЕЯ) В СИСТЕМАХ ПЕРЕРАБОТКИ ИНФОШАЦИИ
1Л# Сферы применения ЕЯ в автоматизированных системах
Автоматизированные системы переработки информации (АСПИ) образуют основу автоматизации процессов проектирования и имитационного моделирования сложных технических объектов» принятия ре-шений, научных исследований, а также служат целям информационного обслуживания перечисленных процессов [8№,$S,$e,$f,68,7fj76,f2$jt
К одной из актуальных проблем в области разработки информа^ ционно-лингвистическото обеспечения АСПИ относятся вопросы развития языковых средств общения. Языковые средства предназначаются для отображения и информационного представления в АСПИ объектов, явлений и процессов внешней среды и включают языки для представления информации в ЭВМ, обращения на ее обработку, языки программирования и т.д. {SfJ .
В настоящее время наметилась тенденция к расширению использо-' вания ЭШ для переработки информации качественного характера, представленной в естественно-языковой форме. В связи с этим в АСПИ выделился класс автоматизированных систем переработки естественноязыковой информации (АСПЕИ), объектами ввода, накопления, обработки, хранения и вцдачи которых являются тексты на ЕЯ.
АСПЕИ являются составными компонентами автоматизированных систем различного назначения, таких как (Рис. 1*1):
1ш Системы автоматизированного проектирования (САПР) и имитационного моделирования (СИМ) сложных технических объектов. В частности, обработка ЕЯ информации необходима в автоматизированных системах конструкторского (АСКП) и технологического (АСЇЇІ) проектирования, автоматизированных системах информационного
жотшшозктм слеша
ЇЇЕРЕРАНЗОТ ЕЯ ИБЮРМАЦИИ
системы формалшой переработки eh ившрмащш
СИСТЕМИ , СНМАНГИЧЕСЮЙ ПЕРЕРАБОТНИ ЕЯ ШШШИИ
Системы ав-гоматкзир, проектирования и имитащон. моделирования
Автоматиз
системы
научных
исследова'
Автоматна -системы организационного
управления
Автоматиз. системы научно-технической информации
Системы автоматизации переводческой деятельности
Ансомавив.
обучающие
системы
Интеллектуальные рещатели задач
РтЛЛ. Основные области использования систем гтереработки
естественно-языковой информации.
обеспечения разработок (АСИ0Р)^Л?/<2 Примерами подобных систем могут служить проблемно-ориентированная система имитационного моделирования на естественном языке (ПОСИМЕа) дискретных процессов [Ю и автоматизированная система синтеза новых технических решений [Ш].
2* Автоматизированные системы научных исследований (АСНИ) в области описательных наук, таких как геология, экология» языкознание //0,/^^7. К атому типу относится, например, автоматизированная информационно-логическая система (АШГС) в области геологии 0 .
3. Автоматизированные системы организационного управления
(ACG7), включающие интеллектуальные вопросно-ответные системы,
используемые в информационно-справочном и информационно-советую
щем режимах автоматизированные системы диспетчерского
управления (АСДУ) и др. Например, диалоговая информационно-спра
вочная система для планирования и управления на транспорте
(ДИСПУТ) [№]f диалоговая автоматизированная система принятия ре
шений (ДАСПР) 7/J .
4* Автоматизированные системы научно-технической информации (АСНТИ), к которым относятся системы автоматического или автоматизированного реферирования (САР) и индексирования (САй) научно-технических текстов, системы автоматизации редакционно-издатель-ских (САРИР) и информационных (САЙР) работ, документальные (ДЙПС) и фактографические (ФИПС) информационно-поисковые системы с доступом на Ж$,69№№Д& Типичными пред ставите ляшт подобных систем являются информационно-поисковые системы БИТ и АСІЩЦ 63, №2}\ системы автоматического индексирования ЭСАЙТ/^уи ПСИХЕЯ//^, система автоматического реферирования ТЩІД/ІЇ?$
5* Системы автоматизации переводческой деятельности (САПД), включающие системы машинного перевода (СИЛ), а такие двуязычные
- ІЗ-
и многоязычные автоматические словари/"80,90/. Например, системы французско-русского перевода ФР-IlfSOj, ФРАП[90] , ЭТАП-I f5J » автоматические англо-русские словари APMACf/377-и АМПАР[/02], многоязычный автоматический словарь МУЛЬЗИЛЕКС 50J.
Автоматизированные обучающие системы (АОС), предназначен-ные для автоматизированного обучения людей в области профессиональной деятельности и образования[45, (35] - Представителями подобных систем» обеспечивающих общение с пользователем на ограниченном ЕЯ, являются система проектирования и ведения обучающих курсов ОИ(Ег-11РШТ[$5] ж обучающая система КОНТАКТ [97J..
Интеллектуальные решатели задач (ИРЗ) по формулировкам на естественном языке. К этим системам относятся системы планирования действий (СЩ)[105] , системы автоматизации доказательств (САД)[37], системы обнаружения закономерностей[J3IJ . Примерами являются система автоматизации доказательств в математике САД[65], диалоговая информационно-логическая система ДШЕОС [1Ь] > система автоматического синтеза программ HPH3[6?J , система принятия решений интегрального робота PULF-2 [158] , система планирования действий ЭПРОС [52].
По виду обработки естественно-язнковой информации существующие АСПЕИ можно разбить на системы формальной переработки информации и системы содержательной (семантической) переработки инфор- ' мации. К первым относятся системы различного рода статистической обработки ЕЯ текстов* такие как системы реферирования, кздексиро-вания и поиска, основанные на частотных и других формальных кри-териях/"^, №5] , автоматические словари и системы машинного'перевода, в которых не используется при обработке семантическое представление (СемП) текстов[%Щ $0] « Ко вторым относятся те системы, в которых необходимо автоматическое либо автоматизированное выявление и отображение в памяти системы смысловой структуры
текстов в целях прагматической обработки, определяемой конкретным их назначением. К таким системам относятся прежде всего интеллектуальные вопросно-ответные системы и системы диалогового общения на ЕЯ, используемые в составе АСНИ, САПР, АСШ", семантически ориентированные ИПС и СМП. Примерами семантических АСПЕЙ являются ИПС ШЇ 63]9 система французско-русского перевода ФРАЇЇ pQj 9 информационно-логическая система ДШІ0С №] 9 система взаимодействия с базами данных на ЕЯ ЗАПСИБ 96]% многоцелевая интеллектуальная вопросно-ответная система WtBC&f09jf система автоматизированного общения с базами данных САОБД $2]% адаптивные лингвистические процессоры TWIPS-2 88]* ROBOT i5*]%
Обобщенно процесс переработки информации в АСПЕЙ может быть представлен в виде совокупности трех основных процессов (ftic, 1,2): ввода исходной информации в ЕЯ форме, прагматической обработки информации и вывода результирующей информации в ЕЯ форме #/,7Фг7б]9 В процессе ввода ЕЯ информации осуществляется анализ входных ЕЯ текстов, т.е. преобразование ЕЯ формы представления в представление на формальном внутрисистемном языке (<5Я). В качестве формальных языков могут выступать информационные языки в ИПС, САЙ и САР, языки проектирования в САПР, языки представления знаний в ИРЗ и т.д. Содержание процессов прагматической обработки информации, представленной в форме Ш, определяется назначением и функциями конкретной системы переработки информации. В качестве таких процессов могут выступать процессы вывода ответа в вопросно-ответных системах, процессы синтеза технических решений в САПР, процессы поиска последовательности решения в ИРЗ. Поскольку процессы прагматической обработки целесообразно в ряде случаев выполнять в интерактивном режиме совместно с пользователем, необходимо иметь возможность диалога человека с АСПЕМ на ЕЯ V19 76]\ в режиме диалога АСПЕИ воспринимает от пользователя запросы» команды и
ВНЕ ШНЯЯ.СРЕДА
ГГ
і 1
ПОЛЬЗОВАТЕЛЬ
Текст
на ЕЯ
Сообщение на ЕЯ
Текст
на ЕЯ
С И С
ТЕМА ЕСТЕ
С Т BE
ННО ЯЗЫКОВ ОБЩЕНИЯ
ОГО (СЕ О)
ВВОД ИСХОДНОЙ ИНФОРМАЦИИ НА ЕСТЕСТВЕННОЙ ЯЗЫКЕ
ДИАЛОГ НА ЕЯ В ПРОЦЕССЕ
ПРАГМАТИЧЕСКОЙ
ОБРАБОТКИ
ВЫВОД РЕЗУЛЬТИРУЮЩЕЙ ИНФОРМ. НА ЕСТЕСТВЕННОМ ЯЗЫКЕ
Сообщение на ФЯ
Информация
на ФЯ
ПРАГМАТИЧЕСКАЯ ОБРАБОТКА ИНФОРМАЦИИ, ПРЕДСТАВЛЕН^
НА ФОРМАЛЬНОМ ЯЗЫКЕ (Ш)
. Иттфпрматпгст
на #Я
Рис. 1,2, Обобщенная схема системы семантической переработки ЕЯ информации
сообщения в ЕЯ форме и выдает промежуточные результаты прагматической обработки. Вэзультаты прагматической обработки, представленные на формальном языке, преобразуются при необходимости в естественно-языковую форму и вьщаются пользователю, т.е. синтезируется соответствующий ЕЯ текст. Разумеется, не все из перечисленных функций использования ЕЯ применяются в системах, относящихся к классу АСПЕИ. Однако, критерием принадлежности автоматизированной системы к АСПЕИ является наличие хотя бы одного из процессов ЕЯ обработки: анализа текстов, синтеза текстов или диалогового взаимодействия на ЕЯ в процессе прагматической обработки. Компонент автоматизированной системы переработки ЕЯ. информации, обеспечивающий автоматизацию процессов анализа текстов, синтеза текстов и диалогового взаимодействия с пользователем на ЕЯ, назовем системой естеотвенно-языкового общения (GEO).
При алгоритмизации и программной реализации GEO в составе различных прикладных систем возникает с одной стороны много сходных по своей природе вопросов лингвистического, алгоритмического и программного характера, а с другой стороны необходимо выполнение рода тактико-технических требований, специфических для каждой реализуемой системы. Б связи с этим представляется целесообразным разработка и реализация проблемно-ориентированных систем ЕЯ общения, пригодных для использования в составе систем переработ- . ки информации с близкими требованиями к процессам переработки ЕЯ информации^ ф/, 7#J Актуальной областью применения программных средств естественно-языкового общения являются диалоговые системы, к специфической особенности которых относится возможность использования языка с некоторыми ограничениями на лексику и грамматику. Предлагаемая диссертационная работа посвящена исследованию методов построения программных средств ЕЯ общения, ориентированных на использование в диалоговых системах.
1.2. Семиотическая структура естественноязыковых текстов
Естественный язык является универсальной семиотической системой» выполняющей разнообразные функции: функцию сообщения информации (коммутативную), функцию побуждения говорящего к слуша^ нию (аппелятивную), функцию установления контакта со слушающим (фатическуга), функцию выражения знаний говорящего (эмотивную)[М9]* В отличие от искусственных языков, естественный язык не строится по четкой логической схеме. Его особенностью является возможность выражения одного и того же смысла разными словами и словосочетаниями. Перифраза является источником богатства естественного языка. Изменяя синтаксическую структуру фразы ж производя синтаксические замены, можно выразить один и тот же смысл разными способами [т].
Если рассматривать множество всех языков (как естественных, так и искусственных), для каждого из них можно выделить классы структурных элементов, несущих смысл. Такими элементами являются морфемы, слова, предложения, тексты. По отношению структуры этих элементов к смыслу можно ввделиіь языки трех типов. Б языках первого типа смысл не связывается с элементом, а просто ему приписывается, и не зависит от смысла входящих в элемзнт частей. Язык первого типа неудобен для понимания, так как невозможно представить смысл любого нового текста. Примером может служить язык дорожных знаков. В языке второго типа смысл сложного элемента однозначно определяется по смыслу входящих в него базовых элементов - слов или морфем. Смысл базовых элементов жестко зафиксирован. Такая семантическая .структура характерна для машинных языков (например программирования). Языки этого типа дают возможность понимать новые тексты, но они очень громоздки из-за того, что нельзя менять
сдасл слов. Языки третьего типа более удобные, Б них так же» как и в языках второго типа, сішсл фразы шш текста сводится к смыслу входящих в него слов, но смысл слова не фиксирован жестко, хотя имеется что-то общее во всех значениях слова. Смысл слова конкретизируется в контексте, в зависимости от окружающих его слов, т.е, в определенной коммуникативной ситуации. В естественном языке элементарный смысл несут не слова, а морфемы. Исходя из этого можно образовывать слова, которых не было в языке, ж тем не менее смысл их заранее определен. Таким образом существует закономерность употребления морфем и олов. Это позволяет предсказать их смысл в новых коммуникативных ситуациях [121,4^0] *
Текст есть реальное воплощение языка как средства общения. Отношение языка и текста таким образом есть отношение средства я его применения f/07« Одним из исходных понятие текста является знак. Под эйакейл будем понимать чувственно воспринимаемый объект, который условно представляет некоторый предмет, явление» свойство, связь жлж отношение предметов, явлений и свойств /ЗР,/% Иными словами знак - это форма фиксации содержания знания и средство передачи содержания информации. Зяементарным (базошод) знаком считается наименьшая единица языка, имеющая значение. Знаки, составляемые из элементарных знаков по правилам синтаксиса образуют тексты, С точки зрения семантики знак обозначает денотат и выражает кош^епт, Оцин и тот же денотат может иметь несколько словесных обозначений - явление синонимии знаков, с другой стороны, одно и то же слово может обозначать несколько денотатов - явление омонимии и в каждом из этих случаев оно будет шлеи» свое значение (концепт). Основной характеристикой знака является его значение, Значеіже знака - это содержание, закрепленное за ним в определенной лексико-семантической системе ЕЯ (результат социального опыта) [149]* Таким образом, значение знака (слова) определяется
употреблением его в некоторой знаковой системе - языке и знак может иметь в этой системе несколько значений. Конкретное значение слово (знак) приобретает в лингвистической системе другого уровня -тексте, высказывании, предложении» т.е. в определенной речевой (коммуникативной) ситуации. Включенное в текст слово приобретает конкретное значение t определяемое речевой ситуацией, В отличие от каг-тегории "значение"» "смысл" - семантическая категория текстового уровня. Смысл непосредственно связан с текстом. Смысл - это отражение в семиотической системе содержания связей и отношений мевду предметами и явлениями реального мира.
Знак имеет двойственную - статическую и динамическую функции. В первом случае знак имеет два плана: план выражения и план содержания; во втором случае в знаке обнаруживается третий план - план интерпретации знака получателем (сфера прагматики). Длан_внраженші языка - это совокупность структурных элементов, определяющих строение внешней стороны речевых отрезков. Шг^_с^це|йїаяия языка (ют его семантическая структура) - это совокупность структурных элементов, определяющих строение внутренней (семантической) стороны речевых отрезков/"////. Знак в статике - это текст, фиксирующий некоторое знание. Знак в динамике (в процессе коммуникации) - это со-общение, несущее потенциально некоторую информацию.
Знание есть результат, с одной стороны осмысления субъектом взаимосвязей предметов и явлений объективного мира (внутреннее знание), с другой - выражения этих взаимосвязей в знаковой форме (внешнее знание). Передача знания в процессе коммуникации осуществляется следующим образом. Коммуниканты (отправители сообщений) порождают высказывания, в которых выражаются, фиксируются их внуоч ренние знания о каком-либо фрагменте (ситуации) реального мира. Эти высказывания в виде сообщений, несущих уже внешнее знание, поступают к реципиентам (получателям) сообщсний[739/. Если в этих
сообщениях содержатся знания, способные изменить структуру тезауруса (внутреннего знания) получателя, сообщение становится информационным. Информация, составляющая некоторую часть знания, содержащегося в сообщении превращается снова во внутреннее знание, но уже получателя. Для отправителя таким образом знак выступает в качестве высказывания и его оценка ведется им с точки зрения содержательности» Для получателя знак выступает в качестве сообщения и его оценка ведется с точки зрения количества содержащейся в сообщении информации, т.е. насколько имеющиеся в нем знания удовлет^-воряют информационную потребность получателя /^^
1.3. Вопросы алгоритмизации процессов обработки ЕЯ сообщений в диалоговых системах:
К настоящему времени в рамках исследований по теоретической и прикладной лингвистике [%%52] > информатике [№*7$] , машинному пере воду/ЗД 90] * лингвистическому обеспечению №Ш$5ііїО] и искусственному интеллекту /^^/^/предложены различные подходы к формализации и алгоритмизации процессов обработки естественно-языковых текстов. Особенности предлагаемых в каждой из перечисленных областей методов обусловлены прежде всего различными целями и объектами формализации. Если в лингвистике естественный язык рассматривается во всем его многообразии и сложности, то методы обеспечения ЕЯ диалога ориентированы на реализацию практически приемлемого для пользователей взаимодействия с ЭВМ на языке с достаточно четко очерченной семантикой и, возможно, с некоторыми ограничениями на допустимые грамматические конструкции [*&]* Указанное отличие второго направления позволяет применять в днаг-логовых системах более простые и "грубые" методы лингшстичеккой обработки, обеспечивающие возможность эффективной реализации на современных ЭВМ.
Разработчики первых систем ЕЯ диалога полагали, что основные трудности автоматизации обработки текстов лежат в самой лингвистике. Однако, опыт построения первых таких систем показал, что успешная смысловая обработка текстов невозможна без соотнесения соответствующих текстовых единиц со сведениями о проблемной области. Вследствие этого изменился взгляд на алгоритмическую структуру таких систем и принципы их построения [SfW8j. Опин из важных принципов построения систем ЕЯ диалога зашпочается в том, что процессы смысловой обработки ЕЯ сообщений основаны на знаниях, отображающих внутреннее системное представления о языке диалога ж
проблемной области. В таких системах возникает ряд аспектов рассмотрения, связанных с представлением и отображением знаний о языке диалога и проблемной области. К ним прежде всего относятся следующие: I) степень полноты и подробности описания моделей проблемной области и языка диалога; 2) форма представления зна^ ний, обеспечивающая эффективное функционирование системы естественно-языкового диалога [105,109] . В настоящее время наметилось два основных направления исследований по разработке систем Ей диалога» в которых по разному решается вопрос о степени подробности представления знаний. Первое направление связано с построением проблемно-ориентированных систем ЕЯ диалога с довольно поверхностным описанием проблемной области» а второе ориентировано на построение узкоспециализированных систем с исчерпывающим и подробным описанием проблемной области и языка диалога [Щ 15(] # Второй аспект рассмотрения связан о тем, в какой степени для вяутриеио- . темного представления моделей проблемной области и языка диалога используется процедуральная или декларативная форма представления. По отношению к форме представления знаний все системы ЕЯ диалога можно разбит на системы с процедуральным представлением знаний и системы с декларативным представлением знаний. В настоящее время наблюдается тенденция к интеграции этюс двух форм представления, т.е. использование декларативно-процедуральной формы представления знаний. Процедуральная форма характерна для узкоспециализированных систем ЕЯ диалога» поскольку она позволяет повысить эффективность реализации системы. С другой стороны декларативная форма представления знаний обеспечивает возможность перенастройки системы на разные языки диалога и проблемные области, что необходимо при реализации проблемно-ориентированных систем ЕЯ диалога.
К наиболее разработанным проектам систем ЕЯ диалога относятся
системы ПОЭТ, ДИЛОС, ДИСПУТ, ТОІ7С,'ЗАПСИБ, ДЕСТА, HGBOT и др.
Рассмотрим особенности некоторых оригинальных проектов, имеющих экспериментальную или промышвнную программную реализацию. Лингвистический процессор системы ДИЛОС
Диалоговая ^формационБЕ-Логичаская Система ..(ДИЛСС) предназначена для работы в качестве посредника, медцу человеком и традиционными средствами вычислительной системы при решении прикладных задач [6,18,115] . Система состоит из четырех компонентов:
Лингвистический процессор (ЛИНГП) осуществляет преобразование входных фраз естественного языка в выражения формального интерфейса (Ф-выражения), которые служат входными для остальных исполнительных процессоров системы,
Информационно-поисковый процессор (ШШ) обеспечивает создание, модификацию и ассоциативный поиск объектов в модельной баг-зе данных, причем каждый объект обладает именем (задаваемым извне или генерируемым самой системой) и набором свойств, которые отраг-жают семантику объекта или используются для определенных внутренних целей*
Вычислительный процессор (Ш) предназначен для поиска и активизации прикладных программных модулей, для управления взаимодействием различных программ через их результаты-аргументы, для извлечения наборов данных из базы данных и их подстановки в качестве аргудантов запускаемых программ, а также для других действий, связанных с организацией вычислений.
Логический процессор (ЛОГП) является основной частью системы, управляющей анализом и модификацией моделей внешнего мира, составлением планов решения задач, выдачей ответов на такие вопросы пользователей, которые не могут быть удовлетворены простым информационным поиском
Язык формального интерфейса (Ф-язык), являющийся входным
для информационно-поискового и логического процессоров, в сущности представляет собой набор обращений к ІШСЇЇ-функциям верхнего уровня. Кадцая группа функций направлена на определенный исполнительный процессор; фактически имя функции является ключом для выбора требуемого действия.
Основная задача ЛИНГП - сформировать <&-выражения, семантически эквивалентные входным ЕЯ-текстам. Важной чертой ЛйНШ является семантическая ориентация и учет специфики диалога. Семантическая ориентация проявляется в том, что в-первую очередь учитываются семантические признаки кавдого слова (группы слов), позволяющие построить правильные Ф-выражения. Грамматические признаки используются лишь для разрешения неоднозначностей и дляуправ-
ления процессом лингвистического анализа. Специфика диалога заключается в том, что входные запросы пользователя могут быть грамматически неполными и неправильными, они близки разговорному языку и, как правило, зависят от контекста предыдущих фраз. Работа ЛИНГП заклгачаетсявв следующем. Очередная входная фраза вначале обрабатывается препроцессором, который в результате процедур морфологического анализа и свертки устойчивых словосочетак ний заменяет все слова фразы соответствующими словарными статьями. Если при этом некоторые слова отсутствуют в словарях системы, или не удается их сопоставить известным основам или словосочетаниям, то производится автоматический выход на режим определения каждого из незнакомых слов. Происходит это в форме специального диалога, когда система предъявляет пользователю альтернативные варианты ; . основ и морфологических моделей (классов словоизменения), а человек должен указать уместные с его точки зрения варианты. Затем система предлагает пользователю определить семантические атрибуты слова путем задания синонима или непосредственным перечислением. После препроцессора начинает обработку фразы основной лингвисти-
ческий процессор,который на основе семантических атрибутов и грамматических характеристик пытается построить правильное Ф-въь-ражение, соответствующее входной фразе. В случае неудачи перебираются альтернативные варианты (например, за счет многозначных семантических атрибутов) или происходит отказ от построения правильного Ф-шражения. .Построенное Ф-выражение передается на обработку в исполнительные процессоры.
Система ДИЛОС реализована на языке ЛИСП для ЭВМ БЭСМ-6 и адаптирована впоследствии для РДР-П/70, ДЕС-20 и ЕС ЭВМ. Система использовалась в экспериментальном режиме для информационного поиска, управления вычислительным процессом, построения логических схем баз данных и др.
Проект 'ЗАПСИБ
Основной задачей проекта ЗАПСИБ (ЗАПрос к Справочно-Инфор-мационной Базе) является разработка серии лингвистических процессоров, предназначенных в первую очередь для обеспечения взаимодействия пользователей с прикладными базами данных различной сложности [96] , Принципы проекта ЗАПСИБ могут быть сформулированы следующим образом:
Создание не одного, а серии лингвистических процессоров, построенных по общей схеме, основные модули которой разрабатываются в виде рдца последовательно расширяющихся и совместимых версий. Такой принцип позволит более точно "подобрать" конфигурацию процессора под конкретного пользователя.
Разделение на универсальную и адаптируемую части, причем последняяяСвішочающая словник, правила лексического и синтаксического анализа, информацию о проблемной области, настройку на синтаксис входного языка и т,д,) комплектуется при адаптации процессора к предметной области,
Семантически ориентированный анализ» включение в процес-.. . сор необходимых средств для представления и использования
знаний о предметной области и контексте взаимодействия.
4. Организация основного процесса анализа снизу-вверх.
Разработка модулей системы ведется по двухэталному технологическому циклу:
Макеты модулей проектируются и отлаживаются в системе программирования СЕТЛ-БЭСМ (ЭВМ БЭСМ-6). Этот язык сверхвысокого уровня включает также и средства более низких уровней, что позволяет "запускать" программу на той стадии разработки, которая соответствует основной блок-схемеf и все дальнейшее проектирование вести на действующем макете t прорабатывая отдельные блоки программы до степени детализащи, позволяющей перейти к переносу ее на инструментальный язык.
Этот перенос, осуществляемый на втором технологическом этапе, совмещается с окончательной проработкой системы и составляет существенную часть общего объема проектирования. В качестве инструментального языка в проекте используется ШІ/І ЕС.
Специальное внимание уделяется в проекте ЗАПСИБ автоматиза- ' ции процедуры настройки процессоров на предметную область. Трудоемкость этого этапа вполне сравнима с разработкой универсальной части процессора* Настройка процессора будет вестись на его ма^ кете с помощью специально разрабатываемой системы СТЕДЦ. Вопросно-ответная система ПОЭТ
При создании вопросно-ответной системы ПОЭТ (Программа Сбраг-ботки Экономических Текстов) была предпринята попытка разработать промышленную систему» осуществляющую общение с пользователем на ограниченном естественном языке(СЕЯ). Система состоит из словаря, семантической сети» базы данных (БД), и комплекса обрабатывающих программ. Входным языком ее является русский язык, ограниченный по тематике деловой прозой, и по грамматике - одним предложением (простым или сложноподчиненным, содержащим деепричастные, причас-
тные и инфинитивные обороты) без анафорических элементов и эллипсисов. Выходной язык аналогичен входному за исключением отсутст^ вия в выходном языке причастных и деепричастных оборотові/^/<7^
Словарь, семантическая сеть и база данных предназначены для описания слов, объектов внешнего мира и связывающих их отношений. Комплекс обрабатывающих програші состоит из: морфологического анализа; синтаксического анализа; семантического анализа; семантической интерпретации и формирования ответа; синтаксического синтеза; морфологического синтеза; средств доступа к словарю, семантической сети и базе данных*
Основными принципами проекта ПОЭТ являются:
Переход от этапа к этапу осуществляется не последовательно, а параллельным мэтодом, т.е. переход к очередному этапу происходит не после получения на предыдущем этапе всех вариантов, а после получения первого правильного. Это позволяет значительно раньше обнаружить ошибочные варианты как на анализе, так и на синтезе #
Правильные подструктуры на анализе и синтезе строятся только один раз при всех вариантах анализа и синтеза.
Направленность перебора вариантов реализуется методом перебора с возвратом, не отбрасывающим, а исправляющим неверные варианты,
Система реализуется не на языках типа ЛИСП, ориентированных на решение подобных задач, а #а языках АССЕМБЛЕР и ІЇЛ/І, обеспечивающих ее эффективность.
Знания в системе ПОЭТ распределены мздцу словарем, семантической сетью и базой данных. Словарь предназначен для хранения гнаний о языке. В словаре хранится информация об основах слов и словосочетаниях. Словарная информация для каждой основы состоит из заглавной, морфологической, синтаксической и семантической зон.
В заглавной зоне содержится заяиоь основы. В морфологической зоне содержатся сведения о части речи и морфологическом тше основы* В синтаксической зоне словаря представлены индивидуальные синтаксические свойства словоформ. Совокупность индивидуальных синтаксических свойств словоформ» реализующихся в пределах одной фразы, называется моделью управления (МУ) .данной словоформы. Ш словоформы содержит информацию о количестве подчиненных данной слово-форда слов* типы синтаксических отношений, связывающих данную словоформу с подчиненными словами, и характеристики этих слов» Словоформе с МУ в семантической зоне словарной статьи отавятся в соответствие семантические категории, которым должны удовлетворять подчиненные ей олова и семантические падежи, связывающие словоформу с этими словами. В системе используется 40 семантических категорий и 20 семантических падежей. Кроме того, каздая словоформа с МУ отнесена к одному из следующих семантических типов: действие, состояние, пустой, функциональный, фазовый, модальный, связующий, характеристика, понятие. Для словоформ без МУ в семантической зоне указываются семантические категории, определяющие данную основу.
Семантическая сеть'состоит из абстрактной (АС) и конкретной сетей (КС). АС хранит информацию о множестве возможных и допустимых состояний предметной области, выраженных через общие (родовые) понятия, события и характеристики* КС содержит конкретизации общих положений, В ней описываются объекты, являющиеся реальным наполнением понятий, встречающихся в АС. В системе для представления частных знаний используется и процедуральное представление в виде функций, связанных с некоторыми вершинами семантической сети. Семантические зоны словарных статей большинства слов имеют ссылки на вершины семантической сети, а вершины сети
имеют обратные ссылки на словарь. В БД о некоторой вершине хранится числовая информация, соответствующая характеристикам, сопоставленным этой вершине в АС. В настоящее время для представления элементов БД выбран фиксированный формат, что позволяет добиться эффективного представления данных. Система ПОЭТ не включает в себя БД, так как структура и принципы построения эффективной базы данн ных в значительной степени зависят от конкретной области знаний. КС вместе с БД является основой для поиска необходимой информа^ ции, указанной в запросе. Эта информация может носить как числовой, так и содержательный характер. Управлением и определением точек начала поиска занимается АС( описывающая семантику объектов КС и их взаимосвязей.
Морфологический анализ (МА) осуществляется по обратному методу, т.е. по таблицам аффиксов от обрабатываемого слова отсекаются предполагаемые окончания и суффиксы и формируется основа слова. Затем по виду отсеченных аффиксов основе приписывается предполагаемая морфологическая информация (МИ). Одному олову может быть сопоставлено несколько основ и типов МИ. Полученные основы ищутся в словаре, и если их МИ соответствует словарной информации, то Бъщеленная основа считается правильной.
После МА выполняется этап предсинтаксиса, подготавливающий информацию для синтаксического анализа. На данном этапе решаются следующие задачи: помечаются олова, которые могут образовывать словосочетания, и слова, обусловленные другими словами (количественными числительными, отрицательными частицами и однородными членами).
Задача синтаксического анализа (СА) состоит в построении синтаксической структуры входного запроса. Работа СА начинается с вьщеления из запроса словоформ, относящихся к основному предложению* Для выделенных слов с МУ строятся индивидуальные модели
- ЗО -
управления. На основе индивидуальных МУ делается перебор среди возможных способов установления предикативного и комплетивных отношений для слов с МУ, Затем б предложении выявляются обстоятельственные отношения. После этого входной запрос разбивается на именные группы, образованные смежными словами. На этом заканчивается проведение синтаксических отношений в основном предложении. Затем выявляются (о использованием синтаксических фильтров) отношения на придаточные, деепричастные, инфинитивные обороты и на слово, вводящее придаточное предложение. Выделение синтаксических отношений внутри оборотов и придаточных предложений производится способом, описанным ранее для основного предложения.
На этапе семантического анализа (СЕА) решаются следующие задачи: I) отбрасывание неверных с точки зрения семантики вариантов анализа, полученных на GA; 2) перевод верных вариантов анализа входного запроса в семантический граф» т.е. во внутреннее представление, принятое в АС и удобное для поиска в КС и БД. После СЕА входному запросу может соответствовать более одного варианта разбора. Дальнейшее отсечение вариантов осуществляется на этапе семантической интерпретации.
Семантическая интерпретация (СИ) состоит в том, чтобы сопос- тавить входной запрос в виде семантического графа (связанного с АС) с конкретной сетью и базой данных, содержащих фактическую информацию о моделируемом мире. Задача блока СИ состоит в том, чтобы сопоставить семантический граф запроса (события) со списком событий КС. Сопоставление производится постепенным свертыванием семантического графа запроса, начиная с вершин с максимальным уровнем определенности и кончая вопросительной вершиной. Б системе выделены три основных типа'вопросительных ситуаций: о количестве объектов» значении характеристики, числовых или временных пара^ метрах события.
- ЗІ -
Блок формирования ответа вырабатывает граф ответа (на основа^-нии графа запроса) внесением в него смысловой информации, полученной на этапе СИ, и некоторой информации, необходимой для этапа синтаксического синтеза»
На этапе синтаксического синтеза решаются вопросы построения по семантическому графу дерева зависимостей ответа, приписывания каздому слову морфологической информацииии определения порядка слов в ответе. Процесс формирования ответа завершается этапом морфологического синтеза. Этап осуществляет построение русских словоформ на основании информации, полученной на этапе синтаксического синтеза, и информации из таблиц окончаний к суффиксов»
Система ПШТ реализована в ОС ЕС ЭВМ. Общий объем системы составляет 15000 операторов, из которых 10000 в языке ШГД, 5000 -в АССЕМБЛЕІБ. Система рассчитана на объем словаря до 60000 лексем и объем знаний о мире до 100000 фактов. Бремя обработки входного предложения из 10 слов составляет (для ЕС-І060) 10-18 секунд, ойъем требуемой оперативной памяти 250 кб. Система находится в эксплуатации с декабря 1977 года и с точки зрения временных и объемных характеристик удовлетворяет требованиям практики при работе с простыми предметными областями. Система ШШ-2
Диалоговая система искусственного интеллекта Tt/IP5-2 представляет собой программный комплекс, ориентированный на решение задач, условия которых, как и необходимые уточнения, рекомендации, ответы на вопросы формируются пользователем на естественном (русском) языке [S8J # Б теоретическом аспекте проект служит рамкой для исследования принципов моделирования процесса понимания, разработки и экспериментальной проверки методов представления знаний о языке и внешнем мире, средств эффективного и целенаправленного раскрытия смысла сообщений, механизмов обучения языку, приемов
программной реализации. В то же время система 1VZIPS-2 строится с ориентацией на непосредственные практические приложения; автоматизированное обучение, синтез программ, информационный поиск.
Общие принципы работы анализатора входных сообщений системы заключаются в следующем:
. I. Анализ входного сообщения непосредственно включен в провесе взаимодействия с пользователем, смысл слова, синтаксической группы, сообщения в целом определяется с ориентацией на текущую область работы.
2. Знания системы о русском языке связаны взаимными ссылками со знаниями о внешнем мире. Анализ текста ведется с учетом этих связей, причем определяощим считается уровень содержания.
3# На всех уровнях анализа текста используются предсказания-конструкции внутреннего языка системы, описывающие ожидаемые результаты работы процедур анализа и обеспечивающие целенаправленную обработку входных сообщений,
4, Совокупность знаний системы о русском языке признается обрытой, она может пополняться системой автоматически, когда роль незнакомых объектов ясна из контекста, а также пользователем или лицом, обслуживающим систему.
5/ При анализе могут использоваться тдзтасведения о языке -описания возможных "случайных" ошибок и "устойчивых" отклонений отдельных пользователей от общих норм языка (особенности шщиви-дуалбных языковых моделей пользователей).
Перечисленные принципы позволяют анализатору: ограничить число возможных интерпретаций словоформ и синтаксических конструкций и тем самым оптимизировать процесс анализа; правильно обрабатывать грамматически неполные предложения; приписывать незнакомым языковым объектам вероятные (предсказанные) характеристики и автоматически формировать новые словарные статьи и другие
лингвистические описания; "узнавать" словоформы и другие языковые объекты, содержащие случайные ошибки и неграмотные варианты (рад-говорные и просторечные профессионализмы); запоминать новые факты о языке, явно сообщенные пользователем или обнаруживаемые системой самостоятельно с учетом их достоверности, общности; формировать для часто встречающихся словоформ, словосочетаний, групп шаблонные приемы быстрого анализа.
Наличие средств, реализующих автоматическую адаптацию к незнакомым системе языковым объектам, является одной из важнейших особенностей системы. Основная идея при реализации автоматической адаптации состоит в использовании предсказании, т#е. ожидаемых характеристик незнакомого языкового объекта, которые формируются.в ходе синтаксического и семантического анализа очередного предложения или всего входного текста. Поскольку определяющий предсказание контекст ограничен, а многие русские словоформы допускают различные трактовки, система может неправильно проинтерпретировать форму неизвестного слова или столкнуться с неоднозначностью морфологических характеристик, приписыаемых основе нового слова. Поэтому в системе существуют различные сервисные средства коррекции и контроля (со стороны пользователя) процесса автоматического пополнения словаря системы» Словарю отводится весьма важная роль. При анализе текста словарь и обслуживающие его процедуры должны обеспечивать учет контекстуальной информации (проблемная область, пользователь, непосредственный речевой контакт), "целенаправленный" анализ текста на основе генерирующих предсказаний о его возможной структуре и содержании, быструю свертку ха-рактерных для проблемной области словосочетаний, распознавание синтаксической роли и вероятных семантических значений неизвестных системе слов, возможность пополнения словаря пользователем» В диалоге с пользователем производится пополнение словаря, а
базовая его часть формируется заранее с помощью вспомогательных средств, доступных только для лиц, обслуживающих систему.
Основой морфологического анализа служит специально разработанная модель русской морфологии, полно учитывающая русское словоизменение, и включающая описание отдельных явлений словообразования, используемое для уточнения морфологических характеристик неизвестных слов. Вээультатом работы этапа морфологического ана^-лиэа является информация для этапа синтаксического анализа, и пополнения словаря новых слов.
Система TVZIES-2 реализована в системе программирования ШЕЭНЕР-БХМ (ЭВМ БЭСМ-6). Средства, предосташяеше языком ІШНЕР позволяют удобно организовать словарь системы, где основы храниться в виде идентификаторов go списком свойств, куда занесена вся необходимая грамматическая информация. Для перебора возможных вариантов деления слова на основу и окончание используется автоматический режим возвратов.
Лингвистический процессор системы ДИСПУТ
Система ДИСПУТ (Диалоговая Информационно-справочная Система для Планирования и Управления на Транспорте) предназначена для райоты в аппарате управления транспортным узлом и ориентирована на пользователя, не знакомого с вычислительной техникой [9Z]* Запросы к системе формулируются на естественном русском языке с лексикой, ограниченной тематикой задачи, и фиксированными семантикой и прагматикой. Система ДИСПУТ состоит из лингвистического процессора, базы данных и модуля интерфейса,
В первой версии системы предусмотрено четыре типа запросов: о числе объектов, времени, самом объекте, q дате события. При вводе запросов допустимы сокращения слов и некоторые их искажения, приходящиеся на конец слов» Эффективность работы лингвистического
процессора достигнута за счет сознательного отказаот общих решений в тех случаях, когда частные решения не вступают в конфликт с прагматическими целями системы.
Лингвистический процессор включает словарь» кодировщик* редактор, грамматический анализатор и расширитель словаря. Словарь представляет массив, где кавдой словоформе приписаны ее синтак-тико-семантические коды. Коды задаются в соответствии с грамматикой, значительно отличающейся от грамматики русского языка. Она вулючает II категорий слов. Приписывание кодов словоформам производится вручную. Словарь состоит из двух частей: словоформ и словосочетаний. Словарь словоформ первой версии содержит около 150 единиц. Он служит основой для работы кодирощика. Результатом работы кодировщика является совокупность кодов слов предлсь-жения.
Редактор пользуется словарем словосочетаний для свертки исходных кодов слов в коды устойчивых конструкций, имеющих Фиксированную семантическую интерпретацию в рамках системы. Словарь словосочетаний задан в виде правил сшіеивашя слов» которые представлены в виде таблицы. Б результате работы редактора в запросе остаются только те коды слов, которые необходимы для его однозначного понимания в рамках выбранной прагматики.
Грамматический анализатор производит ввделение групп слов» характеризующих предложение в целом» основного отношения, высказанного в предложении» и групп слов, описывавших объекты, которые входят в это отношение, В результате анализа запроса выявляются тип запроса и описания объектов в запросе.
В результате работы лингвистического процессора исходный запрос переводится во внутреннее представление, соответствующее определенному типу запроса. Модуль интерфейса осуществляет интерпретацию внутреннего представления запроса и перехода к процедурам
работы с базой данных.
Лингвистический процессор системы ЛИСПУТ запрограммировал на языке ФОРТРАН-ІУ для СС ЕС ЭЙД и содержит около 800 операторов. Время перевода исходного запроса во внутреннее представление составляет 0,3-1,2 секунды в зависимости от сложности запроса.
Система ТОРУС
Основная цель проекта ТОРУС, разрабатываемого в Торонтском университете (Канада), является исследование методологии проектирования ж реализавди интеллектуальных вопросно-ответных систем, т.е. систем, б состав которых входят система управления базой данных (СУБД) и система понимания ЕЯ (СПЕЯ), которая осуществляет связь между пюльзователем и СУБД [72,93]*
В основу проекта положены два важных методологических принципа:
1. Зафиксирован тип используемой СУБД. За основу взята база
данных с отношениями. Это позволило уточнить интерфейс СПЕЯ-СУЕЯ
и упростило исследование.
2, Способность семантической интерпретации в СЩЯ основыва
ется на семантической сети, использующей падежные грамматики
Филлмора и семантические иерархии в сети на основе отношений
"быть элементом" и ,тбыть частью11.
Первый шаг анализа состоит в полном морфологическом анализе входного предложения. На этом шаге производится также распознавание и свертывание устойчивых словосочетаний. Результатом работы морфологического анализа являются таблицы словарных статей (для многозначных слов указывается несколько статей), соответствующих словам исходного предложения. Эта таблица передается АТН грамматике для синтаксического анализа, в результате которого формируется синтаксическое дерево разбора.
На этапе семантического анализа производится построение семантического графа предложения по дереву разбора. В базе знаний системы содержится описание семантических падежей Филлмора для всех предикатов (глаголов) обрабатываемого языка. Используя систему падежей алгоритм семантического анализа строит семантический граф для синтаксического дерева разбора.
На этапе семантической интерпретации осуществляется присоединение семантического графа проанализированного предложения к семантической сети, отображающей в базе знаний системы смысловое содержание обработанного ранее фрагмента текста.
При генерации ответа на входной запрос выполняются: селек-ция(формирование) информации для ответа; генерация ЕЯ ответа яо информации, найденной при селекции. Основная задача селектора заключается в построении семантического графа, содержащего информацию, релевантную входному предложению. При построении этого графа селектор должен: I) выявить тфэрмацию, неявно представленную в семантической сети; 2) рассмотреть такие стилистические проблемы, как употребление местоимений, модальностей, номинализа-цию и другие детали, которые необходимо обеспечить в ответе; 3) решить, будет ли ответ предложением или именной группой. Построенный семантический граф ответа передается генератору, который строит но нему предложение. При этом используется расширенный алгоритм синтеза Симонса-Слокума/^У ..
Первая версия системы ТОЬТС реализована на ЙБМ 370/165 в ОС с использованием языков СПИТБСЙ и I ШК (расширение языка СПИТБСШ для работы с графами). Часть процедур запрограммирована на языке ПЛ/І. Словарь системы содержит около 400 слов.
Диалоговая естественно-языковая система ДЕСТА
В состав системы ДЕСТА входят: I) диалоговая система (ДС); 2) система формирования понятий (СШ); 3) естественно-языковая
система описания понятий (ECffl); 4) система, понимающая русский язык (СЛРЯЗ). В процессе функционирования системы ДЕСТА пользователь обращается к ней и задает режим работы (например, беседа на определенную тему), В этом случае к работе подключается система СПРЯЗ. Реализованный вариант системы ДЕСТА позволяет работать с семью различными темами, каждой из которых соответствует тематическая база данных (ТБД), Если в процессе беседы СЇЇЕЯЗ сталкивается с незнакомым словом, то пользователь должен "объяснить" его, привлекая систему ивдуктивного формирования понятии (СШІ) или систему формировании понятий путем перечислений (С5ШІ), или систему формирования понятий по аналогии (США), или ЕС СП/#77.
ДС осуществляет резшм диалога со всеми системами и блоками системы ЛЕША,
С помощью системы армирования понятий СФЇЇ производится формирование знании системы ДЕСТА, обеспечивающих ей понимание фраз русского языка и синтезирование ответа. СФП включает; систему индуктивного формирования понятий СШП, систему формирования понятии перечислением СШП,и систему формирования понятий по аналогии СФЇЇА.
EGOn переводит описания понятий с естественного языка на язык предикатов и представляет результат в ввде логической функции *
Система понимания русского языка CHR33 воспринимает предложенный пользователем текст на любую тему, ограниченный простыми распространенными предложениями, и после "объяснения" пользователем с помощью СФП всех незнакомых слов может ответить на любые вопросы по тексту. Ответы на вопросы могут содержаться в исходной тексте в явном виде, а могут требовать дедуктивного или индуктивно-дедуктивного вывода*
Представление знании о языке общения в системе ДЕСТА базиру-
ется на понятии синтаксического класса. Синтаксическим классом считаются вопросы, на которые отвечают слова простого распространенного предложения Отношение каждого слова к тому или иному классу определяется пользователем в режиме диалога о помощью СФІІ или ЕСШ, после чего СПРЯЗ самостоятельно формирует синтаксически-семантическую окрестность слова (ССОС), которая фиксирует его отношение ко всем словам входного предложения. Затем СШЯЗ объединяет СССС в синтаксически-семантическую трехуровневую структуру. Первый уровень представляет собой семантическую сеть, которая отображает объекты, имеющие свойства ж входящие в отношение. Второй уровень структуры включает имена синтаксических классов (имена понятий), каддое из которых связано с соответствующими объектами первого уровня. Элементы третьего уровня являются именами понятий по отношению к элементам второго уровня.
Рассмотренная трехуровневая структура реализована с помощью взаимосвязанных структур трех видов, В виде древовидной структуры хранится словарь системы, в виде пирамидальной структуры - имена понятий, в виде И/МИ структуры - сами понятия.
Все ответы системы ДЕСТА содержатся в явном ввде в исходном тексте, В настоящее время разрабатывается версия, которая позволит системе ДЕСТА в процессе анализа входных предложений извлекать дополнительные факты, связанные с представлением синтаксических классов кто, что, действия объектов, кого, что-в.
База данных системы ДЕСТА объединяет в себе основную базу данных, базу данных СПРЯЗ, базу данных ДО и семь тематических баз данных. База данных системы ДЕСТА требует 9,425мб памяти на дисках.
Программное обеспечение системы ДЕСТА включает 175 подпрограмм, написанных на языках ФОРТРАН и АССЕМБЛЕР. Минимальный требуемый объем оперативной памяти - 128кб X ЕС ЭВМ.
Вопросно-ответная система МИВОС
Основные цели разработки Многоцелевой Интеллектуальной Вап-росно-Ответной Системы ШВСС состояли в создании экспериментальной базы для дальнейших исследований в области организации эффективного диалога с ЭВМ, средств построения прикладных систем общения и прототипаого программного обеспечения подобных систем[109]^ Основное отличие ШВОС от других систем заключается в широком использовании специально разработанных языков программирования высокого уровня, выступающих в качестве систем представления лингвистических и проблемных знаний.
Система ГЛИВСО представляет собой комплекс программных средств (операционная компонента), предназначенных для обработки и поддержания знаний, выраженных в специальных системах их представления (информационная компонента). Важная особенность МИВОС заключается в том, что операционная компонента не зависит от информа-і
щтонной компоненты, т.е. от конкретного содержания знаний, а ориентируется исключительно на систему представления знаний. Это позволяет представить процесс генерации конкретной диалоговой системы в виде последовательности этапов: I) определение знаний, необходимых для понимания заданного языка общения; 2) выражение этих знаний в системе представления МйВСС для получения информационной компоненты; 3) использование операционной компоненты МИВОС для получения частной реализации. Частные реализации, получаемые посредством операционной компоненты МИВОС, могут использоваться как для экспериментальной проверки теорий, моделей и алгоритмов понимания языка диалога, так и в качестве прикладных систем общения. Следовательно система МИВОС может рассматриваться как макросистема - средство генерации частных реализаций диалоговых систем для экспериментальных и прикладных целей.
Функциональная структура системы МИВОС включает три этапа:
анализ» интерпретация и синтез. Целью анализа является получение формального представления смысла входного сообщения в терминах специального семантического языка. На этапе интерпретации определяется его содержание с точки зрения имеющихся в систене знаний о проблемной среде (семантическая интерпретация) и формируются действия, вид которых определяется целями системы (прагматическая интерпретация). На этапе синтеза осуществляется формирование выходного сообщения системы.
В системе МИВОС используются две системы представления: АШ и ПРОЗА, которые называются системами представления лингвистических и проблемных знадий соответственно. Система АТ№ предназначена для выражения знаний, необходимых на этапе анализа, а в дальнейшем и синтеза сообщений, а ПРОЗА используется на этапе интерпретации.
Общая организация системы МИВОС содержит три уровня: модельный - описание языка и проблемной среды, логический - представяе-ние этих описаний и программный - частные реализации МЙВОИ. В свою очередь, логический уровень подразделяется на системы представления лингвистических (AT/Й-система) и проблемных (ПРОЗА-система) знаний, которые выступают в качестве средства описания знаний для конкретных систем общения. Аналогичным образом программный уровень подразделяется на АШ- и ПРОЗА-трансляторы, а также конкретные Л- и СП-процессоры, которые являются частными реализациями ШВОС для конкретной ЭВМ. Л-процессор предназначается для анализа входной и синтеза выходной информации, а СП-процессор выполняет семантическую и прагматическую интерпретацию структур,полученных с выхода соответствующего Л-продэссора* Под системой представления лингвистических знаний (АТМ-системой) понимается совокупность средств формального описания лексики, синтаксиса, семантики и прагматики языка общения; эффективных и гибких средств описания
алгоритмов анализа и синтеза его фраз, а также некоторых программных средств, обеспечивающих проверку и использование вышеуказанных описаний на ЭВМ* Система представления лингвистических знаний должна допускать адекватное и удобное описание достаточно широкого класса моделей языка и не накладывать существенных ограничений на используемые алгоритмические средства,
В МИВОС система представления лингвистических знаний базируется на модифицированном языке расширенных сетей переходов АТЛй (формализм сетевого представления грамматик Вудса), АШ-ЩВСС от-носится к классу функциональных языков и обладает следующими свойствами: универсальностью в классе решаемых задач; мощными изобразительными средствами для описания широкого класса моделей языков общения и всевозможных стратегий и алгоритмов анализа и синтеза их фраз; высокой структурностью программ; характерными механизмами языков программирования искусственного интеллекта (сопоставлением по образцу» автоматический возврат» средства отладки во входном языке). При этом лингвистические знания о конкретном языке выражаются в виде ATM-программы, являющейся составляющей информационной компоненты МИВОС» которая посредством операционной компоненты преобразуется в лингвистический процессор частной реализаг-ции МИВСС,
АШ-ярограмма состоит из трех разделов: словарей, используемых при анализе и синтезе (ДООАВ); нестандартных функций, повышающих эффективность функционирования лингвистических процессоров (ЩШЯЗ); сети дагя анализа и синтеза фраз языка общения (/VET) и некоторых встроенных в ATW- механизмов. В целой АТ/Й-программа является носителем и декларативного, и процедурального представления знаний о языке общения. Вместе с тем декларативная компонента сосредоточена, в основном, б разделе 1/ОСАВ, а процедурная - в разделах REFINE и VET,
Экспериментальная проверка МЙВСС производилась на подмножествах фраз из сообщений Гвдрометеоцентра СССР и описаний ситуаций из мира роботов, В качестве лингвистических моделей использовались падежная и семантическая грамматики. Падежная грамматика «Тшшюра позволяет выделить следующие знания о языке: морфологические - сведения о морфологическом строе слов языка; лексические - сведения о словарном составе языка, включающие для кавдой основа слова рад неизменяемых синтаксических и семантических характеристик, используемых при анализе; синтаксические - сведения о способах выражения синтаксических категорий, таких как группа существительного, глагольная группа и т.д.: семантические - сведения об используемом для данного подмножества языка набора глубинных падежей и об ограничениях на "заполнители" падежных мест глаголов и их производных; прагматические - сведения о структуре данных, в терминах которой должны надаваться результаты анализа. Перечисленные выше знания отображаются в разделах КОСАВ и А/ЕТ соответствующей АТ№-программы. Раздел ИОСАВ содержит ряд словарей: глаголов, существительных, прилагательных и т.д. Раздел #ЕТ рассматриваемой АШ-программы состоит из описаний 45 вершин расширенной сети переходов, определяющей собственно алгоритм анализа . входных вопросов и сообщений.
Следующая АТ№-программа была разработана на основе модели семантической грамматики. В данном случае семантическая грамматика - это обычная КС-грамматика, нетерминалы которой соответствуют определенным смысловым составляющим входных текстов, а терминалы - семантическим классам* образуемым словами и словосочетаниями входного языка. При этом какдое слово или словосочетание может входить только в один класс. Лексические знания, содержащиеся в разделе VCCAB этой программы, составляют сведения о том, к какому классу относится слово или словосочетание. Все остальные виды
.- 44 -
знании представляются разделом Л/ЕТ, содержащим описание расширенном сети переходов, построенной на основе семантической грамматики.
Операционная компонента системы МИВОС реализована на языке РЕФАЛ/2 в рамках мониторной системы ДУБНА БЗСМ-6, Общий объем реализации около 95 iw
1.4. Особенности предлагаемого подхода
Целью исследования, как указывалось выше, является разрабо^ ка и реализация методов представления, формирования и использования знаний в системе, способной настраиваться на анализ и синтез письменных ЕЯ. сообщений научно-технического характера для флективных языков (русского) в результате обучения на примерах фраз требуемой тематики. В систему априорно не заложена информационная модель (лексика, грамматика и семантика) языка диалога. Оен формируется в результате обучения на примерах слов ж словосочетанию* из текстов требуемой тематики с указанием их смыслового содержания. Предполагается, что при обучении на пришрах можно выделить закономерности кодирования в текстах смысловых отношений, закономерности словоизменения и закономерности кодирования определенных семантических классов слов.
Процесс обработки ЕЯ сообщений в АСЕД рассматривается как двухшаговое преобразование "сообщение на естественном языке - сообщение на семантическом языке - сообщение на формальном языке". Такой двухшаговый процесс позволяет: во-первых, отделить решение лингвистических задач, связанных с особенностями ЕЯ сообщений, как средства человеко-машинной коммуникации, от прагматических задач, для которых может быть использована АСЕД; во-вторых, сравнительно легко перенастраивать АСЕД для функционирования в составе различных систем переработки информации, где целесообразен ввод или вывод информации в естественно-языковой форме.
Предлагаемые в диссертации методы являются эвристическими. Они базируются на следующих известных лингвистических и пснхолинг-вистических фактах и гипотезах:
I. Слова естественного языка могут быть разделены на два непересекающихся класса l52tWfl2i]i і) Класс номинативных слов, обоз-
начающих определенные объекты действительности.. Этот кяасс открытый, потенциально бесконечный, 2) Класс релятивных слов, кодирующих определенные смысловые отношения меаду объектами. Этот класс закрытый, сравнительно небольшой.
Словосочетания во флективных языках можно разделить на два класса в зависимости от того, есть ли .в них главный член конструкциях 5294$lf] : I) Словосочетания, в которых выделяется главный и зависимый члены» называются мовосо^ташяш^с^подчЕшением. 2) Словосочетания, в которых нельзя щцелить главный член, называются оловосочетанияші _с сочинением.
Во флективных языках можно вцделить следующие способы выражения семантических отношений [ЩІ47]і I) Лексические средства, к которым относятся релятивные слова, такие как предлоги, союзы, вводные слова и т.д. В ряде случаев сюда можно отнести и знаки препинания. 2) Грамматическое согласование, при котором смысловые связи меаду номинативными словами выражаются посредством их согла^ сованного словоизменения, 3) Взаиморасположение в тексте соответствующих текстовых единиц (слов, фраз и т.д.). 4) Различные комбинации лексических средств, грамматического согласования и взаиморасположения.
Во флективных языках существует конечное сравнительно небольшое количество словоизменительных флексий, с использованием которых выражаются семантические отношения. Например, в русском языке по данным монографии [98] насчитывается около 120 ояовоизш-нительных флексий.
.5. Существует конечное число семантических отношений (порядка нескольких сотен), с использованием которых может быть представлено смысловое содержание любого естественно-языкового текста/Я?<К5?
6. Все множество понятий, выражаемых в языке, монет быть разбито на небольшое число непересекающихся меаду-собой классов -
семантических категорий, Множество смысловых структур словосочетаний, различных по форме, ко близких по содержанию, может быть сведено в этом случае к единому обобщенному представлению с использованием семантических категорий и семантических отношений/^*/
В процессе обучения на примерах осмысленных словосочетаний производится.сегментация номинативных слов на основы (псевцоос-новы) и флексии (псевдофлексии) и ввделение сегментов словосочетаний определенного вида, обозначающих смысловые отношения. Эти сегменты называются определителями. Для флективных языков определителями являются кортежи, состоящие из релятивных слов и флексий номинативных слов словосочетаний. йіределители, выделенные на этапе обучения, используются при анализе и синтезе ЕЯ сообщений вместо синтаксических правил традиционной грамматики языка. Идея подхода, основанного на выделении при обучении определителей и ио-пользовании их при обработке ЕЯ сообщений принадлежит В ЛІ, Гладуну*
На этапе анализа входных сообщений осуществляется ввделение по формальным признакам предложений и.перевод их во внутреннее семантическое представление путем выделения определителей в предложениях и отождествления их со словарными определителями, сформированными в результате обучения.
На этапе синтеза производится автоматическое формирование фрагмента текста, описывающего ситуацию, заданную на семантическом языке. При этом используется словарь определителей, сформированный на этапе обучения.
Этапы анализа и синтеза ЕЯ сообщений имеют существенно комбинаторный характер. Вследствие этого актуальным вопросом является такое внутрисистемное представление словарной лингвистической и семантической информации, которое обеспечивало бы достаточно высокую эффективность процессов анализа и синтеза. С этой целью в работе предлагается использовать Формализм пирамвдальных сетей в
качестве единой формы представления семантической информации б системе, структурные свойства которых позволяют удовлетворять требованиям» предъявляемым к представлению информации в адаптивных системах естестЕенно-языкового диалога* Представление лекси-ко-грамматической информации в форме пирамидальных сетей предложено в
выводы
Охарактеризована роль средств естественно-языкового общения в автоматизированных системах переработки информации и предложена обобщенная схема переработки ЕЯ информации.
Описаны семиотические свойства ЕЯ текстов и показана их роль при передаче смысловой информации в коммуникативном процессе,
3* Выделены задачи алгоритмизации процессов смысловой обработки ЁЯ сообщений в диалоговых системах, приведен обзор современных подходов и отмечены тенденций развития исследований в этой области*
4. Изложены особенности подхода к построению адаптивной системы ЕЯ диалога и вьщелены частные задачи алгоритмизации в рамках предложенного подхода.
Вопросы алгоритмизации процессов обработки ЕЯ сообщений в диалоговых системах
К настоящему времени в рамках исследований по теоретической и прикладной лингвистике информатике, машинному пере воду лингвистическому обеспечению и искусственному интеллекту / / /предложены различные подходы к формализации и алгоритмизации процессов обработки естественно-языковых текстов. Особенности предлагаемых в каждой из перечисленных областей методов обусловлены прежде всего различными целями и объектами формализации. Если в лингвистике естественный язык рассматривается во всем его многообразии и сложности, то методы обеспечения ЕЯ диалога ориентированы на реализацию практически приемлемого для пользователей взаимодействия с ЭВМ на языке с достаточно четко очерченной семантикой и, возможно, с некоторыми ограничениями на допустимые грамматические конструкции [ &] Указанное отличие второго направления позволяет применять в днаг-логовых системах более простые и "грубые" методы лингшстичеккой обработки, обеспечивающие возможность эффективной реализации на современных ЭВМ.
Разработчики первых систем ЕЯ диалога полагали, что основные трудности автоматизации обработки текстов лежат в самой лингвистике. Однако, опыт построения первых таких систем показал, что успешная смысловая обработка текстов невозможна без соотнесения соответствующих текстовых единиц со сведениями о проблемной области. Вследствие этого изменился взгляд на алгоритмическую структуру таких систем и принципы их построения [SfW8j. Опин из важных принципов построения систем ЕЯ диалога зашпочается в том, что процессы смысловой обработки ЕЯ сообщений основаны на знаниях, отображающих внутреннее системное представления о языке диалога проблемной области. В таких системах возникает ряд аспектов рассмотрения, связанных с представлением и отображением знаний о языке диалога и проблемной области. К ним прежде всего относятся следующие: I) степень полноты и подробности описания моделей проблемной области и языка диалога; 2) форма представления зна ний, обеспечивающая эффективное функционирование системы естественно-языкового диалога [105,109] . В настоящее время наметилось два основных направления исследований по разработке систем Ей диалога» в которых по разному решается вопрос о степени подробности представления знаний. Первое направление связано с построением проблемно-ориентированных систем ЕЯ диалога с довольно поверхностным описанием проблемной области» а второе ориентировано на построение узкоспециализированных систем с исчерпывающим и подробным описанием проблемной области и языка диалога [Щ 15(] # Второй аспект рассмотрения связан о тем, в какой степени для вяутриеио- . темного представления моделей проблемной области и языка диалога используется процедуральная или декларативная форма представления. По отношению к форме представления знаний все системы ЕЯ диалога можно разбит на системы с процедуральным представлением знаний и системы с декларативным представлением знаний. В настоящее время наблюдается тенденция к интеграции этюс двух форм представления, т.е. использование декларативно-процедуральной формы представления знаний. Процедуральная форма характерна для узкоспециализированных систем ЕЯ диалога» поскольку она позволяет повысить эффективность реализации системы. С другой стороны декларативная форма представления знаний обеспечивает возможность перенастройки системы на разные языки диалога и проблемные области, что необходимо при реализации проблемно-ориентированных систем ЕЯ диалога.
К наиболее разработанным проектам систем ЕЯ диалога относятся системы ПОЭТ, ДИЛОС, ДИСПУТ, ТОІ7С, ЗАПСИБ, ДЕСТА, HGBOT и др. Рассмотрим особенности некоторых оригинальных проектов, имеющих экспериментальную или промышвнную программную реализацию. Лингвистический процессор системы ДИЛОС Диалоговая формационБЕ-Логичаская Система ..(ДИЛСС) предназначена для работы в качестве посредника, медцу человеком и традиционными средствами вычислительной системы при решении прикладных задач [6,18,115] . Система состоит из четырех компонентов: 1. Лингвистический процессор (ЛИНГП) осуществляет преобразование входных фраз естественного языка в выражения формального интерфейса (Ф-выражения), которые служат входными для остальных исполнительных процессоров системы, 2. Информационно-поисковый процессор (ШШ) обеспечивает создание, модификацию и ассоциативный поиск объектов в модельной баг-зе данных, причем каждый объект обладает именем (задаваемым извне или генерируемым самой системой) и набором свойств, которые отраг-жают семантику объекта или используются для определенных внутренних целей 3. Вычислительный процессор (Ш) предназначен для поиска и активизации прикладных программных модулей, для управления взаимодействием различных программ через их результаты-аргументы, для извлечения наборов данных из базы данных и их подстановки в качестве аргудантов запускаемых программ, а также для других действий, связанных с организацией вычислений. 4. Логический процессор (ЛОГП) является основной частью системы, управляющей анализом и модификацией моделей внешнего мира, составлением планов решения задач, выдачей ответов на такие вопросы пользователей, которые не могут быть удовлетворены простым информационным поиском Язык формального интерфейса (Ф-язык), являющийся входным для информационно-поискового и логического процессоров, в сущности представляет собой набор обращений к -функциям верхнего уровня. Кадцая группа функций направлена на определенный исполнительный процессор; фактически имя функции является ключом для выбора требуемого действия. Основная задача ЛИНГП - сформировать &-выражения, семантически эквивалентные входным ЕЯ-текстам. Важной чертой ЛйНШ является семантическая ориентация и учет специфики диалога. Семантическая ориентация проявляется в том, что в-первую очередь учитываются семантические признаки кавдого слова (группы слов), позволяющие построить правильные Ф-выражения. Грамматические признаки используются лишь для разрешения неоднозначностей и для управления процессом лингвистического анализа.
Анализ входных сообщений и адаптация к языку диалога
Задачей блока анализа сообщений является перевод входных ЕЯ сообщений в семантическое представление и запоминание последнего в ситуативной базе знаний. Процесс анализа ЕЯ сообщений ориентирован на использование только той словарной информации, которая формируется в результате обучения, а также ряда эвристических правил, справедливых для группы флективных языков. При анализе входных сообщений используются словари основ и флексий, определителей и словоформ.
Для представления сообщений на семантическом уровне используется формализм семантических сетей. За основу взят семантический язык ЕХ-кодов /V/77 с представлением его в форме пирамидальной семантической сети/3 7.
При анализе используется известный в лингвистике факт о различной семантической роли слов в текстах, согласно которому слова некоторых семантических классов управляют словами других семантических классов. При этом предполагается, что смысловые связи между элементами текста выражаются в раде случаев морфолого-синтаксическими средствами, относящимися к управляющим словам соответствующих элементов текста [99f 43%] , При анализе ЕЯ сообщений и представлении их на семантическом уровне используется лингвистическая концепция, в которой считается, что семантическую основу предложений в большинстве естественных языков образуют предикативные слова (глаголы)[$2fi2f913$] В рамках этой концепции вцде-лен небольшой набор семантических отношений (около пятнадцати), называемых семантическими падежами, которые выражают смысловые связи глаголов с другими словами предложений,
Сбщая схема анализа ЕЯ сообщений в АСЕД включает следующие этапы: 1. Блок фразовой сегментации ЕЯ сообщений. 2. Блок фразового анализа. 3. Блок межфразового анализа. Входное ЕЯ сообщение может состоять из нескольких предложений. В этом случае выполняется этап фразовой сегментации ЕЯ сообщений, осуществляющий разбиение графического представления сообщения на графические представления предложений. Блок фразового анализа осуществляет перевод наделенных графических представлений предложений во внутреннее семантическое представление в форме пирамидальной семантической сети. Блок межфразового анализа производит поиск и фиксацию семантических связей между предложениями ЕЯ сообщения. В результате работы перечисленных этапов в ситуативной базе знаний АСЕД формируется СемП входного сообщения, которое затем блоком семантико-прагштического перевода преобразуется в описание на требуемом формальном языке.
Основным по сложности является блок фразового анализа. Анализ предложения сводится к выполнению следующих шагов: I) лексико-мор-фологический анализ предложения; 2) семантический анализ предложения. На этапе лексико-морфологического анализа производится поиск слов в словарях и морфологическая сегментация номинативных слов предложения на основы и флексии. Всем словам предложения приписываются их лексико-грамматические и семантические признаки. В результате работы этапа лексико-морфологического анализа формируется морфолого-синтаксическое представление (МСинЦ) предложения» в котором фиксирзгется иерархия вхождений основ и флексий в слова, слов в предложение.
Входной информацией для семантического анализа предложения является МСинП предложения Семантический анализ предложения заключается в распознавании смысловых отношений между номинативными словами предложения и построении на этой основе семантической структуры предложения в виде семантического дерева зависимостей.
В процессе семантического анализа предложения производится многократное выполнение следующих шагов: I) выделение в предложении очередного потенциального словосочетания, выражающего смысловую связь; 2) распознавание семантического отношения, кодируемого ввделенным словосочетанием. В зависимости от правил выбора очередного потенциального словосочетания возможны различные схемы семантического анализа предложения. Поиск потенциальных словосочетаний производится до тех пор, пока не будет построено связное семантическое дерево зависимостей. В общем случае необходим перебор всех пар номинативных слов предложения. При распознавании семантического отношения, кодируемого потенциальным словосочетанием возможна многозначность распознавания. Поэтому для семантического анализа предложения можно использовать как схему многовариантного анализа, так и схему одновариантного анализа, В АСЕД используется одновариантный семантический анализ, который является более простіш по вычислительном сложности. При выборе потенциальных словосочетаний учитывается критерий проективности, за счет чего достигается уменьшение перебора анализируемых потенциальных словосочетаний [30,80,99] Если в результате семантического анализа не удается построить связное семантическое дерево зависимостей, пользователю выдается диагностическая информация о результате анализа и управление передается на дообучение АСЕД.
Адаптация к языку диалога Важной особенностью АСЕД является адаптивность, т.е. возможность приспосабливаться в процессе анализа к новым лексико-грам-матическим средствам языка диалога, и в первую очередь к новым словам и словосочетаниям. Новым для системы считается слово, для которого нет основы в словаре основ, а новым для системы словосочетанием считается такое, для номинативных слов которого возможно осуществить с использованием словарной информации разбиение на основу и флексию, но выделенный определитель словосочетания не содержится в словаре определителей.
Алгоритм формирования пирамидальной сети
Семантическое покрытие фразы J(u/i)i, принадлежащее к одному из" описаний классов ситуаций модели проблемной области jUpсчитается допустимым результатом анализа входного сообщения. Входное ЕЯ сообщение может иметь одно, несколько или не иметь допустимых семантических покрытий. В последнем случае результат анализа считается неуспешным, Б случае нескольких допустимых семантических покрытий результатом анализа считается первое из найденных покрытий.
Поскольку процесс нахоздения покрытий имеет комбинаторный характер, в АСЕД используется для повышения эффективности обработки стратегия упорядоченного перебора потенциальных словосочетаний f учитывающая структуру описания классов ситуаций из МП0# На множестве семантических категорий номинативных слов анализируемого предложения устанавливается отношение семантического подчинения. Это отношение используется для выбора номинативных слов в качестве компонентов очередного потенциального словосочетания. Будем считать» что семантическая категория Ні руководит семантической категорией Hj, или Hf подчиняется HL , если в описании класса ситуаций 5/7 существует чередующаяся последовательность семантических отношений, начинающаяся с НІ Ж кончающаяся Kj $ в которой для казщого отношения кроме первого и последнего управляющий аргумент равен зависимому аргументу предшествующего отношения, зависимый аргумент текущего отношения равен управляющему аргументу последующего отношения. Отношение семантического подчинения можно задать путем введения понятия ранга для каждой семантической категории. Рангом семантической категории назовем количество семантических отношений в максимальной из допустимых последовательностей, начинающихся категорией K.
Возможны две противоположные стратегии выбора потенциальных словосочетаний предложения [30,60, Ъ0 99, Ш] : 1. В качестве потенциальных словосочетаний выбираются пары номинативных слов предложения, семантические категории которых имеют максимальные ранги. Это стратегия нисходящего анализа, 2, В качестве потенциальных словосочетаний выбираются пары номинативных слов, семантические категории которых имеют минималь ные ранги- Это стратегия восходящего анализа. Возможны также различные комбинации перечисленных стратегий. Опишем стратегию восходящего анализа, используемую в АСЕД, Семантический анализ предложения является одновариантным. Критерием успешного завершения анализа считается построение связной семантической структуры предложения, совпадающей с одним из описаний классов ситуаций МП0Р При выборе потенциальных словосочетаний учитывается критерий проективности, который применительно к семантическому анализу в АСЕД означает, что выбираемые в качестве компонентов потенциального словосочетания номинативные слова предложения должны быть либо соседними» либо мевду ними могут находиться только те слова, которые уже семантически подчинены одному из выбираемых слов. При поиске очередного потенциального словосочетания выбирается слово с минимальным рангом и для него выбирается второе номинативное слово, ближайшее по вхождению в предложений и шленщее ранг не меньше чем у первого. При выборе потенциальных словосочетаний используются также следующие эвристики. Если в качестве компонентов потенциального словосочетания выбираются номинативные слова, меяду которыми в предложении находятся только релятивные слова, то в потенпдальное словосочетание включаются эти слова. Такое же включение релятивных слов в потенциальное словосочетание производится и вг-Т0м случае, когда между искомыми номинативными словами есть номинативные слова, для которых уже найдена зависимость от одного из выбираемых слов. Поиск потенциальных словосочетаний производится до тех пор» пока не будут просмотрены все слова предложения. Если для некоторых номннативных слов не удается определить семантическую связь с другими словами, то в этом случае результат анализа считается неуспешным. Пользователю видается диагностическая информация о результатам анализа и управление передается на дообучение АСЕД. Если определитель потенциального словосочетания кодирует больше одного семантического отношения, то для устранения этой многозначности используется словарь словоформ и соответствие V Если устранить неоднозначность при этом не удается, пользователю выдается информация о всех возможных семантических отношениях и словосочетанию приписывается одно из возгонных отношений (наиболее часто кодируемое в обучающей выборке) и семантический анализ предложения продолжается.
Лексическая многозначность, связанная с обозначением разных предмзтов одинаковыми словами, устраняется за с ют использования модели проблемной области. Если семантическая категория анализируемого слова предикативная, это означает, что для всех одинаковых словоупотреблений в ситуативной базе знаний в процессе семантического анализа формируется одна реализация соответствующего предикативного понятий - семантический элемент, отображающий в СТБЗ предмет, обозначаемый искомым словом, Боли в предложении встречается несколько одинаковых слов, выражающих понятия-классы, то возможны следующие случаи: I) разные словоупотребления одного слова обозначают разные предметы; 2) словоупотребления обозначают один и тот же предмет. Многозначность такого рода устраняется с использованием теоретико-множественных свойств семантических ОЇУ ношений, аргументами которых являются указанные слова, согласно следующим правилам
Сбучение распознаванию осмысленных словосочетаний
Основными режимами работы первой версии системы ОЛИШ являются: 1. Инициализация базы знаний системы. 2. Формирование модели проблемной области. 3. Формирование модели языка общения. 4. Формирование СемП ситуаций по описанию на языке СИТДДАН. 5. Синтез ЕЯ текстов по заданному СемП ситуаций. В режиме инициализации осуществляется создание наборов данных для подсистем лингвистической и семантической памяти, формируются служебные таблицы и заголовки словарей. В режиме формирования модели проблемной области производится трансляция предварительно формализованного пользователем описания модели проблемной области с входного языка во внутреннее представление системы ОЛИШ. Для формирования модели языка общения пользователь первоначально производит анализ соответствующего подмножества естественного языка и выделение базовых списков основ, флексий, релятивных слов, а также формирование обучающих выборок слов и словосочетаний. В результате обработки этой информации формируется внутрисистемное представление языка общения. В режиме формирования СемП ситуаций производится трансляция описания ситуации с языка СИТПЛАН во внутреннее представление с запоминанием имени ситуации в служебных таблицах системы. Возможна модификация ранее сформированного СемП ситуации или его расширение. В режиме синтеза ЕЯ текстов по заданному имени СемП ситуации производится формирование ее естественно-языкового представления. Рассмотрим более подробно режимы формирования модели проблемной области и модели языка общения.
Входной информацией для процесса формирования МПО является вводимое с дисплея или перфокарт описание модели проблемной области на языке, предложенном в главе 4. Процесс формирования МПО включает (Рис. 5.3): процедуру формирования словаря семантических категорий, процедуру формирования словаря семантических отношений, процедуру формирования описаний(СвмП) классов ситуаций, процедуру формирования словаря понятий и семантических классификационных отношений, связывающих семантические категории с принадлежащими им понятиями Процедура формирования словаря категорий по заданному во входном описании списку имен категорий формирует словарь семантических категорий. Процедура формирования словаря семантических отношений выделяет во входном описании классов элементарных ситуаций имена отношений и заносит их в словарь семантических отношений. Процедура формирования описаний классов ситуаций по заданным во входной информации описаниям классов элементарных и сложных ситуаций формирует их внутрисистемное представление в форме пирамидальной семантической сети с использованием словарей семантических категорий и отношений и запоминает в понятийной базе знаний. Процедура формирования словаря понятий по входной информации, содержащей списки имен понятий с указанием соответствующей семантической категории формирует словарь понятий в понятийной базе знаний и связывает словарное представление понятий классификационными отношениями с семантическими категориями, В результате работы этого комплекса программ в понятийной базе знаний формируется модель соответствующей проблемной области, которая используется алгоритмами обработки ЕЯ текстов.
Процесс формирования модели языка общения включает этапы (Рис 5.4): формирования лексики языка общения, обучения распознаванию номинативных слов и обучения распознаванию осмысленных словосочетаний. Процедура формирования лексики языка общения обеспечивает формирование по заданным с дисплея или перфокарт спискам основ, флексий, релятивных слови словосочетании словарей основ, флексий, релятивных слов и определителей с использованием лингвистической виртуальной памяти. Обязательным на этом этапе является задание списков флексий и релятивных слов. Словари основ и определителей могут формироваться автоматически на последующих этапах. В системе ОЛИМП используется сетевое представление словарной лингвистической информации с использованием -пирамидальной сети. В результате описанного этапа формируется -пирамидальная сеть, в которой отображены основы, флексии, определители, релятивные слова, а также иерархические связи вхождения флексий и релятивных слов в определители.
На вход процедуры обучения распознаванию осмысленных слов поступает с перфокарт или дисплея обучающая выборка, содержащая номинативные слова или группы синонимичных слов с указанием соответствующего понятия и, возможно, категории. В результате работы этой процедуры производится сегментация слов на основу и флексию, запоминание слов в словаре словоформ и иерархических связей, вхождения основ и флексий в словоформу. Формируется или отыскивается имя понятия в словаре понятии и формируется именная семанти-. ческая связь между понятием и основой,, (соответствие # ). Если понятие новое, то в словаре семантических категорий отыскивается заданное в обучающей выборке имя категории и формируется классификационное семантическое отношение между категорией и понятием.