Введение к работе
Актуальность проблемы : В течение ряда лет было разработано Еюжество специализированных интерфейсов на основе естественных іьїков для реализации диалога. Один из наиболее многообещающих в ячислительной лингвистике подходов к обеспечению учета контекста ітуации в языковой системе, работающей с естественным языком, шзан с отысканием решения на основе универсальных подходов.
Понимание и порождение текста на естественных языках - это область
зследований, связанная с развитием методов, которые позволят
зічислительной системе общаться с пользователями на привычном языке.
ля решения этой проблемы создаются экспертные системы с
пользованием искусственного интеллекта. Порождение текста
называется особенно важным для интерактивных систем. К ним гносятся вопросно-ответные системы, позволяющие пользователю задать эпрос и получить ответ на естественном языке. К этой же категории ожно отнести экспертные и машинные обучающие системы.
Диссертационная работа посвящена разработке принципов создания зновных компонентов информационной диалоговой системы, которая спользует интерфейсы "машина-человек". Тема диссертации связана с юретическими исследованиями принципов построения естественно-зыковых интерфейсов между системой и пользователем. Ее разработка плжна сформировать методы организации распознавания запросов, а ікже порождения соответствующих ответов.
Основная идея данного исследования состоит в анализе трансформации юрмата естественно-языковых структур, представленных в логической юрме, с целью разработки методологии организации механизма
машинного обучения, а также формирования базы знаний и базы данны экспертной естественно-языковой системы.
Цель работы Разработка методов и алгоритмов для создани
естественно-языковой экспертной диалоговой системы. Результат
диссертационной работы развивают теорию создания моделе
естественно-языковых интерфейсов применительно к справочны
информационным системам. Функции такой системы не ограничивают
простыми ответами на вопросы. Интерфейсы выполняют не толы
идентификацию и поиск данных, а также обеспечивают взаимодействие
пользователем при реализации широкого класса функций. Пользовате^
и система должны придти к взаимному соглашению относительно обші
терминологии, общего отношения к решаемым задачам и методам анали
информации, а также понимать вырабатываемые друг друге
рекомендации. При этом система не ожидает от пользователя, что і обратится к ней с четко сформулированной задачей, продемонстрнру хорошее понимание возможностей и терминологии системы или даэ проблемной области.
Задачи исследования :
Походы к решению этой задачи в данной диссертации представляют следующим образом :
1+ Разработка структуры системы, обеспечивающей понимал запросов и генерацию ответов на естественном языке.
2+ Разработка механизма трансформации формата языковых структ и его сравнение с известными теоретическими подходами.
3+ Создание баз знаний и баз данных для естественно-языков экспертных диалоговых интерфейсов.
4+ Разработка механизма индукции на основе изначально нулеї
зы экспертных знаний и базы данных.
Метод исследования :
Поставленные задачи решены с использованием теории естественных ыков, методов искусственного интеллекта, планирования контекстов, эрии представления графов, инженерии знаний, построения экспертных стем и математического моделирования.
Научная новизна :
В диссертации разработан оригинальный метод трансформации амматического формата с использованием формальных грамматических іражений и функционального графа, отображающего потенциальные гти вывода знаний. Теоретическое и практическое значение данного .зультата состоит в следующем. Как известно, теория Хомского даёт ізможность реализовать "грамматическую индукцию" предложения, ;ходя из набора правил.
Грамматика G Хомского Н. представляет собой математический
>ъект, образованный упорядоченными четверками G=( Vn > Vt > R» S),
te Vn H Vt " непересекающиеся конечные множества, состоящие )ответственно из нетерминальных и терминальных символов, етерминальные символы не могут появляться в предложениях, а ;рминальные могут. Таким образом, предложения состоят только из рописных букв. Выделенный вспомогательный элемент S называется анальным символом, поскольку все предложения в языке выводимы из его. Ядром грамматики является множество R порождающих правил, оторые традиционно обозначаются как а=>В, где аир- элементы
ножегтва {Vn ^ Vt }> а обозначение Q* используется для задания ножества всех подмножеств для Q. Предложения языка порождаются
грамматикой следующим образом. Говорят, что цепочка непосредственно выводима из цепочки у, т.е. у => 8 тогда и только тогд; когда у = г|1 а г\2, 8= г|1 р т|2 и 3a->PeR, где - г|1 и г\2 произвольнь цепочки. Транзитивное замыкание оператора вывода, обозначаемое ка у* =>8 и читаемое как "8 выводимо из у", означает, что у=0,8=^т и ^т-1 => т для 1 < т < т. Тогда язык L(G) порождается следующи образом:
L(G)={ we V?| S* =>w} (1)
где w- слово языка L(G).
Это означает, что язык состоит из всех цепочек основных символої которые выводимы с помощью множества правил R из начальног символа S . Из (1) также следует что, если грамматика G налагае
какое-либо ограничение на порядок слов, то L(G) с Vt
В данной же диссертационной работе, предлагаются теори
"двунаправленной грамматической индукции" и язык L(Gt), которые вс
первых, на базе интерфейса пользователя позволяют сформироват
специальный формат в виде математических выражений
определенными операциями, а во-вторых система на основ соответствующего специального формата в виде математически выражений обеспечит как и в теории Хомского, формирование структурі дерева предложения.
Грамматика Gt (Grammar twoways inference) даёт возможност реализовать "двунаправленную грамматическую индукцию" предложение исходя из набора
Gt=( vn.Vt.8,S),
где Vn і Vt . S определяются как в теории Хомского,
S ={ ^i.j }" сеть формальных операции языка,
Sj.j - операция і с приоритетом j.
Тогда (2)
L(Gt)={wk є V* I S* => wk &&C 8-J w' =>4>є&* && v)/=>Q 5,j wk}
k k
где (J S,j wk - конкатенация слов wk с операциями в определенном
к ірядке соответственно индексу к.
В работе определены оригинальные принципы для создания системы,
іеспечивающей понимание и порождение текстов с использованием
плевой базы знаний и данных, т.е базы знаний и данных, которые
згут быть сформированы только тогда, когда система начинает
іботать, поскольку вся информация вводится только в результате и
зеле общения с пользователем.
Автором разработан механизм обработки запросов пользователя на
ізе мульти-функциональных логических отношений и терминологии
эльзователя, состоящий из следующих этапов : декомпозиции
ггественно-языковых запросов; реализации "процесса анализа
нформации" на основе вышеуказанных форматов, правил и функций, еобходпмых для выполнения запросов; классификации заданных равил системы и правил, образованных на основе механизма змообучения; формирования мульти-функциональных отношений; операции ответа на запрос пользователя в результате обработки баз наний и данных.
В диссертации разработана архитектура системы, позволяющей орождать текст с применением базы знаний и базы данных, а также пособной обеспечить процесс самообучения на основе пользовательского нтерфейса.
Автором создан специальный язык с инструментальными средствамі частью которого является так называемая открытая система, содержаїщ средства вывода и базу экспертных знаний. Скелетная система создаете на основе предметно-независнмного функционального языка.
Практическая ценность :
В работе разработана демонстрационная модель "TEST-Language" і компьютере типа IBM compatible 386/486 или выше.
Реализадня результатов работы :
Научно-техническая продукция, разработанная в рамках даннс
диссертации, внедрена в РГУ ПС с целью подтверждения способное!
и точности данной методики. Внедрение системы подтвердил
эффективность предложенных в диссертации принципов.
Апробация работы :
Основные подходы для создания естественно-языковой системы рамках данного исследования докладывались и обсуждались н Всероссийской научной конференции ( г.Москва 1994г.) и CIMPA-CIM INRIA School, Nice University, Франция (1994г.).
Публикадии :
Результаты диссертации изложены в трех опубликованных работах.
Структура и объем работы :
Диссертационная работа состоит из введения, четырех глав заключения, изложенных на 159 страницах, а также приложенш содержащего листинг программы на 29 страницах.
Работа содержит 26 рисунков, 01 таблицы, библиографию из 3
аименований.