Введение к работе
Актуальность темы. Данная работа посвящена проблемам, которые связаны с представлением знаний о русском языке в вычислительной машине и которые возникают при обработке компьютером текстов на русском языке
Эти проблемы не новы. Однако, семантическая сложность русского языка, многообразие и многозначность его грамматических конструкций накладывают множество ограничений на способы компьютерного представления знаний о языке, предметные области его использоваїшя в вычислительных системах и зависят от возможностей существующих информационных технологий. По существу, это проблемы формализации русского языка для компьютера, которые сводится к решению трех подзадач: морфологического, синтаксического и семантического анализа текста.
Решение этих подзадач позволяет говорить о разработке такой системы базы знаний, которая, сможет использовать естественный (русский) язык в автоматизированном или полуавтоматизированном режиме.
Предметом анализа настоящей диссертационной работы являются методы и формы представления информации о русском языке для компьютера.
Цель диссертационной работы состоит в обосновании предлагаемых принципов формализации русского языка для компьютера, доказательстве утверждений, лежащих в основании этих принципов путем разработки прототипа диалоговой системы обработки произвольной текстовой информации и выдачи результатов этой обработки в доступном для человека виде.
Комплекс актуальных проблем, возникших в ходе исследований, обусловил решение следующих основных задач:
-
выделить, обосновать и доказать основополагающие принципы и утверждения, необходимые для машинной формализации русского языка;
-
разработать механизм задания, информации и разработать морфологический анализатор текстов на русском языке;
-
рассмотреть возможные способы применения разработаштого морфологического анализатора в поисковых и обучающих системах;
-
описать семантику синтаксиса предложений русского языка, выделить информативную для машины ее основу и разработать синтаксический анализатор произвольных текстовых конструкций;
-
разработать прототип диалоговой системы морфологической и синтаксической обработки текстов;
-
описать и обобщить полученные результаты проведенного анализа по проблемам формализации русского языка в процессах управления автоматизированных естественно-языковых систем.
Научная новизна вытекает из сформулированных выше цели и задач исследования. Принципиальной новизной является сам комплексный подход к решению проблем по формализации русского языка для компьютера, в результате которого получается такая система знаний компьютера о предметной области (о русском языке), благодаря которой компьютер способен «общаться» с человеком на естественном языке, вычисляя и обрабатывая произвольные грамматические конструкции.
Основные результаты. Проведенные исследования позволили создать систему, способную анализировать морфологию и синтаксис произвольных текстов на русском языке. Она реализует следующие возможности:
-
производит морфологический разбор произвольно задаваемого слова;
-
получает полігуго парадигму любого слова вместе с морфологическим описателем для каждой формы слова этой парадигмы;
-
строит для любого слова его морфологический шаблон и вычисляет набор слов, соответствующий этому шаблону;
-
осуществляет выделение в произвольной конструкции (предложение, текст) составляющих ее отдельных слов и получает по ним морфологическую информацию;
-
приводит выделешгую морфологическую информацию к грамматическому типу, соответствующему грамматическому типу предложения;
-
выделяет ведущую функцию конструкции, определяет ее аргументы и осуществляет сборку конструкции в виде единой законченной суперпозиции, получая таким образом синтаксический шаблон конструкции;
-
позволяет по грамматически верному произвольному вопросу на русском языке для произвольной конструкции получить грамматически верный ответ в естественном виде, адекватный синтаксису этой конструкции;
-
при работе в диалоге с пользователем не требует ограничений на его словарный запас: пользователь может быть «не понят» системой лишь в том случае,
если в вводимой конструкции имеется слово, информация о котором не заложена в электронный морфологический словарь (что для 100000-го словаря основ и возможности генерации более 2.5 млн. словоформ практически маловероятно), либо п том случае, если пользователь в запросе задаст заведомо ложную информацию, искажающую грамматическую конструкцию ( экспериментальная версия системы предполагает общение с грамотным пользователем; в противном случае, искаженная информация игнорируется системой).
Теоретическая значимость результатов работы заключается в предложении нового подхода решения проблем компьютерной формализации русского языка и его перспективности при разработке эффективных автоматизированных систем по обработке текстовой информации.
Практическая ценность полученных результатов состоит в разработанных методах и алгоритмах формализации русского языка (на уровне синтаксиса предложений) и созданных на их основе анализаторов произвольных текстовых конструкций. Готовые алгоритмы и программы могут быть применены в разрабатываемых поисковых, обучающих и других естественно-языковых системах.
Апробация работы. Приведенные проблемные вопросы прошли апробацию в выступлениях на научных конференциях факультета ПМ-ПУ СПбГУ (1996г., 1997г.), научно-практических конференциях Академии МВД (январь и ноябрь 1997), Международной конференции по современным технологиям в образовании (Санкт-Петербург, 1997г.), научно-практических семинарах Междисциплинарного Центра дополнительного профессионального образования СПбГУ (декабрь 1997, январь 1998) и др.
Публикации. По основным вопросам диссертации опубликованы 3 печатные работы, список которых приведен в конце автореферата.
Структура и объем работы. Диссертационная работа в композиционном отношении состоит из введения, четырех глав, заключения, списка основной литературы, включающего 29 наименований и двух приложений. Общий объем работы 94 страницы машинописного текста.