Введение к работе
Актуальность темы. В связи с широким внедрением новых информационных технологий практически во все сферы человеческой деятельности особенно актуальной становится проблема организации эффективного и удобного взаимодействия с ЭВМ конечных пользователей, являющихся специалистами в различных областях знаний. Оперативный доступ к содержательной информации ' является жизненно важным для пользователей, занимающихся аналитической работой, связанной с изучением больших массивов текстовой информации, например, в сферах социально-политического прогнозирования, административного и финансово-экономического управления и др. Для этого создаются различные системы, обеспечивающие работу со знаниями (экспертные, информационно-поисковые, и т. п.).
Важнейшей составляющей интеллектуальных систем, основанных на знаниях, является их лингвистическое обеспечение. Эти системы в большей степени, чем'другие ориентированы- на пользователей-непрограммистов, а из этого вытекают повышенные требования к "естественности" языка общения. Во многих странах мира эта проблематика включена в национальные программы как одна из наиболее приоритетных в деле информатизации общества.
Интенсивный рост объемов международных коммуникаций и накопление огромных массивов информации по . различным отраслям знаний в виде текстовых файлов на разных естественных языках (в первую очередь, европейских) делают особо актуальной ориентацию лингвистического обеспечения на работу в многоязычной ситуации. Это означает поддержку такого режима работы интеллектуальной системы, который позволял бы получать доступ к знаниям, введенным на одном естественном языке, посредством запросов, формулируемых на другом естественном языке.
При создании естественно-языковых компонент
интеллектуальных систем требуется предварительная разработка
модели естественного языка (исходя из конкретных требований
решаемой задачи), а также механизмов отображения предложений
.естественного языка' во внутренние структуры знаний. Самой
- г -
трудной для моделирования является область семантики. До настоящего времени нет единого подхода к ее описанию, при этом очень мало исследованы возможности создания многоязычных интеллектуальных систем.
В Институте проблем информатики РАН разработан ряд интеллектуальных инструментальных средств, реализованных на основе аппарата расширенных семантических сетей, поддерживающих общение с пользователем на естественном языке. На базе этих средств создаются прикладные экспертные, консультационные и другие системы, основанные на знаниях, при разработке которых с необходимостью встают задачи как построения их лингвистического обеспечения, так и концептуального моделирования. Представляется целесообразным разработать методику организации этих процессов для обеспечения их технологичности. а также выработать унифицированный метод представления смысла высказываний (для ограниченного подмножества естественного языка) в многоязычной ситуации.
Цель работы состоит в исследовании и разработке методики концептуально-лингвистического моделирования, а также построении унифицированной семантико-синтаксической модели ограниченного подмножества естественного языка, предназначенной для эффективного построения лингвистического обеспечения интеллектуальных систем в условиях многоязычной ситуации.
Для достижения указанной цели в диссертационной работе решаются следующие основные задачи:
- провести анализ существующих подходов к моделированию
естественного чязыка и выработать требования к представлению
лингвистических знаний в интеллектуальных системах,
основанных на расширенных семантических сетях;
--определить характеристики представляемого подмножества естественного языка;
- выработать методику, построения естественно-языковой
модели предметной области, основанную на синтезе процессов
концептуального и лингвистического моделирования;
-'развить предлагаемую методику в многоязычной ситуации, для чего выявить и исследовать наиболее
релевантные для концептуально-лингвистического моделирования языковые объекты в системах русского, английского и итальянского языков и построить унифицированную семантико-синтаксическую модель предложения;
- разработать на базе предлагаемых методов' прикладные концептуально-лингвистические оболочки для конкретных предметных областей.
Методы исследования. Для решения поставленной задачи использовались методы разработки систем искусственного интеллекта: аппарат расширенных семантических сетей, элементы теории исчисления предикатов, структурной лингвистики, когнитологии (инженерии знаний), теории формальных грамматик.
Научная новизна работы.
1) Проведен анализ существующих подходов к моделированию естественного языка и выработаны требования к представлению лингвистических знаний в интеллектуальных системах, основанных на расширенных семантических сетях:
2) Определены характеристики представляемого
подмножества естественного языка, являющегося разновидностью
деловой прозы: функционального стиля экспертных знаний;
-
На основе синтеза концептуального и лингвистического подходов к построению модели предметной области разработана новая методика организации процесса концептуально-лингвистического- моделирования в интеллектуальных системах, реализованных на базе аппарата расширенных семантических сетей, поддерживающих естественноязыковой доступ к знаниям;
-
Построена базовая структурная иерархически-сетевая модель лексической семантики, служащая основой для концептуально-лингвистических моделей конкретных предметных областей. обеспечивающая возможность эффективного расширения;
-
Исходя из результатов структурно-контрастивного анализа русского, английского и итальянского языков, выработан новый унифицированный метод представления в базе лингвистических знаний интеллектуальной системы семантико-синтаксических отношений между элементами предложения, основывающийся на гибридной падежно-реляционной
грамматике, отражающий общность основных концептуализации в этих языках.
Практическая ценность и реализация результатов работы.
Основными практическими результатами диссертационной работы являются: прикладная интеллектуальная система, основанная на знаниях в области социально-политического прогнозирования, идеографический словарь (тезаурус) проблемной области социально-политического прогнозирования, служащий основой этой системы; прикладная русско-английская информационная система по административной организации научного учреждения; ряд концептуально-лингвистических оболочек для конкретных предметных областей; унифицированный метод построения глубинных семантических представлений в базе знаний интеллектуальной системы, обеспечивающий создание алгоритмов лингвистического анализа в многоязычной ситуации.
Предложенная методика концептуально-лингвистического моделирования дает технологическую основу для разработки естественно-языковых моделей предметных областей в интеллектуальных системах, работающих в реальном времени; при этом .обеспечивается гибкий доступ к знаниям по естественноязыковым запросам в произвольной форме, реализущий возможность ассоциативного поиска.
Работа проводилась в рамках следующих тем:
ЛОГОС-Д - "Создание программных средств логико-лингвистического анализа естественно-языковых текстов для организации интеллектуального интерфейса с базами знаний", основанием для разработки которой являлся Единый план МНТК "ПЕРСОНАЛЬНЫЕ ЭВМ". (п. 5. 5. 5). утвержденный ГКНТ СССР от 2.04.91 за N426.
- ИКС - "Создание интеллектуального редактора знаний с естественно-языковым интерфейсом", данное направление находится в русле перспективных исследований в области новых информационных технологий Российской Академии наук.
Апробация работы. Основные результаты диссертационной работы докладывались на научно-техническом семинаре "Методы и средства представления знаний" (г. Ленинград, 1990г.), на
международном семинаре "Бионика интеллекта" (г. Харьков, 1991г.), на международной школе-семинаре по искусственному интеллекту IASAI-91 (г. Туапсе, 1991г.), на международном семинаре "Знание-Диалог-Решение" (г. Светлогорск, 1992г.), на международной конференции "Восток-Запад" по ' проблемам использования искусственного интеллекта в образовании (г. Москва, МЦНТИ, 1992), на международном семинаре "Знание-Диалог-Решение" (г.Киев, 1993г.). на международной конференции "Восток-Запад: Компьютерные технологии в образовании" (1994, Крым, Украина), на международной конференции "Лингвистика на исходе XX века" (г. Москва. 1995 г.), на международной конференции "Диалог-95" (г. Казань, 1995 г.), на научных семинарах Института проблем информатики РАН (г. Москва, 1989-1995гг.)
Публикации.
По теме диссертации опубликовано 7 научных работ.
Структура и объем работы.
Диссертация состоит из введения. четырех глав, заключения, списка литературы (123 наименования) и трех приложений. Общий объем работы 142 страницы машинописного текста, 2 таблицы, 25 рисунков.