Введение к работе
Актуальность темы. По мере распространения вычислительной техники и расширения сферы ее применения объем информации, которая подлежит обработке с помощью ЭВМ, постоянно нарастает. Так как эта информация часто представлена текстами на естественном языке ( ЕЯ), для- всех основных направлений ее переработки, таких, как сбор, хранение, систематизация, распространение и интерпретация, весьма важно иметь возможность автоматизированной обработки естественноязычных текстов (ЕЯ-текстов). Использование автоматизированных систем обработки текстов (ЕЯ-систем) могло бы значительно облегчить для человека работу с большими массивами организационно-управленческой, плановой, научно-технической, справочной и прочей документации. Актуальность темы исследования определяется важностью задачи автоматизированного анализа текстовых источников, целью которого является извлечение информации на заданную тему и создание целостного представления о некотором фрагменте (объекте) действительности. Подобная проблема встает в процессе деятельности аналитических служб, функционирующих в самых разных областях: экономике, политике, социологии и т. д. Эта проблема типична такте для инженерии знаний (необходимость сопоставления протоколов решения экспериментальных задач, полученных от разных экспертов). Поскольку разные тексты, как правило, описывают один и тот же объект с разных точек зрения и с различной подробностью, а также могут содержать противоречивые сведения о данном объекте, необходимо уметь интегрировать информацию из отдельных текстов, выявлять и устранять возникающие противоречия.
Основные цели работы:
разработка структуры семантических моделей сложных объектов применительно к задаче объединения информации из различных ГеКСГОВЫХ ИСТОЧНИКОВ;
разработка алгоритмов формирования семантических моделей;
- разработка способов выявления и устранения противоре
чий, возникающих в результате интеграции в модели сведений об
объекте из нескольких текстов, содержащих информацию различной
полноты и достоверности;
- разработка архитектуры системы, предназначенной для ав
томатизированного построения семантических моделей сложных об
ъектов по нескольким текстовым источникам;
- 4 -- создание модельной версии системы автоматизированного формирования семантических моделей сложных объектов на основе использования разработанных алгоритмов построения моделей, а также способов представления знаний, с целью проверки адекватности полученных результатов.
Научная новизна. В диссертации предложен новый подход к решению задачи формирования семантических моделей сложных объектов, обеспечивающий возможность объединения информации из нескольких текстов с учетом ее возможной неполноты, противоречивости, а также различной 'степени достоверности.
Практическая значимость. Работа выполнена на кафедре Алгоритмических языков ВМиК МГУ в рамках программы "Информатизация России", тема "Научно-техническое обоснование и программная поддержка создания и сопровождения человеко-машинных систем". Полученные результаты использовались при проведении НИР, выполнявшихся на кафедре алгоритмических языков факультета ВМиК МГУ в 1991-1994Г.г. , в частности НИР "Кильватер".
Предлагаемая система может использоваться в качестве составной части ЕЯ-системы, осуществляющей поддержку работы аналитиков по анализу текстовых источников, а также применяться как часть вопросно-ответной системы.
Достоверность результатов подтверждается построением экспериментальной системы, работающей с текстами из различных предметных областей.
Апробация. Результаты диссертации докладывались на городском семинаре по автоматизации программирования, а также на научных семинарах в МТУ им. М. В. Ломоносова и Институте системного анализа PAR
Публикации. По теме диссертации опубликована одна работа, достаточно полно отражающая основные научные результаты диссертации.
Структура и объем диссертационной работы. Диссертация состоит из введения, трех глав, заключения, списка литературы, включающего 43 названия, и приложений. Основной (без приложений) текст занимает 104 машинописных страницы.