Содержание к диссертации
Глоссарий 6
Введение 7
Глава 1, Анализ существующих подходов к извлечению знаний 17
1.L Анализ подходов к организации хранилищ данных и знаний 17
1.1 Л Экспертные системы 19
Системы управления корпоративными знаниями 20
Системы документооборота и автоматизации работы офиса 22
1Л.4 Распределенные информационные сети 27
Системы сбораи классификации информации 31
Хранилища данных 34
1.L7 Хранилища знаний и системы выделения смысла из текста 37
Описание новой альтернативной системы 40
Анализ подходов к автоматическому извлечению знаний и анализу текста на естественном языке 45
1.3Л Что такое знание в современных информационных техно л огнях. „46
Классификация задач извлечения знаний 48
Методы извлечения знаний 51
Классы задач Text mining 52
Существующие системы и решения задач Text mining 56
Модели представления и форматы хранения знаний 67
1.4. Описание модели формального представления знаний 71
Глава 2. Декомпозиция целей исходной сложной задачи 74
2.1. Анализ задачи разработки системы хранилища знаний как прикладной
системы 74
2.1.1 Архитектура системы 76
2.2. Анализ задач операции над знаниями 77
2.2.1 Концептуальная модель знаний 77
2.3. Операции над знаниями 80
2,3.1 Задача лексического анализа текста 80
23-2 Представление знаний и задача их преобразования 81
233 Операция смыслового контекстного поиска 83
w 2А Заключение к главе 86
Глава 3. Подход к разработке СППР на основе Системы Хранилища Знаний.. 88
3-1, Основные положения подхода к разработке СППР на основе систем
хранилищ знаний 88
Текст как носитель знаний 89
ОСС как описание смысловых связей между словами 90
Смысловой контекстный поиск как основная операция над знаниями 91
3.2, Архитектура прикладной системы 91
3.2. Стадии обработки текста... , 93
^ 3.1. Витрины знаний 93
3.2, Определение множеств и операций над ними 95
Общне элементы 95
Отличия описания элементов сегмента поиска 96
Некоторые системные свойства ОСС 97
3.3- Алгоритмические решения задач СКП 97
З.ЗЛ Описание общего алгоритма поиска по сегменту 99
* 33.2 Алгоритмическое решение задачи поиска покрывающих деревьев .„
Алгоритмы поиска по сегменту без связей 104
Алгоритмы поиска по сегменту со связью 106
34. Заключение к главе ПО
Глава 4, Реализация подхода в виде специального программного обеспечения».
4.1. Описание реализации модулей системы 111
4,1.1 Компоненты базы данных 111
4.1,2 Компоненты серверного приложения 112
4.L3 Компоненты клиентского приложения 112
4.1 А Взаимодействие компонентов системы 112
4.2. Библиотека работы сознаниями 113
Лексический анализатор 113
Сетевой протокол прикладной системы 115
Язык описания знаний SONML 116
Правила нумерации 116
Правила преобразования служебных символов 118
4.53 Структура документа 118
Реализация алгоритмов поиска 119
Оценка коэффициента увеличения объема информации 121
Подход к тестированию и отладке системы 123
ч 4.9. Используемое программное обеспечение 123
Работа с системой 124
Результаты апробации прикладной системы 125
Заключение к главе 128
Заключение 130
Библиографический список 139
Приложения 151
* Приложение 1. Схема позиционирования разработанного подхода 151
Приложение 2. Листинг примера высказывания на языке SQL при добавле-i
нии сегмента 152
Приложение 3. Листинг примера высказывания на языке SQL операции по
иска 153
Приложение 4. Листинг заголовков библиотеки работы с формальным пред
ставлением знаний 154
Приложение 5. Перечень команд протокола 159
Приложение 6. Описание языка SONML 160
Приложение 7- Пример выражения на языке SONML 163
Приложение 8- Подход к тестированию прикладной системы .....164
Приложение 9. Формы визуального интерфейса 165
Приложение 10. Акт апробации результатов диссертации в Гмбх САС Инсти
тут 168
Приложение 11. Акт апробации результатов диссертации в ОАО МВ\0 "Авиа
экспорт" 170
Приложение 12. Акт апробации результатов диссертации в ООО "Интеллек
туальные ресурсы" 172
Приложение 13. Акт апробации результатов диссертации в НИЧ МИСиС .174
ГЛОССАРИЙ
СППР - система поддержки принятия решений,
СХЗ - система хранилища знаний.
ОСС - объектная семантическая сеть.
ЕЯ - естественный язык.
ЕРЯ - естественный русский язык.
СКП- смысловой контекстный поиск.
ФПЗ - формальное представление знаний.
Сегмент ОСС — множество элементов ОСС, выделенных в группу.
Язык ФПЗ - язык формального представления знаний.
SQL - язык структурированных запросов.
СУБД - Система Управления Базами Данных.
SQL Server- СУБД, поддерживающая работу с SQL-
SONML - Semantic Object Net Markup Language (англ.), размеченный язык описания объектной семантической сети, в работе является реализацией ФПЗ.
ПО - программное обеспечение.
СП - сегмент поиска. Сегмент ОСС, описывающий структуру искомых подсегментов ОСС хранилища знаний.
Онтология - формальное описание объектов окружающего мира и отношений между ними.
Файл сервер - ЭВМ, подключенная к локальной сети и выполняющая
функции хранения большого количества файлов.
Введение к работе
Задачи анализа текущей деятельности и принятия управленческих реше-
w ний для холдингов и больших предприятий металлургической отрасли требуют
обработки большого объема текстовой информации, которая в настоящее время содержится в электронном виде во всех областях науки и техники. Так, Московский Институт Стали и Сплавов, как ведущий металлургический вуз страны, обладает большими массивами металлургической и материаловедческой информации.
В прикладных системах поддержки принятия решений (СПГТР) появилась
возможность использования знаний, заложенных в текстовой информации
больших массивах электронных документов. Для эффективного использования
такой информации в задачах поддержки принятия решений [1] основными тре-
t бованиями стали автоматическое извлечение знаний (АИЗ) из текста, высокая
производительность операций анализа текста и поиска знаний, высокое качество извлекаемых знаний и их представления в удобном, агрегированном виде.
Развитие глобальной сети Интернет привело к реализации крупнейшего в
истории человечества хранилища информации в электронном виде. При этом
плохая структурированность описательной (текстовой) части информации зна
чительно снижает эффективность ее использования [2], Аналогичная ситуация
* складывается в корпоративных информационных системах, в которых файл -
сервера и хранилища данных содержат тысячи и сотни тысяч документов на естественном языке (ЕЯ). Возникла ситуация, когда лицо, принимающее решение (ЛПР), при поиске знаний в доступных ему документах не способно в разумное время их качественно проработать без использования специальных программных средств.
Программные средства, организующие поиск по содержимому документов, значительно улучшили ситуацию [3]. Но даже при сильном сужении перечня найденных документов, этот результат нельзя считать достаточным, так
как ЛПР сталкивается с необходимостью анализа всего содержимого найденных документов. Использование морфологического анализа во многом улучшило качество результатов поиска, но не более того.
В задачах принятия решений на основе большого количества текстовых документов на ЕЯ необходимо проводить предварительный программный смысловой анализ текста, реализуемый с использованием синтаксического и семантического анализа.
В настоящее время задача предметно независимого семантического анализа текста на естественном русском языке (ЕРЯ), реализуемого в виде высокопроизводительного программного обеспечения (ПО), работающего в автоматическом режиме, не решена. В отличие от множества европейских языков, семантический анализ текста которых успешно используется во многих программных продуктах, слабая формализация русского языка и, как следствие, его неоднозначность, делает задачу смысловой обработки русскоязычных текстов весьма сложной.
Таким образом, задача построения СППР на основе системы хранилища знаний (СХЗ), основанного на ЕРЯ документах, весьма актуальна.
Цель работы
Цель работы заключается в разработке подхода к построению СППР на основе СХЗ, осуществляющей работу с электронными текстовыми документами на ЕРЯ, выделение из них знаний и использование выделенных знаний для различных целей принятия решений.
Основные задачи, которые ставятся в работе: провести многокритериальный анализ существующих подходов к построению СППР на основе информационных систем извлечения и
управления знаниями;
разработать концептуальный подход к построению СППР на основе
СХЗ с интеллектуальной обработкой текстовой информации на ЕРЯ,
отличающийся высокой производительностью и качеством;
разработать модели представления знаний на различных этапах обработки текста и работы системы;
определить в ходе системно-функционального анализа методы обработки электронных текстовых документов на ЕРЯ с целью извлечение из них знаний, независимо от предметной области и тематики текста;
разработать для работы ЛПР удобный графический пользовательский интерфейс, позволяющий использовать все функции системы;
разработать систему хранения исходных документов и знаний, систематизировать процессы добавления документов, удаления документов из системы и доступ к документам для их чтения и анализа;
разработать методы и алгоритмы быстрого смыслового контекстного поиска (СКП) по накопленным знаниям, оптимизированные с учетом специфики модели знаний;
разработать подсистемы с использованием технологии клиент-сервер для реализации одновременной работы нескольких пользователей с единым хранилищем знаний, для чего разработать новый протокол передачи данных между приложениями клиента и сервера.
Фундаментом работы является представление знаний в виде объектной семантической сети (ОСС). Внешний модуль АТЕЯ [4] используется для проведения анализа электронного текста на ЕРЯ с целью построения ОСС.
Объекты и задачи работы
Исходя из поставленной цели решения сложной проблемы, проведена декомпозиция цели и сформированы локальные цели.
1. В отношении представления знаний:
провести многокритериальный анализ существующих понятий и моделей знаний, подходов к представлению знаний;
конкретизировать понятие знания согласно поставленной задаче;
формализовать язык описания знаний в качестве универсальной формы представления знаний для передачи знаний на различных этапах работы системы между ее компонентами,
2. В отношении разработки СППР на основе СХЗ:
провести многокритериальный анализ существующих подходов к разработке СППР на основе текстовой информации и извлечения знаний из текста на ЕРЯ;
разработать концептуальный подход к разработке СППР на основе СХЗ согласно поставленным целям.
3. В отношении архитектуры хранилища знаний:
разработать многокомпонентную архитектуру системы, с использова
нием технологии системы клиент-сервер, позволяющую реализовать
многопользовательский режим работы;
* разработать модель представления знаний в каждом из компонентов системы;
разработать модули анализа текста, реализующие преобразование
электронного документа в хорошо структурированный текстовый
вид, проведение лексического анализа документа и вызов внешнего
модуля смыслового анализа текста для построения ОСС;
т разработать протоколы и механизмы взаимодействия компонентов системы;
4. В отношении алгоритмов работы со знаниями:
разработать методы работы со знаниями, включающие проведение СКП в хранилище знаний на основе текста запроса на ЕРЯ;
разработать быстрые алгоритмы преобразования представления знаний при передаче знаний между модулями системы;
разработать алгоритмы быстрого СКП в хранилище, оптимизированные с использованием особенностей модели ФПЗ;
разработать базу данных, выполняющую задачу хранения данных системы в представлении, необходимом для проведения поиска и использования знаний в системе;
разработать представление результатов выделения знаний из СХЗ.
Практическая ценность работы
Результаты работы позволяют организовывать СППР на основе корпоративных и отраслевых хранилищ знаний, реализуемых с использованием предложенных методов и алгоритмов обработки и хранения текстовой информации. Реализовано накопление электронных документов из различных источников и извлечение заложенных в эти документы знаний.
Решение научной проблемы СКП знаний является основополагающей при использовании знаний в других задачах работы со знаниями, заложенными в тексте на ЕЯ- Исходя из этого, разработано прикладное алгоритмическое решение быстрого СКП на стороне СУБД, Результаты работы позволяют решить следующие общие научные проблемы:
Автоматическое интеллектуальное реферирование групп электронных документов на ЕРЯ с учетом целей реферирования в виде запроса на ЕРЯ или искусственно сформированных сегментов ОСС,
Выделение из текста электронных документов неявных (явно не изложенных) знаний.
Выделение целевых знаний из больших массивов электронных текстовых документов, расположенных в глобальной сети Интернет, за счет вторичного анализа результатов работы поисковых систем на основе статистического и частотных методов.
Автоматическое определение авторства, стиля изложения и тематики электронных документов.
Изменение стиля изложения документа на ЕЯ и его перефразирование с целью упрощения.
Использование ОСС позволило достичь хорошего качества результатов смыслового контекстного поиска в хранилище при соблюдении условия соблюдения высокой производительности при проведении операции поиска. Качество определяется соответствием и полнотой результатов проведения СКП запросу на ЕЯ.
Реализация и внедрение результатов исследования
Реализованное хранилище является программным решением для персональных компьютеров с операционной системой семейства Windows 2000 и Windows ХР и сервером баз данных MSDE 2000 либо MS SQL 2000,
Модуль интерпретации SONML, языка ФПЗ, реализованный в форме UDF1, работает независимо от выбранного SQL сервера и может быть адаптирован на интерфейсном уровне для других СУБД, с доработкой выражений на языке SQL, поддерживаемого сервером.
Практическое использование системы проведено в ходе организации хранилища знаний на основе содержательной части новостей информационного портала "Металлургическая отрасль России" , на массиве статей
1 UDF - User-Defined Function (англ.), функции, определяемые пользователем. Как правило внешние модули, подключаемые с серверу баз данных, содержащие функции, которые могут быть вызваны из программ, выполняемых сервером.
по тематикам металлургии, расположенных в свободном доступе на Web сервере этой системы, а также на основании ряда других источников статей и работ на металлургические темы2.
Апробация системы проведена на массиве научно-исследовательских отчетов по госбюджетной тематике НИЧ МИСиС, а также информационного наполнения системы АКТИН3, используемой НИЧ для предоставления отчетной информации вышестоящим организациям.
Апробация системы на предмет возможной эксплуатации, развития и использования, проведена сотрудниками компании "Гмбх САС Институт", российского представительства компании SAS Institute - лидера ПО для разработки хранилищ данных и построения аналитических систем.
На защиту выносятся следующие основные научные результаты
Результаты системного анализа существующих подходов к построению информационных систем накопления и управления знаниями как основы СППР в виде новой модели СХЗ. Результаты декомпозиции исходных целей построения СХЗ, как сложной системы, на локальные цели более простых задач; анализ состояния проблемы и необходимость создания СХЗ на основе ОСС,
Подход к построению СХЗ, реализующего автоматическое накопление документов, выделение из них знаний, предоставление возможности работы со знаниями в СППР и проведение поиска знаний с учетом смысловых связей.
2 В качестве печатных источников статей рассматриваются журналы "Известия высших учебных заведений.
Цветная Металлургия", "Известия высших учебных заведений. Черная Металлургия" "Интернет Бизнес Ме
талл". "Наука МИСиС в 2001 году '\ "Наука МИСиС в 2002 году ".
3 Программа АКТИН предназначена для эксплуатации руководителями и исполнителями научно-
исследовательских работ <НИР) и научно-исследовательскими управлениями (НИУ) вузов и организаций Ми-
нистерства образования Российской Федерации (далее Министерства) при подготовке отчетных документов о
НИР, финансируемых из средств бюджета и выполняемых по единому заказ-наряду (ЕЗН), а также по отдель
ным заказ-нарядам
Логическая структура представления знаний в виде динамической структуры и в формате таблиц данных на стороне СУБД, Концептуальный подход к хранению древовидной структуры свойств и алгоритм поиска на множестве покрывающих деревьев.
Алгоритмы СКП на сегментах ОСС хранилища и их реализация.
Конкретизация понятия "знания", разработка новой модели знаний и разработка формального языка описания знаний и операций над ними.
Апробация работы
Основные положения и результаты диссертации докладывались и обсуждались на следующих научных конференциях:
Международная конференция ДИАЛОГ'2003 «Компьютерная лингвистика и интеллектуальные технологии» (Протвино, ABBYY, 2003);
5-я международная конференция "Интерактивные системы: проблемы человеко-компьютерного взаимодействия4 IS-2003 (Ульяновск, УГ-ТУ, 2003);
7-й Российской научно-практической конференции "Реинжиниринг бизнес-процессов на основе современных информационных технологий. Системы управления знаниями" РБП-СУЗ-2004 (Москва, МЭСИ,
2004);
Virtual Forum on Decision Engineering ( ,
2002).
Публикации
По материалам диссертации опубликовано 4 работы:
1. Крапухина Н.В., Кузнецов Д.Ю., Тригуб Н. А. Подход к созданию интеллектуальной системы извлечения знаний из текстовых электронных документов на основе объектной семантической сети // Компьютерная
лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог-2003» (Протвино, 11-16 июня 2003г.)- - М.: Наука, 2003. С.327-336.
Krapukhina N.V., Kuznetsov D,Y. Practical Use Of Objective Analysis Of Natural Russian Technical Text. II Interactive Systems: The Problems of Human - Computer Interaction. Proceedings of the International Conference, 23-27 September 2003Г Ulyanovsk: U1STU, 2003. C.211-214.
Крапухина H.B., Кузнецов Д.Ю .Возможности системы извлечения и поиска знаний, основанной на использовании объектной семантической сети // Реинжиниринг бизнес-процессов на основе современных информационных технологий. Системы управления знаниями. Сб. докладов (РБП-СУЗ-2004 14-15 апреля) -,М.: МЭСИ,2004. С. 208-212.
Крапухина Н.В., Кузнецов Д.Ю. Подход к разработке системы хранилищ знаний // Экономика, информационные технологии и управление в металлургии: Сб. научных трудов./ Под ред. А.Г. Дьячко. - М: МИСиС,2003.С.71-76
Работа над диссертацией соответствует целям и задачам развития приоритетных направлений науки, технологии и техники Российской федерации на 2000 — 2010 год, сформулированным в "Федеральной целевой программе "Электронная Россия" [5].
Структура и объем работы
Диссертационная работа изложена на 150 страницах машинописного текста, иллюстрирована 13 рисунками и 3 таблицами. Она состоит из введения, глоссария, 4 глав, заключения, библиографического списка из 120 наименований и 13 приложений.
В первой главе проводится развернутый обзор и анализ подходов к организации информационных систем, организующих накопление, хранение и анализ данных, рассматриваются подходы к извлечению знаний, представлению
знаний и методам извлечения знаний из текстовой информации на русском языке. В результате проведенного анализа поставленная цель классифицируется и формулируется область применения разрабатываемой системы.
Во второй главе приведены результаты декомпозиции исходной задачи построения СППР на основе хранилища знаний на локальные. Результаты декомпозиции используются в третьей главе при описании подхода к разработке СППР.
В третьей приводится описание разработанного подхода к организации СППР на основе хранилища знаний, формальное описания поставленных задач, выбор способов решения этих задач, их алгоритмические решения, программная реализация которых приведена в четвертой главе.
В четвертой главе изложено описание программной реализации СППР на основе хранилища знаний, ее архитектуры, характеристик и функциональных возможностей- Приведены результаты апробации прикладной системы и примеры сравнения с ближайшими аналогами,
В заключении сформулированы основные результаты работы, описана практическая ценность изложенного материала, приведены выводы по работе, а так же перспективные задачи, решаемые с использованием результатов настоящей работы.