Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Системный анализ, онтологический синтез и инструментальные средства обработки информации в процессах интеграции профессиональных знаний Минаков Игорь Александрович

Системный анализ, онтологический синтез и инструментальные средства обработки информации в процессах интеграции профессиональных знаний
<
Системный анализ, онтологический синтез и инструментальные средства обработки информации в процессах интеграции профессиональных знаний Системный анализ, онтологический синтез и инструментальные средства обработки информации в процессах интеграции профессиональных знаний Системный анализ, онтологический синтез и инструментальные средства обработки информации в процессах интеграции профессиональных знаний Системный анализ, онтологический синтез и инструментальные средства обработки информации в процессах интеграции профессиональных знаний Системный анализ, онтологический синтез и инструментальные средства обработки информации в процессах интеграции профессиональных знаний Системный анализ, онтологический синтез и инструментальные средства обработки информации в процессах интеграции профессиональных знаний Системный анализ, онтологический синтез и инструментальные средства обработки информации в процессах интеграции профессиональных знаний Системный анализ, онтологический синтез и инструментальные средства обработки информации в процессах интеграции профессиональных знаний Системный анализ, онтологический синтез и инструментальные средства обработки информации в процессах интеграции профессиональных знаний Системный анализ, онтологический синтез и инструментальные средства обработки информации в процессах интеграции профессиональных знаний Системный анализ, онтологический синтез и инструментальные средства обработки информации в процессах интеграции профессиональных знаний Системный анализ, онтологический синтез и инструментальные средства обработки информации в процессах интеграции профессиональных знаний
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Минаков Игорь Александрович. Системный анализ, онтологический синтез и инструментальные средства обработки информации в процессах интеграции профессиональных знаний : диссертация ... доктора технических наук : 05.13.01 / Минаков Игорь Александрович; [Место защиты: Сам. гос. техн. ун-т].- Самара, 2007.- 413 с.: ил. РГБ ОД, 71 08-5/126

Содержание к диссертации

Введение

1. Онтологический подход в процессах обработки информации в сфере промышленного проектирования и производства, направленный на интеграцию научно-технических знаний 16

1.1. Проблема использования разнородных знаний в сфере промышленного проектирования и производства 16

1.2. Задача интеграции знаний. Специфика профессиональных и научно- технических знаний. 18

1.3. Субъектно-ориентированная модель приобретения знаний как метод интеграции разнородных научно-технических знаний 24

1.4. Два вида научно-технической информации - знание, основанное на объяснении, и знание, основанное на понимании... 26

1.5. Обобщенная логическая модель приобретения научно-технических знаний. Цикл приобретения и интеграции знаний, основанный на концептуальной модели эксперта. 30

1.6. Модель онтологии для представления знаний, основанных на понимании. 36

Основные результаты и выводы к разделу 1 38

2. Разработка архитектуры и основных механизмов работы со знанием, представленным в виде текстов на естественном языке . 40

2.1. Метод автоматизированного построения онтологии на основе набора предметно-ориентированных текстов и базовой онтологии языка 40

2.1.1. Введение в проблему. Обзор существующих методов построения онтологии на основе неструктурированных текстов... 40

2.1.2. Основная схема предлагаемого метода автоматизированного построения онтологии. 42

2.1.3. Выделение терминов предметной области на основе анализа набора текстов., 44

2.1.4. Формирование ключевых концептов онтологии (объектов атрибутов, отношений) из набора терминов . 48

2.1.5. Выделение атрибутов... 50

2.1.6. Построение отношений в онтологии. 52

2.1.7. Нахождение зависимостей и взаимосвязи между концептами 53

2.1.8. Построение иерархической модели объектов 55

2.1.9. Этап очистки онтологии от незначимых терминов 56

2.1.10. Проверка онтологии путем построения семантических дескрипторов документов и анализа противоречий 58

2.1.11. Основные выводы и перспективы развития подхода 62

2.2. Метод понимания научно-технических текстов на естественном языке 63

2.2.1. Введение в проблему. 63

2.2.2. Обзор существующих методов анализа текстов на естественном языке. 67

2.2.3. Логическая архитектура предлагаемого метода понимания научно-технических текстов естественном языке . 72

2.2.4. Синтаксическая онтология . 73

2.2.5. Семантическая онтология 19

2.2.6. Алгоритм морфологического анализа . 81

2.2.7. Алгоритм синтаксического разбора... 85

2.2.8. Алгоритм семантического анализа 93

2.2.9. Алгоритм формирования общего семантического дескриптора текста,... 96

2.2.10. Алгоритмы поиска и сравнения семантических дескрипторов 101

2.2.11. Основные выводы и перспективы развития подхода 104

2.3. Метод кластеризации структурированных и неструктурированных данных с целью извлечения новых знаний 105

2.3.1. Введение в проблему... 105

2.3.2. Обзор существующих методов семантической кластеризации 108

2.3.3. Логическая схема предлагаемого метода кластеризации 111

2.3.4. Основные участники процесса кластеризации и их свойства... 114

2.3.5. Основные параметры метода кластеризации. 119

2.3.6. Пример конструирования алгоритма для кластеризации семантических дескрипторов... 133

2.3.7. Основные выводы и перспективы развития подхода . 135

2.4. Метод автоматизированного пополнения онтологии на основе знаний, извлеченных на этапе кластеризации . 136

2.4.1. Введение в проблему . 136

2.4.2. Обзор существующих методов пополнения онтологии 137

2.4.3. Общая логическая схема предлагаемого метода

автоматизированного пополнения онтологии. 141

2.4.4. Типы пополняемых знаний и правила пополнения онтологии 144

2.4.5. Основные выводы и перспективы развития подхода 149

Основные результаты и выводы к разделу 2. 150

3. Разработка программно-инструментальной среды онтологического анализа и синтеза «синтез» 152

3.1. Основные компоненты среды для построения инструментальной системы решения задач извлечения знаний и понимания текста на естественном языке 152

3.1.1. Общее описание инструментальной среды и архитектура системы. 152

3.1.2. Конструктор онтологии и поддержка морфологии 155

3.1.3. Модуль автоматизированного конструирования онтологии 158

3.1.4. Модуль понимания текста на естественном языке 168

3.1.5. Кластеризация и извлечение знаний 182

3.1.6. Отладочной интерфейс 190

3.1.7. Реализационные характеристики системы... 194

3.1.8. Интеграция с базами данных, поддержка COM/CORBA, поддержка XML... 195

3.2.Исследование производительности основных блоков инструментальной среды, эффективности их работы и качества результатов 196

3.2.1. Автоматическое конструирование онтологии (скорость работы, число агентов, сложность онтологии, качество результатов)... 199

3.2.2. Кластеризация и извлечение знаний (скорость работы, число агентов, порождаемые кластеры, их сложность, динамика изменений)... 203

3.2.3. Понимание текста на естественном языке (скорость работы, число агентов, сложность разбора по этапам, порождаемая сцена, изменения семантического дескриптора)... 210

3.2.4. Автоматизированное пополнение онтологии новыми правилами (скорость работы, число агентов, порождаемые правила, качество результатов) 214

Основные результаты и выводы к разделу 3... 221

Разработка системы мониторинга релевантной информации в интернете в области малых космических аппаратов с целью поддержки принятия решений в промышленном проектировании ... 222

4.1 . Введение. Малые космические аппараты - эволюционное развитие космических технологий 222

4.2.Проблема Интернет-поиска релевантных информационных ресурсов в выбранной предметной области. 223

4.3.Предлагаемый подход и архитектура системы 224

4.4.Построение онтологии малых космических аппаратов на основе набора запросов, покрывающих предметную область . 226

4.5.Пример работы системы 228

4.6.Оценка эффективности системы. 231

4.7.Полученные результаты и перспективы развития... 240

Основные результаты и выводы к разделу 4... 240

Применение разработанной инструментальной системы для решения ряда практических задач 242

5.1.Система автоматической обработки, преобразования и коррекции логистических сообщений стандартных форматов обмена бизнес-данными 242

5.1.1. Проблема интеграции информационных служб компаний бизнес- партнеров 242

5.1.2. Предлагаемый подход и архитектура системы... 243

5.1.3. Онтология нейтрального формата промышленных стандартов обмена бизнес-данными. Схема соответствия 245

5.1.4. Автоматический перевод сообщений разных форматов -автомаппинг... 247

5.1.5. Автоматическая коррекция ошибочных сообщений 253

5.1.6. Полученные результаты 256

5.1.7. Выводы и перспективы развития... 256

5.2.Система онлайн анализа пользователей Интернет-портала... 258

5.2.1. Задача индивидуализации работы с Интернет порталом и

предоставления «точечной» информации, важной для

конкретного пользователя.. 258

5.2.2. Постановка проблемы... 259

5.2.3. Основные задачи системы онлайн анализа пользователей 260

5.2.4. Основные модули и архитектура системы. 261

5.2.5. Основные функции системы 265

5.2.6. Алгоритм кластеризации и реконструкция шаблонов поведения и интересов пользователя на основе его действий 267

5.2.7. Примеры работы программы и результаты анализа. 268

5.2.8. Технические требования. 271

5.2.9. Выводы и перспективы развития. 272

5.3.Система интеллектуального поиска информации в области современных биотехнологий 272

5.3.1. Проблема семантико-ориентированного поиска в информационно-поисковой системе MEDLINE. 272

5.3.2. Предложенный подход. 273

5.3.3. Онтология молекулярной биологии 275

5.3.4. Структура и работа системы. 277

5.3.5. Пример работы программы - разбор семантического дескриптора реферата по биологии 278

5.3.6. Алгоритм семантического сравнения дескрипторов на основе онтологии 282

5.3.7. Методика исследования и результаты эксперимента 287

5.3.8. Принципиальное отличие работы системы по сравнению с поиском по ключевым словам 287

5.3.9. Выводы и перспективы развития 288

5.4.Система интеллектуальной обработки и классификации документов . 291

5.4.1. Задача классификации профессиональных, деловых, и научно- технических документов 291

5.4.2. Основные положения подхода 292

5.4.3. Процесс работы системы интеллектуальной обработки и класссификации документов 293

5.4.4. Подсистема классификации документов на основе мультиагентной кластеризации, . 296

5.4.5. Построения базового шаблона документа на основе набора документов кластера. 302

5.4.6. Методика исследования и результаты эксперимента 307

5.4.7. Выводы и перспективы развития... 308

Основные результаты и выводы к разделу 5 309

Заключение 311

Список использованных источников

Введение к работе

Актуальность темы. В современном информационном обществе возникает острая необходимость в методах и средствах, ориентированных на обработку и анализ семантики доступных информационных материалов, для решения таких задач, как поддержка принятия решений при промышленном проектировании (например, образцов новой техники), классификация научно-технической документации, интеграция информационных служб промышленных компаний-партнеров.

В процессе решения подобных задач эксперт - лицо, принимающее решение, осуществляет интеграцию знаний, в рамках которой анализируются и систематизируются разнородные информационные материалы, произведенные другими исследователями, с целью получения знаний об изучаемом объекте, для чего обрабатываются различные электронные ресурсы: проектно-конструкторская документация, статьи научно-технических библиотек, промышленные и бизнес новости, страницы профессионально-ориентированных Интернет-порталов, онлайн-конференции, форумы, блоги.

К сожалению, существующие инструментальные средства обладают рядом ограничений, которые существенно уменьшают область и эффективность их практического применения. Это связано с тем, что имеющиеся поисковые системы и системы документооборота, при наличии множества методов для работы с текстом документов (анализ ключевых слов, морфология, грамматика, шаблоны, таксономия и пр.), практически не способны работать со смыслом текста, не анализируют знания, представленные в текстовой форме, что и является главной неразрешенной проблемой анализа.

В то же время в практических задачах все чаще экспертов не устраивает единый стандартизованный механизм поиска и анализа, доступный на сегодняшний день для обработки электронных документов. Возникает необходимость индивидуализировать процесс анализа, сделав его субъектно-ориентированным, принимая во внимание знания и цели самого эксперта.

Особенно востребована подобного рода задача в научно-промышленных исследованиях при работе с профессиональными знаниями, которые отличает целевая направленность документа, узкоспециализированная предметная область, сжатость и информативность текста.

Для решения задачи интеграции профессиональных знаний необходимы возможность представлять имеющуюся текстовую информацию в формализованном виде, механизмы поиска и сравнения семантики документов, возможность классификации согласно содержащимся в них знаниях, интерактивное взаимодействие с экспертом при построении модели предметной области, и даже механизмы автоматизированного уточнения модели на основе результатов анализа.

В области теории и практики работы со знаниями с помощью вычислительной техники накоплен значительный положительный опыт. Вопросы построения содержательных онтологии для моделирования реальности отражены в трудах отечественных ученых Т.А. Гавриловой, В.В. Девяткова, Г.Б. Евгенева, Г.С. Поспелова, Д.А. Поспелова, В.Ш. Рубаш-кина, В.А. Виттиха, А.В. Смирнова, СВ. Смирнова, В.Ф. Хорошевского, Г.П. Щедровиц-кого, а также многих зарубежных специалистов: T.R. Gruber, N. Guarino, J.F. Sowa, M. Uschold, B.J. Wielinga и др.

К работам, характеризующим предысторию развития, современное состояние и тенденции в области обработки естественно-языковых текстов можно отнести фундаментальные исследования Т. Винограда, Н. Хомского, Р. Шенка, В. Гумбгольдта, Ч. Филлмо-ра и др.

Среди российских работ можно выделить труды Ю.Д. Апресяна, Б.Ю. Городецкого, Ю.А. Загорулько, Н.Н. Леонтьевой, Н.В. Лукашевич, М.Г. Мальковского, И.А. Мельчука, А.С. Нариньяни, Г.С. Осипова, Э.В. Попова, В.А. Тузова, С.Д. Шелова и др.

В области кластеризации данных - труды И.З. Батыршина, Ж. Бола, В.Н. Вагина, Б. Дюрана, В.И. Городецкого, Н.Г. Загоруйко, Дж. Вэн Райзина, R. Agrawal, A. Maedche и др. Необходимо также отметить, что данная диссертационная работа базируется на работах В.А. Виттиха, сформулировавшего принципы онтологического анализа и синтеза, применяемые в процессе познания, и П.О. Скобелева, выработавшего принципы создания открытых мультиагентных систем для поддержки процессов принятия решения в сложных системах.

Но, несмотря на актуальность методов по работе со знаниями и обработке текстов на естественном языке, нужно отметить, что известные публикации в большинстве своем носят либо концептуальный характер и не предлагают конструктивных подходов, либо относятся к частным методам (например, построение тезаурусов, работа с шаблонами, кластеризация числовых полей и др.).

В то же время с точки зрения инструментальных средств ситуация значительно хуже. Не только не существует единой инструментальной среды, обеспечивающей все шаги процесса интеграции и приобретения знаний, но и имеющиеся системы, ориентированные на решение подзадач, обладают целым рядом ограничений, существенно уменьшающих эффективность их практического использования.

Рассматривались такие алгоритмы и системы, как ASUIM, Chameleon, ConExt, DOE, KEA, LTG, OntoLearn, Promethee, SIMER+MIR, SOAT, SubWordNet, SVETLAN, TFIDF, TERMINAE, Welkin для задач автоматизированного построения/поддержки онтологии, HPSG, SFG, LFG, SAM, ПОЭТ, ИВОС, InterBase, KRITON, ТАКТ, DocMiner, Enkata, Inellexer, Inxight, Ontos, Text Analyst, SAS Text Miner, Clearforest, dtSearch, TEMIS, Vantage-Point - для анализа текстов на естественном языке, LSA/LSI, STC, Bayesian classifiers, Single Link, Complete Link, Group Average, Scatter/Gather, K-means, CI, Concept vector-based clustering, SOM, Clusty, Quintura, Nigma, Vivisimo Search Platform, iBoogie, CarrotSearch -для кластеризации документов.

К сожалению, для каждой группы программных систем можно выделить ряд принципиальных недостатков, включая необходимость существенной ручной предобработки данных человеком-экспертом; невозможность анализа всего набора текстов с точки зрения семантики предметной области; зависимость качества результатов от языка документов; отсутствие открытой модели предметной области, позволяющей в полной мере использовать знания эксперта и пополнять ее в процессе работы; ограниченность работы с семантическими сетями; непрозрачность и неинтерактивность алгоритмов; критичность к наличию «мусорной информации»; зависимость качества результатов от изначальной предпосылки - догадки о «правильной структуре»; нетерпимость к наличию неполной или противоречивой информации.

Поэтому задача интеграции знаний по-прежнему является актуальной, и разработка инструментальной системы для интеграции профессиональных научно-технических знаний, представленных на естественном языке, представляется важной задачей для данной диссертационной работы.

Предмет исследования составляют процессы обработки информации, направленные на интеграцию научно-технических знаний.

Цель исследования состоит в разработке теоретических основ и инструментальных программных средств для решения проблемы интеграции научно-технических профессиональных знаний, представленных в виде текстов на естественном языке, в сфере промышленного проектирования и производства.

Для достижения поставленной цели в работе решаются следующие задачи: 1. Построить обобщенную логическую модель приобретения научно-технических знаний, позволяющую формализовать и применять знания эксперта с учетом промышленной и производственной специфики; разработать принципы онтологического подхода, позволяющего реализовать все этапы процесса приобретения и интеграции знаний в рамках единой методологии и концептуальной модели (онтологии).

2. Разработать метод автоматизированного конструирования начальной онтологии предметной области.

3. Разработать метод понимания научно-технических текстов на естественном языке в виде преобразования электронных текстовых документов в семантическую сеть в терминах онтологии предметной области с целью представления семантики документа.

4. Разработать методы получения, анализа и обработки научно-технической информации, представленной в виде семантической сети, в том числе механизмы сравнения, поиска, структурирования и классификации с помощью кластерного анализа.

5. Разработать метод самокоррекции и саморегуляции системы путем автоматизированного уточнения и пополнения знаний, представленных в терминах онтологии.

6. Разработать архитектуру системы и программно-инструментальную среду для работы со знанием, реализующую предложенные методы.

7. Выработать критерии оценки и провести исследование параметров и качественных характеристик разработанных методов и средств работы со знаниями, выработать рекомендаций по их применению.

8. Оценить эффективность предложенных методов и средств при решении ряда практических задач в сфере промышленного проектирования и производства и других применениях.

Методы исследования. Использованы теория и методы системного анализа, компьютерной лингвистики, эпистемологии, теории кластерного анализа, методы конструирования онтологии, теории графов, математической статистики, проектирования систем баз данных и знаний, структурного и объектно-ориентированного проектирования и программирования.

Научная новизна выполненных исследований заключается в развитии теоретических основ построения систем извлечения знаний и обработки неструктурированной информации на естественном языке:

• Новизна предложенного онтологического подхода к решению задачи интеграции профессиональных научно-технических знаний состоит в использовании единой методологии, основанной на концептуальной модели эксперта, для реализации всех шагов цикла приобретения и интеграции знаний, что обеспечивает индивидуализацию процесса и учет целей эксперта.

• Новизна предложенного метода автоматизированного построения онтологии предметной области заключается в итеративном анализе строящейся онтологии с помощью предложенного мультиагентного метода понимания текстов на естественном языке с применением базовой онтологии языка и набора предметно-ориентированных текстов, что обеспечивает механизмы самокоррекции и саморегуляции в процессе построения начальной онтологии предметной области.

• Новизна предложенного метода преобразования неструктурированной информации на естественном языке в семантическую сеть в терминах онтологии предметной области заключается в применении механизмов агентного взаимодействия квантов знаний, позволяющих реконструировать смысл предложения и всего документа, что дает возможность представлять смысл научно-технического текста в виде семантических сетей, обеспечивает механизмы уточнения семантики в режиме реального времени по мере поступления новой информации и предоставляет механизмы сравнения семантики связных профессиональных текстов. 

• Новизна предложенного метода кластерного анализа состоит в реализации его на основе агентных механизмов переговоров, что обеспечивает механизмы динамической иерархии групп семантически схожих объектов как в пакетном режиме, так и в режиме реального времени, а также дает возможность работы с неструктурированными квантами информации, представленными в виде семантических сетей.

• Новизна метода автоматизированного пополнения онтологии состоит в использовании мультиагентного кластерного анализа групп семантически схожих документов для выявления закономерностей, позволяющих уточнять онтологию предметной области, улучшая качество представления, поиска и анализа документов.

• Новым является предложенная архитектура инструментальной среды онтологического анализа и синтеза, основанная на субъектно-ориентированной модели приобретения знания с применением агентных взаимодействий, и заключающаяся в совместном использовании агентных механизмов работы со знанием на естественном языке и мультиагентного кластерного анализа, что обеспечивает полный цикл приобретения и интеграции знаний, необходимый для эффективного и оперативного использования научно-технической информации.

Практическая значимость. Научные результаты работы явились основой создания инструментальной среды онтологического анализа и синтеза, включающей подсистемы формирования, накопления, использования, анализа и пополнения разнородных знаний, необходимые для решения прикладных задач в сфере промышленного производства; предложены адекватные этим целям инструментальные программные средства.

Созданные программные инструментальные средства для реализации методов автоматизированного конструирования онтологии, обработки и представления информации, анализа результатов и пополнения знаний применяются в задачах мониторинга проектно 13 конструкторской информации в Интернет, логистики, поисковых и метапоисковых системах, системах классификации документооборота, онлайн-анализа и других применениях, поскольку использование созданного инструментария повышает скорость анализа и обработки информации, сокращает стоимость и сроки работ, увеличивает производительность и функциональность используемых систем.

Разработанные инструментальные средства имеют открытую архитектуру, гибкие механизмы импорта\экспорта, прозрачную процедуру настройки на любую предметную область посредством адаптации онтологии без необходимости изменения программного кода, что делает систему доступной экспертам предметных областей и открывает широкие перспективы как интеграции разработанных программных средств с имеющимся инструментарием, так и использования системы в тех научно-технических задачах, где актуальна проблема эффективного и оперативного анализа и приобретения научно-технических знаний, представленных в виде текстов на естественном языке.

Реализация работы. Результаты диссертационной работы нашли применение при выполнении научно-исследовательских работ:

- по Комплексной программе фундаментальных исследований РАН по проблемам машиностроения, механики и процессов управления 2004-2006 гг. (раздел VI, тема «Онтологический анализ и синтез в процессах принятия решений», гос. per. № 0120.0403300);

- по Комплексной программе фундаментальных исследований РАН по проблемам машиностроения, механики и процессов управления 2000-2003 гг. (раздел III «Управление и автоматизация», тема «Разработка основ теории управления сложными открытыми системами с применением компьютерного представления и обработки знаний», гос. per. №0120.0110152);

- по Комплексной программе фундаментальных исследований РАН по проблемам машиностроения, механики и процессов управления 1996-2000 гг. (п. 3.1.2 «Разработка моделей управляемых процессов, методов прогнозирования экономической эффективности и социальных последствий», тема «Разработка методов и средств построения теорий артефактов для компьютерной интеграции знаний и автоматической генерации моделей объектов управления», гос. per. № 01.9.60002398).

Прикладные разработки, связанные с проведением онтологического анализа и онтологического синтеза систем и созданием предметно-ориентированных пакетов прикладных программ выполнялись как в рамках перечисленных научных программ, так и по договорам с предприятиями на проведение НИОКР: - с ФГУП ГНГТРКЦ «ЦСКБ-ПРОГРЕСС» по созданию системы интеллектуального ме-тапоиска в сети Интернет для оперативного нахождения и мониторинга релевантной информации в области малых космических аппаратов (2007 г.);

- с ООО «Научно-производственная компания «Маджента Девелопмент», г. Самара (1999-2007 гг.), при разработке систем извлечения знаний и понимания текстов на естественном языке;

По результатам разработок подготовлен учебный курс «Мультиагентные системы», включающий цикл методических пособий и лабораторных работ, внедренный в учебный процесс в Самарском государственном аэрокосмическом университете и Поволжской государственной академии информатики и телекоммуникаций.

Апробация. Основные положения и результаты работы докладывались и обсуждались на международных и национальных конференциях и семинарах, в том числе: І-ІХ Международных конференциях по проблемам управления и моделирования сложных систем (Самара, 1999 - 2007), 2-м Международном семинаре «Автономные интеллектуальные системы: извлечение знаний из данных и интеллектуальные агенты» (AIS-ADM 07, Санкт-Петербург), 6-й Международной конференции по телекоммуникациям и информатике (WSEAS TELE_INFO 07 Даллас, США), 5-й Международной объединенной конференции по автономным агентам и мультиагентным системам (AAMAS-06, Хакодате, Япония), 1-й Международной конференции «Бизнес: информация, организация и менеджмент» (ВЮРоМ 2006, Лондон, Великобритания), Международной научной конференции «Интеллектуальные системы принятия решений и прикладные аспекты информационных технологий» (ISDMIT2005, Херсон), Международной конференции «ИТ в бизнесе» (ITIB2005, Санкт-Петербург), Международной конференции по развитию инфраструктуры электронного бизнеса, науки, образования и медицины в Интернет (Аквила, Италия, 2002), 3-м Международном семинаре по новым информационным технологиям (CSIT 2001, Уфа), VII Национальной конференции по искусственному интеллекту (Пере-славль-Залесский, 2000).

Публикации. По теме диссертации опубликовано самостоятельно и в соавторстве свыше 50 работ, в том числе в перечне, рекомендованном ВАК - 13; а также 3 авторских свидетельства об официальной регистрации программ для ЭВМ. Опубликованные материалы отражают основное содержание диссертации.

Структура и объем работы. Диссертация состоит из введения, пяти разделов, заключения, приложений и списка использованных источников, содержащего 256 наименований. Основная часть работы содержит 332 страницы, включая 111 рисунков и 13 таблиц. На защиту выносятся следующие положения:

1. Онтологический подход в процессах обработки информации в сфере промышленного проектирования и производства, направленный на интеграцию научно-технических знаний, представленных в виде текстов на естественном языке, и использующий субъектно-ориентированную модель приобретения знаний.

2. Метод автоматизированного построения начальной онтологии, основанный на ее итеративном анализе с помощью предложенного мультиагентного метода понимания текстов на естественном языке с применением базовой онтологии языка и набора предметно-ориентированных текстов.

3. Метод понимания научно-технических текстов на естественном языке, заключающийся в преобразовании электронных текстовых документов в семантическую сеть с помощью агентных переговоров на основе построенных онтологии предметных областей.

4. Метод кластеризации информационных объектов на основе агентных механизмов переговоров.

5. Метод машинного обучения системы в форме автоматизированного пополнения онтологии новыми знаниями на основе зависимостей, найденных в процессе анализа выявленных групп кластеров.

6. Архитектура инструментальной среды онтологического анализа и синтеза.

7. Результаты практического применения предлагаемых методов и средств в сфере промышленного проектирования и производства. 

Проблема использования разнородных знаний в сфере промышленного проектирования и производства

В современном информационном обществе темпы роста количества информационных материалов все более возрастают. Большинство актуальных научно-технических проблем изучаются независимо множеством как теоретических исследователей в институтах и научных лабораториях, так и промышленными предприятиями с целью их практического использования. И эксперту, желающему получить новую или систематизировать имеющуюся информацию об исследуемом объекте в сфере промышленного проектирования и производства, потенциально доступно множество уже существующих источников информации, которая содержится в научно-технических библиотеках, профессиональных онлайн-конференциях, статьях, справочниках, промышленных- и бизнес- новостных порталах и остальных информационных источниках.

Эффективное использование разнородных знаний, приобретенных путем таких исследований, становится возможным лишь после процесса интеграции знаний, плохо поддающегося формализации. При этом процесс окончательной стыковки, где формируется непротиворечивая модель предмета исследований, происходит уже в голове у эксперта и, скорее, относится к творчеству, а самым трудоемким и сложным подготовительным этапом является анализ, сравнение и классификация противоречивой и разнородной информации, созданной другими экспертами.

Данная проблема справедлива для целого ряда задач в сфере промышленного проектирования и производства, в том числе задачи анализа разнородной проектно-кон-структорской документации с целью вычленения параметров технической спецификации ис следуемого объекта, например, образца новой техники; задачи классификации доступной документации (как специализированной технической, так и общедоступной) в исследуемой предметной области с целью выявления и анализа динамики основных трендов разработки и проектирования; задачи поиска документов, совпадающих или противоречащих с концепцией и\или спецификацией эксперта; задачи обнаружения новых идей \ моделей \ методов, ориентированных на решение целевой задачи, но не известных ранее эксперту и ряда других задач [114, 119].

При этом процесс приобретения такого рода знаний, очевидно, индивидуален, и должен происходить с учетом целей, задач и концептуальной модели самого эксперта - конструктора, проектировщика и т.д.

Таким образом, возникает необходимость индивидуализировать процесс приобретения знаний, используя при этом концептуальную модель предметной области и\или объекта исследования, построенную экспертом.

К сожалению, на текущий момент инструментальных средств, позволяющих корректно получить с учетом знаний исследователя-эксперта информацию, ориентированную на эксперта и затрагивающую интересующую его предметную область, практически не существует. Это связано с тем, что имеющиеся поисковые системы и системы документооборота работают с текстом документов (анализируя ключевые слова, морфологию, грамматику и пр.), но недостаточно хорошо умеют работать со смыслом текста, не анализируя знания, представленные в текстовой форме, что и является главной неразрешенной проблемой анализа [76, 123].

Формализация подобного рода знаний - сложный процесс, связанный с неоднородностью и противоречивостью знаний, их устареванием и изменением, кроме того, зачастую даже человеку-эксперту трудно «извлечь» знания из собственного опыта и представить их как формализованное описание исследуемой предметной области.

Но даже формализация знаний о предметной области не итог, а только первый шаг в подобном анализе. Необходимы возможность представлять имеющуюся текстовую информацию в формализованном виде, механизмы поиска и сравнения семантики документов, возможность классификации согласно содержащимся в них знаниях, интерактивное взаимодействие с экспертом при анализе, и даже механизмы уточнения модели знаний по мере получения новой информации или на основе результатов анализа.

Таким образом, предметом исследования данной работы становятся процессы обработки информации, направленные на интеграцию научно-технических знаний.

Гносеология или теория познания - раздел философии, в котором изучаются природа познания и его возможности, отношение знания к реальности, выявляются условия достоверности и истинности познания. Термин «гносеология» происходит от греческих слов «gnosis» - знание и «logos» - понятие, учение и означает «понятие о знании», «учение о знании». И, хотя сам термин «теория познания» был введен в философию сравнительно недавно (в 1854 г.) шотландским философом Дж.Феррером, учение о познании разрабатывалось уже со времен Гераклита, Платона, Аристотеля.

Теория познания изучает всеобщее в познавательной деятельности человека безотносительно к тому, какова сама эта деятельность: повседневная или специализированная, профессиональная, научная или художественная. Поэтому отдельно выделяют эпистемологию (теорию научного познания) [54].

Проблемы теории познания в наше время выступают в различных формах, и существует ряд традиционных проблем, среди которых истина и заблуждение, познание и интуиция, чувственное и рациональное и др. Они образуют фундамент, опираясь на который можно осмыслить развитие науки и техники, взаимосвязь познания и практики, формы и типы человеческого мышления.

Напомним определения субъекта и объекта познания, без которых невозможен сам процесс познания.

Субъект познания - это тот, кто его реализует, т.е. творческая личность, формирующая новое знание. Субъекты познания в своей совокупности образуют научное сообщество. Оно, в свою очередь, исторически развивается и организуется в различные социальные и профессиональные формы (академии, университеты, НИИ, лаборатории и т.д.).

С гносеологической точки зрения можно отметить, что субъект познания является общественно-историческим существом, реализующим общественные цели и осуществляющим познавательную деятельность на основе исторически развивающихся методов научного исследования.

Метод автоматизированного построения онтологии на основе набора предметно-ориентированных текстов и базовой онтологии языка

Современное информационное общество стимулирует обострение конкуренции на рынке и заставляет предприятия искать новые методы и средства организации, ориентированные на более качественные и эффективные процессы управления, основанные на анализе и рациональном применении корпоративных знаний.

Онтология предприятия описывает его структуру и функции сотрудников, основные направления деятельности, производимые или продаваемые товары, потенциальных и фактических клиентов компании, стратегию развития и т.д. В ходе работы предприятия эти корпоративные знания, составляющие его важный интеллектуальный капитал, непрерывно создаются заново и уничтожаются, пополняются и модифицируются, уточняются и заменяются, развиваясь и эволюционируя вместе с предприятием [3, 26, 75].

Вместе с тем задача формализации этих знаний сложный процесс, связанный с неоднородностью и противоречивостью знаний, их устареванием и изменением, кроме того, зачастую даже человеку-эксперту трудно «извлечь» знания из собственного опыта и представить их как формализованное описание объектов и правил компании, не говоря уже о существенных временных и ресурсных затратах.

Но при этом все знания в компании могут существовать, но только в «сыром» виде, как набор контрактов, распоряжений, внутренняя и внешняя почтовая переписка, лицензии, руководства, финансовые и технологические отчеты и т.п.

Поэтому необходим механизм, способный систематизировать разнородные информационные материалы, составляющие корпоративное знание, и предложить формализованное их описание, которое затем уже будет можно анализировать и пополнять.

В данном разделе предлагается подход, основанный на предложенной в [10] технологии понимания текстов на естественном языке и позволяющей на основе набора документов в автоматизированном режиме построить онтологию предметной области, включающую в себя основные термины и описывающую зависимости между ними, давая эксперту предметной области фундамент для работы со знаниями предприятия.

В дальнейшем такая онтология может как пополняться вручную по мере поступления новой информации, так и дополняться в автоматическом режиме, когда приходящие материалы компании будут пополнять онтологию, позволяя оперативно менять корпоративные знания, на основе анализа текущей деятельности предприятия.

Задача автоматического построения онтологии стала особо актуальной в последние годы в связи с интенсивным развитием Internet и особенно идей Semantic Web [155], и, тем самым, лавинообразного роста документов в любой предметной области плюс необходимости в их корректной семантической обработке.

Поэтому последние годы возникал ряд работ, связанных в той или иной степени с задачей автоматизированного построения онтологии. Мы сфокусируемся на проблеме построения онтологии на основе неструктурированных текстов {Ontology learning from texts). Наиболее известными методами в этой области являются: — Извлечение на основе шаблонов (Pattern-based extraction) [189, 218], где отношение распознается, когда порядок слов в тексте совпадает с шаблоном. — Ассоциативные правила (Association rules). На основе набора правил «Если X, то 7» анализируется информация, хранимая в базе данных [149, 210, 211]. — Кластеризация концептов (Conceptual clustering) [170]. Концепты группируются между собой на основе кластеризации в иерархии, оценивая семантическое расстояние между ними. — Отсечение онтологии (Ontology pruning) [198]. Онтология строится на основе слияния множества онтологии предметных областей с помощью базовой онтологии и словаря терминов. — Извлечение концептов (Concept learning) [187]. Имеющаяся таксономия автоматически обновляется по мере того, как находятся новые концепты в массиве текстов. Среди российских работ в этой области можно выделить работы Г.С. Осипова

[115], Н.В. Лукашевич [84, 102], С.Д. Шелова [144], Н.Н. Леонтьевой [99], А.С. Нариньяни [109] и др.

Поскольку в данной работе рассказываем о методах, нашедших свое воплощение в программной реализации, помимо теоретических исследований нами был проведен анализ ряда популярных программных решений, присутствующих на рынке и ориентированных на решение данной задачи (см. Приложение Б4, а также, например, [178, 191]).

К сожалению, указанные теоретические и практические методы обладают рядом недостатков, которые существенно усложняют их использование в реальных задачах. К таким недостаткам, присущим различным методам, относятся: — Необходимость предобработки человеком-экспертом документов предметной области (здесь же предварительная разметка текста). — Необходимость построение существенной начальной онтологии экспертом. — Постоянная обработка и коррекция построенной онтологии экспертом. — Отсутствие обратной связи и невозможность проверить сгенерированную онтологию на достаточность \ непротиворечивость автоматическим путем. — Анализ и вычленение терминов с точки зрения семантики ограничивается рамками отдельных предложений, весь корпус текстов анализируется только с точки зрения частотной статистики. — Наличие составленного вручную словаря терминов предметной области. — Для разработанных систем на основе указанных методов наблюдается серьезная зависимость от языка документов - так как зарубежные системы неспособны анализировать русскоязычные тексты, отечественные разработчики, сосредоточив свое внимание на грамматических и синтаксических особенностях русского языка, показывают существенно худшие результаты для других языков.

Кроме того, к сожалению, большинство методов сфокусировано на начальных этапах построения онтологии, в основном ограничиваясь либо определением терминов, либо делая следующий шаг и строя таксономию объектов, в итоге получая скорее тезаурус. В полной мере использовать онтологию как совокупность знаний о предметной области, в силу указанных ограничений, у существующих методов не получается.

Поэтому была предложена новая схема построения онтологии, которая учитывала указанные недостатки и была ориентирована на построение семантической онтологии с возможностью автоматической проверки и уточнения ее на основе имеющегося набора документов.

Основные компоненты среды для построения инструментальной системы решения задач извлечения знаний и понимания текста на естественном языке

В ряде работ автора [3, 4, 7, 11, 13, 16, 43, 44, 46] была разработана и предложена структура специализированной инструментальной среды для построения ОМАС, ориентированных на решение задач извлечения знаний и понимания текста на естественном языке. Предлагаемый подход к интеграции знаний, основанный на агентных взаимодействиях и заключающийся в совместном использовании агентных механизмов работы со знанием на естественном языке и мультиагентного кластерного анализа, позволил создать архитектуру работы со знанием для реализации предложенных методов автоматизированного конструирования онтологии, представления и обработки информации, анализа результатов и пополнения знаний, обеспечивая цикл познания, необходимый для эффективного и оперативного использования информации.

Разработанная среда включает в себя несколько программных комплексов: инструментарий инженерии знаний, предназначенный для создания онтологии предметной области и логики принятия решений агентов, и программный инструментарий, ориентированный на представление, анализ и обработку знаний, представленных в виде информации на естественном языке.

Как уже упоминалось ранее, архитектура системы работы со знаниями является составной частью общей архитектуры ОМАС для ППР, описанной в диссертационной работе П.О. Скобелева [128], поэтому в данной работе сосредоточимся на части, характерной именно для работы со знаниями.

Архитектура системы представлена на рисунке 3.1.

Инструментарий инженерии знаний включает в себя конструктор онтологии, автоматизированную систему построения онтологии, систему понимания текста на естественном языке, систему извлечения знаний, модуль пополнения онтологических знаний и ряд дополнительных модулей, включая отладочную систему, интерфейсы работы с базами данных и внешними приложениями.

Физическая архитектура систем, построенных на базе разработанных инструментальных средств, приведена на рисунке 3.2.

Это типовая трехуровневая архитектура, принятая для работы в распределенных системах - выделяется уровень представления, обеспечивающий визуальный интерфейс конечного пользователя (web сервера), уровень работы с данными (база данных, сервер баз данных) и прикладной уровень бизнес-логики (серверы исполнители). Связь между уровнями обеспечивает менеджер транзакций и коммуникаций. Такая структура обеспечивает возможность работы с системой множества пользователей, поддерживает возможность расширения путем добавления новых серверов, обрабатывающих запросы, не меняя общую архитектуру, а так же обеспечивает распределенные параллельные вычисления задачи на нескольких серверах.

Таким образом, общая логика работы системы следующая. Для получения новой информации о предмете исследования используем ряд документальных результатов исследования, полученных другими экспертами (к таким результатам относится любая информация на естественном языке, представленная в электронном виде, включая документы, таблицы, электронную почту и пр.).

Далее на основе этой информации автоматизированно построим онтологию предметной области, которая затем может быть уточнена и дополнена человеком-экспертом.

Все документы - результаты исследования, преобразуются в вид семантических дескрипторов, позволяющих представить смысл документа в виде, удобном для семантического анализа.

Теперь модуль кластерного анализа позволяет сгруппировать данные на основе семантической близости документов, а модуль анализа дескрипторов позволяет пользователю получить интересующую его информацию с помощью интерфейса на естественном языке или в виде онтологических концептов.

Далее модуль пополнения онтологии использует найденные КМ правила для уточнения имеющейся онтологии вновь найденными правилами, давая возможность точнее представить семантику документов.

Основу всего комплекса составляет исполняющая система, реализованная в двух версиях на основе наиболее распространенных сред объектно-ориентированного программирования Object Pascal и C++ в операционной системе Windows.

Опыт разработки и применения рассматриваемых систем показал высокую эффективность созданных инструментальных средств, позволивших за короткое время создать более трех десятков различных приложений, в том числе в области логистики, конструи ровании он-лайн порталов, в поисковых системах, системах классификации документооборота и других применениях.

Для создания специализированных программных компонент приложения предлагается инструментарий программиста, состоящий из расширяемого набора библиотек программ и позволяющий настроить инструментальную среду для обработки информации в исследуемой предметной области.

Рассмотренные компоненты в целом составляют набор дополняющих друг друга средств, призванных упростить, ускорить и удешевить разработку подобного рода систем, обеспечить исследователю возможность эффективно и оперативно получать, обрабатывать и интегрировать знания об исследуемом объекте.

Далее детальнее рассмотрим созданные программные инструментальные средства для реализации методов автоматизированного конструирования онтологии, обработки и представления информации, анализа результатов и пополнения знаний.

Введение. Малые космические аппараты - эволюционное развитие космических технологий

Анализ тенденций развития космических технологий показывает, что одним из наиболее перспективных путей их совершенствования является применение малых космических аппаратов (МКА) и систем на их основе. Побудительным мотивом для перехода от создания и использования крупных универсальных спутников к МКА стал прорыв в электронике, двигателестроении, в области создания новых конструкционных материалов и др. областях, что позволило получить следующие преимущества: — низкая стоимость МКА, обусловленная в значительной мере их серийной пригодностью, позволяющая создавать при умеренных затратах (по оценкам специалистов, затраты за килограмм полезной нагрузки на изготовление малых космических аппаратов в 5-10 раз меньше) системы с высокой насыщенностью орбитальных группировок, что особенно важно для систем военного назначения и коммерческих связных систем; — малый срок создания (12 - 14 месяцев), что устраняет опасность морального старения и обеспечивает оперативное изменение характеристик космических систем при возникновении новых требований путем постепенной замены КА в составе орбитальной группировки; — применение МКА способствует уменьшению рисков, связанных с их запуском и работой в космосе, снижая финансовое бремя потерь в случае отказа или утраты такого спутника; — возможность оперативного массированного наращивания систем при изменениях военно-политической обстановки, чрезвычайных ситуациях и др. случаях.

Экономическая эффективность и возможность быстрого тиражирования позволяет использовать МКА в качестве «полигонов отработки» ключевых элементов космической техники, а также проведения исследований и экспериментов в космосе, отработки новых космических технологий. В перспективе же - создание орбитальных систем из взаимодействующих КА мини-, микро-, пико- и даже нано- классов, которые могут превзойти возможности современных КА с большими платформами.

Уже сейчас МКА используются в таких областях, как Интернет-технологии, телекоммуникации, навигация, метеорология, дистанционное зондирование Земли и акватории океанов, научные исследования.

Федеральной космической программой России на период 2006-2015 гг. предусмотрено создание целой серии малых космических аппаратов массой в сотни и десятки килограммов, способных выполнять задачи, которые еще 10 лет назад были по силам лишь многотонным спутникам.

Сегодня разработка малых космических аппаратов на базе унифицированных платформ является важнейшим направлением работ почти всех российских конструкторских организаций в области космической техники.

В силу перспективности МКА для космической промышленности России в рамках анализа существующих и планируемых решений, имеющихся на мировом рынке и предлагаемых странами-партнерами и конкурентами, становится необходимым постоянный мониторинг имеющейся и появляющейся информации, и особенно, в связи с все возрастающей популярностью Интернета, анализ электронных документов - новостных лент, специализированных порталов, блогов.

Поиск информационных ресурсов в сети Интернет де-факто стал одним из основных источников получения новых информационных данных в сегодняшнем научно-техническом сообществе.

Но, к сожалению, все имеющиеся на текущий момент технологии поиска, включая поиск по ключевым словам, поиск с использованием операндов булевой алгебры, поиск с расстоянием (при котором пользователь указывает, на каком расстоянии между собой должны располагаться ключевые слова в документе), построение нового запроса на базе предыдущего, поиск в определенных полях html-документа и морфологический поиск, все равно не обеспечивают основного - не дают возможность проанализировать семантику документа, выявить его реальный смысл (который зачастую противоречит указанным в нем ключевым словам, так как они были указаны с целью занятия более высокого положения в поисковых системах).

Помимо этого, имеющиеся поисковые системы достаточно плохо определяют актуальность предлагаемой информации, зачастую предлагая устаревшие статьи и новости, информация в которых хоть и была когда-то популярной, но более не соответствует действительности.

Для решения указанных проблем требуется разработать систему, которая позволяла бы в удобной форме специфицировать интересующую предметную область (в данном случае - космические технологии и МКА), наполнить ее предметно-ориентированными знаниями и получить возможность анализировать возвращаемые поисковыми системами тексты с точки зрения семантики, отделяя релевантные тексты от ошибочных, анализируя степень релевантности текста запросу. При этом интересующие сайты, блоги, новостные порталы и отдельные страницы можно было бы поставить на постоянный мониторинг с тем, чтобы в заданные промежутки времени они вновь проверялись на наличие интересующей информации, а устаревшая информация отсеивалась бы.

Для решения поставленной задачи предлагается подход, основанный на мультиа-гентной технологии и заключающийся в возможности представления смысла документа в виде семантического дескриптора на основе онтологии, который затем можно обрабатывать и анализировать в зависимости от запросов пользователя.

Общая архитектура системы приведена на рисунке 4.1.

Таким образом, можно получить исходный список интересующих пользователя документов, учитывая ключевые слова запросов, с помощью обычной поисковой системы (например, Google, Yahoo или Яндекс), затем преобразовать сайты / блоги / новости в форму семантических дескрипторов и далее типовые запросы пользователя представить в виде семантических дескрипторов, сравнивая их с дескрипторами документов, на основе предлагаемой технологии кластеризации и понимания текста на естественном языке.

Основным отличием данной задачи от проблемы, описанной в пункте 5.3, является то, что в силу особенностей сайтов в Интернете и алгоритмов поисковых систем, лексикон возвращаемых документов и их предметные области могут быть самыми различными, а не узкоспециализированньши, как в 5.3. Поэтому онтология требуется более разнообразная и разноплановая, больший словарный запас в морфологии, большая устойчивость к ошибкам при построении дескрипторов и при анализе запросов.

Похожие диссертации на Системный анализ, онтологический синтез и инструментальные средства обработки информации в процессах интеграции профессиональных знаний