Содержание к диссертации
Введение
Глава 1. Методы интеллектуального анализа данных 10
1.1 Анализ методов 13
1.1.1 Классификация 13
1.1.2 Кластеризация 15
1.1.3 Поиск ассоциативных правил 17
1.1.4 Анализ последовательностей ...20
1.1.5 Формальный концептуальный анализ 22
1.1.6 Индукция каузальных моделей 25
Постановка задачи исследования 30
Глава 2. Методика интеллектуального мониторинга сложных технологических объектов 32
2.1 Задача мониторинга 32
2.2 Интеллектуальный мониторинг сложных технологических объектов 34
2.3 Определение набора исходных данных 43
2.3.1 Выделение групп параметров 45
2.3.2 Удаление избыточности в наборах параметров 49
2.4 Предварительная подготовка исходных данных 52
2.5 Оценка отклонений в реальном времени 55
2.6 Динамичность связей объекта мониторинга 65
Выводы 68
Глава 3. Построение модели объекта по данным непрерывного мониторинга сложных технологических объектов 70
3.1 Индукция модели объекта из данных 73
3.2 Расчёт модели 95
3.3 Интеграция знаний экспертов предметной области 98
3.4 Инкрементальная индукция моделей 105
Выводы 108
Глава 4. Распространение методики мониторинга на случай нелинейности взаимосвязей и наличии временных задержек 109
4.1 Нелинейность взаимосвязей параметров 111
4.2 Модификация методики для учёта фактора временной задержки 126
4.3 Нелинейные модели с временной задержкой 145
Выводы 154
Заключение 156
Библиографический указатель 159
- Формальный концептуальный анализ
- Интеллектуальный мониторинг сложных технологических объектов
- Индукция модели объекта из данных
- Нелинейность взаимосвязей параметров
Введение к работе
1. Актуальность проблемы
Существует класс сложных технологических объектов, для которых в настоящее время отсутствуют надёжные методы анализа данных оперативного мониторинга. Этот класс объектов характеризуется:
1. Невозможностью организации активного эксперимента с целью создания математической модели;
2. Большим числом доступных для измерения параметров (сотни);
3. «Дрейфом» во времени отдельных параметров;
4. Отсутствием обоснований для необходимости измерений значительного числа параметров;
5. Отсутствием точных данных о взаимосвязях между параметрами и их влиянии на качество наблюдаемых процессов.
Объектами данного класса являются и атомные электростанции (АЭС), для которых оперативный мониторинг радиационной и технологической обстановки является чрезвычайно важной задачей при эксплуатации АЭС и неотъемлемым условием обеспечения безопасной и устойчивой работы.
Задаче анализа потока данных оперативного мониторинга сложных технологических систем, до настоящего времени не уделено должного внимания. В то время как во многих других сферах деятельности, таких как, телекоммуникации и т.п., массивы информации, накопленные в базах данных, активно используются для выявления скрытых внутренних закономерностей с последующим практическим применением извлечённых знаний. В качестве обзорной работы в направлении интеллектуального анализа данных можно назвать [13]. Примером успешного применения методов интеллектуального анализа к проблеме мониторинга в телекоммуникационных сетях служит работа [38].
В связи с этим актуальной является задача разработки методов и алгоритмов для системного анализа вектора данных оперативного мониторинга сложных технологических объектов с применением современных методов интеллектуального анализа данных, в целях усовершенствования характеристик существующих систем мониторинга. Эффективный анализ данных мониторинга возможен при создании средства интеллектуального анализа данных с использованием методов индукции статистических моделей, позволяющих выявить внутреннюю структуру вектора параметров оперативного мониторинга. Создание подобных систем «интеллектуального» мониторинга и средств автоматизированного анализа данных мониторинга позволит повысить эффективность системы мониторинга и будет способствовать повышению уровня безопасности при эксплуатации АЭС.
Разработка методов и алгоритмов для извлечения знаний из массива данных оперативного мониторинга сложных технологических объектов с использованием современных методов искусственного интеллекта и интеллектуального анализа данных, с последующим приложением разработанных алгоритмов и программ применительно к объектам атомной энергетики делают тему диссертации актуальной как в прикладном отношении, так и в научно-техническом плане.
2. Цель и задачи исследования
Целями настоящего исследования являются:
1. Создание методов интеллектуального анализа данных сложных технологических объектов;
2. Создание средств для системного анализа и обработки данных мониторинга;
3. Использование программных средств для обучения специалистов. Для достижения этих целей нами поставлены следующие задачи:
1. Провести обзор методов интеллектуального анализа данных;
2. Разработать модифицированный алгоритм индукции, использующий знания экспертов предметной области в качестве эвристики при построении модели;
3. Разработать модифицированный алгоритм индукции нелинейных моделей, оценить сложность алгоритма;
4. Разработать методику мониторинга на основе индукции статистических моделей по данным оперативного мониторинга;
5. Разработать программный комплекс для оценки эффективности и точности алгоритмов методики на вычислительных экспериментах и данных наблюдения.
3. Научная новизна исследования
1. Модифицированный алгоритм индукции, использующий знания экспертов предметной области;
2. Модифицированный алгоритм индукции нелинейных моделей;
3. Методика интеллектуального оперативного мониторинга состояния сложных технологических объектов на базе индукции модели объекта по данным наблюдения. Методы исследований, применённые в диссертационной работе, опираются на теоретические и методологические основы теории статистики, теории машинного обучения и теории баз данных и методы интеллектуального анализа данных.
4. Практическая значимость результатов исследования и их внедрение в практику
На базе разработанных методик и алгоритмов интеллектуального оперативного мониторинга создан программный комплекс «Пионер» для тренинга специалистов по поддержке принятия решений в случае радиационных аварий на АЭС. Разработанная система представляет собой эффективный инструмент для проведения тренинга служб радиационной разведки. Программный комплекс внедрён в практику работы Технического кризисного центра (ТКЦ) ИБРАЭ РАН, о чём имеется соответствующий акт.
Предложенная в настоящей работе методика интеллектуального мониторинга позволяет повысить эффективность систем мониторинга АЭС и способствует решению важных прикладных задач в области обеспечения экологической безопасности и безопасности персонала АЭС.
5. Апробация работы
Основные результаты диссертационной работы докладывались на конференциях:
1. V Международной научно-практической конференции "Фундаментальные и прикладные проблемы приборостроения, информатики, экономики и права" — Москва, 2002;
2. Всероссийской научно-технической конференции "Новые информационные технологии" — Москва, 2003;
3. IV конференции стипендиатов ИБРАЭ РАН, Москва, 2003;
4. Конференции Школы молодых ученых ИБРАЭ РАН, Москва, 2004.
6. Публикации
По теме диссертации опубликовано 6 научных работ, в том числе, 1 препринт (№ИБРАЭ-2004-05). Исследования по диссертации отражены в научно-исследовательских отчётах Института проблем безопасного развития атомной энергетики РАН (ИБРАЭ РАН).
7. Объём и структура диссертации
Диссертационная работа изложена на 167 страницах машинописного текста, состоит из введения, 4 глав, отражающих результаты исследований автора, заключения, библиографического указателя, включающего 93 источника, иллюстрирована 35 рисунками и 19 таблицами.
8. Содержание работы
В первой главе приведён обзор и сравнение существующих методов в области интеллектуального анализа данных применительно к задаче анализа вектора данных мониторинга. Отмечены трудности, возникающие при использовании существующих методов интеллектуального анализа в связи со спецификой данных оперативного мониторинга состояния сложных технологических объектов. Выбор адекватного метода извлечения знаний во многом предопределяется тем видом знаний, которые мы ожидаем получить в результате анализа. Вид знаний определяет как возможные формы представления знаний, так и методы интеллектуального анализа, которые могут быть использованы для извлечения знаний соответствующего вида из данных. С прикладной точки зрения, большой интерес представляют знания о закономерностях внутренней структуры объекта мониторинга, извлекаемые методами индукции. На основе анализа работ, посвященных системам представления знаний и методам извлечения знаний из данных, сделан вывод, что методы индукции статистических моделей могут быть успешно применены как для задачи структуризации вектора параметров оперативного мониторинга, так для задачи анализа данных оперативного мониторинга с целью выявления структурных отклонений. В конце первой главы дана постановка задачи исследования.
Вторая глава посвящена разработке методики интеллектуального оперативного мониторинга состояния сложных технологических объектов. Предложена обобщенная схема процесса интеллектуального мониторинга отклонений на основе индукции статистических моделей, а также показана роль методов индукции в процессе мониторинга. Проведено исследование вопросов связанных с определением и предварительной подготовкой вектора исходных данных мониторинга. Обоснована необходимость применения методов анализа внутренней структуры данных для эффективного выявления структурных отклонений в процессе функционирования объекта мониторинга, приведён конкретный пример использования методов индукции для выявления структурных отклонений. По результатам численных экспериментов приведены оценки взаимосвязи времени реакции и точности системы мониторинга, построенной на базе индукции статистических моделей, в зависимости от специфики объекта мониторинга и пороговых коэффициентов. Проведена адаптация методики интеллектуального мониторинга на случай мониторинга объектов с динамически изменяющимися связями.
Третья глава посвящена вопросам построения модели объекта по эмпирическим данным оперативного мониторинга. По результатам численного моделирования приведены оценки эффективности алгоритмов индукции моделей в зависимости от количества параметров и типа модели. Проведена оценка возможности индукции линейных моделей для массивов исходных данных высокой размерности в реальном времени. Предложен формализм для представления знаний экспертов предметной области и разработан соответствующий модифицированный алгоритм индукции для включения знаний экспертов предметной области в процесс построения модели. Включение знаний экспертов предметной области в процесс индукции моделей позволяет решить проблемы статистической эквивалентности и идентифицируемости модели. Предложен подход для оптимизации алгоритма индукции в случае повторной или периодической индукции модели по данным мониторинга. Оптимизация алгоритмов индукции для случая повторной или периодической индукции позволяет уменьшить временные затраты на анализ данных мониторинга, что представляется чрезвычайно актуальным, так как интеллектуальный мониторинг представляет собой процесс периодического анализа данных в реальном времени.
В четвёртой главе проведено развитие методики интеллектуального мониторинга и проведена адаптация существующих методов индукции для нелинейного случая и случая с временными задержками. Разработан модифицированный метод индукции нелинейных моделей, который позволяет точнее описывать нелинейные структурные взаимосвязи объекта мониторинга, и приводит к более корректным моделям, что и расширяет сферу применения предложенной методики мониторинга. Разработан модифицированный метод индукции моделей с временными задержками, что позволяет учитывать специфику объекта мониторинга и получать корректные модели с временными задержками. Получаемые модели с временными задержками могут быть в дальнейшем использованы в целях прогнозирования. Для обоих методов обосновано применение дополнительной эвристики для направления процесса поиска модели, основанной на использовании асимметрий, возникающих либо в результате наличия нелинейной составляющей, либо в результате наличия временных задержек при передаче воздействия.
Приведены оценки временной сложности модифицированных алгоритмов индукции. По результатам численного моделирования сделан вывод относительно практической применимости модифицированных алгоритмов индукции. Предложен метод индукции для обобщённого темпорально-нелинейного случая, и приведены оценки его временной сложности и практической применимости.
В заключении сформулированы основные научные и практические результаты диссертационного исследования.
Формальный концептуальный анализ
В первой главе приведён обзор и сравнение существующих методов в области интеллектуального анализа данных применительно к задаче анализа вектора данных мониторинга. Отмечены трудности, возникающие при использовании существующих методов интеллектуального анализа в связи со спецификой данных оперативного мониторинга состояния сложных технологических объектов. Выбор адекватного метода извлечения знаний во многом предопределяется тем видом знаний, которые мы ожидаем получить в результате анализа. Вид знаний определяет как возможные формы представления знаний, так и методы интеллектуального анализа, которые могут быть использованы для извлечения знаний соответствующего вида из данных. С прикладной точки зрения, большой интерес представляют знания о закономерностях внутренней структуры объекта мониторинга, извлекаемые методами индукции. На основе анализа работ, посвященных системам представления знаний и методам извлечения знаний из данных, сделан вывод, что методы индукции статистических моделей могут быть успешно применены как для задачи структуризации вектора параметров оперативного мониторинга, так для задачи анализа данных оперативного мониторинга с целью выявления структурных отклонений. В конце первой главы дана постановка задачи исследования.
Вторая глава посвящена разработке методики интеллектуального оперативного мониторинга состояния сложных технологических объектов. Предложена обобщенная схема процесса интеллектуального мониторинга отклонений на основе индукции статистических моделей, а также показана роль методов индукции в процессе мониторинга. Проведено исследование вопросов связанных с определением и предварительной подготовкой вектора исходных данных мониторинга. Обоснована необходимость применения методов анализа внутренней структуры данных для эффективного выявления структурных отклонений в процессе функционирования объекта мониторинга, приведён конкретный пример использования методов индукции для выявления структурных отклонений. По результатам численных экспериментов приведены оценки взаимосвязи времени реакции и точности системы мониторинга, построенной на базе индукции статистических моделей, в зависимости от специфики объекта мониторинга и пороговых коэффициентов. Проведена адаптация методики интеллектуального мониторинга на случай мониторинга объектов с динамически изменяющимися связями.
Третья глава посвящена вопросам построения модели объекта по эмпирическим данным оперативного мониторинга. По результатам численного моделирования приведены оценки эффективности алгоритмов индукции моделей в зависимости от количества параметров и типа модели. Проведена оценка возможности индукции линейных моделей для массивов исходных данных высокой размерности в реальном времени. Предложен формализм для представления знаний экспертов предметной области и разработан соответствующий модифицированный алгоритм индукции для включения знаний экспертов предметной области в процесс построения модели. Включение знаний экспертов предметной области в процесс индукции моделей позволяет решить проблемы статистической эквивалентности и идентифицируемости модели. Предложен подход для оптимизации алгоритма индукции в случае повторной или периодической индукции модели по данным мониторинга. Оптимизация алгоритмов индукции для случая повторной или периодической индукции позволяет уменьшить временные затраты на анализ данных мониторинга, что представляется чрезвычайно актуальным, так как интеллектуальный мониторинг представляет собой процесс периодического анализа данных в реальном времени.
В четвёртой главе проведено развитие методики интеллектуального мониторинга и проведена адаптация существующих методов индукции для нелинейного случая и случая с временными задержками. Разработан модифицированный метод индукции нелинейных моделей, который позволяет точнее описывать нелинейные структурные взаимосвязи объекта мониторинга, и приводит к более корректным моделям, что и расширяет сферу применения предложенной методики мониторинга. Разработан модифицированный метод индукции моделей с временными задержками, что позволяет учитывать специфику объекта мониторинга и получать корректные модели с временными задержками. Получаемые модели с временными задержками могут быть в дальнейшем использованы в целях прогнозирования. Для обоих методов обосновано применение дополнительной эвристики для направления процесса поиска модели, основанной на использовании асимметрий, возникающих либо в результате наличия нелинейной составляющей, либо в результате наличия временных задержек при передаче воздействия. Приведены оценки временной сложности модифицированных алгоритмов индукции. По результатам численного моделирования сделан вывод относительно практической применимости модифицированных алгоритмов индукции. Предложен метод индукции для обобщённого темпорально-нелинейного случая, и приведены оценки его временной сложности и практической применимости. В заключении сформулированы основные научные и практические результаты диссертационного исследования.
Интеллектуальный мониторинг сложных технологических объектов
Классическая реализация оперативного мониторинга сложных технологических объектов заключается в централизованном сборе данных, поступающих с различных датчиков, с последующим анализом этих данных на предмет выхода значений параметров за установленные границы. При таком подходе игнорируется система взаимосвязей рассматриваемого объекта, что позволяет реагировать на различные внештатные ситуации только по факту их возникновения.
Задачей интеллектуального мониторинга является автоматизированный комплексный анализ данных, поступающих с датчиков оперативного мониторинга, с целью выявления их внутренней структуры, отслеживание динамики изменения структуры с последующей оценкой допустимости выявленных отклонений. При этом полагается, что снятие показаний с датчиков идёт единовременно через фиксированные интервалы времени. Полезность сигналов, основанных на отслеживании изменений, происходящих во внутренней структуре данных, состоит в возможности предупреждения возникновения внештатной ситуации до её реального возникновения и задолго до выхода значений отдельных параметров за допустимые границы. При определении мониторинга как процесса отслеживания структурных изменений, могут быть спрогнозированы только внештатные ситуации, являющиеся следствиями нарушений в технологических цепях объекта мониторинга.
Предлагаемая в настоящей работе методика интеллектуального оперативного мониторинга с выделением статистических моделей рассматривается в отношении анализа данных оперативного мониторинга состояния атомной электростанции (АЭС). Непрерьшный контроль целостности защитных барьеров обеспечивает аппаратура контроля радиационной безопасности (АКРБ), которая отвечает за получение и запись информации о радиационной обстановке в различных помещениях АЭС. Система АКРБ позволяет получать вектор содержащий около 400 параметров по радиационной обстановке на конкретной АЭС со скважностью в несколько минут. Особенностью объекта является сложность и многопараметричность. Методы, предлагаемые в настоящей работе, не являются специализированными в отношении конкретного объекта мониторинга и применимы для анализа данных общего класса систем мониторинга сложных технологических объектов.
Специфика данных оперативного мониторинга заключается в высокой размерности данных (сотни параметров), наличии дискретности, трендовой составляющей и шума в данных по значениям параметров. При этом множество значений каждого отдельного параметра представляет собой временной ряд. Интенсивный постоянный поток данных оперативного мониторинга приводит ещё к одной специфической особенности данных -как правило, информация доступна для анализа только для относительно небольшого интервала времени наблюдения - т.е. интервала времени, в рамках которого технически возможно организовать добавление, хранение и использование этой информации.
Интеллектуальный мониторинг определим как итеративный процесс анализа внутренней структуры данных оперативного мониторинга, поступающих в реальном времени, с последующей оценкой отклонений текущей структуры данных относительно некоторого эталона. Под внутренней структурой данных понимается некоторая совокупность статистических зависимостей, определённых на исходном множестве параметров, а эталонная структура представляет собой некоторый статистический шаблон наиболее типичного функционирования объекта мониторинга.
В областях оценки безопасности компьютерных сетей и анализа ошибок в телекоммуникационных сетях в настоящее время имеется ряд работ по успешному применению статистических шаблонов в целях мониторинга [38]. Данные мониторинга в указанных областях представляют собой поток дискретных событий, а для выделения статистических шаблонов этого используются методы анализа последовательностей событий.
В настоящей работе подход, основанный на мониторинге с выделением статистических шаблонов, применяется к проблеме мониторинга состояния сложных технологических объектов. Специфической особенностью данных в нашем случае является высокая размерность и количественный характер данных. Вместо потока дискретных событий, в нашем распоряжении имеются временные ряды значений определённых физических показателей технологических процессов, регистрируемые датчиками системы мониторинга. Эта специфика не позволяет использовать существующие алгоритмы и методы, основанные на выделении статистических шаблонов из потока дискретных событий, и требует разработки самостоятельной методики для анализа данных мониторинга сложных технологических объектов.
Для решения задачи анализа данных мониторинга, в данной главе предлагается оригинальная методика интеллектуального мониторинга состояния сложных технологических объектов на основании выделения статистических моделей. В отличие от имеющихся работ в других прикладных областях (телекоммуникационные сети и др.), в настоящей методике в качестве инструмента для построения статистических шаблонов вместо методов анализа последовательностей событий, предложено использовать методы индукции статистических моделей. Использование методов индукции позволяет извлечь из данных наблюдения не только знания об определённых закономерностях функционирования объекта мониторинга, но и знания структуре объекта мониторинга. Использование в целях мониторинга знаний подобного вида, с учётом специфики исходных данных мониторинга, принципиально отличают методику интеллектуального мониторинга, предлагаемую в настоящей работе, от аналогичных методик в других областях. Извлечение и использование знаний о структуре объекта мониторинга позволяют решать такие задачи как мониторинг структурных и функциональных отклонений и прогнозирование. При этом место «статистического шаблона» занимает статистически выведенная структурная модель объекта мониторинга.
В обобщённом виде процесс интеллектуального мониторинга представлен на рис. 3. Рассмотрим вкратце его основные составляющие. Методика интеллектуального мониторинга имеет статистическую основу, что накладывает определённые ограничения на данные и предполагает наличие этапа подготовки данных для анализа. При этом полагается, что снятие показаний с датчиков идёт единовременно через фиксированные интервалы времени. Так, на этапе подготовки данных принимаются меры по компенсации возможных искажений, вследствие выбросов, наличия шума, трендовой составляющей, проводится нормализация векторов данных и далее везде, где иное не указано явно, предполагается, что работа идёт с нормализованными данными М[х(] = О,/) ] = 1. Более подробно, шаги по предварительной обработке данных оперативного мониторинга рассматриваются в п. 2.4.
Индукция модели объекта из данных
Построение модели объекта представляет собой процесс анализа данных мониторинга сложного технологического объекта с целью выявления внутренней структуры механизма, порождающего данные наблюдений. При этом под внутренней структурой механизма, порождающего исходные данные, понимается совокупность причинно-следственных отношений, определённых на множестве параметров, отслеживаемых системой мониторинга, с соответствующими количественными оценками меры взаимосвязи.
В предлагаемой методике интеллектуального оперативного мониторинга этап построения модели занимает центральное место, и, соответственно, эффективное, с точки зрения точности и ресурсоёмкости, решение задачи извлечения знаний о структуре объекта мониторинга из данных наблюдения является необходимым условием для практической реализации методики. Основу для извлечения структурных знаний из данных наблюдения составляют методы индукции.
В настоящее время хорошо проработана индукция линейных причинно-следственных моделей из данных количественного типа. В силу особенностей данных вектора мониторинга нас будет интересовать индукция линейных аддитивных моделей. В рамках этого направления имеются два основных подхода: методы, представляющие собой развитие анализа путей на графах, и методы, основанные на понятии условной независимости (/С-методы). Обзор и сравнение этих подходов представлен в разделе 1.1.6 настоящей работы. Использование /С-методов позволяет, как будет показано ниже, решать задачи индукции для большего числа параметров, нежели, алгоритмы, основанные на подходе множественной регрессии, а использование строго логического аппарата позволяет интегрировать дополнительные знания в процесс индукции моделей.
Методы индукции используют статистические свойства набора данных, в частности, коэффициенты корреляции. Это приводит к непрекращающейся философской дискуссии о самой возможности вывода факта причинно-следственной связи из статистических закономерностей. Так, из наблюдения зависимости между двумя параметрами {Д#} нельзя сделать вывод относительно того, что является причиной, а что следствием. Более того, как отмечают отдельные исследователи [36] статистическая закономерность необходима, но не достаточна для вывода о причинно-следственной связи, т.к. для установления факта причинно-следственной связи необходимо провести управляемый эксперимент (в рамках которого исследователь управляет одним из параметров и наблюдает ответную реакцию второго). Впрочем, в большинстве случаев и, в частности, в настоящей работе провести управляемый эксперимент технологически не представляется возможным, и мы вынуждены ограничивать себя только данными наблюдения. Не вдаваясь в подробности дискуссии - [34,35,36,32], в рамках настоящей работы, будем придерживаться принципа общей причины Райхенбаха, который гласит, что любая устойчивая корреляция между событиями объясняется либо [55]: прямой причинной связью; косвенной причинной связью (причинно-следственной цепью); прямой или косвенной общей причиной. В данной главе рассматривается существующий /С-метод индукции статистических моделей и различные особенности этого метода, с позиций возможного использования метода индукции применительно к индукции моделей на основе данных оперативного мониторинга состояния сложного технологического объекта. Проводится обоснование возможности применения аппарата индукции статистических моделей для мониторинга структурных отклонений, а также разрабатываются необходимые модификации /С-методу для использования метода в рамках предложенной методике мониторинга. Проводится оценка и анализ эффективности и точности /С-алгоритмов индукции моделей в зависимости от количества параметров вектора данных мониторинга и других характеристик исходных моделей по данным численных экспериментов.
Индукция модели объекта из данных и связанные с ней особенности рассматриваются в разделе 3.1. Задача расчёта параметров конечной модели рассматривается в разделе 3.2.
Методы индукции не гарантируют получение единственной объясняющей модели, и, как будет показано ниже, статистические методы не гарантируют получение истинной модели (см. п. 3.1). В большинстве случаев индукция модели приводит к множеству эквивалентных со статистической точки зрения моделей, одинаково хорошо объясняющих исходные данные. Статистическая эквивалентность моделей и её влияние рассматривается в разделе 3.2.
В то же время для целей мониторинга отклонений внутренней структуры будет работать любая, в достаточной степени хорошо согласующаяся с исходными данными модель, а не только модель, описывающая действительные причинно-следственные отношения. Поэтому закономерно возникает вопрос, - действительно ли необходим довольно сложный процесс индукции причинно-следственной модели, и нельзя ли, в целях мониторинга, ограничиться любой моделью, хорошо согласующейся с исходными данными. С одной стороны, регистрацию отклонений можно проводить на любой подходящей модели, но, с другой стороны, при анализе внутренней структуры экспертом желательным является, чтобы используемая модель максимально корректно отражала внутреннюю структуру механизма, порождающего данные. Кроме этого, корректность модели необходима для адекватной оценки возможных последствий тех или иных изменений топологии модели при оценке по схеме сети с весами (см. п. 2.5).
Привлечение дополнительной информации позволяет однозначно идентифицировать истинную причинно-следственную модель в процессе индукции, т.е. выделить исходную модель из класса статистически эквивалентных моделей. Решить эту проблему можно при использовании знаний экспертов предметной области для уточнения и выбора моделей на этапе построения статистической модели. Необходимость получения корректной исходной модели объекта ставит перед нами задачу по интеграции знаний экспертов предметной области в процесс индукции, разработке формализма представления соответствующих знаний и модификации существующего метода IC-индукции для использования этих знаний. Модификация /С-алгоритма с целью включения знаний экспертов предметной области в процесс индукции, а также выработка соответствующего формализма для представления знаний, проводятся в разделе 3.3 настоящей работы.
Процесс индукции представляет собой достаточно трудоёмкую задачу, в то время как в целях оперативного мониторинга, в силу специфики предложенной методики мониторинга, имеется необходимость в периодической индукции моделей. С другой стороны, очевидно, что информация, полученная в результате индукции модели (в виде топологии, минимальных наборов разделяющих переменных и т.п.), может использоваться для ускорения процесса индукции последующей модели. Подобная специфическая особенность для периодической индукции до настоящего времени не рассматривалась, что ставит перед нами задачу по разработке подхода для инкрементальной индукции моделей на базе существующего /С-метода индукции. Подход инкрементальной индукции моделей и соответствующая эвристика для ускорения процесса индукции модели предлагаются в разделе 3.4.
Нелинейность взаимосвязей параметров
В данной главе обоснована возможность применения аппарата индукции статистических моделей для мониторинга структурных отклонений в реальном времени. Проведена оценка и анализ эффективности и точности алгоритмов индукции моделей в зависимости от количества рассматриваемых параметров модели и других характеристик исходных моделей по данным численных экспериментов. Результаты численных экспериментов показали, что эффективность и вычислительная сложность процесса индукции модели из данных зависит от количества рассматриваемых переменных и степень избыточности исходной модели. В отсутствие избыточности /С-алгоритмы позволяют точно идентифицировать класс эквивалентных моделей, причём это не представляет собой вычислительных трудностей. Экспериментально проверена возможность индукции моделей без избыточности в реальном времени для количества параметров N = 50 и выше, при использовании /С-алгоритма индукции.
Для решения проблемы идентифицируемости исходной модели применительно к проблеме анализа данных оперативного мониторинга решено использовать знания экспертов предметной области. Предложен формализм, на базе логики предикатов первого порядка, для представления знаний экспертов предметной области. С целью включения этих знаний в процесс индукции модели, разработан модифицированный алгоритм индукции, использующий знания экспертов предметной области. Применение предложенного модифицированного алгоритма модели позволяет получить конечную исходную модель, снизить сложность индукции и ускорить процесс индукции при наличии соответствующих дополнительных знаний.
Процесс индукции представляет собой достаточно трудоёмкую задачу, в то время как в целях мониторинга, в силу специфики предложенной методики мониторинга, имеется потребность в периодической индукции моделей. Рассмотрение вопроса о возможности использования информации, полученной в результате индукции модели (в виде топологии, минимальных наборов разделяющих переменных и т.п.) для ускорения процесса индукции последующей модели, позволили предложить инкрементальный подход к индукции моделей и соответствующую эвристику для ускорения процесса индукции. В рамках предложенного подхода инкрементальной индукции моделей, использование уже имеющейся информации по ранее сгенерированным моделям, позволяет существенно повысить снизить временную сложность алгоритма индукции и повысить общую эффективность системы мониторинга, что наиболее актуально для моделей с наличием избыточности и моделей с большим числом параметров.
В настоящее время задача индукции линейных причинно-следственных моделей из данных количественного типа проработана достаточно хорошо, что, в частности, позволило нам использовать методы индукции линейных моделей для извлечения структурных знаний в предложенной методике интеллектуального мониторинга. При этом предполагалось отсутствие временных задержек при передаче воздействия от одного параметра к другому. Очевидно, при мониторинге реальных систем требование линейности модели, описьшающей взаимосвязи объекта, и отсутствия временных задержек, представляется ограничительным. В этом случае, мы не можем утверждать, что статистическая структурная модель объекта, извлекаемая существующими методами индукции линейных моделей без временных задержек, адекватно описывает структуру объекта мониторинга.
Это ставит перед нами вопрос о необходимости развития существующих алгоритмов индукции на нелинейный случай и на случай моделей с временными задержками при передаче воздействия, а также на общий случай - нелинейных моделей с временными задержками. Настоящая глава посвящена развитию /С-метода индукции, использующегося в качестве инструмента извлечения знаний о структуре объекта, для указанных трёх случаев. В своей основе /С-метод индукции опирается на логический аппарат, поэтому для обобщения 1С-метода на тот или иной случай, нам необходимо предложить соответствующее определение для оценки предиката условной независимости l(X,Y\Sxy} переменных X,Y и методику расчёта, а также рассмотреть возможность использования дополнительных знаний (в виде различный асимметрий и др.) в процессе индукции. Для представления дополнительных знаний и использования их в процессе индукции предлагается использовать рассмотренные в разделе 3.3 формализм представления знаний экспертов предметной области на базе логики предикатов первого порядка и модифицированный метод индукции с использованием дополнительных знаний. Разработке модифицированного алгоритма индукции нелинейных моделей и проверке практической применимости алгоритма с использованием численного моделирования посвящен раздел В разделе 4.2 предлагается модифицированный алгоритм индукции моделей с временными задержками передачи воздействия, и эвристика, основанная на наличии 109 временной асимметрии, для ускорения процесса индукции и последующего уточнения модели.