Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Модели и алгоритмы обработки данных и знаний для повышения эффективности прогнозирования показателей сложных объектов Хурамшин Рустем Иштимерович

Модели и алгоритмы обработки данных и знаний для повышения эффективности прогнозирования показателей сложных объектов
<
Модели и алгоритмы обработки данных и знаний для повышения эффективности прогнозирования показателей сложных объектов Модели и алгоритмы обработки данных и знаний для повышения эффективности прогнозирования показателей сложных объектов Модели и алгоритмы обработки данных и знаний для повышения эффективности прогнозирования показателей сложных объектов Модели и алгоритмы обработки данных и знаний для повышения эффективности прогнозирования показателей сложных объектов Модели и алгоритмы обработки данных и знаний для повышения эффективности прогнозирования показателей сложных объектов
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Хурамшин Рустем Иштимерович. Модели и алгоритмы обработки данных и знаний для повышения эффективности прогнозирования показателей сложных объектов : диссертация ... кандидата технических наук : 05.13.11.- Уфа, 2002.- 199 с.: ил. РГБ ОД, 61 03-5/2717-7

Содержание к диссертации

Введение

ГЛАВА 1. Исследование существующих разработок и программного обеспечения для прогнозирования и интеллектуального анализа данных в сложных объектах. 10

1.1 Актуальность исследований в области прогнозирования и интеллектуального анализа. 10

1.2 Программные комплексы на рынке прогнозирования и интеллектуальных систем и их особенности . 25

1.3 Цель разработки системы и решаемые задачи 44

Выводы по главе 1 46

Глава 2. Разработка концепции построения интеллектуальной системы прогнозирования сложных объектов 47

2.1. Разработка требований и определение структуры интеллектуальной системы прогнозирования. Создание модели системы с помощью uml. 47

2.2 Разработка концепции построения интеллектуального модуля системы прогнозирования. 55

2.3 Разработка базы знаний для интеллектуального модуля. 63

2.311 Общие правила построения базы знаний

2.3.2 Разработка бд для бз 64

2.3.3 Разработка механизма логического вывода 65

2.4 Вывод знаний в интеллектуальной системе прогнозирования и

Выводы по главе 2: 79

Глава 3. Разработка моделей и алгоритмов для интеллектуальной системы прогнозирования сложных объектов аннотаішя 81

3.1. Разработка алгоритмов работы интеллектуального модуля 82

3.111 Алгоритмы генерации знаний: 84

3.1.2 Алгоритмы анализа знаний (логического вывода), выявления и ликвидации противоречий: 85

3.1.3 Алгоритмы ранговой оценки правил. Определение качества работы Системы, эмпирические алгоритмы расчета качественных характеристик .

3.1.4 Эвристические алгоритмы оптимального управления запуском и

Работой отдельных модулей и системы прогнозирования в целом 88

3.1.5 Эвристические алгоритмы анализа работы пользователя. 89

3.1.6 Алгоритмы обучения и специальные методы генерации правил в системе 90

3.2 Разработка моделей и алгоритмов для временных рядов. 93

3.2.1. Временные ряды и оценка качества отдельных рядов 94

3.2.2. Индивидуальные модели временных рядов 97

3.2.3. Коллектив разнотипных моделей

3.3 Разработка алгоритмов в модулях прогнозирования с учетом компонентной организации системы. 105

3.4 Разработка моделей и алгоритмов для модуля гибридизации (как составной части интеллектуального модуля) 107

3.411 Комбинированные модели временных рядов

3.4.2 Адаптивные модели гибридизации 122

3.4.3 Модуль гибридизации и алгоритм гибридизации. 127

Выводы по главе 3; 136

Глава 4. Программная реализация системы интеллектуального анализа, моделирования и прогнозирования и анализ ее эффективности. Аннотация 137

4.1 Разработка сом-технологии для реализации интеллектуальной системы прогнозирования 137

4.111 Анализ особенностей сом - технологий 138

4.1.2 Альтернативные направления 145

4.2 Разработка xml структур и модуля их обработки 151

4.2.3 Модуль обработки структур 159

4.3 Программная реализация системы 161

4.311 Выбор среды программирования 162

4.3.2 Характеристики модулей системы 163

4.3.3 Процесс разработки модулей системы для разработчика внешних модулей. 167

4.3.2 Работа комплекса в сети интернет и схема платного доступа . 170

4.4 Анализ эффективности интеллектуальной системы прогнозирования 172

4.411 Оценка эффективности программного комплекса 172

4.4.2 Анализ эффективности на экспериментальных данных 173

4.5 Анализ возможностей системы и рекомендации по ее использованию. 179

4.511 Достоинства и недостатки 179

4.5.2 Развитие информационных технологий 182

4.5.3 Актуальность и необходимость исследований в проблемной области 183

4.5.4 Развитие интеллектуальной системы прогнозирования с внедрением новых технологий 184

4.5.5 Сравнительные характеристики интеллектуальной системы прогнозирования и некоторых программных комплексов 186

Выводы по ГЛАВЕ 4

Заключение 188

Список литературы 190

Программные комплексы на рынке прогнозирования и интеллектуальных систем и их особенности

В соответствии с развитием теории управления, появлением новых подходов к изучению сложных явлений и процессов на основе системного анализа возникла и достаточно быстро развивается прогностика - научная дисциплина о закономерностях разработки прогнозов. Согласно терминологии прогностики прогноз - это научно-обоснованное суждение о возможных состояниях объекта в будущем и (или) об альтернативных путях и сроках их осуществления. Прогнозирование осложняется тем, что растет не только абсолютное количество проблем, нерешенных задач и вопросов развития, но и 4» их качественный уровень, смысловая постановка. Проблемы будущего - это и глобальные вопросы, охватывающие крупные регионы и человечество в целом [14]. Предвидение, оценка результатов всегда были свойственны человеческой и в частности управленческой деятельности. Любое решение в той или иной мере включает прогноз. По мере роста объемов человеческой деятельности возникает объективное противоречие между потребностями управления в опережающей прогнозной информации и возможностями человека или группы лиц, принимающих решения. Необходимо проанализировать, обобщить и дать аргументированный, всесторонне обоснованный ответ на три основных вопроса - в каком направлении вести развитие, какими способами достигнуть поставленных целей и что получено.

По мере развития прогностика существенно видоизменяется, возникают новые методологические подходы, совершенствуются методы разработки прогнозов, приобретают более четко определенный вид, расширяются сферы объектов прогнозирования, уровень и эффективность использования прогнозов в управлении. Причем прогнозирование, умение определить перспективу и последствия принимаемых решений - не удел узкой группы теоретиков. Умение мыслить категориями перспектив развития, формализовать процедуру, определить структуру прогнозных данных необходимо практически каждому грамотному специалисту, принимающему решение.

Прогноз разрабатывается для конкретного объекта, причем в большинстве случаев рассматривается одна или несколько его доминирующих характеристик, которые определяются целью данного прогнозного исследования. Процесс прогнозирования включает следующие основные этапы: проблемная постановка перспективы развития изучаемого объекта (поиск проблем), проектирование системы будущего; анализ и оценка полученного решения; разработка программ работ по решению проблемы.

Время упреждения прогнозов при прогнозировании ограничено. Это ограничение возникает из факта нелинейного роста неопределенности по мере продвижение в будущее, с одной стороны, и несоизмеримостью деятельности жизненного цикла различных факторов.

Современные экономические структуры нуждаются в реальном, работающем аппарате моделирования своей деятельности и прогнозирования ее результатов. Уметь предсказывать поведение экономических структур в будущем, - значит уметь управлять им. Управленческие решения на предприятии охватывают все стороны его деятельности.

Все задачи управления взаимосвязаны и требуют комплексного подхода при внедрении соответствующих методов. В науке и практике накоплен достаточно богатый опыт решения задач прогнозирования в зависимости от особенностей рассматриваемых объектов, свойств временных рядов, имеющихся в распоряжении инструментальных средств, и других факторов. Этот опыт можно использовать для построения интеллектуальной системы анализа, моделирования и прогнозирования (System Of Intellectual Analysis Modelling and Forecasting). Цель разработки и внедрения- информационная поддержка оперативных возможностей и комфортных условий для высшего руководства и ведущих специалистов для принятия обоснованных решений, соответствующих миссии предприятия, а также его стратегическим и тактическим целям.

Компьютерные технологии интеллектуального анализа данных и прогнозирования (Data Mining - добыча данных из знаний, OLAP - online analytic processing) переживают бурный расцвет. Это связано главным образом с потоком новых идей, исходящих из области компьютерных наук, образовавшейся на пересечении искусственного интеллекта, статистики и теории баз данных.

Что вообще следует понимать под интеллектуальными технологиями? Само значение термина "интеллектуальность" в обиходе отличается от его же значения в научных кругах. Под интеллектуальностью системы в научных кругах понимают такое свойство системы, при котором система способна адаптироваться к новым условиям, самообучаться, планировать свое поведения прогнозировать, корректировать и вырабатывать свою цель. Эти свойства также присущи ряду биологических систем, в том числе и человеку. Многие могут подумать, что описанные свойства невозможно реализовать существующими техническими средствами и способность к самообучению можно отнести к разряду фантастики[19].

Способность к обучению - это вовсе не является сверх необъяснимым свойством. Обучение - это всего-навсего такое изменение параметров и структуры системы, которое способствует приближению системы к цели. Существует большое количество различных алгоритмов обучения и самообучения. Большинство из них ориентированно на обучение искусственных нейронных сетей и являются вполне приемлемыми для реализации в программных продуктах [5].

Одной из методик моделирования интеллектуальных систем со сложным поведением является использование генетических алгоритмов и эволюционного моделирования. При этом используются основные законы эволюции: скрещивание, мутации и селекция (естественный отбор - выживает сильнейший). При такой методике абсолютно реально моделирование поведения определенного организма (вовсе не обязательно биологического аналога) в искусственной среде. Примером такой искусственной среды может быть информация о наборе котировок и основных экономических показателей на валютном рынке. Целью искусственного организма может быть выбор такой стратегии торгов, при которой он максимизирует свою прибыль. Правда, для построения модели подобной системы необходима значительная вычислительная мощность и значительный набор данных. ±х то, и иное является уже доступным. Средства, вложенные в разработку и реализацию "электронного брокера» окупаются сторицей. Такой пример использования интеллектуальных технологий далеко не единственный и не самый Щг показательный[35].

Общие правила построения базы знаний

Проиллюстрируем современное состояние данного подхода на примере системы PolyAnalyst. В данной системе гипотезы о виде зависимости целевой переменной от других переменных формулируются в виде программ на некотором внутреннем языке программирования. Процесс построения программ строится как эволюция в мире программ (этим подход немного похож на генетические алгоритмы). Когда система находит программу, достаточно точно выражающую искомую зависимость, она начинает вносить в нее небольшие модификации и отбирает среди построенных таким образом дочерних программ те, которые повышают точность. Таким образом, система "выращивает" несколько генетических линий программ, которые конкурируют между собой в точности выражения , искомой зависимости. Специальный транслирующий модуль системы PolyAnalyst переводит найденные зависимости с внутреннего языка системы на понятный пользователю язык (математические формулы, таблицы и пр.), делая их легкодоступными. Для того чтобы сделать полученные результаты еще понятнее для пользователя-нематематика, имеется богатый арсенал разнообразных средств визуализации обнаруживаемых зависимостей. Для контроля статистической значимости выводимых зависимостей применяется набор современных методов, например рандомизированное тестирование

Другое направление эволюционного программирования связано с поиском зависимости целевых переменных от остальных в форме функций какого-то определенного вида. Например, в одном из наиболее удачных алгоритмов этого типа — методе группового учета аргументов (МГУА) зависимость ищут в форме полиномов . В настоящее время из продающихся в России систем МГУА реализован в системе NeuroShell компании Ward Systems Group.

Строго говоря, Data Mining — далеко не основная область применения генетических алгоритмов. Их нужно рассматривать скорее как мощное средство решения разнообразных комбинаторных задач и задач оптимизации. Тем не менее, генетические алгоритмы вошли сейчас в стандартный инструментарий методов Data Mining.

Пусть нам надо найти решение задачи, наиболее оптимальное с точки зрения некоторого критерия. Пусть каждое решение полностью описывается некоторым набором чисел или величин нечисловой природы. Скажем, если нам надо выбрать совокупность фиксированного числа параметров рынка, наиболее выражено влияющих на его динамику, это будет набор имен этих параметров. Об этом наборе можно говорить как о совокупности хромосом, определяющих качества индивида — данного решения поставленной задачи. Значения параметров, определяющих решение, будут тогда называться генами. Поиск оптимального решения при этом похож на эволюцию популяции индивидов, представленных их наборами хромосом. В этой эволюции действуют три механизма: отбор сильнейших — наборов хромосом, которым соответствуют наиболее оптимальные решения; скрещивание — производство новых индивидов при помощи смешивания хромосомных наборов отобранных индивидов; и мутации — случайные изменения генов у некоторых индивидов популяции. В результате смены поколений, в конце концов, вырабатывается такое решение поставленной задачи, которое уже не может быть далее улучшено.

Генетические алгоритмы имеют ряд недостатков. Критерий отбора хромосом и сама процедура являются эвристическими и далеко не гарантируют нахождения "лучшего" решения. Как и в реальной жизни, эволюцию может "заклинить" на какой-либо непродуктивной ветви. И, наоборот, можно привести примеры, как два неперспективных родителя, которые будут исключены из эволюции генетическим алгоритмом, оказываются способными произвести высокоэффективного потомка. Это особенно становится заметно при решении высокоразмерных задач со сложными внутренними связями[98]. Примером может служить система GeneHunter фирмы Ward Systems Group. Его стоимость — около $1000.

Алгоритмы ограниченного перебора были предложены в середине 60-х годов М.М. Бонгардом для поиска логических закономерностей в данных. С тех пор они продемонстрировали свою эффективность при решении множества задач из самых различных областей[29].

Эти алгоритмы вычисляют частоты комбинаций простых логических событий в подгруппах данных. Примеры простых логических событий: X = а; X а; Х а; а Х Ь и др., где X — какой либо параметр, "а" и "Ь" — константы. Ограничением служит длина комбинации простых логических событий (у М. Бонгарда она была равна 3). На основании анализа вычисленных частот делается заключение о полезности той или иной комбинации для установления ассоциации в данных, для классификации, прогнозирования и пр. W Наиболее ярким современным представителем этого подхода является система WizWhy предприятия WizSoft. Хотя автор системы Абрахам Мейдан не раскрывает специфику алгоритма, положенного в основу работы WizWhy, по результатам тщательного тестирования системы были сделаны выводы о наличии здесь ограниченного перебора (изучались результаты, зависимости времени их получения от числа анализируемых параметров и др.).

Автор WizWhy утверждает, что его система обнаруживает ВСЕ логические правила IF ... THEN в данных. На самом деле это, конечно, не так. Во-первых, максимальная длина комбинации в правиле IF ... THEN в системе WizWhy равна 6, и, во-вторых, с самого начала работы алгоритма производится эвристический поиск простых логических событий, на которых потом строится весь дальнейший анализ. Поняв эти особенности WizWhy, нетрудно было предложить простейшую тестовую задачу, которую система не смогла вообще решить. Другой момент — система выдает решение за приемлемое время только для сравнительно небольшой размерности данных (не более 20)[88]. Тем не менее, система WizWhy является на сегодняшний день одним из лидеров на рынке продуктов Data Mining. Это не лишено оснований. Система постоянно демонстрирует более высокие показатели при решении практических задач, чем все остальные алгоритмы. Стоимость системы около $ 4000, количество продаж — 30000.

Алгоритмы ранговой оценки правил. Определение качества работы Системы, эмпирические алгоритмы расчета качественных характеристик

Первая особенность: самоорганизация физической модели для познания объекта исследований и нескольких нефизических для долгосрочного прогноза. Самоорганизация физической модели используется только для того, чтобы выделить состав (список) множества выходных переменных, которые подлежать прогнозированию.

Вторая особенность: выбор класса уравнений и вида опорной функции поручается ЭВМ, которая перебирает многие варианты по критериям выбора модели.

Третья особенность: выбор множества выходных и входных переменных поручается ЭВМ. Селекционные алгоритмы позволяют перебрать по очереди все возможные уравнения, и выбрать самую несмещенную физическую модель. Оптимальные по критерию минимума смещения уравнения определяет собой структуру объекта и множество выходных переменных.

Четвертая особенность: плохо прогнозирующиеся (ведомые) переменные прогнозируются дополнительно во вторую очередь. Интересующие нас переменные могут не войти во множество выходных переменных, отобранных машиной на этапе самоорганизации физической модели.

Пятая особенность возможность прогнозирования при неполном информационном базисе. Появляется возможность получения точных прогнозов при неполном информационном базисе, т.е. без измерения многих существенных аргументов. Например, при моделировании экономических систем часто высказывается уверенность, что создание большой вычислительной системы, моделирующей экономику всех стран мира (т.е. построение автономной всемирной системы уравнений), может решить проблему долгосрочного прогноза. Это неверно. Моделирование по МГУА при неполном информационном базисе является полной противоположностью идее увеличения информационного базиса модели до учета максимального числа всех воздействий МГУА часто демонстрирует успех такого моделирования.

Шестая особенность: самоорганизация физической и прогнозирующих моделей возможна при сильно зашумленных исходных данных. МГУА является объективным, так как все вопросы решаются в нем по минимуму целесообразно выбранных и согласованных критериев селекции модели. Принцип самоорганизации устанавливает существование минимума ряда критериев, обладающих свойствами внешнего дополнения при постепенном усложнении математической модели. Человек устанавливает критерии, а машина находит его минимум и тем самым определяет единственную модель оптимальной сложности. Принцип массовой селекции указывает целесообразный путь постепенного усложнения модели в процессе поиска минимума критерия селекции. Принцип массовой селекции или «эвристической самоорганизации» и основанные на нем генетические алгоритмы представляет собой попытку резкого повышения точности математического моделирования, при коротком периоде наблюдения процесса с максимально возможным сокращением субъективной априорной информации со стороны человека- автора модели.

Краткие выводы: Определены основные этапы в выработке правил для базы знаний, основные особенности работы интеллектуального модуля, генерация и обработка правил логического вывода. Проведен сравнительный анализ эволюционных и генетические подходы к анализу данных. На основе приведенного анализа сделан вывод о необходимости применения последнего.

На основе сформулированных требований, предложена общая структура системы прогнозирования, на основе использования UML моделирования указаны основные элементы и связи между ними, особое внимание уделено модульности, расширяемости и дополняемости программного продукта. Определены функции отдельных модулей системы, сформулированы их основные свойства и характеристики.

Предложены принципы построения интеллектуального модуля. Определен круг задач, решаемых этим модулем при использовании интеллектуальной системы прогнозирования. Предложена структурная схема интеллектуального модуля и взаимодействие ее элементов, соответствующая сформулированным принципам.

Разработанная структура базы знаний обладает такими свойствами как легкая расширяемость и дополняемость. Несмотря на линейную структуру, позволяет сохранять все основные параметры вычислений. Этот фактор играет не самую последнюю роль в скорости нахождения и обработки правил. Введенная система рангов, основанная на скорости работы системы и качественному показателю оценки ошибки прогнозирования, позволяет в несколько раз ускорить работу системы, особенно при использовании алгоритмов гибридизации.

Были определены основные этапы в выработке правил для базы знаний, основные особенности работы интеллектуального модуля, генерация и обработка правил логического вывода. Проведен анализ эволюционные и генетические подходы к анализу данных. На основе приведенного анализа сделан вывод о необходимости применения последнего.

Работа комплекса в сети интернет и схема платного доступа

Всегда одной из основных задач было обеспечение взаимодействия между отдельными программами. На заре существования Windows были внедрены разделяемые файлы, буфер обмена и технология динамического обмена данными. Позже для обеспечения обмена данными и предоставления служб появилась технология OLE. Она была во многом несовершенной и на смену ей прошла технология OLE 2. В ее основе лежит базовая технология СОМ (Component Object Model) -многокомпонентная модель объектов. Она описывает способ взаимодействия любых программ, поддерживающих эту технологию.

Одна часть программного обеспечения предоставляет для использования свои службы, а другая получает к ним доступ. При этом совершенно не важно, где расположены эти части - в одном процессе, в разных процессах, на одном или на разных компьютерах.

Для созданных на основе СОМ - технологии приложений также не важно, какой язык используется при их разработке. Взаимодействие без помех будет осуществляться и между приложениями, написанными на разных языках, но с использованием СОМ - технологии [15].

Приложение предоставляет для использования свои службы, применяя для этого объекты СОМ (объект, содержащий реализацию служб). Каждый объект имеет один или несколько интерфейсов (описание предоставляемых объектом служб, выполненное по определенным правилам). Обычно в интерфейсе объединяются все методы выполняющие операции одного типа или работающие с однородными свойствами.

Клиент (процесс, использующий предоставляемые службы) получает доступ к службам объекта только через интерфейс и его методы. Для получения полной информации обо всех свойствах и методах объекта достаточно знать лишь несколько базовых интерфейсов. Поэтому любой клиент может работать с любым объектом независимо от среды их разработки. Но такой метод далеко не всегда удобен, поэтому описания интерфейсов распространяют при помощи библиотек типов (подробнее см. "Импортирование библиотеки типов").

Объект всегда работает в составе сервера СОМ. Сервер может быть динамической библиотекой или исполняемым файлом.

Для доступа к методам объекта клиент должен получить указатель на соответствующий интерфейс. После этого клиент может использовать службы объекта, просто вызывая методы интерфейса.

Некоторые языковые среды не имеют поддержки интерфейсов. На этот случай существует технология автоматизации, позволяющая получить доступ к службам объекта без использования интерфейсов. При ее использовании нет необходимости импортировать библиотеку типов, проверка корректности вызываемых методов происходит только во время выполнения приложения, существенно увеличивается время вызова методов. Отметим, что существует ограничение на типы данных, передаваемых в параметрах методов. Нельзя передавать массивы, записи, множества, ссылочные типы данных. Но почти всегда их можно передать через переменные типа Variant.

СОМ - многообещающая и перспективная технология, находящаяся в русле общего направления развития программных технологий. С помощью СОМ можно разрабатывать программы и программные комплексы разного масштаба, функциональности и назначения. СОМ - социально-ориентированная технология, поскольку она защищает как права разработчика, так и кошельки пользователей.

Фирма Microsoft - основной разработчик СОМ технологий выделяет следующие особенности:

1. СОМ позволяет разработчикам создавать программные компоненты, которые можно распространять и повторно использовать разными путями. В таких программных компонентах сосредоточены и структурированы различные сервисы программного обеспечения.

2. СОМ не зависит от языка программирования и различных версий компиляторов одного озыка. НН клиент, ни сервер объекта не знают язык описания друг друга. Важно лишь обеспечить на любом языке программирования тот двоичный интерфейс, который определяет СОМ.

3. СОМ исповедает единый подход к созданию всех типов программных сервисов. Где находится программное обеспечение: в библиотеке, в другом процессе, является ли частью ОС - доступ к нему всегда осуществляется единообразно.

4. СОМ решает еще одну важную проблему - проблему контроля версий (=versioning)) Проблема : заключается в том, что клиент должен иметь возможность замены одной компоненты на другую, более совершенную наиболее безболезненно. При этом клиенты старых версий должны продолжать работать.

Идея решения проблемы - в возможности для объекта иметь несколько интерфейсов. Вся новая функциональность должна вводиться через новые интерфейсы, никак не затрагивая старые!

5. СОМ - это концепция + конкретные еиблиотеки, кокорые должны быть доступны не только в ОС Windows и Windows NT, но и в других средах.

6. СОМ определяет множество стандартных интерфейсов, которые реализованы в соответствующих библиотеках, поставляемых как в составе ОС, так и в составе отдельных программных продуктов. Цель новых технологий, таких как ActiveX, сделать как можно больше надстроек над СОМ, т.е. определить множество стандартных интерфейсов, работающих через объекты и интерфейсы СОМ.

Похожие диссертации на Модели и алгоритмы обработки данных и знаний для повышения эффективности прогнозирования показателей сложных объектов