Содержание к диссертации
Введение. Актуальность и степень разработанности проблемы 3
ГЛАВА 1. ОСНОВНЫЕ ПОНЯТИЯ И ОПРЕДЕЛЕНИЯ 10
1.1. Структура анализа данных 10
1.2. Основные этапы анализа данных 11
1.3. Описание множества состояний объектов 14
1.4. Задача классификации объектов 15
ГЛАВА 2. РАЗВИТИЕ БАЙЕСОВСКОЙ КЛАССИФИКАЦИИ 17
2.1. Байесовские классификаторы. Обратная вероятность 17
2.2. Априорные ФПВ функции плотности вероятностей 18
2.3. Условные апостериорные распределения параметров моделей 21
2.4. Точечные оценки параметров и классификатор Байеса 22
2.5. Интервалы и области для параметров 23
2.6. Прогнозные функции плотности распределения вероятностей 24
2.7. Применение результатов байесовского анализа 25
ГЛАВА 3. БАЗОВЫЕ АЛГОРИТМЫ DATA MINING 26
3.1. Новые разработанные методы анализа данных: 26
3.2. Описание алгоритмов 26
3.3. Комитеты моделей 45
ГЛАВА 4. АНАЛИЗ ДАННЫХ ИНФОРМАЦИОННЫХ СИСТЕМ 53
4.1. Анализ минеральных ассоциаций 53
4.1.1. Актуальность задачи 53
4.1.2. Постановка задачи 55
4.1.3. Входные данные 55
4.1.4. Описание результатов анализа данных 62
4.1.5. Формализация результатов
4.2. Анализ текстовых данных 68
4.3. Анализ данных социально-экономической информации
4.3.1. Описание входных данных 72
4.3.2. Постановка задачи 74
4.3.3. Алгоритмы решения задач 75
4.3.4. Формализация результатов 77
4.4. Анализ данных производственного предприятия 78
4.4.1. Актуальность проблемы 78
4.4.2. Постановка задачи 80
4.4.3. Описание уравнения 81
4.4.4. Описание входных данных 85
4.4.5. Формализация построенных закономерностей 89
4.4.6. Сравнение со стандартными подходами 89
ЗАКЛЮЧЕНИЕ. Основные результаты исследования 92
Введение к работе
Актуальность и степень разработанности проблемы.
Первые работы в области анализа данных и классификации по прецедентам появились в 30-х годах 20 века и были связаны с байесовской теорией принятия решений (Д. Нейман, К. Пирсон) [1], применением разделяющих функций к задаче классификации (Р. Фишер) [2], решением вопросов проверки гипотез (А. Вальд)[3]. В 50-х годах появились первые нейросетевые модели (перцептрон Ф. Розенблатта) [4]. К концу 60-х годов были разработаны и исследованы различные подходы для решения задач классификации, распознавания в рамках статистических, перцептронных моделей, и моделей с разделяющими функциями.
В 1976-1978 годах академиком Ю.И. Журавлевым был разработан алгебраический формализм [5,6]. Было предложено решать задачи анализа данных не одним, а множеством алгоритмов в два этапа. Для произвольных объектов независимо применяются алгоритмы (базовые алгоритмы). Результаты их применения специальным образом обрабатываются (с помощью решающих правил) и формируется окончательное коллективное решение (например, об отнесении объектов к одному из классов). Дальнейшее развитие теории анализа данных и распознавания, посвященное алгебраическому подходу к синтезу корректных алгоритмов и комитетов моделей К.В. Рудаковым[7], В.Д. Мазуровым [8,9,10] и др.[11-25], внесло значительный вклад в решение задач анализа данных. Академиком В.П. Масловым предложен метод эконофизических аналогий [26] при анализе экономических систем. Большой вклад в развитие теории классификации внесли ученые: М.А. Айзерман, Э.М. Браверман, Л.И. Розоноэр (метод потенциальных функций) [27]. Современные методы оперативной (быстрой) обработки больших массивов слабоструктурированной информации в информационных, коммуникационных и управляющих системах на основе теории фильтров Калмана и Пугачева развиты в трудах И.Н. Сипицына[28] Одним из последних результатов теории анализа данных является применение слабой аксиоматики вероятностей в работах К.В. Воронцова [29].
Современный этап развития информационных технологий характеризуется быстрым возрастанием объема информации и сложности структуры баз данных (БД) в различных областях человеческой деятельности. Лавинообразное увеличение возможностей получения, передачи и хранения информации приводит к ее усложнению, гетерогенности и увеличению объема слабоструктурированной информации. Из-за сложности структурных и системных зависимостей в данных, которые описывают слабоформализованиые информационные системы и сложные прикладные объекты исследования, значительно усложняются правила построения формализованных информационно-аналитических моделей, описывающих закономерности в данных[30].
В таких условиях традиционные подходы к обработке информации становятся малоэффективными. В результате возникает актуальная проблема разработки и применения новых многометодных подходов к анализу данных. Направлением повышения эффективности анализа больших объемов слабоструктурированной информации и построения аналитических и информационных моделей, описывающих поведение сложных систем, является использование технологий системного многометодного интеллектуального анализа данных (ИАД), который получил название «Data Mining» (добычи знаний)[3\].
Научной областью анализа данных является создание автоматизированных познавательных процедур с использованием баз фактов и баз знаний, которые на основе группы алгоритмов автоматически порождают гипотезы наличия закономерностей [32]. На более ранней стадии развития технологий анализа данных предпринимались попытки использования такого подхода для интерпретации большого числа расчетных данных [33, 34, 35]. Data Mining— исследование и обнаружение «машиной» (алгоритмами, средствами искусственного интеллекта) в сырых данных знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком (Григорий Плтецкий-Шапиро) [31].
Особенностью анализа данных Data Mining является использование различных алгоритмов нахождения закономерностей в данных [36-39]. Анализ данных информационных различными алгоритмами подробно отражен в работах автора [40-48].
В арсенале современного анализа данных существует десятки различных традиционных методов и алгоритмов анализа данных: статистических, кластеризационных, классификационных и т.д. Перечисленные методы не всегда обладают достаточно хорошей степенью точности и достоверности при описании новых закономерностей. Например, в случае статистических методов данная проблема связана с отсутствием статистической устойчивости в данных или сложностью построения гипотез относительно вида функций распределения самих величин и функций распределения параметров моделей. Наряду с указанными причинами исследования в области анализа данных при решении определенного класса задач сталкиваются с трудностями иного рода: формально-логически вывод из обнаруженных закономерностей не всегда может нести в себе принципиально новые знания. Поэтому существующий подход анализа данных, который использует конечное число гипотез, нуждается в дальнейшем изучении, формализации и дополнении его новыми подходами [40].
Несмотря на развитую теоретическую часть построения алгебраической теории комитетов[5,6], существующая практическая методология анализа слабоструктурированиых данных характеризуется слабым описанием алгебры синтеза решающих правил и построения базовых алгоритмов и гипотез применительно к прикладным информационным системам, вариационной оценке их применимости на различных массивах данных.
Общепринятые методы анализа данных заключаются в построении одной или нескольких информационно-аналитических моделей. В зависимости от того, насколько хорошо та или иная модель описывает закономерности в данных, применяется способ композиции результатов с помощью выбранного решающего правила. При таком подходе результаты, как правило, зависят от априорных знаний аналитика, его опыта и интуиции при формировании гипотез. В этом случае отсутствуют критерии формального научно обоснованного построения гипотез, объясняющих зависимости в данных, и применения решающих правил принятия коллективных решений комитетами моделей. В результате могут получаться, во-первых, субъективные или слишком грубые выводы, во-вторых, закономерности, лишенные новых формализованных знаний[49,50, 51].
В диссертационной работе разработан научный подход, который позволяет во многом разрешить указанные проблемы. В исследовании используется системный подход для разработки и обоснования применения новых методов, построения информационных моделей для анализа слабоструктурированных данных и решения плохо формализованных задач, расширения алгоритмов и моделей анализа данных. На разных этапах исследования для качественного анализа данных привлекались специалисты из предметных информационных областей.
В диссертации найдены новые закономерности и формализованы новые знания в сложных информационных системах различной природы. Разработанные методы применяются для класса задач, которые описываются табличными данными. В качестве базовой методологии решения задач поиска закономерностей в данных и интерпретации результатов используется методология интеллектуального анализа данных Data Mining. В качестве важного примера приведем одну из последних областей применения результатов разработанной методологии - теория катастроф и безопасности. Выявленные на ранней стадии комплексные закономерности в возникновении природных катастроф уменьшают масштаб их последствий [52-54].
Цель и задачи исследования.
Целью диссертационного исследования является расширение спектра решаемых задач за счет разработки новых методов анализа данных и решающих правил с помощью комитетов алгоритмов для построения информационно-логических и аналитических моделей с целью моделирования системно-объектных связей, позволяющих строить их формализованные описания. Ставится задача получения новых закономерностей о функционировании сложных систем, в которых присутствуют сложные взаимодействия с большим числом связей. Разработанные методики применяются к данным информационных систем различной природы.
В соответствии с поставленной целью решались следующие задачи:
1.1 Построить новые модели для анализа различного типа информации: геологической, экономической, производственной, которые позволят существенно улучшить систематизацию процессов, структурных и функциональных связей внутри системы с помощью аппарата теории классификации, распознавания, искусственного интеллекта, статистических методов и комитетов указанных алгоритмов.
1.2 Разработать научно обоснованные формализованные методы и алгоритмы анализа данных комитетами алгоритмов для описания сложных систем различной информационной природы, которые позволят при обработке больших объемов данных значительно улучшить точность и увеличить скорость анализа данных по сравнению с уже существующими методами. Построить процедуру расчета точности моделирования комитетами алгоритмов. Провести оценку статистическими методами.
1.3 Построить методики и критерии моделирования организационно-экономических систем с помощью специального класса уравнений математической физики, которые обеспечат формализацию новых информационных связей и прогнозирование поведения объектов экономических систем с меньшей ошибкой, чем существующие методики.
Предмет и объект исследования.
Объектами исследования являются слабоструктурированные данные информационных систем различной природы:
1. Массивы данных о распределении минеральных ассоциаций, представляющие собой поликомпонентные системы геологических образований
2. Динамические массивы социально-экономической информации регионов России
3. Данные, описывающие работу производственных предприятий с полным циклом производства, операций и распределения продукции.
Предметом изучения являются скрытые закономерности в данных.
Научные и практические результаты, выносимые на защиту.
1. В результате разработанного подхода к синтезу новых алгоритмов анализа данных выделяется структурная модель связей в экоинформационных системах, в частности минеральных ассоциаций как критерий потенциального залегания промежуточных коллекторов алмазов. Получены дополнительные критерии для моделирования и распознавания промежуточных коллекторов (комплексов пород, участвующих в питании алмазоносных районов). Полученные результаты впервые позволили определить скрытые системно-объектные связи в поликомпонентной структуре минеральных ассоциаций и построить трехмерную карту распределений минеральных ассоциаций
2. Построенная с помощью формализованных разработанных методик комплексная информационно-логистическая модель операционного отдела предприятия с выделением структурных и функциональных характеристик системы позволяет более точно по сравнению со стандартными методами (построения нейросетей, генетическими алгоритмами, регрессии) планировать прибыль и бюджет компаний на будущий период
3. Разработанная процедура применения уравнений математической физики для построения структурно-логических моделей социально-экономических систем позволяет с лучшей точностью формализовать схему рационального распределения и планирования ресурсов.