Введение к работе
Актуальность темы. Исследование сложных систем требует не только модификации известных методов статистического анализа, но и разработки новых, способных определять как особенности и характеристики, так и свойства структуры статистических связей сложных систем, которые на данный момент не определяются используемыми методами. Трудности разработки таких методов связаны с многомерностью, многосвязностью характеристик систем, отсутствием априорной информации о возможных структурах и представлением этих систем в виде данных экспериментальной выборки. Одним из подходов, используемых при исследовании сложных систем в таких условиях, является статистический, включающий многомерный статистический анализ. Методы многомерного статистического анализа широко и с успехом применяются при анализе статистических данных в различных областях науки и техники: физике, химии, биологии, медицине, геологии, экологии, экономике, автоматизированных системах управления и многих других. Особенно востребованы в последнее десятилетие такие разделы, как анализ многомерных статистических связей и многомерный нелинейный регрессионный анализ. Возможности современных компьютерных технологий позволяют применять различные статистические методы, ранее считавшиеся трудоемкими в вычислительном плане. Однако эти методы в большей своей части рассматривают линейные многомерные системы. Линейный многомерный статистический анализ имеет достаточное теоретическое обоснование, а его различные методы нашли широкое распространение в разных прикладных статистических пакетах (Statistica, SPSS, Statgraphics, Statsoft, SAS и др.).
Значительный вклад в развитие статистического анализа внесли зарубежные ученые: К. Пирсон, Р. Фишер, Е. Нейман, Ф. Гальтон, В. Госсет (Стьюдент), Г. Крамер, Т. Андерсон, М. Кендалл, А. Стьюарт, Д. Дюге, С. Рао, Н. Дрейпер, Г. Смит, Г. Шеффе, С. Кульбак, Э. Маленво, П. Эйк-хофф, Л. Льюнг, X. Такэути и многие другие. Существенный вклад внесли российские ученые: А. А. Чупров, В. Я. Буняковский, П. Л. Чебышев, Ю. В. Линник, А. А. Марков, А. Н. Колмогоров, Н. В. Смирнов, Н. С. Райб-ман, В. Н. Вапник, А. Г. Ивахненко, И. И. Елисеева, С. А. Айвазян, И. С. Енюков, Л. Д. Мешалкин, С. М. Ермаков, Р. Л. Стратонович, Г. С. Лбов, Б. Г. Миркин, А. И. Орлов, А. М. Шурыгин и многие другие.
По отношению к нелинейным многомерным объектам в большинстве случаев решаются задачи параметрического оценивания нелинейных регрессионных моделей, вид которых задается из эвристических соображений или из предварительно накопленного опыта.
В настоящее время имеется множество подходов, алгоритмов и программ, позволяющих в условиях неопределенности по статистике «вход-выход» решить ту или иную задачу многомерного нелинейного статистического анализа. Но, несмотря на отдельные результаты, полученные в этой
области, рассматриваемая проблема далеко не исчерпана. Остается нерешенным целый ряд существенных задач, связанных с развитием теории анализа структур статистических связей многомерных нелинейных систем.
Из всего многообразия сложных систем выделим класс, имеющий следующие признаки: многомерные, нелинейные, многосвязанные, статические, представленные репрезентативной выборкой.
Разнообразие нелинейных многомерных статистических связей между переменными системы не позволяет на текущий момент предложить единую теорию многомерного статистического анализа, как это реализовано в линейном статистическом анализе.
Особенно остро задача построения моделей стоит для большого числа процессов и объектов, для которых разрабатываются системы управления, диагностики и прогнозирования при малой априорной информации о них.
Один из перспективных подходов к анализу структур статистических связей в таких системах основывается на статистических характеристиках в виде дисперсионных отношений и энтропийно-информационных мерах. Разработка методов анализа структуры статистических связей сложных систем составляет научную проблему, имеющую важное теоретическое и прикладное значение. Решение этой проблемы будет способствовать существенному расширению класса эффективно решаемых задач идентификации многомерных нелинейных статических объектов на основе экспериментальных данных при априорной неопределенности в различных научных и практических дисциплинах, промышленных технологиях и автоматизированных системах управления.
Целью диссертационной работы является разработка теоретических и методологических основ комплексного решения проблемы анализа структуры статистических связей многомерных нелинейных статических систем на основе экспериментальных данных. Достижение поставленной цели обусловило необходимость решения следующего комплекса научных и практических задач:
разработка и обоснование метода дисперсионных отношений в качестве основы исследования многомерных нелинейных статистических связей между входными и выходными переменными сложной системы, который базируется на разложении множественного дисперсионного отношения;
разработка и обоснование энтропийно-информационного метода для исследования мер многомерных нелинейных статистических связей между входными и выходными переменными исследуемой системы на основе разложения множественной взаимной информации;
разработка и обоснование метода выбора доминантных переменных на основе критерия неоднородности ряда оценок статистических мер связей между входными и выходной переменными, выбранных в качестве весов входных переменных;
обоснование аддитивной и (или) мультипликативной композиций многомерной нелинейной регрессионной модели по парным маргинальным зависимостям на основе дисперсионных отношений для автоматизированного выбора многомерной структуры регрессионной модели сложной системы;
обоснование метода классификации систем, основанного на применении корреляционного анализа, метода дисперсионных отношений и энтропийно-информационного метода по признакам: линейные, нелинейные однозначные, нелинейные неоднозначные по входной переменной, нелинейные неоднозначные по выходной переменной и нелинейные неоднозначные по входным и выходным переменным непосредственно по экспериментальным данным;
разработка методики оценивания устойчивости метода выбора доминантных переменных к нарушениям гипотез нормальности;
обоснование и исследование работоспособности энтропийно-информационного метода при обработке разнотипных переменных (числовых, бинарных, нечисловых упорядоченными, нечисловых номинальных);
исследование эффективности разработанных и представленных в диссертации методов, алгоритмов и программ с помощью тестового статистического моделирования и на примерах решения реальных задач по экспериментальным данным реально функционирующих объектов идентификации.
Объект и предмет исследования. Объектом исследования выступает многомерная нелинейная система, представленная выборкой «вход - выход». Предметом исследования являются меры многомерных нелинейных статистических связей между входными переменными и выходной переменной и характеристики структурной идентификации сложных систем.
Методы исследования. Разработанные в диссертации методы опираются на результаты современного многомерного статистического анализа и прикладной статистики, корреляционного анализа, регрессионного анализа, дисперсионного анализа, анализа условных вероятностей, математической теории планирования экспериментов, теории идентификации дискретных систем, теории информации, теории сложных систем. Полученные алгоритмы исследованы методом статистического моделирования на ЭВМ.
Научная новизна работы заключается в следующем:
-
Разработан и обоснован метод дисперсионных отношений для исследования многомерных нелинейных статистических связей, центральной идеей которого является разложение множественного дисперсионного отношения.
-
Разработан и обоснован подход к исследованию многомерных нелинейных статистических связей на основе разложения множественной взаимной информационной меры на парные и условные информационные меры.
-
Предложен и обоснован метод выбора доминантных переменных на основе условия неоднородности с использованием в качестве весов пере-
менных дисперсионных отношений или энтропийно-информационных характеристик.
-
Сформулированы и обоснованы условия синтеза аддитивной и мультипликативной форм многомерной нелинейной регрессионной зависимости по парным маргинальным зависимостям на основе значений дисперсионных характеристик.
-
Предложен метод классификации нелинейных объектов по экспериментальной выборке на основе системного подхода к применению корреляционного анализа, метода дисперсионных отношений и энтропийно-информационного анализа исходя из свойств нелинейности и неоднозначности зависимостей.
-
Предложена методика исследования устойчивости метода выбора доминантных переменных в условиях нарушения предпосылок нормальности законов распределения.
7. Предложена классификация нелинейных систем исходя из свойств
(признаков) нелинейности и многозначности зависимостей непосредствен
но по экспериментальным данным.
8. Предложенные методы распространены на обработку переменных,
измеренных в различных шкалах (номинальные, порядковые, бинарные,
абсолютные).
Практическая значимость и реализация результатов работы. Разработанные методы, методики, алгоритмы и программы позволяют существенно расширить класс эффективно решаемых прикладных задач исследования структур статистических связей многомерных нелинейных статических систем и построения многомерных нелинейных регрессионных зависимостей по экспериментальным данным для широкого круга научных и технических дисциплин. Основной практический выход диссертационной работы заключается в разработке единого подхода к анализу структур статистических связей сложных многомерных систем на основе дисперсионных отношений и энтропийно-информационных характеристик, выбора доминантных переменных и синтеза многомерных нелинейных регрессионных зависимостей минимальной сложности. Реализуемые в рамках разработанного метода вычислительные схемы решения задачи анализа статистических связей многомерных систем содержат как универсальные, так и адаптированные упрощенные алгоритмы.
Практическая ценность результатов, представленных в диссертации, объясняется тем фактом, что предложенный подход расширяет круг исследования структур многомерных нелинейных статистических связей и распространяется на экспериментальные данные как числовой, так и нечисловой природы, находит структуру многомерных нелинейных связей, на основании которой генерируется гипотеза о форме функциональной зависимости в виде регрессионной модели минимальной сложности при условии отсутствия априорной информации о многомерной функции плотности
распределения вероятностей экспериментальной выборки и вида (формы) многомерной зависимости выходной переменной от предикторных.
Методы, алгоритмы и программы, разработанные в диссертации, использовались:
при разработки пакета прикладных программ для автоматизированных систем управления технологическими процессами (АСУТП) гидроочистки дизельного топлива и для АСУТП синтез-газа и технического водорода;
в задаче исследования и построения многомерных моделей химической реакции нитрования на основе экспериментальных данных активного эксперимента по плану 5-уровнего латинского квадрата;
при разработке регрессионно-логической модели диагностики атро-фического гастрита и модели диагностики язвы желудка;
при исследованиях влияния профиля личности на формы аллергических заболеваний;
при исследовании и построении модели диагностики работоспособности локомотивного дизеля.
На защиту выносятся:
-
Метод дисперсионных отношений в качестве основы исследования мер многомерных нелинейных статистических связей между входными и выходными переменными объекта идентификации и базирующийся на разложении множественного дисперсионного отношения.
-
Энтропийно-информационный метод для исследования мер многомерных нелинейных статистических связей между входными и выходными переменными объекта идентификации на основе разложения множественной взаимной информации.
-
Метод выбора доминантных переменных на основе критерия неоднородности ряда оценок статистических мер связей между входными и выходной переменными, выбранных в качестве весов входных переменных.
-
Обоснование аддитивной и (или) мультипликативной композиций многомерной нелинейной регрессионной модели по парным маргинальным зависимостям на основе дисперсионных отношений.
-
Метод классификации объектов идентификации, основанный на применении корреляционного анализа, метода дисперсионных отношений и энтропийно-информационного подхода по признакам нелинейности и неоднозначности зависимостей объектов идентификации непосредственно по экспериментальным данным.
-
Методика оценивания устойчивости метода выбора доминантных переменных объектов идентификации к нарушениям гипотез нормальности.
-
Обоснование работоспособности энтропийно-информационного подхода при обработке разнотипных переменных (числовых, бинарных, нечисловых упорядоченных, нечисловых номинальных).
-
Обоснование разработанных и представленных в диссертации методов, алгоритмов и программ на примерах тестового статистического моде-
лирования и на экспериментальных данных реально функционирующих объектов идентификации.
Апробация работы. Основные результаты диссертации докладывались на: Всесоюзной конференции «Автоматизация периодических процессов в химической промышленности» (Северодонецк, 1979), 3-й Всесоюзной конференции «Применение вероятностно-статистических методов в бурении и нефтедобычи» (Баку, 1980), Всесоюзном семинаре-совещании «Методы кибернетики в химии и химической технологии» (Иваново, 1982), Всесоюзной конференции «Информационно-измерительные системы - 83» (Куйбышев, 1983), симпозиуме «Методы и программное обеспечение обработки информации и прикладного статистического анализа данных на ЭВМ. Машинные методы обнаружения закономерностей» (Минск, 1985), научно-технической конференции «Автоматизация технологических процессов в химической промышленности» (Челябинск, 1990), 3-й Всесоюзной научно-технической конференции «Автоматизированные системы испытаний объектов железнодорожного транспорта» (Омск, 1991), Всесоюзной конференции «Проблемы безопасности движения поездов» (Ташкент, 1991), 2-й Международной научно-практической конференции «Инфот-ранс - 1997» (Санкт-Петербург, 1997), межрегиональной научно-технической конференции «Естественные и инженерные науки - развитию регионов» (Братск, 2004), 9-й Всероссийской конференции «Наука. Экология. Образование» (Краснодар, 2004), 4-й Международной конференции «Идентификация систем и задачи управления - SICPRO"05» (Москва, 2005), 12-й Международной конференции «Математика. Компьютер. Образование» (Москва, 2005), 18-й Международной научной конференции «Математические методы в технике и технологии. ММТТ-18» (Казань, 2005), 13-й Международной научной конференции «Математика. Экономика. Образование» (Ростов-на-Дону, 2005), 13-й Международной конференции «Математика. Компьютер. Образование» (Москва, 2006), 5-й Международной конференции «Идентификация систем и задачи управления - SICPRO"06» (Москва, 2006), 2-й Международной научно-практической конференции «Актуальные проблемы развития железнодорожного транспорта» (Самара, 2006), 14-й Международной конференции «Математика. Компьютер. Образование» (Москва, 2007), 4-й Международной конференции «Актуальные проблемы развития транспортного комплекса» (Самара, 2008), 25-й Международной научной конференции «Математические методы в технике и технологии. ММТТ-25» (Волгоград, 2012), XVI Международной конференции «Проблемы управления и моделирования сложных систем» (Самара, 2014), IX Международной научно-технической конференции «Аналитические и численные методы моделирования естественнонаучных и социальных проблем» (Пенза, 2014), VII Международной научно-технической конференции «Наука и образование транспорту» (Самара, 2014).
Публикации. Основные результаты диссертационного исследования опубликованы в 59 печатных работах, включая 14 статей в научных изда-
ниях из списка ВАК, две монографии, 41 публикацию в трудах и материалах конференций и 4 свидетельства об официальной регистрации программ ЭВМ.
Структура и объем работы. Диссертация состоит из введения, семи глав, заключения, библиографического списка, приложения. Основное содержание работы изложено на 262 страницах основного текста, включая 34 рисунка и 29 таблиц. Список литературы содержит 178 наименований и занимает 18 страниц.