Содержание к диссертации
Введение 5
Глава I. Основные методы и алгоритмы кластеризации в задаче управления качеством производства деталей светотехнических изделий.. 15
1.1. Технологический процесс литья под давлением деталей
светотехнических изделий из поликарбоната 15
1.1.1. Технологические параметры, определяющие качество деталей
светотехнических изделий из поликарбоната 15
Управление технологическими режимами процесса литья под давлением деталей светотехнических изделий на основе методов кластерного анализа 21
Понятие о кластеризации 24
Цели и задачи кластеризации 25
Функционалы качества кластеризации 26
Меры сходства в методах кластеризации 28
Методы кластерного анализа 29
1.7.1. Иерархические методы кластеризации 30
Иерархические агломеративные методы 30
Иерархические дивизимные методы 32
1.7.2. Неиерархические методы кластеризации 32
Функция принадлежности как субъективная оценка технологического режима по параметрам 35
Алгоритм A-Means 36
Алгоритм Fuzzy c-Means 38
Метод эволюционной кластеризации ЕСМ 40
Виды неопределенностей, характерные для задачи кластеризации объектов по параметрам технологического процесса 42
Нечеткая модель процесса кластеризации 44
Выводы 46
1.15. Постановка задачи адаптивной нечеткой кластеризации 51
Глава И. Нейро-нечеткий алгоритм динамической кластеризации данных
в задаче управления качеством производства деталей 57
Алгоритм нечёткой самоорганизации 58
Алгоритм кластеризации на основе конкуренции и кооперации 62
2.2.1. Описание алгоритма 63
2.3. Формальные критерии качества кластеризации 65
Показатели четкости 65
Энтропийные показатели 66
Показатель компактности и изолированности 67
Индекс эффективности 67
2.4. Задача динамической кластеризации при выборе технологического
режима 72
2.4.1. Нечётко-логический алгоритм динамической кластеризации 73
Выявление новых кластеров 78
Выявление сливающихся кластеров 80
Алгоритм выявления сливающихся кластеров 81
Выявление расщепляющихся кластеров 82
Алгоритм выявления расщепляющихся кластеров 85
Выявление дрейфа центров кластеров 86
Выявление изменений геометрических размеров кластеров 86
2.5. Выводы 86
Глава III. Гибридный метод кластеризации на основе субъективных
оценок и визуализации результатов кластеризации 89
Классификация проблем принятия решений .90
Схема гибридного метода адаптивной кластеризации и понятие рационального выбора режима ведения технологического процесса 90
Методы визуализации данных 94
Система визуализации данных 95
Метод главных компонент 97
3.4. Формализация нечеткой многокритериальной задачи выбора
варианта кластеризации - режима ведения технологического процесса
производства деталей светотехнических изделий 99
Формирование множества альтернатив для выбора оптимального технологического режима 100
Нечеткая модель оценивания альтернатив по множеству критериев : 102
Нечеткая модель согласования важности критериев 106
Нечеткая модель выбора альтернативы из множества взаимно недоминируемых альтернатив по предпочтениям эксперта 114
Алгоритм решения нечеткой многокритериальной задачи выбора варианта кластеризации — оптимального технологического режима объектов 120
Сравнительный анализ эффективности разработанного метода на классическом тесте Фишера для алгоритмов кластеризации 120
3.7. Выводы 138
Глава IV. Интеллектуальная система анализа данных технологического
процесса производства деталей светотехнических изделий 141
4.1. Включение субъективных представлений эксперта в процедуру
кластеризации 141
Обобщенный алгоритм построения базы нечетких правил 145
Формальное описание алгоритма 145
Реализация алгоритма построения базы нечетких правил 148
Генерация нечетких правил 152
Алгоритм построения базы нечетких правил по результатам кластеризации формальным методом 157
4.2. Процедура настройки режимов функционирования оборудования на
основе результатов кластеризации 158
Нечеткая модель выбора режима ведения технологического процесса по результатам нечеткой кластеризации 161
Реализация программного комплекса 164
Выводы 174
Заключение 177
СПИСОК ЛИТЕРАТУРЫ 182
Приложение 1 190
Приложение 2 210
Приложение 3 247
Введение к работе
Современные системы управления сложными производственными процессами, реализованные с использованием информационных технологий, вызвали бурный рост компьютерных средств обработки и интеллектуального анализа экспериментальных данных.
Задачей интеллектуального анализа данных является извлечение из них знаний, нахождение закономерностей которые могут быть использованы для выбора режима ведения технологического процесса с целью увеличения производительности и уменьшения производства бракованных изделий.
Для эффективного анализа технологического процесса необходимо определить, какие параметры должны быть включены в план анализа, выявить факторы, которые оказывают существенное влияние на ход процесса. При этом количество параметров превосходит число измерений в десятки раз, что приводит к ситуации малой выборки. Вторая особенность интеллектуального анализа данных технологического процесса - формулировка целевых критериев, поскольку известно много фактов значительного расхождения диагностических оценок разных специалистов, даже принадлежащих одной научной школе. Третья проблема - наличие шумящих данных, учет которых повлечет ошибки при нахождении закономерностей в экспериментальных данных. Четвертая проблема связана с получением данных путем проведения трудоемких и растянутых во времени экспериментов. За это время возникает целый ряд субъективных и объективных причин появления пропуска в данных. Пятый аспект анализа данных — одинаковые внешние проявления обусловлены различными внутренними механизмами, что приводит к существенной неоднородности классов данных, которая формируется на основании заданных внешних критериев. Последняя проблема связана со структурной ассиметрией классов данных, что приводит к эффекту полиморфности в пространстве признаков.
Таким образом, анализ структур данных связан с:
высокой размерностью задачи;
разнотипностью данных;
неопределенностью внешнего описания;
нечеткостью внешних критериев;
большим количеством шумящих и дублирующих данных;
неоднородностью классов объектов;
пропусками в данных;
наличие выбросов;
значительным превышением количества признаков над числом измерений;
проблемой представления данных в виде таблицы «объект-признак»;
структурной ассиметрией классов объектов исследований;
существенной непериодичностью паттернов с джокерами при описании последовательностей.
Обычные статистические методы (регрессионный, дисперсионный анализ), позволяющие выявить закономерности процесса, как правило, не могут быть применимы по нескольким причинам. Во-первых, изначально неизвестно, какое количество факторов будет влиять на производство деталей в конкретной ситуации. Существенные факторы может выявить только эксперт-технолог на базе прошлого опыта, измеренных на текущий момент времени данных и в сложившейся ситуации. Во-вторых, обычные статистические методы используют различные статистики для определения законов распределения и нахождения оценок параметров этих законов. Как правило, априори неизвестна информация о распределении данных и вычисление статистик проблематично. В-третьих, из литературных источников известно, что закон распределения измерений либо меняется от выборки к выборке, либо появляются значительные ошибки в оценках параметров закона распределения из-за динамично меняющихся входных воздействий (параметры сырья, производство деталей на различных станках и т.п.). В-четвертых, количество параметров
7 экспериментальных данных значительно превышает количество измерений, что также делает затруднительным проверку статистических гипотез о том или ином законе распределения.
Возможным вариантом извлечения знаний из экспериментальных данных (объектов) является поиск структуры в этих данных, если таковая существует. Это позволит перейти от описания сравнительно небольших выборок объектов к описанию классов объектов и отношений между ними. После выделения групп схожих объектов применяются другие методы, для каждой группы строится отдельная модель. Модель структуры данных определяется наборами «схожих» по параметрам данных, объединенных в группы (кластеры), с указанием количества таких групп, их центров и степеней принадлежности каждого измеренного объекта каждой группе. Каждому кластеру можно поставить в соответствие некоторый технологический режим. Кроме этого, необходимо определить группы коррелированных параметров для их объединения и представления каждой такой группы одним «латентным» фактором. Следовательно, при интеллектуальном анализе экспериментальных данных необходимо представить их в виде групп объектов схожих по набору коррелированных факторов, оказывающих наиболее существенное влияние на технологический процесс, т.е. найти структуру в данных.
Наиболее подходящим способом нахождения структуры данных являются методы кластерного анализа, позволяющие разбить множество объектов на группы по заданным критериям. Это позволит найти структуру в данных и на ее основе выявить знания, которые технолог сможет использовать для выбора режима ведения технологического процесса производства различных деталей путем построения нечеткой системы управления качеством производства деталей, а сам результат кластеризации будет представлять собой модель сложной системы в виде найденной структуры данных. Поэтому разработка простых и быстрых методов кластеризации, не зависящих от параметров, значения которых редко можно знать априори, имеет особую
8 актуальность при решении практических задач в различных областях деятельности человека, когда точность полученных кластерных решений имеет решающее значение.
Задача кластеризации впервые была рассмотрена в 1930-х годах. Эту проблему в её различных аспектах изучали как зарубежные, так и отечественные исследователи, в том числе: МакКуин Д., Ланс У., Уильяме Д., Хартиган Д., Вонг М., Кохонен Т., Фрицке Б., Колмогоров А.Н., Загоруйко Н.Г., Ёлкина В.Н., Айвазян С.А., Дорофеюк А.А., Вагин В.Н., Мхитарян B.C., Шумский С. А. и другие.
На сегодняшний день существует более сотни методов кластеризации и их модификаций. Это связано с разнообразием задач, для решения которых используют кластеризацию.
Кластерные процедуры для нахождения схожих объектов разделяют на два основных типа — агломеративные (дивизимные) и итеративные. Вычислительная сложность агломеративных и дивизимных процедур резко возрастает при увеличении объёма выборки. Итеративные методы сильно зависят от выбора начального разбиения, что приводит к необходимости повторного решения задачи с новыми условиями. Недостатки указанных групп методов не позволяют применять их как универсальные, круг их применения ограничивается данными сравнительно небольших объёмов при априори известной информации о кластерной структуре.
Исходным предположением для всех методов кластеризации является выполнение гипотезы о «разделимости» данных. Существующие методы и алгоритмы позволяют выделить группы в исходных данных даже при отсутствии структуры в данных, т.е. не учитывают семантику задачи. Поэтому для успешного решения задачи кластеризации требуется наличие эксперта — аналитика в предметной области, который на основе своих знаний, интуиции, опыта мог бы выдвигать различные гипотезы, касающиеся вида структуры данных, и проверять эти гипотезы в ходе решения задачи кластеризации, в
9 результате чего изменяется степень убежденности эксперта в правильности результата кластеризации. Это предполагает выбор среди вариантов кластеризации альтернативы, на которой достигается максимум этой величины.
Алгоритмы кластеризации используют для анализа вектора признаков объектов. Признаки - это координаты объектов в некотором пространстве, в котором может быть задана некоторая формальная мера близости, и на ее основе разными способами ищутся «схожие» объекты. Однако признаки могут быть числовые или категорийные. Поэтому в качестве меры близости для разных категорий признаков применяют различные метрики: для числовых признаков часто используется Евклидова метрика, для категорийных — метрика Хемминга. Более того, для категорийных данных разработаны отдельные методы. Однако, они применимы только для узкого круга задач.
Очевидно, что возможность кластеризации объектов, с признаками которых невозможно производить арифметические действия, необходима. Это нужно, например, для возможности выделения осмысленных групп симптомов и диагнозов в медицине, товаров на рынке, акций на бирже и т.д. Для этого нужно создать инструмент, предоставляющий возможность проведения такой кластеризации, которая вместе с формулами, предлагающими некоторый желаемый результат, использовала бы субъективные оценки эксперта.
Кроме этой проблемы есть еще проблема масштабируемости, т.е. проблема создания такого алгоритма кластеризации, который смог бы работать на гигантских базах данных.
Для кластеризации измеряемых данных можно использовать стандартные алгоритмы. С другой стороны, существует и огромное число качественных данных, таких, как, например, болезненность цвета лица пациента, кредитоспособность заемщика, качество изделия и др. Человек сравнительно легко может оценивать эти свойства исходя из своих накопленных знаний, интуиции и сложившейся ситуации, и они были бы очень полезны при анализе. Возможно, среди них и будут находиться ключевые факторы, которые позволят
10 провести более качественную, с точки зрения эксперта, кластеризацию. Однако зачастую они не измеряются автоматически, и нет удобной возможности их учитывать и работать с ними. Инструменты, позволяющие фиксировать подобного рода данные, имеются, но эксперт часто «зажат» шаблонной процедурой, которая предлагается ему в заранее установленном порядке, зависящей от уже представленных ответов, и не имеет возможности просмотреть, каков будет результат при некоторой подвижке этого шаблона.
Таким образом, эксперт сам может являться измерителем некоторых признаков объектов разбиваемого множества. В этом случае, используются его знания о том, что такое конкретный признак рассматриваемого объекта, как этот признак может изменяться, каков его вклад в описание модели, какова его информативность и нужно ли добавить новые признаки для увеличения или уменьшения степени абстрагирования при описании задачи. То есть, введение эксперта в решение задачи кластеризации позволит качественно оценивать полученные результаты и, если это нужно, вносить коррективы на этапе решения задачи.
Еще одной проблемой является измерение данных с некоторой точностью. Например, при производстве деталей возможны так называемые допуски по их параметрам. На технологических линиях возможны отклонения по некоторым параметрам. В связи с этим возникают различные виды неопределенностей, которые необходимо учитывать при кластеризации данных. Это может быть сделано при помощи теории нечетких множеств. В этом случае будет возможным сохранять знания человека об объекте, учитывать неопределенности, возникающие при той или иной ситуации, накапливать их со временем, выделять среди них значимые, анализировать накопленный опыт.
При использовании опыта, знаний эксперта должна проявляться эволюция системы. Внимание эксперта практически всегда уделяется ограниченному числу характеристик, используемыми остаются только самые
И значимые. Так, постепенно на основе «старых» знаний появляются новые характеристики, которые, может быть, вытеснят накопленные ранее. При этом «старые» знания должны оставаться в системе для того, чтобы их можно было бы продолжить использовать. Такие действия потребуют много внимания от эксперта и практически не содержат никакой автоматики, а лишь помогут по-новому и с разных «углов» взглянуть на проблему, и не позволят пропасть результатам «накопленных» решений. В итоге получается база знаний эксперта о множестве объектов, с которыми он работает, а кластеризация может быть представлена как итерационный процесс выбора экспертом оптимального с его точки зрения варианта кластеризации. Следовательно, задача кластеризации может быть сведена к задаче нечеткого многокритериального выбора альтернативы - варианта кластеризации, полученного на базе некоторого метода адаптивной кластеризации с участием эксперта.
Переход от одного варианта к другому предполагает наличие критериев оценки их качества. Дополнительной информацией для получения оценок от эксперта может служить визуализация решения, которая позволит оценить возможность продолжения поиска или останова. Такого рода информация позволит ускорить процесс принятия решений.
Эксперт не всегда может четко сравнить варианты решений по предложенным критериям или, вообще, сказать какой из двух вариантов предпочтительнее. Для решения данной проблемы можно по предпочтениям эксперта построить нечеткое множество взаимно недоминируемых альтернатив с функцией принадлежности их этому множеству. Значение функции принадлежности будет означать степень истинности высказывания о том, какая из альтернатив является более предпочтительной, что количественно определяет степень убежденности эксперта в оптимальности альтернативы.
Процесс выбора альтернативы должен быть закончен при достижении некоторой цели. В качестве целевой функции здесь может быть выбрана степень убежденности эксперта в оптимальности текущего решения. Обычные
12 методы оптимизации не могут быть здесь применены по следующим причинам.
Оптимизируемая функция - степень убежденности - задана неявно.
Ограничения не могут быть описаны четко.
При решении подобного рода задач не всегда оправданы допущения для скрытия возникающих неопределенностей.
Таким образом, актуальность настоящей работы обусловлена необходимостью расширения функциональных возможностей алгоритмов и методов кластеризации и связана с разработкой математического, алгоритмического и программного обеспечения методов обработки больших объемов информации, определением критериев и моделей описания кластерных разбиений.
Объектом настоящего исследования является технологический процесс производства изделий из поликарбоната методом литья под давлением.
Предметом исследования является интеллектуальный анализ данных для нахождения в них структуры с учетом семантики предметной области.
Целью диссертационной работы является совершенствование и расширение функциональных возможностей методов кластеризации путем введения нечетких оценок эксперта и визуализации результатов кластеризации для нахождения структуры в данных технологического процесса для управления качеством производимых деталей.
Для достижения поставленной цели в диссертационной работе решаются следующие основные задачи.
Исследовать методы и алгоритмы кластеризации и визуализации данных.
Разработать базовый алгоритм кластеризации для получения варианта разбиения данных на кластеры с целью последующего анализа всех вариантов.
Разработать алгоритм выбора варианта кластеризации на основе оценок, знаний и предпочтений эксперта.
Разработать алгоритм проверки истинности нечеткого высказывания о степени улучшения решения в соответствие с системой предпочтений эксперта.
Программная реализация комплекса диагностики текущего состояния технологического процесса производства изделий с целью настройки системы нечеткого управления качеством производства изделий с использованием результатов исследований данной работы.
Методы исследования. Поставленные задачи решаются с использованием теории нечетких множеств, методов визуализации данных, нечеткой логики, искусственного интеллекта и теории принятия решений.
Научная новизна работы заключается в следующем:
Предложен алгоритм самоорганизации нейронных сетей на основе механизмов конкуренции и кооперации, при помощи которого оказалось возможным решить проблему определения первоначального, разбиения множества объектов на кластеры, т.е. получить первое приближение решения задачи поиска структуры данных для выбора режима ведения технологического процесса производства деталей светотехнических изделий.
Разработан алгоритм нейро-нечеткой динамической кластеризации для выбора технологического режима, в который введены нечеткие правила для определения степени принадлежности текущего объекта каждому кластеру, либо образования нового кластера. Математически обоснован выбор оптимального значения «порога», определяющего момент расщепления кластера на новые при изменении его структуры во времени.
Разработан алгоритм определения истинности высказывания об оптимальности решения в соответствие с системой предпочтений эксперта при помощи построения нечеткого множества взаимно недоминируемых альтернатив, что в отличие от множества Парето позволяет учитывать нечеткие оценки эксперта.
Разработан метод поиска оптимального варианта кластеризации состояний технологического процесса, позволяющий на основе оценок
14 эксперта-технолога, визуализации результатов кластеризации и разработанных алгоритмов получить решение, наиболее полно отвечающее требованиям задачи управления качеством производства деталей, что отсутствует в существующих методах кластеризации.
5. Предложена методика поиска структуры классов данных в задаче управления качеством производства деталей светотехнических изделий.
Практическая значимость работы вытекает из ее актуальности. Создание
интеллектуальной системы анализа данных технологического процесса
позволяет находить структуру (если она существует) в параметрах этого
процесса. Для ее реализации разработан программный комплекс диагностики
текущего состояния технологического процесса производства
светотехнических изделий с целью настройки системы нечеткого управления качеством производства изделий с использованием результатов исследований данной работы.
Практическая значимость работы подтверждается использованием полученных результатов в подсистеме анализа режимов работы инженерного оборудования, о чем имеется акт о внедрении.