Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Синтез информационной системы группировки многомерных данных с использованием кластерного анализа Бояркин Михаил Игоревич

Синтез информационной системы группировки многомерных данных с использованием кластерного анализа
<
Синтез информационной системы группировки многомерных данных с использованием кластерного анализа Синтез информационной системы группировки многомерных данных с использованием кластерного анализа Синтез информационной системы группировки многомерных данных с использованием кластерного анализа Синтез информационной системы группировки многомерных данных с использованием кластерного анализа Синтез информационной системы группировки многомерных данных с использованием кластерного анализа Синтез информационной системы группировки многомерных данных с использованием кластерного анализа Синтез информационной системы группировки многомерных данных с использованием кластерного анализа Синтез информационной системы группировки многомерных данных с использованием кластерного анализа Синтез информационной системы группировки многомерных данных с использованием кластерного анализа Синтез информационной системы группировки многомерных данных с использованием кластерного анализа Синтез информационной системы группировки многомерных данных с использованием кластерного анализа Синтез информационной системы группировки многомерных данных с использованием кластерного анализа
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Бояркин Михаил Игоревич. Синтез информационной системы группировки многомерных данных с использованием кластерного анализа : диссертация ... кандидата технических наук : 05.13.01 / Бояркин Михаил Игоревич; [Место защиты: Сам. гос. техн. ун-т].- Самара, 2008.- 117 с.: ил. РГБ ОД, 61 09-5/973

Содержание к диссертации

Введение

1. Основные принципы применения методов кластерного анализа для обработки данных 11

1.1 Основные методы теории кластерного анализа и их свойства 12

1.2 Анализ ограничений на выбор элементов модели кластеризации 29

1.3 Основные результаты и выводы 33

2. Модель кластеризации образов в соответствии с топологическими свойствами фазового пространства динамической нейронной сети 35

2.1 Основные принципы распознавания и обучения модели нейронной сетиХакена 35

2.2 Описание модифицированной модели кластеризации многомерных данных 38

2.3 Основные результаты и выводы 49

3. Численное моделирование процесса кластеризации многомерных данных 51

3.1 Исследование эффективности механизма фильтрации кластеров на основе значений меры различия 52

3.1.1 Моделирование механизма фильтрации кластеров 53

3.1.2 Анализ результатов моделирования механизма фильтрации кластеров 57

3.2 Исследование эффективности применения модели

кластеризации для группировки графических данных на основе

критерия визуального сходства 70

3.2.1 Критерии оценки качества кластеризации 72

3.2.2 Моделирование алгоритма кластеризации графических данных 75

3.2.3 Исследование качественных характеристик алгоритма кластеризации графических данных 78

3.2.4 Исследование вычислительных характеристик алгоритма кластеризации графических данных 85

3.3 Основные результаты и выводы 88

4. Применение модели кластеризации образов при построении вспомогательной системы обработки информации для конструкторской деятельности в промышленности 89

4.1 Задача построения вспомогательной системы обработки графической информации при конструкторской деятельности в промышленности 89

4.2 Математический аппарат 91

4.3 Структура обработки данных 93

4.4 Компоненты системы 95

4.5 Схема работы ключевого компонента системы Image Machine 98

4.6 Основные результаты и выводы 104

Заключение 106

Библиографический список

Введение к работе

Актуальность работы. В настоящее время, на фоне глобальной компьютеризации, возрастает значение различных информационных ресурсов и информационных потоков во всех областях человеческой деятельности и знания. На современных, эффективных и наукоемких производствах различные корпоративные среды, системы управления производством, и даже отдельные рабочие места, интегрируются в общее информационное пространство и обмениваются между собой большими объемами разнообразных данных. На фоне таких тенденций эффективность обработки информации перестает быть пассивной составляющей системы управления, и становиться одним из факторов, существенно влияющих на эффективность промышленного производства в целом.

Современные системы управления, все более активно используемые в последнее время на различных промышленных предприятиях, генерируют большие массивы данных с многомерной структурой, так называемых паттернов или образов. Данная ситуация касается не только всех этапов производства (контроль качества, протоколирование технологических процессов), но и деятельности по развитию промышленного предприятия, в том числе и конструкторской деятельности при создании новых материалов или видов производимой "продукции. Вне зависимости от сферы применения, ценность подобной информации определяется возможностью эффективной работы с ней. Для результативной работы с такого рода информацией, она должна быть некоторым образом сгруппирована или классифицирована. Если информация упорядочена, то возможны ее анализ и обработка для решения прикладных задач. Нередко встречается ситуация, когда критерии группировки в подобных объемных выборках основаны на смысловом восприятии содержания образов. Данная информационная составляющая не может быть выражена явно при помощи цифрового или текстового описания, выделить и осознать ее способен лишь мозг человека. В контексте задачи группировки

5 под критериями, в данном случае, понимается сходство смыслового содержания образов. Однако, человеческий труд, который нужно использовать для такой обработки данных, очень ресурсоемок, а объемы данных могут быть очень большими.

Системы управления базами данных, как штатные системы обработки и хранения информации, не годятся для решения подобной задачи, так как упомянутые критерии, основанные на смысловом восприятии содержания образов, не формализуемы в виде логических выражений и четких алгоритмических инструкций.

Модели распознавания образов способны, при правильной настройке, количественно учитывать подобные критерии. Однако, данные модели обладают сложным, практически не масштабируемым на промышленные объемы обрабатываемых данных, математическим аппаратом, и поэтому также не годятся для решения данной задачи.

Наибольший научно-практический интерес данная задача группировки многомерных данных представляет в условиях, приближенных к реальным:

обрабатываемая выборка данных имеет большой объем, который увеличивается за счет потока постоянно поступающей информации,

не существует заранее классифицированной обучающей выборки,

нет предварительной информации о границах, описании и даже количестве классов обрабатываемых многомерных данных.

Речь, в данном случае, идет о задаче классификации со схемой обучения без учителя. Решение подобных задач классификации невозможно без использования бурно развивающихся в последнее время методов кластерного анализа.

В этой связи, актуальными задачами являются: исследование методов кластерного анализа в приложении к решению задачи группировки больших массивов многомерных данных, непрерывно растущих по мере поступления новой информации; разработка и анализ методов количественной оценки уровня ассоциативного сходства многомерных данных; разработка интеллек-

туальной системы группировки больших массивов многомерных данных, на основе неформализуемых критериев ассоциативного сходства.

Цель работы. Основная цель диссертационной работы состоит в решении научно-технической задачи синтеза системы группировки больших массивов многомерных данных на основе критерия ассоциативного сходства смыслового содержания обрабатываемой информации. Синтезируемая система должна функционировать в условиях непрерывно растущего объема обрабатываемой выборки по мере поступления новых данных, а так же отсутствия обучающей классифицированной выборки и информации о границах и количестве классов многомерных данных.

Для достижения поставленной цели в работе решаются следующие задачи:

исследование и анализ существующих методов кластерного анализа;

обоснованный выбор моделей кластеризации многомерных векторов, в условиях растущего объема обрабатываемых данных;

разработка и анализ метода количественной оценки уровня ассоциативного сходства многомерных данных;

разработка модели кластеризации многомерных данных на основе не-формализуемого критерия ассоциативного сходства смыслового содержания обрабатываемой информации;

разработка вычислительных алгоритмов специального математического и программного обеспечения для автоматизированной группировки специализированных многомерных данных на основе критерия ассоциативного сходства смыслового содержания обрабатываемой информации;

- анализ и обоснование достоверности полученных результатов.
Методы исследования. Для решения поставленных задач использова
лись методы системного анализа, включающие методы качественного анали
за обыкновенных дифференциальных уравнений, методы статистической об
работки данных, методы кластерного анализа и аппарат линейной алгебры.

7 Исследование качества работы разработанных моделей проведено на основе

методов теории вероятностей и математической статистики. Для синтеза и

анализа системы группировки специализированных многомерных данных

использовался пакет инженерных вычислений Matlab.

Научная новизна.

В диссертации получены следующие основные научные результаты:

впервые-синтезирована система на основе нового метода совместного использования модели последовательной кластеризации и динамической самоорганизующейся модели распознавания образов. Система выполняет классификацию больших объемов многомерных данных на основе критерия ассоциативного сходства смыслового содержания обрабатываемой информации;

предложена форма меры близости в модели кластеризации, зависящей от топологических свойств фазового пространства динамической системы распознавания образов. Функция меры близости позволяет количественно оценивать уровень ассоциативного сходства смыслового содержания данных с существенно меньшим объемом вычислений, по сравнению с существующими моделями распознавания образов;

- предложена и исследована математическая модель кластеризации дан
ных с многомерной структурой, позволяющей, в отличие от классиче
ских моделей кластеризации, учитывать уровень ассоциативного сход
ства смыслового содержания данных на большом объеме обрабаты
ваемой выборки, растущей по мере поступления новой информации.
Практическая полезность работы. Прикладная значимость прове
денных исследований определяется следующими результатами:

- предложенный в диссертации метод совместного использования моде
ли последовательной кластеризации и динамической самоорганизую
щейся модели распознавания образов, позволяет синтезировать для
производственных задач автоматизированные системы группировки
промышленных объемов многомерных данных, на основе неформали-

8 зуемых критериев ассоциативного сходства смыслового содержания

данных; - разработан алгоритм индексации графической информации с учетом критерия визуального сходства изображений. Показана эффективность работы алгоритма индексации, выполняющего качественную классификацию графической информации со значительно меньшими затратами вычислительных ресурсов по сравнению с системами распознавания образов. Алгоритм использован в виде компонентов автоматизированной системы индексации и поиска графической информации; Реализация результатов работы. Результаты диссертационных исследований использованы при разработке автоматизированной системы индексации больших массивов графических данных с учетом критерия визуального сходства изображений с данными, поступающими в режиме реального времени, в конструкторском отделе промышленного предприятия ООО «Эллипс» (г. Самара), а также в учебном процессе подготовки магистрантов по направлению 22.00.00 «Автоматика и управление» в дисциплинах «Интеллектуальные технологии в системах управления» и «Системное моделирование» в ГОУ ВПО «Самарский государственный технический университет».

Апробация работы. Основные положения и результаты работы докладывались и обсуждались на XXXI Самарской областной научной конференции (Самара, 2005); II Всероссийской научной конференции «Математическое моделирование и краевые задачи» (Самара, 2005); V Всероссийской межвузовской конференции «Практика применения научного программного обеспечения в образовании и исследованиях» (Санкт-Петербург, 2007); VI Всероссийской научно-технической конференции «Научное программное обеспечение в образовании и научных исследованиях» (Санкт-Петербург, 2008); X Международной конференции «Проблемы управления и моделирования в сложных системах» (Самара, 2008). Работа поддержана грантом РФФИ по проекту 07-08-00401-а.

9 Публикации. По теме диссертации опубликовано 9 печатных работ.

Структура и объем работы. Диссертация состоит из введения, четырех глав и заключения, изложенных на 115 страницах машинописного текста, содержит 21 рисунок, 1 таблицу, список литературы из 80 наименований и 2 приложения.

Основные положения, выносимые на защиту:

Метод совместного использования модели последовательной кластеризации и динамической самоорганизующейся модели распознавания образов, ориентированный на решение задачи синтеза алгоритмов группировки больших массивов многомерных данных на основе не-формализуемых критериев ассоциативного сходства смыслового содержания данных.

Форма меры близости в модели кластеризации, зависящей от топологических свойств фазового пространства динамической системы распознавания образов.

Математическая модель и алгоритм последовательной кластеризации больших массивов многомерных данных на основе неформализуемого критерия ассоциативного сходства смыслового содержания данных.

Программное обеспечение индексации и поиска графической информации использующее алгоритм группировки многомерных данных с учетом критерия ассоциативного сходства смыслового содержания данных.

В первой главе приведен обзор работ, посвященных методам решения задач классификации со схемой обучения без учителя - методам теории кластерного анализа. Выполнен анализ специфики задачи группировки больших объемов многомерных данных на основе критерия ассоциативного сходства. Сделан обоснованный выбор методов теории кластерного анализа для решения данной задачи, а также, показана необходимость коренной модификации данных методов.

10 Во второй главе решается задача разработки метода количественной

оценки уровня ассоциативного сходства многомерных данных при помощи задания меры различия модели кластеризации в форме, зависящей от топологических свойств фазового пространства динамической нейронной сети Ха-кена. Решается задача математического моделирования кластеризации многомерных данных на основе критерия ассоциативного сходства, а также задача синтеза модифицированной последовательной алгоритмической схемы кластеризации на основе данной математической модели.

В третьей главе произведено численное моделирование разработанной модели кластеризации многомерных данных. Исследована эффективность работы основного классифицирующего элемента модели - меры различия. На основе разработанной в предыдущей главе алгоритмической схемы кластеризации, построена система группировки графических изображений лиц с учетом критерия их визуального сходства, произведен анализ эффективности работы данной системы.

В четвертой главе приводятся принципы построения, функциональность и архитектура автоматизированной системы индексации и поиска графической информации на основе критерия визуального сходства изображений. Более подробно рассмотрена работа модуля системы, в котором реализован разработанный в диссертации алгоритм группировки многомерных данных.

Основные методы теории кластерного анализа и их свойства

Кластерный анализ - методика исследования данных при помощи разбиения заданной выборки объектов на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из «схожих» объектов, а объекты разных кластеров существенно отличались [47]. Центральным понятием кластерного анализа является понятие кластера. Единого четкого определения кластера в контексте кластерного анализа не существует. Практически все определения [48, 77, 30] являются обще-смысловыми, включают такие нечеткие термины как «схожий», «отличающийся». В [30], исходя из геометрической интерпретации процесса кластеризации, кластера определяются как «замкнутые области в пространстве образов с относительно высокой плотностью точек разделенные друг с другом областями с относительно низкой плотностью точек». Понятие «образа» используется в теории кластерного анализа для обозначения многомерных векторов различных свойств или признаков кластеризуемых объектов. Точки, в данном случае, это геометрическое представление кластеризуемых образов.

В процедуре кластерного анализа данных существует ряд основных этапов-составляющих [74]:

1. Выбор учитываемых свойств кластеризуемых объектов. Основная цель этого этапа - правильный выбор признаков и избегание избыточности данных. Набор выбранных признаков должен достаточно полно харак теризовать объект с интересующей исследователя точки зрения.

2. Выбор «меры близости». Мера близости - это функция, которая количественно определяет насколько «схожи» или «различны» два образа.

3. Критерий кластеризации. Выбор критерия кластеризации зависит от интерпретации смысла или контекста исследуемых данных экспертом. Критерий позволяет количественно определить приемлемость структуры кластеров сформированной в процессе решения задачи. Критерий может быть выражен в виде некоторой стоимостной функции, а также неявно, в виде некоторого набора правил или элементов алгоритма кластеризации.

4. Алгоритм ішастеризации - некоторая алгоритмическая схема, которая в совокупности с мерой различия и критерием кластеризации выявляет кластерную структуру данных в пространстве учитываемых признаков.

5. Контроль правильности результатов кластеризации - проверка корректности разбиения выборки образов на кластеры. То есть установления факта адекватности результата и его соответствия исходным ожиданиям исследователя.

6. Интерпретация результатов. Итоговая задача исследователя - это интегрировать полученные результаты кластеризации с другими имеющимися сведениями и сделать правильные и полезные выводы с учетом природы анализируемых данных.

7. Тенденция кластеризации. Часто дополнительно контролируется ход кластеризации с целью определения вероятности адекватности конечного результата.

Основным функциональным ядром данной процедуры является модель кластеризации образов, которая формируется на основе пунктов Ии непо средственно решает задачу разбиения заданной выборки образов на кластеры в пространстве выбранных признаков.

Выбор учитываемых свойств, мера различия, критерий и алгоритмическая схема вместе практически полностью определяет кластерную структуру данных, а каждый из элементов по отдельности существенно влияет на результат.

Задача кластеризации относится к задачам классификации с обучением без учителя, и, в тех или иных формах, присутствует во многих областях знаний (например, цифровая таксономия в биологии и экологии, топология в социальных науках [29, 68, 69, 62]).

2. В дополнение, векторы, содержащиеся в кластере С;., «более похожи» друг на друга и «менее похожи» на векторы из других кластеров. Иногда применяется менее жесткая модель кластеризации на основе нечетких множеств [80], кластеры в ней характеризуются функциями членства, которые определяют насколько каждый образ принадлежит кластеру.

На этапе выбора учитываемых свойств или признаков образа фактически формируется пространство модели кластеризации. Основная цель этого этапа - правильный выбор признаков и отсутствие избыточности данных. Набор выбранных признаков должен достаточно полно характеризовать объект с интересующей, исследователя точки зрения. Важно, чтобы какой-либо признак образа не оказывал большего влияния на процесс кластеризации, чем другие признаки. Структура пространства существенно зависит от типа значений векторов признаков: натуральные, вещественные и т.д. Кроме того, значение свойств признаков может быть текстовым или категориальным, а весь вектор может состоять из значений разных типов. На данном этапе могут применяться различные методы предобработки данных (например [67]).

Мера близости - это функция, которая количественно определяет насколько «схожи» или «различны» два образа. Различают меру «сходства», значение которой тем больше чем больше образы «схожи» друг с другом, и меру «различия», значение которой тем больше чем больше образы отличаются друг от друга.

Основные принципы распознавания и обучения модели нейронной сетиХакена

Пусть вектор q(0) — предъявляемый или входной вектор системы, состоящий из N действительных компонент. В качестве предобработки вектор подвергается центрированию и нормализации. Представление q не меняется для модели кластеризации. В процессе распознавания q меняется со временем.

Пусть также в нейронной сети хранится М прототипов v; (/ = 1, М), представленных точно так же. Прототипы образуют память системы. Впоследствии память системы может увеличиваться, и дополнятся новыми прототипами, однако количество запомненных прототипов не должно превышать количества нейронов, -М N, прототипы должны быть линейно независимы.

В отличие от классических систем распознавания, основанных на нейронных сетях, например персептронах, в данном случае строится динамическая система, в которой с течением времени происходит эволюция компонент q(f) к одному из запомненных векторов V,-. Данная динамика нейронной сети характеризуется потенциалом W, форма которого в свою очередь определяется векторами V/, и вектором q с изменяющимися во времени компонентами, причем в результате эволюции системы вектор q попадает в минимум W.

В работах Г. Хакена [41, 34] показано, что в общем случае векторы v, не образуют полную систему векторов, поэтому система дополняется векторами щ так чтобы выполнялись следующие соотношения:

Из определения матрицы G следует обоснование необходимости выполнения условиям N, иначе матрица G будет вырожденной. Распознава ниє сводится к конкуренции мод dt между собой, в результате чего выживает мода, соответствующая вектору, наиболее близкому к предъявляемому. В фазовом пространстве мод данная ситуация происходит в процессе попадания состояния системы в устойчивую стационарную точку - узел, в окрестности которой только одна мода dj растет и стремится к ненулевому значению, в то время как все остальные убывают и попадают в некоторую окрестность нуля. Именно эта ненулевая победившая мода df и соответствует распознанному вектору.

Описание модифицированной модели кластеризации многомерных данных

Аналогично методу модифицированного правила Хэбба, ранее применявшемся для повышения качества запоминания образов в модели Хопфилда [11], используем разложение q на уже известную системе часть qY и новую составляющую qH в виде q = qY + #N. Составляющая qY вектора q по отношению к набору векторов {vvv2,...,vn) - это результат разложения q по набору (vj, v2,..., vn), как по базису, вычисляемый по формуле: где G вычисляется по (2.3), a d0 по (2.9). Так как набор векторов vt,v2,...,vn} в общем случае не является базисом в пространстве свойств кластеризуемых объектов, то q не совпадает с qY.

Евклидово пространство размерности п, образуемое набором линейно независимых векторов [vx,v2,...,vn), можно обозначить как Е ... В данном пространстве набор {v15 v2,..., vn является базисом (в общем случае не орто-нормированиым). Результат разложения q по набору {v15 v2,...,v„}, как по базису, геометрически можно представить как проекцию вектора q на пространство Е"уС.. qY в Е с. полностью описывается базисом {vl5 v2,..., vn}, то есть, вектор qY - это та часть q, которую можно полностью описать при помощи прототипов модели.

Составляющая #N вектора q по отношению к набору векторов (v,, v2,..., vn) - это вектор, равный разности между q и qY, то есть степень «новизны» q по отношению к введенному набору, и определяемый из формулы:

Соответственно /N является проекцией на нормаль к пространству Е"с. и является частью q, которую невозможно описать при помощи протипов входящих в память системы, то есть характеризует совершенно новую для модели информацию. Двумерная и трехмерная геометрическая интерпретация разложения представлена на рисунке 2.1. Так как векторы в модели норми рованы, то соблюдается yY + jrN" =1.

Данное представление векторного взаимодействия можно использовать для задания меры близости коррелирующей с результатами распознавания образов при помощи модели нейронной сети.

В разработанной модели кластеризации используется мера различия d. Стоить заметить, что данная мера не является метрической согласно условиям (1.4) и (1.5). Данная функция удовлетворяет условиям (1.1)-=-(1.3) только в случае п = 1: V = [v, ]. В остальных случаях мера удовлетворяет условиям (1.1)-(1.2), причем d0 = О. В геометрической интерпретации значение функции (2.12) - это значение тангенса угла между q и его проекцией на W с.. Значение меры тем больше, чем меньше составляющая часть вектора q, которую можно описать набором векторов (v15 v2,..., v„}. Значение меры тем меньше, чем больше эта составляющая. Значение функции меры различия равно 0 в случае если вектор q принадлежит Е"с.. Данная форма меры различия может использоваться в последовательной алгоритмической схеме кластеризации. В схеме мера различия используется в виде d{x, С) обозначающем «расстояние» между вектором л: и кластером С.

Исследование эффективности механизма фильтрации кластеров на основе значений меры различия

Мера различия в описанной модели кластеризации играет роль фильтра кластеров претендующих на кластеризуемый вектор. Выбор конкретного кластера для вектора производится при помощи конкурса в модели распознавания среди векторов-представителей кластера. Основное требование к механизму фильтрации, как и во многих подобных системах - это минимальное количество ошибок первого рода, то есть ложных срабатываний или выбраковок кластеров, векторы-представители которых стали бы победителями в последующих конкурсах распознавания, если бы участвовали в них. Второе требование - это эффективная фильтрация. Под эффективностью фильтрации в данном случае понимается существенное уменьшение количества кластеров-претендентов на присоединение образа для конкурса распознавания. Пропуск через фильтр кластера, который заведомо проигрывает в данном конкурсе - это ложноотрицательное срабатывание фильтра - то есть ошибка второго рода. Ошибки второго рода в данном случае существенно менее критичны, нет никакого смысла полностью их избегать. Стремление уменьшить количество таких ошибок преследует цель более эффективной работы модели с менее масштабными конкурсами распознавания. Ошибки же первого рода наоборот критичны, фильтрация «более правильного», с точки зрения модели распознавания, кластера логично ведет к «менее правильной» в некото ром смысле кластеризации образа. Победивший в конкурсе кластер будет иметь более низкий уровень сходства с образом. Систематические ошибки первого рода приводят к неправильной тенденции кластеризации - формированию кластерной структуры, которая не учитывает на необходимом уровне неформализуемый критерий ассоциативного сходства. Расхождение с реальной структурой групп контекстно-схожих с генерируемой алгоритмом кластерной структурой будет расти по аналогии со «снежный комом». Данная кластерная структура, в конечном итоге, может не полностью отвечать требованиям, сформулированным экспертом в прикладной области решения задачи. Логично, что в данном случае желательно полное отсутствие ошибок перового рода. На практике достигнуть этого чрезвычайно сложно. Уменьшение вероятности появления ошибок первого рода возможно только ценой роста ошибок второго рода, что хоть и менее критично, но так же нежелательно, так как ведет к существенному снижению эффективности работы модели, которая рассчитана на обработку больших объемов данных. Балансирование между количествами ошибок первого и второго рода осуществляется при помощи варьирования главного параметра модели кластеризации - порога 0, значение которого характеризует размер областей притяжения кластеров. Исходя из выводов сделанных в главе 2 наиболее интересным представляется исследование данного вопроса при 0=1 (2.17). Такое исследование может быть проведено при помощи численного моделирования механизма фильтрации модели на определенной выборке данных.

В соответствии с методикой изложенной в главе 2 был смоделирован механизм фильтрации образов на основе значений меры различия в форме (2.15). В целях наиболее разностороннего исследования процесса фильтрации в экспериментах используются выборки образов различной природы. Первая выборка, состоящая из образов [q, v,, v2,...,vu), где М=100, JV=1000 - размерность векторов, сгенерированна на основе шума при помощи генератора случайных чисел пакета инженерных вычислений MATLAB. Данный генератор, функционирующий на основе внутреннего таймера компьютера, дает распределение вероятностей близкое к равномерному. Векторы выборки вычисляются следующим образом: 1) Составлено N векторов шума цп i-\,M + 1 размерности N с после дующим центрированием и нормализацией. Исходя из того, что ис пользуемый шум практически некоррелирован и имеет распределе ние близкое к равномерному, можно предположить что 2) Вектор q = ql. 3) Оставшаяся часть выборки векторов шума {//,.},/ = 2,М + 1 модифицируется следующим образом:

Вектор q в эксперименте играет роль кластеризуемого образа. Векторы {vj, v2,...,vA/} играют роль кластеров. Для данного эксперимента, проводимого для исследования свойств механизма фильтрации кластеров, полное моделирование работы относительно тяжелого алгоритма кластеризации с генерацией ядер кластеров, является абсолютно излишним. Взаимодействие между q и кластером С, в конечном итоге, вырождается в расчет меры различия между q и проекцией образа на евклидовое подпространство формируемое ядром кластера С. Тот факт, что проекция является обычным вектором, а также то, что данный вектор qY(q,Vink) используется в последующем конкурсе распознавания, говорит о том, что положение кластера С относительно конкретного q, в данном эксперименте, без ущерба для него, можно эмулировать одним вектором qY. Значения коэффициентов ai варьируются в ходе эксперимента таким образом, чтобы получать определенный набор значений мер d(q,vj). В частности, так как особо интересным является исследование механизма фильтрации при варьировании значений d(q,vt) в окрестности порога 0 = 1, то эксперимент строится так чтобы среди М vt была некоторая доля векторов для которых d(q,v ) , причем —«1. После расчета значений мер, вектор q предъявляется для распознавания в модели с М запомненными векторами v;. Цель эксперимента - определение способности механизма фильтрации на ошибочные срабатывания. Под ошибочным срабатыванием понимается ситуация при которой через фильтр не проходит такой образ v(. кото рый максимально похож на q среди всех (v,, v2,...,vu} с точки зрения распознающей нейронной сети.

Успешным исходом эксперимента считается результат распознавания, при котором образу q ставился в соответствие вектор vk є v/ , то есть для которого значение меры меньше порога. При таком исходе можно говорить о том, что ошибочного срабатывания не произошло, и фильтр выполнил свою работу правильно, уменьшив размерность задачи распознавания не отфильтровав при этом нужные данные. После некоторого количества / итераций эксперимента, на каждой из которых набор {v(} генерируется заново для одного набора коэффициентов а, рассчитывается доля успешных случаев S{a):

Задача построения вспомогательной системы обработки графической информации при конструкторской деятельности в промышленности

Современные промышленные предприятия производства различной продукции существуют и вынуждены выживать в условиях современного свободного капиталистического ранка и жесткой конкуренции с учетом тенденции роста глобализации.

Экономически выгодное существования предприятия в таких условиях невозможно без постоянного развития своего производства, расширения спектра производимых товаров, роста качества продукции, чуткой реакции на изменение пользовательского спроса. Особенно остро данная проблематика проявляется в сфере производства бытовой продукции, в которой конкуренция особенно сильна.

Решение данных вопросов невозможно без наличия на производстве собственных эффективно работающих конструкторских подразделений. Данные подразделения- выполняют функции разработки новых видов продукции, усовершенствования уже разработанных видов, участвуют в решениях вопросов стратегического развития производства.

В процессе деятельности данных подразделений часто встает проблема обработки больших различной сложной информации, в результате чего эффективность обработки информации напрямую влияет на эффективность работы конструкторского подразделения в целом.

В качестве примера можно привести работу конструкторского подразделения на промышленном предприятии по производству бытовой мебели.

Спектр видов данной продукции довольно широк и у конструкторов при решении описанных выше задач, особенно при разработке новых предметов мебели возникает проблемы при анализе уже разработанных моделей. Данная информация храниться в виде графических данных: рисунков, фотографий с различных ракурсов, чертежей. Количество подобной информации может быть большим. Для эффективной работы конструктора с такими выборками данных должна существовать возможность поиска информации. Десятки систем (СУБД, системы индексации текста [23, 26]) эффективно выполняют поиск по текстовым запросам.

Однако применения таких систем в данном случае недостаточно, так как текстовое описание в принципе не может отражать всех необходимых свойств интересующих конструктора в данный момент. Предмет мебели с точки зрения конструктора - это сложный объект, описывающийся большим количеством свойств, иногда не формализуемых, а основанных на профессиональном ассоциативном восприятии объекта своей деятельности конструктором. Графическое изображение является более подходящим типом данных в данном случае, так как несет, напрямую и косвенно, значительно большее количество информации о данном объекте, чем текст. Еще лучшим типом данных является одновременное наличия графріческого изображения объекта и его текстовое описание, например набор каких-то специфических характеристик, критически важных для конструктора. Поиск в данном случае должен осуществляться как при помощи текстового индекса, так и на основе смыслового содержания графических данных с учетом критериев ассоциативного сходства. Быстрый поиск в таких условиях, как и в случаях с текстовой информацией, невозможен без индексации - формировании определенной сгруппированной структуры данных, в которой группы являются некоторыми характерными классами обрабатываемой информации. Индексация в данном случае должна производиться на основе тех же критериев что и поиск, то есть на основе неформализуемых критериев ассоциативного сходства графической информации.

С учетом этого задача создания подобных систем индексации сложных графических данных на основе неформализуемых критериев становиться очень актуальной. Подобные системы с реализованной функцией ассоциативного поиска могли бы оказаться очень полезными в сфере конструкторской деятельности промышленных предприятий.

Тенденции развития информационных систем показывают, что анализ действительно больших объемов данных в настоящее время невозможен без использования распределенной модульной структуры системы, которая позволяет распараллеливать решение различных задач при обработке информации и увеличивает устойчивость системы к сбоям и выходам из строя отдельных компонентов системы. Кроме эффективной работы с большими объемами данных данная система должна иметь удобный интерфейс.

Сформулированные задачи успешно решены в рассматриваемой системе поиска, которая является законченным программным продуктом, ориентированной на поиск изображении предметов бытовой мебели в распределенной структуре хранения данных.

Похожие диссертации на Синтез информационной системы группировки многомерных данных с использованием кластерного анализа