Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Модели построения информационных массивов для решения задачи классификации сведений в условиях неопределенности Данилкин Сергей Владимирович

Модели построения информационных массивов для решения задачи классификации сведений в условиях неопределенности
<
Модели построения информационных массивов для решения задачи классификации сведений в условиях неопределенности Модели построения информационных массивов для решения задачи классификации сведений в условиях неопределенности Модели построения информационных массивов для решения задачи классификации сведений в условиях неопределенности Модели построения информационных массивов для решения задачи классификации сведений в условиях неопределенности Модели построения информационных массивов для решения задачи классификации сведений в условиях неопределенности Модели построения информационных массивов для решения задачи классификации сведений в условиях неопределенности Модели построения информационных массивов для решения задачи классификации сведений в условиях неопределенности Модели построения информационных массивов для решения задачи классификации сведений в условиях неопределенности Модели построения информационных массивов для решения задачи классификации сведений в условиях неопределенности Модели построения информационных массивов для решения задачи классификации сведений в условиях неопределенности Модели построения информационных массивов для решения задачи классификации сведений в условиях неопределенности Модели построения информационных массивов для решения задачи классификации сведений в условиях неопределенности
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Данилкин Сергей Владимирович. Модели построения информационных массивов для решения задачи классификации сведений в условиях неопределенности : диссертация ... кандидата технических наук : 05.25.05 / Данилкин Сергей Владимирович; [Место защиты: Тамб. гос. техн. ун-т].- Тамбов, 2010.- 204 с.: ил. РГБ ОД, 61 10-5/2515

Содержание к диссертации

Введение

1 Решение задач классификации и проблема неопределенности 10

1.1 Общая постановка задачи классификации и основные направления ее решения 14

1.2 Основные концепции неопределенности в задачах классификации 20

1.2.1 Основы подхода к решению задач классификации с позиции теории нечетких множеств 33

1.3 Постановка цели и задач исследования 40

2 Аналитические и процедурные модели декомпозиции целевого пространства информационных массивов и построение оценки сложности информационных массивов 43

2.1 Структура отношений на целевом пространстве информационных массивов 44

2.2 Отображения целевого пространства информационных массивов 47

2.3 Декомпозиция целевого пространства информационных массивов... 51

2.4 Функция оценки близости и метрики на декомпозиции целевого пространства информационных массивов 60

2.5 Определение сложности 63

2.6 Оценка сложности информационных массивов 65

2.7 Декомпозиция целевого пространства информационных массивов по сложности 72

2.8 Формулировка принципа сложности для информационного массива.. 78

2.9 Оператор и функционал сложности информационного массива 81

2.10 Критерий сложности построения информационного массива 82

2.11 Критерий обобщенной эффективности 85

2.1.2 Связь с теорией нечетких множеств 86

Выводы по главе 90

3 Формирование информационных массивов для решения задачи классификации 91

3.1 Методы оценки релевантности 92

3.2 Формирование пространства информационных массивов 100

3.3 Постановка задач выбора метода решения задачи классификации 117

3.4 Результаты решения задачи классификации 126

Выводы по главе 130

Заключение 131

Список используемых источников 132

Приложение

Введение к работе

Актуальность темы. На современном этапе развития общества, характеризующемся интенсивным внедрением информационных технологий, которые в большинстве своем основываются на использовании компьютерных сетей, особое значение приобретают задачи классификации сведений, получаемых из различных источников, одним из которых являются результаты работы информационно-поисковых машин (ИПМ). Использование информационно-поисковых машин в настоящее время приобретает особую значимость при нахождении сведений, необходимых для решения задач анализа, оптимизации, управления и принятия решений в различных сферах деятельности. Необходимость решения задач классификации сведений обусловлена неудовлетворительным качеством работы информационно-поисковых машин, результаты работы которых, в большинстве своем, не отранжированы по критерию релевантности и даже в тех случаях, когда этот критерий используется, отсутствует какая-либо группировка сведений, способствующая упрощению процесса их последующей обработки. Одной из основных особенностей задачи классификации сведений является наличие как качественных, являющихся источником неопределенности, так и количественных признаков в описании объектов исходного множества. При выделении однородных групп сведений, относящихся к объектам выбранной предметной области, различают такие виды группировки исходных данных, как структурная и типологическая. Структурная группировка представляет собой способ выделения количественно однородных групп объектов, а типологическая — способ выделения качественно однородных групп.

Методы выделения однородных групп сведений используют следующие основные подходы:

- вероятностный подход, основанный на предположении о том, что объекты, принадлежащие одному из выделяемых классов, описываются одинаково распределенными случайными векторами, а для различных классов характерны различные распределения вероятностей;

- вариативный подход, состоящий в разбиении множества объектов по выбранному исследователем признаку на интервалы группирования, в результате чего исходное множество объектов разбивается на группы таким образом, что объекты одной группы находятся на относительно небольшом расстоянии друг от друга;

- структурный подход, базирующийся на представлении об объектах как точках в многомерном пространстве, которое получило развитие в работах Солодовникова В.В., Дубова Ю.А., Якимца В.И., Кузьмина В.Б., Макарова И.М., Виноградской Т.М., Рубчинского А.А., Бирюкова В.Ф., Тумаркина В.И. и др.

Однако при этом не рассматривался процесс получения сведений, подлежащих классификации, основанный не только на результатах работы информационно-поисковых машин, но и на формировании соответствующих информационных массивов, используемых в дальнейшем для решения задач классификации сведений. Процессы построения информационных массивов при решении широкого класса задач рассматривались в работах Кузнецова Н.А., Кульбы В.В., Норенкова И.П., Ковалевского С.С, Косяченко С.А., Цвиркуна А.Д., Павлова В.Б. и др., однако они не использовались для решения задачи классификации сведений в условиях неопределенности, методам и подходам раскрытия которых посвящены работы российских и зарубежных ученых Поспелова Д.А., Аверкина А.Н., Батыршина И.З., Блишуна А.Ф., Кузьмина В.Б., Борисова А.Н., Алексеева.А.В., а также Заде Л.А., Кофмана А. и др.

Таким образом, решение задачи классификации сведений, основанной на использовании сформированных специальным образом информационных массивов и выборе соответствующих методов их обработки в условиях неопределенности, является актуальным.

Цель работы: повысить эффективность процесса классификации сведений в условиях неопределенности путем формирования информационных массивов заданной сложности. Задачи исследования:

• ввести в рассмотрение целевое пространство информационных массивов (ЦПИМ) для последующего построения процедур его декомпозиции;

• ввести в рассмотрение критерий сложности построения информационных массивов (ИМ);

• провести классификацию неопределенностей, имеющих место при решении задачи классификации, и обосновать выбор математического аппарата для их формализации;

• предложить и обосновать структуру информационного массива, удовлетворяющую предложенному критерию оценки сложности, учитывающую влияние факторов неопределенности при решении задачи классификации.

Объект исследования. Методы построения информационных массивов для решения задач классификации сведений.

Предмет исследования. Модели построения информационных массивов по критерию сложности для решения задачи классификации сведений в условиях неопределенности.

Методы исследования. Для решения поставленных задач в работе использованы методы системного анализа, теории нечетких множеств и математического программирования.

Научная новизна работы заключается в следующем:

- предложена формализация целевого пространства информационных массивов в виде кортежа из трех элементов, которыми являются множество информационных массивов, отвечающих общей цели, и определенные на нем отношения эквивалентности и частичной упорядоченности, что дало возможность построить процедуры декомпозиции; построены аналитические и процедурные модели декомпозиции информационных массивов, основанные на использовании предложенных типов взаимосвязи, определяемых отношениями эквивалентности, частичной упорядоченности и введенных в рассмотрение прототипах;

- предложен критерий оценки сложности информационного массива, построенный на основе использования характеристических функций, разбивающих целевое пространство информационных массивов на уровни декомпозиции;

- построена аналитическая модель выбора типа «много входов - один выход» (MISO), основанная на применении выбранных Т-норм, методов решения задачи классификации сведений из построенных информационных массивов в условиях неопределенности.

Практическая значимость полученных результатов заключается в использовании разработанного программного обеспечения, реализующего построенные процедурные модели решения задач классификации сведений, что позволяет существенно сократить время получения и поиска сведений в локальных и сетевых информационных системах.

Работа выполнена при поддержке Государственного контракта № П292 в рамках ФЦП «Научные и научно-педагогические кадры инновационной России на 2009-2013годы».

Реализация результатов работы осуществлена в ОАО «Пигмент», г.Тамбов; ООО «Совтех», г.Воронеж; Государственном образовательном учреждении высшего профессионального образования «Тамбовский государственный технический университет».

Положения, выносимые на защиту:

• формализация целевого пространства информационных массивов в виде кортежа из трех элементов, которыми являются множество информационных массивов, отвечающих общей цели, и определенные на нем отношения эквивалентности и частичной упорядоченности, позволяет построить процедуры его декомпозиции и повысить эффективность решения задачи классификации сведений;

• аналитические и процедурные модели декомпозиции целевого пространства информационных массивов, основанные на использовании предложенных типов взаимосвязи, определяемых отношениями эквивалентности, частичной упорядоченности и введенных в рассмотрение прототипах, дают возможность сформировать информационные массивы для решения задачи классификации;

• критерий оценки сложности информационного массива, построенный на основе использования характеристических функций, разбивающих целевое пространство информационных массивов на уровни декомпозиции, который позволяет осуществить построение информационного массива с заданными свойствами;

• аналитическая модель выбора типа MISO, основанная на применении Т-норм, методов решения задачи классификации сведений из построенных информационных массивов в условиях неопределенности, позволила автоматизировать процесс и сократить временные затраты.

Апробация работы. Основные результаты работы представлены и

обсуждены на Всероссийских и международных научных конференциях "Наука на рубеже тысячелетий" (международная конференция, Тамбов, 2004), "Динаміка наукових досліджень 2005" (IV міждународна науково-практична конференція, Дніпропетровськ, 2005), "Теория конфликта и ее приложения" (IV Всероссийская научно-техническая конференция, Воронеж, 2006), на семинарах кафедры "Информационные системы и защита информации" ГОУ ВПО ТГТУ и кафедры "Прикладная информатика" Тамбовского филиала Московского государственного университета культуры и искусств.

Объем и структура работы. Диссертация, общий объем которой составляет 204 страницы (основной текст - 153 страниц), состоит из введения, трех глав, заключения, списка используемых источников, включающего 249 наименований научных трудов на русском и иностранном языках, и 10 приложений. Диссертация содержит 25 рисунков и 12 таблиц.

Публикации. По теме диссертации опубликовано 8 работ, из них 5 статей, в том числе 4 статьи в изданиях, рекомендованных ВАК РФ, и 3 тезисов докладов на Всероссийских и международных научных конференциях.  

Основные концепции неопределенности в задачах классификации

Собственно процесс решения задачи классификации, независимо от природы исходных данных, в общем, состоит из восьми этапов [22]: установочного, на котором формулируется постановка задачи на содержательном уровне; постановочного, в ходе которого определяется тип прикладной задачи в терминах теории классификации; информационного, состоящего в выработке плана сбора исходной информации, ее предварительном анализе и редактировании; априорного математико-постановочного, заключающегося в выборе на основании выводов, полученных в результате реализации предыдущих этапов, базовых математических моделей для математической постановки конкретной задачи классификации; разведочного, предусматривающего применение специальных методов предварительного анализа исходных данных с целью выявления их вероятностной и геометрической природы; апостериорного математико-постановочного, в процессе которого уточняется выбор базовой математической модели с учетом результатов реализации разведочного этапа процесса решения задачи классификации; вычислительного, целью которого является программная реализация выбранного математического аппарата для решения конкретной задачи; итогового, на котором производится анализ и интерпретация результатов проведенного исследования.

Таким образом, вид задачи классификации определяется в результате реализации первых трех этапов процесса исследования; к примеру, если . предварительная выборочная информация отсутствует, а априорные сведения о классах объектов являют собой лишь некоторые предположения самого общего характера, то задача относится к классу задач распознавания образов с самообучением. Вместе с тем, на практике зачастую оказывается, что задаче свойственна нечеткость [38], значительно затрудняющая или вообще делающая невозможным получение решения, так что на первый план выходит проблема устранения нечеткости, присущей задаче классификации. Понятие нечеткости является общенаучным и может быть определено как внешнее выражение качества внутренней основы явлений, специфика которого заключается в непрерывности перехода от отсутствия проявления к полному выявлению качества предметов, свойств и отношений реального мира, что находит свое отражение в познавательной и мыслительной деятельности индивида.

Содержание понят -я нечеткости включает в себя последовательный ряд абстракций более низкоцт-0 уровня. По отношению к человеческому сознанию выделяются таіс е категориальные виды нечеткости, как объективная и субъективная нечеткость- в свою очередь, объективная нечеткость может характеризоваться к: к стохастической, так и нестохастической детерминированностью. Объективная стохастическая нечеткость имеет такие формы проявления, как неопределеннос: тъ и случайность. В данном случае неопределенность выступает в качестве нечеткий закономерности проявления свойств предмета, а случайность может бьх гь определена как событие, имеющее нечеткое основание. Формами проявления объективной нестохастической нечеткости являются недетерминированнос-х ь рассматриваемая как нечеткость связи между предметами, свойствами РЇ ГЩ отношениями; размытость, характеризующая границы явлений, процессов предметов, а также их классов и, кроме того, имена и область применимости предиката в логике; неоднозначность, определяемая как нечеткость значеіїля признака объекта; неполнота, представляющая собой отсутствие всей возможней информации о рассматриваемом предмете или явлении, частными случаями которой выступают недостаточность как отсутствие необходимой информации и неадекватность как описание предмета по аналогии с рассмотренными ранее неточность, являющаяся нечеткостью измерения или вычисления неопределенность, трактуемая как нечеткость предела проявления характеристики предмета; случайность, определяемая как нечеткая реализацИя одной из нескольких существующих возможностей. Субъективная нечеткость имеет такие формы проявления, как неясность, под которой подразумевается нечеткость восприятия; размытость, которая в данном случае являет собой характеристику представления индивида о явлениях, процессах, предметах свойствах, отношениях; недетерминированность, определяемая как свойство процесса логического вывода, производимого индивидом, в нечетких условиях неоднозначность, понимаемая как нечеткость результата процесса интерпретацИи информации; неточность, которая в данном случае трактуется как

Основы подхода к решению задач классификации с позиции теории нечетких множеств

Кластер-анализ представляет собой структурный подход к решению проблемы группировки многомерных объектов, основа которого заключается в представлении результатов отдельных наблюдений точками геометрического пространства с последующим выделением групп как «сгустков» этих точек, именуемых кластерами [8]. Большинство существующих на сегодняшний день подходов и методов к решению задач кластер-анализа имеют своей основой эвристические соображения, которые возникают из конкретных приложений понятия классификации к некоторым частным классам однотипных задач, так что применение различных методов для конкретной задачи приводит к различным классификациям. Таким образом, механическое расширение области применимости частных процедур приводит к неудовлетворительным результатам и не позволяет постичь сущность причин, вызывающих таксономические различия. Зачастую это оказывается следствием различающихся между собой определений кластера, основывающихся на интуитивном представлении о кластере как о множестве объектов, подобных друг другу и отличных от объектов, не принадлежащих этому множеству. Традиционно формулируются требования, согласно которым кластер должен представлять собой непустое подмножество объектов, разные кластеры должны отличаться друг от друга и все объекты исходного множества должны быть расклассифицированы. В случае детерминистской постановки задачи последние два требования формулируются более жестко: оказывается необходимой дизъюнктивность кластеров и образы кластеров не должны пересекаться, то есть каждый объект исходного множества должен принадлежать только одному кластеру.

Подобные требования, в частности, требование об однозначности классификации, оказываются чрезмерно жесткими при анализе сложных динамических систем, к которым можно отнести социально-экономические, биологические и иные виды систем, в которых центральное место занимают живые объекты, к примеру, человек. Такие системы профессор Л. А. Заде предложил именовать гуманистическими [139]. При подобного рода исследованиях возможность формулировки точных и в то же время содержательно значимых высказываний сводится к минимуму, за которым точность и релевантность становятся взаимоисключающими характеристиками подобных высказываний. Практика показывает, что традиционные статистические методы классификации зачастую не дают устойчивых результатов в случае, когда два или более кластеров соединяются цепочкой из внутренне связанных объектов выборки, когда кластеры имеют несферическую форму [140], когда кластеры являются линейно-несепарабельными множествами [141], либо когда различаются плотности или объемы кластеров [142].

На рисунке 1.4 первый случай иллюстрируется кластерами А и В, второй случай представлен кластерами С и D, кластер Е демонстрирует третий из описанных выше случаев, а кластеры G и Н — четвертый.

Еще более сложным оказывается случай пересечения кластеров, который иллюстрируется кластерами I и J.

Подобные примеры наглядно демонстрируют, что многие реальные системы обладают структурой, описание которой в рамках традиционных математических формализмов оказывается не возможным, так что человеческие суждения о поведении или состоянии подобных систем в действительности относятся не к какому-либо конкретному состоянию системы, а к совокупности различных состояний системы, границы между которыми оказываются объективно размыты что, в свою очередь, можно продемонстрировать на следующем примере.

Предположим, что основой для классификации группы объектов выбран такой признак, как цвет объекта. В терминах разговорного языка описание значений переменной «цвет» является неточным, в отличие от численного представления диапазона длин волн, присущих каждому цвету. В процессе различения цветов человек основывается не на эталонном, а на собственном восприятии того или иного цвета, а этот субъективный диапазон длин волн, как показывают физиологические исследования, может колебаться в весьма значительных пределах. Таким образом, цвет, одним человеком воспринимаемый как «оранжевый», другим человеком воспринимается как «желтый», что с медицинской точки зрения оказывается вполне нормальным, поскольку патологией, в специальной литературе именуемой дальтонизмом, является неспособность человека различать три основных цвета — красный, зеленый и синий. Данный пример демонстрирует, что границы интервала длин волн, в естественном языке обозначаемого одним и тем же словом, для разных людей оказываются различными, то есть и множество волн, обозначаемое этим термином, оказывается размытым.

Вместе с тем, нечеткость может быть не только субъективной, но и объективной характеристикой. Нечеткость как характеристика собственно объектов является следствием многообразия признаков, характеризующих объект, а также динамики их изменения вследствие изменения структуры объекта. Примерами таких объектов могут служить, хамелеон — в зоологии, переменные звезды — в астрономии, самолет с изменяемой геометрией крыла — в технике. Касательно последнего примера можно указать, что для человека, не являющегося специалистом в области авиационной техники, один и тот же самолет, но при различных углах стреловидности передней кромки крыла, соответствующих различным режимам полета, может быть воспринят как два совершенно разных

Функция оценки близости и метрики на декомпозиции целевого пространства информационных массивов

В заключение настоящего раздела отметим, что хотя при построении декомпозиции ЦПИМ и рассмотрении ее свойств еще не фигурируют понятия сложности ИМ и способа ее измерения, тем не менее, по существу подготовлен весь необходимый для этого аппарат. Для того чтобы облегчить переход к построению оценки сложности, введем в рассмотрение следующие определения. Оператором сложности относительно эквивалентности R (оператором R Ф сложности) будем называть оператор ф естественного отображения X ZR целевого пространства систем X на шкалу Z R. Порядковой R - сложностью CR(х) системы ХЕX будем называть ординал а эквивалентного системе х элемента шкалы za =ZR:a = CR(x),xRza. Функционалом і?-сложности будем называть функционал и отображения X-+V целевого пространства систем в подмножество V действительных неотрицательных оценок {? = и[х]} на декомпозиции МR. Метрической R 64 сложностью MCR (х) системы х є X будем называть оценку и[м] минимального множества из М R, содержащего х: х є М, х "є М с= М(М, М є MR). Относительной і? -сложностью ACR (х, у) системы х є X по сравнению с системой уеХ будем называть расстояние

Гливенко д(М ,М"), где М\М" — минимальные множества из МR, содержащие соответственно х, у. В частном случае, когда декомпозиция ЦПИМ содержит конечное множество блоков (это означает, что і?-отношение эквивалентности с конечным индексом), понятия порядковой R -сложности CR (х) и метрической R -сложности MCR{x) могут по существу совпадать точно так же, как в этом частном случае совпадают по существу числа ord х и card х. Если п — конечный индекс R, то определим сложность декомпозиции как С(МЯ ) = п +1. Сложность декомпозиции, таким образом (при конечном индексе), соответствует расстоянию Гливенко от минимального множества до Мп є МR, иначе говоря, максимально возможной R -сложности х є X. По определению оператор R -сложности обладает следующими свойствами: (1) Для каждого хє X существует единственное z GZR такое, что z = ф(х). (2) На минимальном множестве декомпозиции М0 с Х(М0 є МR ) оператор ф(х)= (3) На каждом из слоев декомпозиции М а = Ма_, \ Ма оператор ф(х) постоянен: ф(х) = za&ZR,x&М а, Оператор R - сложности удобно обозначать через fR (х \ х0), где х0 -представитель шкалы для минимального множества М0. Это обозначение корректно: если о хо и х 0єМ0, то XQRXQ и по свойству (3 ) JR \Х I Л 0 ) JR \Х I Х0 / Функционал і?-сложности есть частный случай fR(x\xQ), когда шкала изоморфна подмножеству V действительных чисел. Поэтому все перечисленные свойства по существу сохраняются; дня функционала R -сложности будем использовать обозначение uR (х х0). Таким образом, если uR \х х0) - функционал R -сложности, то система его уровневых множеств {х,oR(x\xQ) t,t єТ] образует разбиение ЦПИМ, изоморфное МR. При этом, как известно, множество М = X называется уровневым множеством функционала и(х), заданного на множестве X, если М содержит все элементы х є X такие, что и(х) = t, где t є Т фиксировано, а Т есть область значений и{х) [213]. Очевидно, что семейство уровневых множеств любого неотрицательного монотонного неубывающего функционала (например, квадратичного функционала качества Q(x)) образует башню, которую возможно использовать для декомпозиции множества X = {х}, на котором этот функционал определен. Данное обстоятельство будет использовано в последующих разделах при решении задач построения ИМ.

Постановка задач выбора метода решения задачи классификации

В рассмотрении могут участвовать совершенно разные параметры. Некоторыми исследователями отмечалось, что различие в производительности поисковых систем при использовании различных способов определения степени ассоциации является несущественным, при условии, что функции, используемые для ее определения, являются соответствующим образом нормализованными. Интуитивно, такой вывод можно понять, так как большинство методов определения взаимосвязи между документами используют одни и те же параметры (использующие, в большинстве, статистический анализ текстовых документов). Данное предположение подтверждается в работах Г. Либерта [82], где показано, что многие из способов определения степени соответствия являются монотонными по отношению друг к другу.

В теории поиска информации используется пять основных способов определения степени соответствия. Документы и запросы представляются, в основном, с помощью индексных терминов или ключевых слов, поэтому для облегчения описания моделей обозначим посредством . размер множества ключевых слов, представляющих рассматриваемый документ или запрос.

Самая простая из моделей для определения степени соответствия — это так называемый простой коэффициент соответствия: ХпУ, показывающий количество общих индексных терминов. При вычислении коэффициента не берутся в рассмотрение размеры множеств Хя Y.

Описанные выше принципы организации и методы оценки запрашиваемых документов, конечно же, не раскрывают всего комплекса подходов к созданию поисковых систем, однако целью данной работы являлось рассмотрение лишь значимости информации в структуре управления фирмой и раскрытие отдельных, наиболее популярных методов организации поисковых систем.

Используем теоретические результаты, полученные в главе 2, для постановки и решения задачи декомпозиции пространства информационных массивов, что позволит сократить запросы на классификации, полученной информации.

После формирования пространства информационных массивов и его декомпозиции рассмотрим процесс связывания с классификацией элементов информационных массивов. Сложность и трудоемкость данного процесса трудно переоценить. В связи с этим особую значимость приобретает возможность его автоматизации, т.е. выбор или построение методов классификации. В настоящее время известно значительное количество методов классификации [7]. В рамках прикладного исследования, в случае выбора кластерного анализа (данный вопрос подробно рассматривался во введении) в качестве инструмента решения проблемы классификации, возникает вопрос о выборе метода решения конкретной задачи, что осложняется достаточно большим количеством кластер-процедур. Данная проблема детально рассматривается И. Д. Манделем [8], а также в работе [34] и некоторых других исследованиях [38,43,45]. В главе 1 был проведен подробный анализ, результаты которого убедительно показывают, что задаче классификации присуще свойства нечеткости, виды и формы которой представлены на рисунке 1.1. На рисунке 1.2 представлена общая схема процесса анализа информации (элементов информационного массива), представлена концепция неопределенности в задачах классификации на рисунке 1.3 и на ее основе предложена методология обработки неопределенностей в задачах классификации. В связи с этим целесообразным является выбор нечетких кластер-процедур для решения задач классификации. Несмотря на незначительное, по отношению к остальным методам, количество нечетких кластер-процедур, выбор наиболее адекватного метода нечеткой кластеризации в конкретном случае также может представлять собой довольно серьезную проблему. Общая схема выбора нечеткой кластер-процедуры, предложенная в работе [23], предусматривает два этапа: обоснование выбора одного из трех рассматриваемых типов методов нечеткого подхода к кластеризации и выбор конкретной кластер-процедуры.

На основе проведенного анализа цитируемых работ сформулируем рекомендации по выбору типа метода нечеткого подхода к решению задачи классификации можно выработать, исходя из целей классификации и имеющихся содержательных соображений о компактности выделяемых групп. Зти рекомендации могут быть сформулированы следующим образом: 1) если у исследователя существуют содержательные представления об условиях объединения объектов в классы, следует выбрать группу эвристических методов нечеткого подхода в кластерном анализе; 2) если целью классификации является получение нечеткого разбиения: на заранее известное число классов исследуемой совокупности объектов, то следует выбрать группу оптимизационных методов нечеткого подхода в кластерном анализе; 3) если целью классификации является получение наглядного представления о нечеткой структуре классифицируемой совокупности объектов сравнительно небольшого объема, то следует выбрать иерархические методы нечеткого подхода в кластерном анализе. Безусловно, при определении типа метода необходимо учитывать априорную информацию, к примеру, о возможных параметрах кластер-процедуры, а также формальные представления о классификации. Таким образом предложены правила, позволяющие выбрать направление нечеткого подхода к решению задачи классификации, легли в основу построения процедурной модели представленной на рисунке 3.11. В основу предложенной процедурной модели положено пространство информационных массивов и его декомпозиция, далее осуществляется постановка задачи классификации на содержательном уровне. После проведения анализа элементов информационного массива и обоснования параметров осуществляется формулировка содержательных представлений о цели классификации, что позволяет - получить нечеткие разбиение исследуемой совокупности на заданное число классов; - вложить формальные представления о качестве классификации в целом или о свойстве отдельных классов;

Похожие диссертации на Модели построения информационных массивов для решения задачи классификации сведений в условиях неопределенности