Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Анализ и описание нечисловых данных подмножествами Генкин, Александр Вениаминович

Данная диссертационная работа должна поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Генкин, Александр Вениаминович. Анализ и описание нечисловых данных подмножествами : автореферат дис. ... кандидата технических наук : 05.13.17 / Рос. академия наук. Ин-т проблем передачи информации.- Москва, 1995.- 18 с.: ил. РГБ ОД, 9 95-4/873-3

Введение к работе

Актуальность темы. Существенную роль в анализе данных, описывающих слабоформализованные процессы и системы, игравт задачи, в которых"ответ ищется не в виде чисел или совокупностей чисел (векторов, матриц), а в виде конечных множеств или их наборов. С одной стороны, это;объясняется тем. что сами данные представлены в виде значений переменных, значительная часть которых измерена в конечных нечисловых икалах. С другой стороны, результаты дойны восприниматься и интерпретироваться специалистом предметной области, интегрироваться в базы профессиональных знаний, что требует их представления в логическом виде. Последнее обстоятельство особенно существенно при построении партнерских систем (В. С. Переверзев-Орлов).

Самым естественным примером этого класса являются методы
кластерного анализа. Кластерный анализ применяется для выявления
скрытой структуры данных при недостатке априорной информации. В
случае успеха, когда удается найти существенно различавшиеся мехду
собой кластеры, задача построения модели отдельно для каждого из
них мохет оказаться значительно проще исходной. Результаты клас
терного анализа могут представлять и непосредственный интерес для
содержательной интерпретации. ^

Однако некоторые практические задачи, родственные кластерным, на самом деле не могут быть эффективно решены опираясь на известные представления о кластере. Далее, существует ряд практических задач, имеющих вид поиска поямнохеств, но никак не связанных с представлением о кластерах, при всем разнообразии этих представлений, : встречающихся в литературе. Приведем несколько характерных примеров задач, возникающих при анализе данных главным образом из области клинической медицины, а также из других слабоформализован-ннх областей:

  1. Поиск кластеров, описываемых малым числом переменных.

  2. Поиск кластеров, приближенно, описываемых линейной зависимостью между переменными.

  3. Поиск набора симптомов для порогового синдрома.

  4. Поиск набора частных решателей для систем распознавания, основанных на голосовании.

5. Поиск диагностического решения в модели Пенга-Редхиа.
Задачи \ и 2 Обладают рядом свойств, затрудняюяих их решение

: опорой на принятые представления о кластерах: искомые подмно-

- г -

хества могут пересекаться и не обязательно долхны покрывать все рассматриваемое мнохество; отсутствует априорное знание о числе или масштабе кластеров. Для задач 3, 4 и 5 кластерная интерпретация вообще неадекватна. Во всех задачах недостаточно рассмотрения попарных взаимодействий.

v В работе предлагается подход, основанный на явном формулиро
вании искомых свойств подннохеств, причем упор,, делается на свой
ства отдельного подмнохества. Свойства набора подннохеств, в част
ности такие как свойство образовывать разбиение, рассматриваются
как вторичные. Подход основан на мерах связи типа элемент - мно
хество: для кахдого элемента х и подмнохества а конечного мнохест-
ва и мера связи определяется числовой, функцией к(х,а) (для крат
кости - я-функцией). В качестве модели подмнохества, которое лол-
хно послухить результатом анализа данных в задачах типа рассмот
ренных выше и родственных им, вводится понятие t-устойчивого мно-
хества - такого подмнохества а, что:
(la) jrfx,A;х, принадлехаиего а
(16) n(x,A)>t, для любого х, не принадлехаиего а

Такой подход позволяет описывать известные методы (в частности, кластерные) и предлагать новые методы, обеспечивающие построение подннохеств с заданными свойствами. Он помогает выявлять структуру данных, избегая опасности навязать-данным структуру, свойственную применяемому методу.

Цель исследования состоит в:

разработке методов анализа данных, обеспечивающих построение подмножеств конечного мнохества с заданными свойствами;

разработке эффективных алгоритмов анализа данных указанного класса.

Научная новизна работы.

1. Введено понятие с-_устоичивого подмнохества, которое предлагается в качестве модели искомого подмнохества для задач анализа данных.. Выделены классы я-функций, для которых t-устойчивые мнохества существуют при любом с, и изучены свойства этих ннохеств: взаимное полохение и изменение в зависимости от параметра t. Установлена связь с ядрами монотонных систем. Основные понятия"теории монотонных систем перенесены на конечные частично-упорядоченные мнохества.

  1. Задача построения набора частных решателей для голосования приведена к максимизации субмодулярной функции. Предлохен путь максимизации - метод распределенного доучивания.

  2. Построен оптимальный алгоритм поиска максимума субмодулярной функции и вычислена функция Шеннона для этой задачи.

  3. Построено обобщение иерархического кластерного анализа, допускающее, кластеры, пересекающиеся на одном уровне, и неполные классификации.

Положения, выносимые на зашиту:

метод построения набора частных решателей для распознавания;

обобщенный иерархический кластер-анализ;

--оптимальный алгоритм поиска максимума субмодулярной функции.

Теоретическая и практическая значимость. В работе показано, . что ряд методов и практических задач анализа представиш в виде поиска t-устойчивых подмножеств конечного множества, в частности -поиска максимума субмодулярной функции.

Предложена модель выбора множества частных решателей, приводящая к максимизации субмодудярной функции множества. При различном выборе параметров модель позволяет строить наборы решателей для схем распознавания, основанных на голосовании, или для концептуального кластер-анализа. 'Предложен эвристический алгоритм" максимизации, работающий параллельно с поиском решателей, и интерпретируемый как распределенный вариант классического доучивания.

Построено обобщение иерархического кластер-анализа, допускающее пересекающиеся кластеры и неполные классификации, и открывающее путь к построению естественных кластеров с заданными свойствами. Метод прилагается к задачам поиска кластеров малой размерности и приближенно линейных кластеров на плоскости.

Для уменьшения пересечений кластеров в обобщенном иерархическом апализе предложен механизм "прореживания", основанный ва суб-модулярном функционале. Метод распространен на произвольные неубывающие я-функции.

Построен оптимальный алгоритм поиска максимума субнодулярной функции и другие алгоритмы поиска t-устойчивых множеств.

\

Апробация работы. Отдельные результаты работы докладывались

на .1 и Всесоюзной иколе-семинаре. "Комбинаторно-статистические методы анализа и обработки информации, экспертное оценивание"

(Одесса, 1990г), Всесоюзном научно-техническом симпозиуме с международным участием-"Теория и практика классификации и систематики в народном хозяйстве" (Пущино, 1990г.), семинаре "Сложность алгоритмов" МИАН и ВЦ АН СССР (1991г.), семинаре "Дискретная оптимизация" ИПНТП АН СССР (1991г.).

Публикации. По теме диссертации опублико'вано 8 работ.

Структура работы. Работа состоит из введения, 3 глав и заключения. Список литературы включает 61 наименование.

Похожие диссертации на Анализ и описание нечисловых данных подмножествами