Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Адаптивные алгоритмы вычисления оценок в задачах таксономии и выделения особенностей Эшанкулов, Тиркаш

Адаптивные алгоритмы вычисления оценок в задачах таксономии и выделения особенностей
<
Адаптивные алгоритмы вычисления оценок в задачах таксономии и выделения особенностей Адаптивные алгоритмы вычисления оценок в задачах таксономии и выделения особенностей Адаптивные алгоритмы вычисления оценок в задачах таксономии и выделения особенностей Адаптивные алгоритмы вычисления оценок в задачах таксономии и выделения особенностей Адаптивные алгоритмы вычисления оценок в задачах таксономии и выделения особенностей Адаптивные алгоритмы вычисления оценок в задачах таксономии и выделения особенностей Адаптивные алгоритмы вычисления оценок в задачах таксономии и выделения особенностей
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Эшанкулов, Тиркаш. Адаптивные алгоритмы вычисления оценок в задачах таксономии и выделения особенностей : Дис. ... канд. технические науки : 05.13.01.-

Содержание к диссертации

Введение

ГЛАВА I. Современное состояние задачи таксономии и метод вычисления опенок 7

1. Особенности структуры эмпирических данных и задачи ее описания с помощью методов таксономии 7

2. Экстремальная постановка задачи таксономии 10

3. Метод вычисления оценок и использование априорной информации в таксономии 20

4. Дели и задачи диссертации 32

ГЛАВА II. Разработка адаптивных алгоритмов таксономии с выделением особенностей 38

1. Адаптивные алгоритмы вычисления оценок 38

2. Таксономия с формированием весов признаков 59

3. Задача таксономии с выделением особенностей 77

ГЛАВА III. Экспериментальные исследования 97

1. Эксперименты на модельных данных (изображениях) 97

2. Таксономия месторождений ртути (задача отделения крупных месторождений от мелких) и сравнение ее с известными решениями в рамках тестовых алгоритмов 118

3. Таксономия искусственных клапанов сердца 126

Заключение 139

Литература

Приложение .156

Введение к работе

Число работ по алгоритмам таксономии превышает несколько тысяч, а поток их публикаций не уменьшается. Это обусловлено острой потребностью практики в систематизации и обобщении больших массивов быстро накапливающейся информации. Как отмечается в [ I, 2J , мощность источников новой информации увеличивается быстрее, чем мощность методов их анализа. Алгоритмы таксономии, как стоящие на первом этапе анализа, занимают поэтому особое место в решении этой проблемы.

Постановка задач таксономии не является следствием того или иного формального принципа, а вытекает из содержательных представлений о том, что следует считать различным. Постановка задачи таксономии является поэтому началом формализации этих представлений. Очевидно, она не может быть проведена однозначно. Одно и то же качественное представление о сходстве и различиях в изучаемых объектах фиксируется в точных конструкциях по-разному. Это разнообразие - один из источников исследований по созданию новых и новых модификаций задач таксономии и по сравнительному изучению различий в результатах между этими модификациями. С этой точки зрения, можно все исследования по таксономии отнести к эвристическим.

Кроме отличий в точных постановках задач, которые моделируют одно и то же качественное представление о сходстве-различиях, имеется пелое множество существенно разных представлений такого рода. Они носят подчас противоречивый характер, привлекают для обсуждения качественно отличающиеся ситуации. Все это создает основу на равных правах предлагать и изучать различные критерии, какую таксономию признать хорошей. Это же выдвигает вопросы интерпретации результатов таксономии на первый план.

Алгоритмы таксономии близки к алгоритмам распознавания,так что успехи в разработках одних обычно приводит к успехам в разработке других. В этой связи особая ситуация сложилась с методом вычисления оценок. Первоначально он был нацелен на решение задач распознавания, затем в его рамках стала изучаться и задача таксономии. В понятиях этого метода был сформулирован ряд постановок задач таксономии и предложены алгоритмы их решения. Однако, в основном, эти последние исследования были направлены на освоение традиционных уже изученных другими методами постановок задачи таксономии. Специальные преимущества метода вычисления оценок, которые выявились в исследованиях по распознаванию, недостаточно хорошо используются применительно к задачам таксономии. Между тем, эти преимущества имеют для развития алгоритмов таксономии большое значение. Дело в том, что в отличие от других методов в рамках метода вычисления оценок естественным образом возникает процедура оценки важности признаков с точки зрения рассматриваемой таксономии. Уже одно это дает основание для постановки вопроса о разработке формализованных средств интерпретации формируемой таксономии. Средства такого рода, насколько удалось установить, отсутствуют. Все то, что на сегодняшний день используется на практике для интерпретации результатов таксономии, является продуктом анализа специалиста, результатом удачи его творческой догадки.Отсутствие таких средств - это, по-видимому, одно из главных сдерживающих ограничений, благодаря которому тормозится широкое практическое использование автоматической таксономии.

Актуальность работы обусловлена выбором в качестве предмета изучения интерпретационных возможностей метода вычисления оценок в решении задачи таксономии.

Цель работы состояла в проведении систематического анализа этого метода для адаптации его к нуждам таксономии.

Научная новизна работы заключается в постановке новых задач таксономии, в частности, в постановке задачи таксономии с выделением особенностей, в предложении алгоритмов их решения, в разработке новых классов алгоритмов, модернизирующих сам метод вычисления оценок, развивающих его интерпретационные возможности.

Практическая ценность состоит в построении прикладных программ, воплощающих разработанные алгоритмы, в результатах их экспериментального исследования, позволивших сформулировать конкретные практические рекомендации по их применению, в использовании разработанных программ для анализа важной практической задачи совершенствования искусственных клапанов сердца.

Структура и содержание работы. В связи с тем, что рассматриваемые в диссертации вопросы затрагивают практически весь комплекс проблем таксономии, в первой главе приводится обзор постановок методов решения этих задач.

Вторая глава включает весь новый методический аппарат, разработанный в данном исследовании. В этой главе наряду с общей идеей построения процедуры адаптивного изменения функции f(S,S) близости между объектами по ходу построения таксономии, сконструированы два конкретных способа построения такого процесса. Первый способ, основанный на применении тестов в качестве опорных множеств, раскрывает совершенно новую роль понятия теста по отношению к таксономии. Он наиболее точно соответствует качественной идее адаптивной функции f ( $,$ ) . Однако, этот способ достаточно ограничен из-за вычислительных сложностей определения тестов. Поэтому предложен второй способ, который отличается особо высокой эффективностью, так как оперирует опорными множествами только с мощностью единица. Однако роль второго способа не ограничивается только эффективностью (вычислительной экономичностью).

Он отличается также и особой простотой интерпретации. Это достигается соединением в одной процедуре поиска решения сразу двух задач - задачи таксономии и задачи вычисления важности признака.

Заключительная часть второй главы целиком посвящена обсуждению постановки и метода решения принципиально новой задачи таксономии, когда наряду с таксонами из типовых объектов выделяются в отдельный таксон так называемые особые объекты.

Необходимо подчеркнуть, что с целью экономии вычислений большая часть разработанных процедур описана в варианте, который, строго говоря, не гарантирует их монотонность, хотя за счет увеличения необходимого времени акта можно было бы дать варианты со строгой монотонностью. В этой связи особенное значение приобретает экспериментальная апробация таких процедур. Ее изложению посвящена третья глава, в которой также описаны сравнительное исследование с другими методами и решенная практическая задача.

В заключении сформулированы основные выводы.  

Особенности структуры эмпирических данных и задачи ее описания с помощью методов таксономии

Результаты эмпирических исследований часто представляют в виде таблиц, строки которых соответствуют объектам, а столбцы -признакам (свойствам, индикаторам, характеристикам, и т.п.). Поскольку наблюдаемые объекты описываются обычно косвенными признаками, для достижения надежности и полноты описания приходится использовать несколько десятков, а иногда и сотни таких признаков. По этой же причине наблюдаемые объекты сильно варьируют в исходном пространстве. Для выявления закономерностей, порождающих такие данные, требуется накапливать сотни и тысячи наблюдений. Анализ таких закономерностей невозможно осуществить без специальных математических методов и применения вычислительных машин. Обычные статистические методы в таком анализе мало пригодны [ Л2] Главная причина этой непригодности заключается в том, что современные многопризнаковые массивы - это смешанные данные, порожденные разными статистическими источниками. Будучи выделены отдельно, эти источники могут быть легко описаны. Однако, в связи друг с другом они образуют столь сложную систему, которая не поддается удовлетворительному описанию традиционными методами. Более того, если бы все-таки оказалось возможным описать эту систему, такое описание бесполезно для анализа из-за своей необозримости. При анализе таких данных необходимо отказаться от цели детального описания порождающей системы. Вместо этого целесообразно искать упрощенное описание такой системы, выделяющее только ее существенные характеристики, важные для решения поставленной прикладной задачи. Поэтому главной целью обработки результатов исследования является не столько получение максимально точных оценок отдельных источников, сколько получение приближенного разделения данных по отдельным источникам.

Прикладные исследования показывают, что можно удовлетворительно описать эмпирические данные, исходя из гипотезы, что число источников, порождающих эти данные, невелико (обычно 2 - 5 , редко 10), и что эти источники существенно различаются между собой [ 3 — 9 J . Точнее будет сказать, что малое число источников достаточно для приближенного описания механизма порождения изучаемых данных. Гипотеза о малом числе сильно отличающихся источников была впервые сформулирована Э.М. Браверманом и затем в явной или неявной Форме и с разной степенью формализации переформулировалась многими авторами Г 40 J . Исходя из этой гипотезы, исследователь вправе рассчитывать, что собранные данные отличаются одновременно и высоким уровнем избыточности и возможностью короткого описания, которое может быть выявлено грубыми средствами обработки. Гипотеза утверждает необходимость строить описание на базе поиска подходящего разбиения множества объектов наблюдения, то есть принципиально нелинейными процедурами логического характера. Эта гипотеза называется гипотезой компактности [Ю] В найденном разбиении каждый отдельный источник должен быть охарактеризован лишь небольшим числом своих средних характеристик. Это означает следующее. Если несколько сот объектов, заданных несколькими десятками признаков, удалось описать сжато и точно, в виде их группировки на малое число групп, то такой маловероятный факт является основанием, во-первых, правильности гипотезы компактности для данной конкретной ситуации, и, во-вторых, того, что полученное описание действительно выделяет существенное в системе. Это, в свою очередь, означает, что такое описание приближенно характеризует не только конкретные наблюдения, но и все данные, порождаемые этой системой. Последнее позволяет смотреть на результат обработки как на выявленную существенную закономерность. Найденное разбиение объектов несет искомую существенную закономерность в неявной форме, так как остаются невыясненными условия, при которых сохраняется и, наоборот, при которых исчезает это разбиение. Поэтому закономерность, выявленная в такой форме, нуждается в уточнении с помощью новых специальных экспериментов. Правильнее будет сказать, следуя [8] , что поиск существенных закономерностей в эмпирических многомерных таблицах с помощью разбиения их строк-объектов на небольшое число групп есть предмодельное исследование. Получаемое разбиение выступает гипотезой о тех существенных свойствах, которые должны быть заложены в будущую модель.

Разделение вариаций в данных на внутригрупповые и межгрупповые, позволяет увидеть, что кажущееся большое разнообразие между наблюдаемыми объектами, есть следствие смешения небольшого числа действительных больших различий между небольшим числом представителей разных групп и большого числа мелких изменений вокруг каждого представителя, порождающих внутригрупповое разнообразие. Это смешение в условиях, когда группировка неизвестна, создает огромное число вариантов пар, в которых объекты взяты из разных групп. В таких парах объекты существенно отличаются друг от друга. Пар много, так как за счет мелких изменений в каждой группе много разных объектов. При этом существенно, что пар, в которых объекты взяты из разных групп, много больше, чем пар, в которых объекты берутся из одной и той же группы. Это последнее обстоятельство и создает как раз представление о необозримом разнообразии. Наоборот, если группировка известна, то вместо рассмотрения всех пар, объекты в которых взяты из разных групп, можно ограничиться сравнением только представителей групп. Отсюда видно, какое принципиальное значение для изучения таблиц эмпирических данных имеют методы, позволяющие выявлять неизвестную таксономию, разделяя таблицу на группы строк (таксоны), так что внутри таксонов различием между строками можно пренебречь. Эти методы называются методами таксономии [з]

Постановке задачи таксономии и методам ее решения посвящено много работ [ЇІ-56] . Эти работы разделяются на две группы. Первую группу составляют методы, в которых задан критерий разбиения наблюдаемых объектов. Задача формулируется как задача экс-тремизации заданного критерия. Основное внимание уделяется разработке эффективных процедур экстремизации. Эти процедуры часто оказываются приближенными, так как поиск экстремального разбиения обычно сводится к переборной задаче. Будем называть эти методы экстремизационными. Другую группу составляют методы, которые определяются в виде описания процесса обработки, каждый этап которого - очевидная процедура агрегации объектов.

Далее будут кратко рассмотрены работы, относящиеся только к экстремизационным алгоритмам. Это не означает, что работы, относящиеся ко второй группе, представляют более слабые алгоритмы. Практика показывает [57-65] , что многие такие эвристические алгоритмы являются работоспособными и хорошо конкурируют с экстремизационными методами. Вместе с тем, экстремизационные методы отличаются более четким обоснованием и допускают сравнительное исследование.

Метод вычисления оценок и использование априорной информации в таксономии

Таксономии, стремятся, прежде всего, выявить таксономию, отличающуюся высокой различимостью таксонов. Когда ее удается построить, возникает новая важная задача - задача интерпретации полученных таксонов. Иначе ее можно охарактеризовать как задачу установления зависимостей между некоторым набором факторов, существенных в рассматриваемой области науки или техники, и характерными чертами выделенных таксонов. Часто указанные факторы до исследования не известны. Они подбираются специалистом в процессе выделения характерных черт формируемых таксонов. Сравнивая получающиеся таксоны и выделяя из таких сравнений их характерные черты, исследователь пытается найти объяснение происхождения таксонов с такими чертами. Для этого он привлекает хорошо известные факторы как кандидаты для объяснения. Привлекаемые факторы обычно являются качественными признаками (ранговыми или номинальными). Каждый такой признак - это тоже та или иная таксономия. Часто она известна лишь на небольшой части изучаемой совокупности объектов. Причем принадлежность некоторых объектов к ее таксонам может быть известна с ошибками. Такой высокий уровень неопределенности вынуждает специалиста прибегать к проведению многократных расчетов.

Из второго параграфа настоящей главы можно сделать вывод, что основными источниками для варьирования таких расчетов являются: I) возможность изменения числа t таксонов, на которое разбивается заданное множество М объектов наблюдения (или пороговое число А , или, наконец, \ в (15), 2) изменение критерия, используемого для оценки качества таксономии. Первый источник весьма ограничен. Специалист заинтересован иметь как можно более короткое описание множества М . Когда не удается получить необходимую точность описания, он склонен скорее смягчить требования к точности, чем иметь сложное описание Г 29, 43J . Поэтому на практике специалист редко прибегает к таксономии, которая имеет более 10 таксонов f 57, 65"] Главный источник поиска подходящей с содержательной точки зрения таксономии, то есть такой таксономии, для которой удает ся подобрать объясняющие ее факторы, заключается в возможности менять критерий оценки ее качества. Этот критерий, как это сле дует из изложения 2 настоящей главы, на формальном уровне фик сирует тот смысл, который специалист вкладывает в представление о сходстве объектов. Этот смысл фиксируется, когда выбирается функция f ($,$ ) близости между двумя объектами. Отсюда следует, что для специалиста желательно иметь метод, который по зволял бы регулярным образом выбирать функцию из некоторого класса функций F; feF . Желательно, чтобы класс был достаточно богат. Он должен охватывать необходимое число вариантов изучаемых объектов. Желательно также, чтобы поиск функции был не слишком сложным. Последнее легко реализовать, если строить F как упорядоченную последовательность подклассов, в которой каждый следующий подкласс содержит функции с более жесткой оценкой сходства объектов. В этом случае можно искать подходящую таксономию в указанном упорядоченном ряду. Сначала строится таксономия, основанная на функции из самого простого подкласса, затем строится новая таксономия с при менением функции из следующего по сложности подкласса и т.д. Одним из известных методов такого типа является метод вычис ления оценок [72- ІЗ і 2 » который нашел широкое распростра нение при решении прикладных задач [72, 77, J04] . Важно подчерк нуть, что в Институте кибернетики АН УзССР накоплен большой опыт применения этого метода в решении практических задач [Sk - W9] . Возможность в максимальной степени учесть такой опыт имела боль шое значение для планирования нашего исследования. Следует отме тить, что задача таксономии в рамках метода вычисления оценок рассматривалась существенно менее детально, чем другие задачи (распознавания образов, оценка важности признака). Поэтому иссле дование возможностей этого метода для решения задач таксономии, с одной стороны, расширяет область его применения, а, с другой стороны, приводит к новым модификациям метода вычисления оценок в целом. Указанные обстоятельства обусловили, что в настоящей диссертации этот метод был выбран в качестве базового. Приводимое ниже упрощенное описание метода включает в себя только те его элементы, которые в следующей главе потребуются для разработки новых алгоритмов, предназначенных для решения новых задач. Центральным элементом метода вычисления оценок является функция сходства частей объектов. Из множества Р исходных признаков выделим некоторое подмножество со (со Р ) . Совокупность значений координат объекта 5 , соответствующих подмножеству ой , называется (У - частью этого объекта. На множестве СО - частей всех рассматриваемых объектов определяется бинарное отношение Йа ( S, 5 ) неразличимости.

Адаптивные алгоритмы вычисления оценок

В настоящем параграфе будет показано, как в рамках метода вычисления оценок может быть сконструирован такой критерий качества таксономии JC , который явным образом зависит как от нее самой, так и от системы Л опорных множеств, на базе которой он вычисляется. Тем самым будет показано, как в рамках этого метода можно поставить задачу об определенном согласовании между таксономией Ж и системой Л . Действительно, ведь если критерий качества такой, что он существенно зависит от пары (% , SL ), то его экстремальное значение определяет такую из них, что изменение любого одного элемента в паре может только ухудшить значение выбранной оценки. В результате оказывается, что рассматриваемый критерий - это не просто критерий оценки качества таксономии, а критерий согласованности элементов в паре ( Л , 2. ). В этой согласованности и состоит содержательный смысл понятия-адаптивный, - в рамках развиваемых в диссертации модификаций метода вычисления оценок. Особенность этих модификаций состоит и в том, что они связаны с наименее разработанной в методе вычисления оценок задачей таксономии.

Для того, чтобы конструировать искомый критерий, необходимо, прежде всего, выбрать такой способ построения системы опорных множеств, в котором выстраиваемая система существенно зависит от предварительно заданной таксономии # на множестве М . Иначе говоря, необходимо, чтобы Л была функцией от Л:

Из всех известных систем, которые обладают таким свойством, наиболее изученные - это системы тестов и тупиковых тестов для таблицы Т [72, I32J . Поэтому именно на базе этой системы прежде всего исследуется возможность строить конструкцию искомого критерия. При этом далее не делается различий между системой тестов и системой тупиковых тестов. Главным свойством - зависимостью системы от рассматриваемой таксономии, - обладают и те, и другие в равной мере.

Любую систему такого рода будем называть тестовой и обозначать через У . Алгоритм поиска Т для заданной таксономии 7 будем называть тестовым алгоритмом. Для описываемых далее процедур несущественно, какой алгоритм использован, чтобы для данной таксономии ТС построить систему тестов Т . Исследования по разработке эффективных алгоритмов такого рода описаны в [130-134] .

Перейдем к детальному описанию конструкции. С помощью тестового алгоритма для произвольной таксономии ТС на і таксонов на таблице Т строится система Т подмножеств признаков, которая на этой таксономии является системой тестов. Выбирая такую систему в качестве системы опорных подмножеств, оценим выбранную таксономию. Для этого воспользуемся общим планом построения таких критериев, описанных в первой главе. В соответствии с этим планом, прежде всего, определим функцию ) близости между двумя объектами. Сделать это можно двумя способами: если 5 К . Это означает, что в системе Т никакой объект, не принадлежащий таксону К , не может быть ближе к этому таксону, чем даже самый далекий его объект. Соотношение (5) является формальным выражением целесообразности для данной таксономии оценивать принадлежности объектов к таксонам именно на базе ее системы Т . Этим обосновывается, в частности, и выбор такой системы как система опорных подмножеств, если решается задача распознавания. В этом последнем случае заданную на Т таксономию X требуется правильно распространить на другие новые объекты. Выбор системы опорных подмножеств для вычисления оценок в виде Т гарантирует безошибочное распознавание объектов из рассматриваемой таблицы Т (на материале обучения). Точнее,если для какого-либо объекта 5є К устанавливается, что ыс{$ , К ), вычисленная из (4), равна 0, то его следует рассматривать как экстремальный (или пограничный) для данного таксона Ку В зависимости от содержательного смысла задачи, это может означать, что объект $ ошибочно был включен в таксон Кц , или, наоборот, что он есть один из наиболее информативных представителей этого таксона (именно из-за своей неповторимости).

Таксономия месторождений ртути (задача отделения крупных месторождений от мелких) и сравнение ее с известными решениями в рамках тестовых алгоритмов

В работе [К9] » одной из первых и, вместе с тем, одной из наиболее обстоятельных экспериментальных исследований различных алгоритмов вычисления оценок х , приведен исходный материал задачи обучения и экзамена отделения крупных месторождений ртути от мелких. В этой же работе даны результаты применения к этому материалу одного из самых сильных алгоритмов вычисления оценок - алгоритма распознавания, в котором в качестве системы опорных множеств использовано семейство всех тестов. Для сравнений приводятся также результаты применения других алгоритмов к этим же данным. Показано, что алгоритм, основанный на нахождении тестов, дал лучшие результаты (как и следовало ожидать).

Поскольку разработанные в диссертации алгоритмы являются существенно новыми, представилось важным провести специальное исследование их работы на данных о месторождениях ртути из [l29] . Это позволило бы произвести их оценку в сравнении с известными и уже хорошо себя зарекомендовавшими алгоритмами. При этом следует иметь в виду, что в [129] использовались только алгоритмы обучения распознавания (то есть алгоритмы "с учителем"), в то время как в данной диссертации разработаны и исследуются алгоритмы таксономии (алгоритмы "без учителя"). Сопоставление результатов таких двух разных типов алгоритмов в случае, если они дают сходные, близкие к правильному, результаты, означает, во-первых, что критерий таксономии правильно отражает представление о сходстве и различии между объектами, выявляемое алгоритмом распознавания на специальных данных, и, во-вторых, оно означает, что нет необходимости в создании специальных данных с заранее известным решением (создание таких данных часто бывает затруднительно, а иногда и вовсе невозможно). Такое сходство означает попросту, что "без учителя" удалось достичь того же успеха, что и "с учителем".

Если же такое сравнение не дало сходных результатов, то воз можно только констатировать, что исходные таксоны, правило различения которых формирует алгоритм распознавания на основе специально подобранной обучающей выборки, не являются разделимыми в смысле критерия, экстремизациго которого реализует исследуемый алгоритм таксономии. Этот последний критерий отражает другое представление о сходстве и различиях между объектами, чем то, которое было положено в основу конструирования обучающей выборки. Имея в виду это замечание, было проведено исследование разработанных в диссертации алгоритмов на данных, позволяющих различать мелкие от крупных месторождений ртути, взятые из [129] .

Всего в данных представлено 18 объектов (по 9 для мелких и крупных месторождений), которые охарактеризованы 28 двоичными признаками. Признаки фиксируют наличие-отсутствие соответствующих геологических, минералогических и других свойств, используемых для описания ртутных месторождений. Восемь из этих объектов (по четыре из каждого типа месторождений) были использованы в [і29] для обучения. Остальные 10 составили материал для экзамена. Описание всех 18 объектов по всем 28 признакам дано в таблице 4» В таблице 5 представлены результаты распознавания, полученные с помощью различных алгоритмов, исследованных в [Т29]. Нумерация объектов в таблице 5 совпадает с их последовательностью, в которой представлены описания этих объектов в приложении. Эта нумерация соответствует их нумерации как они исследовались в [129] . Первые четыре (1 4) объекта соответствуют крупным месторождениям, данные о которых были использованы для обучения. Вторые четыре (5 8) соответствуют мелким месторождениям. Описания их также были использованы в обучении. Далее идут пять объектов крупных месторождений (9 ІЗ). В конце таблицы идут пять объектов мелких месторождений (14-5- 18). Последние десять объектов играли в [129 роль экзаменационного материала. Эта нумерация будет сохранена и в дальнейшем, чтобы легче было проводить сравнения полученных в диссертации результатов таксономии с результатами распознавания,представленными в таблице 5.

Заметим, что в таблице 5 ошибки распознавания в первых пяти колонках имеют место только в материале экзамена, а в шестой колонке они встречаются и в материале обучения. «Это объясняется особой простотой шестого алгоритма.

Расчеты по таксономии на данных из таблицы 4 были организованы следующим образом: 1) сначала эксперименты со всем материалом, 2) затем с материалом обучения и экзамена отдельно, 3) наконец, более сложные эксперименты со смешанным материалом, в котором объекты разных классов представлены разными числами. При проведении эксперимента со всем материалом было решено, во-первых, использовать сильный алгоритм, который осуществляет перестройку центров после каждого изменения принадлежности очередного просматриваемого объекта. Во-вторых, было решено проводить таксономию на три, а не на два таксона, чтобы дать место для распределения объектов на однородные группы. В качестве начальной была выбрана достаточно "простая" таксономия.

Похожие диссертации на Адаптивные алгоритмы вычисления оценок в задачах таксономии и выделения особенностей