Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Модели и методы интеграции структурированных текстовых описаний на основе онтологий Иванов Владимир Владимирович

Модели и методы интеграции структурированных текстовых описаний на основе онтологий
<
Модели и методы интеграции структурированных текстовых описаний на основе онтологий Модели и методы интеграции структурированных текстовых описаний на основе онтологий Модели и методы интеграции структурированных текстовых описаний на основе онтологий Модели и методы интеграции структурированных текстовых описаний на основе онтологий Модели и методы интеграции структурированных текстовых описаний на основе онтологий Модели и методы интеграции структурированных текстовых описаний на основе онтологий Модели и методы интеграции структурированных текстовых описаний на основе онтологий Модели и методы интеграции структурированных текстовых описаний на основе онтологий Модели и методы интеграции структурированных текстовых описаний на основе онтологий Модели и методы интеграции структурированных текстовых описаний на основе онтологий Модели и методы интеграции структурированных текстовых описаний на основе онтологий Модели и методы интеграции структурированных текстовых описаний на основе онтологий
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Иванов Владимир Владимирович. Модели и методы интеграции структурированных текстовых описаний на основе онтологий : диссертация ... кандидата физико-математических наук : 05.13.11 / Иванов Владимир Владимирович; [Место защиты: Казан. гос. ун-т им. В.И. Ульянова-Ленина].- Казань, 2009.- 145 с.: ил. РГБ ОД, 61 09-1/798

Содержание к диссертации

Введение

Глава 1. Обзор состояния дел в области доступа к информации и интеграции данных по культурному наследию 10

1.1. Теоретические и технологические основы интеграции данных 12

1.1.1. Обзор теоретических подходов 12

1.1.2. Технологические аспекты систем интеграции данных 16

1.2. Обзор систем музейных метаданных 18

1.2.1. Проект «Краткое описание (этикетка) музейного предмета» 18

1.2.2. Рекомендации Российского этнографического музея 21

1.3. Обзор онтологии верхнего уровня 26

1.3.1. Онтология CIDOCCRM 26

1.3.2. Онтология OpenCYC 30

1.3.3. Онтология DOLCE 32

1.3.4. Онтология SUMO 35

1.3.5. Сравнение онтологии верхнего уровня 38

1.3.6. Анализ преимуществ и недостатков онтологии СГООС CRM 39

1.4. Тезаурусы по культурному наследию 43

1.4.1. Тезаурус по искусству и музейному делу 43

1.4.2. Тезаурус по архитектуре и искусству (ААТ) 46

1.5. Информационные системы, использующие онтологические ресурсы 48

Глава 2. Создание и приложения онтологии по культурному наследию 52

2.1. Подход к связыванию онтологии СГООС CRM и тезауруса ААТ 53

2.2. Модель процесса интеграции разнородных структурированных текстовых описаний 61

2.2.1. Этап 1. Выравнивание представления структуры описания 61

2.2.2. Этап 2. Поиск соответствий между элементами схем 67

2.2.3. Этап 3. Определение полного отображения 76

2.2.4. Этап 4. Реализация отображения. Выполнение построенного отображения и фиксация результата 82

2.2.5. Этап 5. Оценка качества результата отображения 85

2.3. Разрешение лексической многозначности в структурированном хранилище описаний музейных предметов 87

2.4. Поиск в интегрированной базе знаний по запросу на естественном языке. 95

2.4.1. Особенности интегрированного хранилища 95

2.4.2. Модель обработки запроса 97

2.4.3. Алгоритм поиска описаний по запросу 99

Глава 3. Экспериментальное исследование модели интеграции, методов поиска и снятия лексической многозначности в структурированных описаниях 103

3.1. Описание исходных данных 103

3.2. Критерии оценки качества и параметры алгоритма поиска элементарных соответствий 110

3.3. Эксперименты с алгоритмом поиска элементарных соответствий 111

3.4. Сравнение алгоритма поиска элементарных соответствий с алгоритмами, основанными на методах классификации 120

3.5. Эксперименты с алгоритмом поиска описаний в базе знаний 126

3.6. Экспериментальное исследование лексической многозначности в структурированных описаниях 129

Заключение 136

Литература 140

Введение к работе

В диссертации описываются результаты, полученные при решении ряда проблем, возникающих в области интеграции и доступа к информации по культурному наследию на основе онтологического подхода. Предложена и реализована методология- интеграции разнородных источников данных по музейной документации. Приводятся результаты экспериментов по интеграции описаний из баз данных реальных музеев, проведены оценка качества полученных результатов и сравнение с известными методами. Предложен оригинальный подход- к автоматизированному разрешению лексической многозначности, возникающей при обработке текстовых описаний музейных предметов с помощью информационно-поискового' тезауруса.

Проблемам; связанным, с интеграцией разнородных источников, информации, посвящено* множество работ как в области технологий баз данных [57], так и в области искусственного интеллекта [27]. Главная цель при решении задачи интеграции данных состоит в обеспечении доступа к множеству разнородных источников на основе общего для всех источников интерфейса запросов. Необходимость и актуальность разработки автоматизированных средств для решения этих задач обусловлены быстрым увеличением количества источников данных и объемов хранимой в них информации. Как правило, интеграция информации производится в рамках некоторой фиксированной предметной области. Использование онтологии (как концептуальных моделей предметной области) для решения задач интеграции информации представляется перспективным направлением [19, 36, 37]. С одной стороны, онтологии предназначены для явного описания понятий и связей между понятиями предметной области, а, с другой стороны, они являются разделяемыми ресурсами и наилучшим образом подходят на роль общего интерфейса к разнородным источникам данных.

Выбор в качестве основного предмета исследования структурированных источников данных обоснован следующими факторами. Объем информации, хранимой в реляционных базах данных, электронных таблицах, слабоструктурированных описаниях и т.п., в различных областях деятельности существенно превосходит объем неструктурированных текстов. При этом, с содержательной точки зрения, тексты, могут описывать, более разнообразную информацию, но автоматическая обработка текстовых документов с учетом их смысла оказывается намного сложнее, чем аналогичная обработка структурированных данных. Этот подход лежит в основе семантического веба (Semantic Web) [22, 23, 42, 75] и предполагает развитие онтологии как средств выражения смыслового содержимого ресурсов сети Интернет.

Различие между двумя.формами представления существенно влияет на подходы к обработке и доступу к информации, среди, которых выделяют вид информационной системы (документальной или фактографической), язык запросов (близкий к естественному или специализированный, структурированный), способ обработки запроса (оценка релевантности или точное совпадение с запросом). В диссертации в качестве предметной^ области выбрана сфера культурного наследия, в рамках которой оба способа организации информации существуют совместно. При этом наблюдаются тенденция к формализации описаний, введение стандартов метаданных, массовое внедрение в музеях и библиотеках информационных систем фактографического типа, переход от традиционных библиотек к электронным, содержащим информацию разного типа (тексты, фото, аудио и видео). Формализация структуры данных дает определенные преимущества, в особенности, если система используется изолированно. Но необходимость в использовании онтологии для спецификации концептуальной схемы «внутренней» базы данных либо не очевидна, либо просто отсутствует. Однако ситуация меняется при доступе к нескольким структурированным

источникам данных: возникают проблемы, связанные с неоднородностью. Сам термин неоднородность понимается по-разному в зависимости от уровня, на котором предполагается объединение источников:

  1. физическая неоднородность;

  2. структурная неоднородность;

  3. семантическая неоднородность.

Физическая неоднородность связана с использованием различных СУБД или типов СУБД для представления данных, соответствующих общей концептуальной схеме. Причина^ появления физической неоднородности связана с выбором технических средств (платформы, протоколов и пр.)- w лингвистического обеспечения (языков представления данных и знаний, языка запросов) при проектировании системы на основе фиксированной^ схемы данных.

Основная причина появления структурной неоднородности состоит в различных подходах к моделированию понятий и отношений предметной области, когда общий язык представления схем данных используется по-разному для выражения одних и тех же понятий. Типичные структурные различия наблюдаются при выборе формы, с помощью которой будет выражено то или иное понятие.

Семантическая неоднородность связана с несоответствиями между применяемыми системами терминов (и различиями в понимании смысла терминов), которые могут привести к разночтениям при определении смысла содержимого источников данных. Важным аспектом, рассматриваемым в диссертации, является использование онтологии при обработке разных типов неоднородности, поскольку онтологии различного уровня абстракции подходят и для формального описания структуры понятий предметной области, и для представления значений специализированной терминологии.

Известные подходы к интеграции информации сталкиваются с рядом проблем, в первую очередь, из-за отсутствия общего взгляда на структуру понятий предметной области (онтологии верхнего уровня), а также из-за отсутствия единой терминологии (набора лексических единиц). При автоматической обработке текстовых значений возникают дополнительные трудности, связанные с разрешением лексической многозначности и кореферентности. Многие современные подходы ориентированы либо на обработку структуры источника данных (метаданных, концептуальной схемы), либо на текстовое содержимое. Предлагаемые в диссертации методы и их реализация учитывают оба указанные аспекта. Для комплексного решения задачи обработки структуры описаний, и лексических значений в терминологии создана онтология по культурному наследию, формализующая основные понятия и отношения^ области музейной документации и содержащая более 20 тыс. понятий.

Поскольку материальная- культура так или иначе затрагивает многие аспекты деятельности человека, выбранная предметная область является очень широкой, как с точки зрения объемов информации, так и с точки зрения количества понятий и терминов, используемых для описания. Музейные БД в России содержат миллионы описаний музейных предметов. При этом общее число предметов,.хранящихся в фондах, составляет десятки миллионов. Специализированные словари и справочники по искусству содержат десятки, а иногда и сотни тысяч терминов. Такая ситуация имеет место при фактическом отсутствии единого стандарта описания музейного предмета и способов обмена метаданными, что сильно затрудняет доступ к информации по культурному наследию, возможность построения эффективных систем поиска. Поэтому первая задача, которая была решена в рамках диссертации, состояла в создании масштабной формальной онтологии по культурному наследию, соответствующей международному стандарту. Для, обеспечения интероперабельности наиболее распространенные в российских

музеях схемы метаданных были проанализированы и связаны с созданной онтологией.

Один из основных результатов исследования состоит в создании математического и программного обеспечения для поддержки автоматизированного отображения структуры и содержимого музейных описаний на созданную прикладную онтологию. Предложена модель процесса интеграции, осуществляемого на основе онтологии по культурному наследию. Один из методов, реализованных в рамках процесса интеграции, основан на предположении о том, что* для описания значения близких по смыслу элементовданных используются близкие наборы терминов. Близость между наборами!терминов вычисляется с помощью лексической компоненты онтологии, построенной на основе информационно-поисковых тезаурусов:

Следствием, приведения-разнородных структурк единой схеме данных и системе терминов является возможность генерации интегрированного хранилища фактов, извлеченных из нескольких исходных источников, реализации новыхг механизмов доступа- к. описаниям, фактографического поиска с помощью запросов на естественном или формальном структурированном языке запросов. Схема результирующего хранилища фактов, соответствует структуре понятий формальной онтологии верхнего уровня; что позволяет применять логический вывод на фактах хранилища.

В диссертации предложен алгоритм поиска информации в хранилище по запросу на языке, близком к естественному. При разработке алгоритма учитывалась привязка отдельных элементов к понятиям тезауруса. Алгоритм поиска обрабатывает запрос на естественном языке и извлекает из структурированного хранилища связные совокупности утверждений, соответствующие смыслу запроса в целом. Алгоритм имеет ряд параметров, позволяющих варьировать глубину поиска в хранилище (т.е. максимальную длину извлекаемых цепочек утверждений), а также способ обработки запроса.

Методы связывания-разнородных схем данных и поиска по запросу на

естественном языке имеют программные реализации, которые тестировались на трех музейных базах данных. Приводятся результаты оценки качества работы соответствующих алгоритмов. Проведено экспериментальное сравнение предлагаемых алгоритмов с алгоритмами, основанными на методах классификации с обучением и методах кластеризации (без предварительного обучения).

Особое место в диссертации отводится анализу лексической многозначности, появляющейся при обработке текстовых полей БД с помощью тезауруса. Показано, что использование всех понятий тезауруса для индексирования содержимого каждого структурного элемента нецелесообразно, поскольку приводит к высоким показателям многозначности (до 40% от общего числа текстовых значений, содержащих понятия тезауруса). Предложено индексировать текстовое содержимое некоторого элемента (столбца таблицы) с помощью специально подобранного подмножества понятий тезауруса (т.н. фасета), что дает значительное сокращение числа случаев многозначности на 10-35%. Анализ случаев лексической многозначности привел к пониманию особой роли отношения метонимии при решении задач семантической интеграции структурированных описаний. Следствием этого стали рекомендации по дальнейшему развитию лексической составляющей созданной прикладной онтологии в области культурного наследия.

Обзор систем музейных метаданных

Наиболее плодотворным отечественным проектом в области стандартизации музейной документации (и направленным на интеграцию) является работа по созданию стандарта краткого описания (этикетки) музейного предмета [10]. Цель коллектива авторов состояла в том, чтобы выработать рекомендации по общему для всех музеев списку полей описания музейного предмета. Предлагаемый список (далее — «Краткое описание...»), построенный на основе анализа большого объема отечественных- и международных стандартов, включает следующие поля:

Большинство предложенных полей являются атрибутами различных сущностей и только косвенно связаны друг с другом через (неявно подразумеваемые) свойства этих сущностей. Поля «Авторы», «Место создания/производства», «Датировка», «Материалы и техника» характеризуют особенности создания предмета. Поля «Типология», «Ключевые слова», «Культурный период» характеризуют тип предмета, помогают группировать предметы в соответствии с некоторой классификацией периодов, типов и т.п. Поля «Название предмета», «Идентификационный номер предмета» и «Организация» служат для идентификации конкретного объекта из множества всех имеющихся, а также для целей учетно-хранительской деятельности. Поле «Размеры, вес» в действительности имеет отношение к некоторой процедуре измерения параметров предмета, которая сама по себе имеет ряд характеристик: дату и условия проведения измерения, способ и точность измерения, измерительные инструменты. Кроме того, в этом поле собраны разнородные величины: длина, вес, диаметр и пр. Стандарт, тем не менее предписывает, как должна проводится процедура измерения, а также определяет набор правил заполнения поля «Размеры, вес». Прочие поля текстовые комментарии и пояснения — могут содержать практически любую информацию, касающуюся предмета в целом, контекста его создания, использования, исторических связей и других данных, которые уточняют (а могут и дублировать) содержимое предыдущих полей. Очевидно, что в «Кратком описании...» в один ряд поставлены разнородные характеристики разных сущностей. Для каждого из полей в большей или меньшей степени формализован способ задания значения данного поля, для некоторых предписывается использовать специализированные словари и списки терминов. Однако даже тот уровень формализации, который предложен творческой группой, редко соблюдается на практике при заполнении музейных баз данных. Этикетки музейных предметов не имеет смысла создавать заново, когда в музее уже имеется и ведется БД.

Предполагается, что этикетки генерируются по существующей БД при ведении которой использовались не стандартные словари и списки терминов, а принятые в данном конкретном музее или применяемые данным конкретным сотрудником. Важно отметить, что предложенный экспертами уровень формализации записей в полях при наличии полей комментариев (каю альтернативы для описания «всего остального») сводят к нулю возможности автоматической обработки подобных описаний. Слияние полей «Материал» и «Техника» в одно приводит к тому, что в тексте этого поля могут быть указаны многозначные термины, которые интерпретируются однозначно только человеком, составившим это описание, и, возможно, человеком, имеющим изображение предмета. Общий вывод состоит в том, что «Краткое описание...» ориентировано на предмет, а исторический, географический и культурный аспекты создания и бытования предмета остаются вторичными и выражаются более полно в текстовых комментариях.

Можно также заметить, что схема, хотя и представляет собой «этикетку», сохраняет основные атрибуты, необходимые в системах учета. На базе этого стандарта построены система описания предметов в БД «Всероссийский реестр музеев», расположенной на сайте «Музеи России» (www.museum.ru), а также подсистема экспорта/импорта данных комплексной автоматизированной музейной информационной системы КАМИС-2000 [83]. Известны и более развитые и детализированные концептуальные схемы. К ним можно отнести схему данных системы НИКА-Музей [7], близкую к ней схему данных SPECTRUM [84], используемую во многих базах данных зарубежных музейных систем. Детально проработанную, но не предназначенную для общего доступа в силу своей специфики схему имеет БД системы КАМИС-2000.

Подводя1 итог, необходимо отметить важное различие между назначением общей стандартизированной схемы данных и концептуальных схем БД для информационных систем внутреннего пользования. Первая более близка к понятию онтологии, поскольку соответствующая кон-цептуализацияфазделяется многими людьми, сообществами. Схема специализированной БД может быть предназначена для решения весьма узкого круга задач, поставленных перед разработчиками-БД и поэтому не требует, чтобы соответствующие описания разделялись кем-то; кроме разработчиков и администраторов БД. Естественно, что создание БД информационной системы возможно и на основе общей онтологии, однако такая система будет носить более универсальный характер, что может ухудшить качество решения конкретных задач. Далее обсуждаются рекомендации по составлению научного описания предметов этнографического музея. Потенциальная область охвата рекомендаций достаточно широкая, чтобы претендовать на статус основы онтологии по культурному наследию.

Анализ преимуществ и недостатков онтологии СГООС CRM

Рассмотрим аргументы, выдвигаемые за и против использования онтологии CRM в качестве онтологии верхнего уровня для задачи интеграции музейных описаний. Аргументы в пользу использования онтологии GIDOC CRM 1. Онтология является международным стандартом (ISO 21127), остальные - не стандартизированы. 2. Онтология связана с объектно-ориентированной версией стандарта библиографического описания FRBRoo, что в перспективе даст возможность создавать в терминах CRM и библиографические описания. 3. Онтология CRM описывает то, что музейные работники в действительности документируют, независимо от того, заполняют ли они научный паспорт музейного предмета или вносят новую запись в книгу поступлений.

Поэтому онтология не является предписанием или требованием, а предоставляет средства для явного выражения утверждений, создаваемых в процессе ведения музейной документации. 4. В процессе итерационного создания онтологии CRM строилась как обобщение схем большого числа музейных баз данных, поэтому она оптимально подходит для интеграции разнородной структурированной информации. 1. Модель слишком общая: наблюдается существенный разрыв между ! понятиями CRM и содержимым реальных музейных описаний. Понятия верхнего уровня соответствуют названиям таблиц и столбцов, а не терминам, описывающим значения в ячейках таблиц. С одной стороны, такая ситуация (будем называть ее «терминологическим пробелом») существенно ухудшает выразительность онтологии и, очевидно, приведет к потере точности при интеграции информации, поиске по запросу и т.п. С другой стороны, наличие терминологического пробела вполне ожидаемо: онтология верхнего уровня не должна описывать все возможные понятия, которыми оперируют специалисты и пользователи при составлении описаний и формулировке запросов. 2. Модель ориентирована на представление информации для внешнего пользователя. Попытки ее внедрения в музейных системах учета в качестве основной структуры данных не увенчались успехом. Действительно, модель очень общая и явно описывает только часть важных для конкретной отрасли культуры различий между понятиями, но при этом охватывает их смысл на самом верхнем уровне. Для преодоления терминологического пробела онтологию необходимо расширить путем подключения к ней специализированных словарей по культуре, списков географических названий, имен деятелей- культуры и т.п.

Подобные источники значительно более детально представляют значения понятий нижнего уровня. Реализация процесса расширения онтологии- конкретной терминологией рассматривается как отдельная задача в следующей главе: Второй отрицательный момент (ориентация на внешнего пользователя) не является препятствием, поскольку онтология будет использоваться для интеграции данных, а не для. создания универсальной схемы для системы музейного учета. Итак, в качестве базовой онтологии верхнего уровня при создании прикладной онтологии- по культурному наследию используется онтология CIDOG CRM. Одним из важных критериев оценки онтологии является круг вопросов, на которые потенциально можно получить ответ при ее использовании для описания информации (вопросы о компетентности онтологии [66]). Из описания онтологии CIDOC CRM ясно, что вопросы о компетентности ограничены набором понятий свойств онтологии. Предположим, что в терминах онтологии описан некий музейный предмет X. Типичными вопросами для проверки компетентности данной онтологии являются вопросы следующего вида: 1) «Когда (кем, где, зачем) был создан (найден, изменен, уничтожен) объект X?»; 2) «Что изображено на объекте X?»; 3) «Из чего состоит объект X?»; 4) «С какой целью (каким образом) создан объект X?». Вывод о компетентности системы описания, состоящей из примерно 80 понятий, 141 отношений, также вполне очевиден. В терминах онтологии можно отвечать на подобные вопросы только в самом общем виде (например: «Объект X состоит из материала Y»), при этом никакой более точной информации о материале Y с помощью онтологии CIDOC CRM описать невозможно, поскольку нет понятий, отличающих разные материалы друг от друга. Достаточно сравнить этот набор понятий с набором в десятки тысяч понятий, которым пользуются специалисты предметной области. Для сохранения свойства разделяемости при расширении онтологии необходимо ориентироваться на уточнение понятий верхнего уровня понятиями, имеющими лексическое выражение и признаваемыми, большим числом-экспертов. Главная трудность здесь состоит в том, чтобы построить онтологию нижнего уровня, адекватно структурирующую понятия предметной области» и тесно связанную с подъязыком) экспертов предметной области, и не потерять при этом свойство формальной строгости, которое было у онтологии верхнего уровня.

Подъязык предметной области состоит из связанных друг с другом терминов и моделируется с помощью тезауруса [18]. Тезаурусы также иногда называют лексическими базами данных, или онтологиями. Одной из крупнейших лексических онтологии является тезаурус WordNet [63]. Однако его использование для области культуры не целесообразно, поскольку WordNet охватывает повседневную лексику. При расширении онтологии по культурному наследию имеет смысл ориентироваться на специализированные информационно-поисковые тезаурусы.

Модель процесса интеграции разнородных структурированных текстовых описаний

Для выполнения семантической интеграции; необходимо формализовать понятие исходного источника в двух его аспектах: интенсионал (или схема данных) и экстенсионал (или содержимое). После чего необходимо выполнить приведение структуры исходного источника к формализму, используемому для представления результирующей схемы (онтологии). По существу на этом этапе должны преодолеваться физическая и синтаксическая неоднородность. Как отмечалось выше, в качестве единого формализма представления выбран формализм дескриптивной логики (точнее логики S!tfOI!N( D), соответствующей языку OWL-DL).

Информационными источниками выступают описания из музейных баз данных, абстрагируясь от деталей реализации конкретной СУБД, можно считать, что данные источника представлены в виде набора связанных отношений, которые, в свою очередь, составлены из атрибутов. В случае работы с реальными музейными БД отсутствует ER-модель, описывающая концептуальную схему, а для интеграции данных из исходного источника извлекаются не всевозможные кортежи всех отношений, а некоторое их подмножество в виде сводных таблиц, генерируемых с помощью представлений над несколькими таблицами БД. Основным понятием в процессе интеграции является структурированное описание, которое моделирует форму представления музейных описаний и формализуется ниже. Определение понятия структурированное описание основано на определении понятия отношения [5]. 1) экстенсионал не имеет повторяющихся строк; 2) порядок строк и атрибутов описаний не является существенным.

Отметим, что первое свойство не является прямым следствием определения, но мы предполагаем, что среди атрибутов выделен хотя бы один, представляющий первичный ключ, содержащий уникальные значения для каждой строки и относящийся ровно к одному типу данных. Это предположение не влияет на общность дальнейшего изложения, поскольку такой атрибут всегда может быть сгенерирован в виде суррогатного ключа.

Структурированные описания, в отличие от отношений, не нормализованы. Иными словами, значение атрибута (не соответствующего суррогатному ключу) в структурированном описании может содержать несколько значений, каждое из которых связано с одним (или несколькими) из допустимых для данного атрибута типов данных. В частности, значение атрибута может не быть атомарным и содержать несколько атомарных значений одного типа. Особые виды структурированных описаний соответствуют «граничным» случаям. Отношение, определяемое как в [5], является частным случаем структурированного описания при к—\ и /7=1. Другой вид описания (при А:=1 и р 1 ) соответствует случаю, когда атрибут имеет ровно одно значение, которое в различных строках может быть интерпретировано по-разному (интерпретация зависит от значения других атрибутов). Наконец, третий вид описания (при к \ и р=1 ) соответствует одной из спецификаций стандарта языка SQL3 [38] (или SQL 1999): атрибут может содержать несколько значений, если вся их совокупность в целом интерпретируется как значение ровно одного типа данных (возможно, типа данных, определяемого-пользователем), связанного с этим атрибутом.

Несмотря на то, что в общем виде структурированные описания, безусловно, являются образцом «плохого» моделирования в области реляционных баз данных, как было показано в главе 1, эта форма доминирует среди моделей описания музейных предметов. Предположение о том, что одному атрибуту отношения может соответствовать более одного типа данных, нарушает одно из основных соглашений, в проектировании и веденииБД, но допускает наличие альтернативных интерпретаций предиката отношения. Кроме того, указанное соглашение и так часто нарушается в данной предметной области.

Исходный источник данных может представлять несколько связанных друг с другом структурированных текстовых описаний. Совокупность схем всех структурированных описаний в данной БД назовем интенсионалом по аналогии с [5], или схемой БД. Стоит отметить, что минимальной структурной единицей интенсинала является атрибут (или столбец описания). Рассмотрим связи, которые могут быть описаны между структурными элементами в схеме. Во-первых, связи между таблицами могут задаваться явно, например, с помощью механизма внешних ключей. Во-вторых, связи могут быть выражены в процедурной форме (хранимые процедуры) или в виде представлений, соединяющих несколько описаний. Наконец, связи между структурными элементами описания присутствуют

Критерии оценки качества и параметры алгоритма поиска элементарных соответствий

Для сравнения были выбраны методы классификации: 1) с предварительным обучением: - метод ближайших соседей (K-Nearest Neihgbors, сокращенно — KNN); - метод опорных векторов (SVM); 2) без предварительного обучения (кластеризация): - метод К-средних (KMeans). Эксперименты с алгоритмами с предварительным обучением Один из недостатков методов, основанных на обучении, состоит в необходимости заранее знать множество результирующих категорий и их признаки. Однако этот недостаток преодолевается за счет использования связей между фасетами тезауруса и онтологией, по которым однозначно формируется множество результирующих категорий (классов). Таким образом, обучающую выборку составили документы, представляющие фасеты тезауруса из таблицы 5. С каждым фасетом была ассоциирована метка (условное имя соответствующего класса). При классификации каждому из текстовых документов, представляющих содержимое столбцов одной из трех БД, требовалось назначить метки (имена классов). Оба метода (KNN и SVM) допускают назначение одному документу нескольких меток и вычисление степени уверенности для каждого из сделанных назначений.

Ниже приводятся результаты работы методов SVM и KNN в случае, когда для каждого столбца выбиралась ровно одна метка (класс), которой соответствовало максимальное значение степени уверенности. На одинаковых наборах данных результаты этих методов совпадают: средняя точность - 46%, средняя полнота — 58%. Результаты, полученные для разных БД приведены в таблице 15. Одним из неожиданных результатов оказался следующий: при использовании методов SVM и KNN представление текстового документа на основе начальных форм слов приводит к лучшим результатам по критерию точности (в среднем на 3%) и по критерию полноты (в среднем на 6%), чем при использовании в качестве индексирующего множества понятий тезауруса. Допуская, что один документ может быть отнесен к нескольким классам, получаем следующие результаты работы метода KNN. Различные значения критериев получались вследствие изменения параметра К (максимального числа классов, к которым допустимо отнести данный документ). Как видно из трех следующих графиков, метод KNN на двух базах данных дает лучшие результаты, чем метод поиска элементарных соответствий. Однако метод KNN не достигает максимальных результатов по критерию точности. Рассмотрим один из примеров, иллюстрирующих причину такого положения вещей. Метод KNN при любых значениях параметра К относит столбец «Тип предмета» к классу «Техника производства», что является следствием проявления лексической многозначности при индексировании.

Сравнение с алгоритмом кластеризации KMeans Для тестирования методов кластеризации без предварительного обучения множество документов (которое необходимо разбить на классы) составлялось из документов, соответствующих фасетам, и документов, представляющих столбцы описаний. Метод кластеризации разделял множество документов на заданное число (К) классов. Каждый из найденных классов определяет отношение эквивалентности, которое очевидным образом преобразуется в набор пар (фасет тезауруса, столбец описания). Следующие три графика на рисунках 18—20 построены для каждой из БД для сравнения метода поиска элементарных соответствий с методом KMeans. Анализ результатов экспериментов показывает, что методы кластеризации без обучения дают на трех различных базах данных результаты, в среднем не лучшие по точности и полноте, чем предложенный в п. 2.2.2 метод поиска элементарных соответствий, основанный на технике LSA.

Похожие диссертации на Модели и методы интеграции структурированных текстовых описаний на основе онтологий