Содержание к диссертации
Введение
ГЛАВА 1. Обзор моделей информационного поиска 13
1.1. Постановка задачи информационного поиска 14
1.2. Классические модели информационного поиска
1.2.1. Булевый поиск 17
1.2.2. Модель векторного пространства 18
1.2.3. Вероятностная модель 20
1.3. Дополнительные модели информационного поиска 24
1.3.1. Модель нечетких множеств 24
1.3.2. Модель обобщенного векторного пространства 28
1.4. Оценки эффективности системы информационного поиска 31
1.4.1. Полнота и точность 32
1.4.2. Нормализованное расстояние между результатами 38
1.5. Выводы 39
ГЛАВА 2. Применение семантических технологий в решении задачи поиска информации 42
2.1. Семантические технологии 42
2.1.1. Мотивация 42
2.1.2. Методы представления знаний 44
2.1.3. Классификация онтологии 46
2.2. Подходы поиска информации на основе семантики 50
2.2.1. Семантические методы, разрабатываемые в области информационного поиска 51
2.2.2. Методы семантического поиска, разрабатываемые в области создания семантической веб-сети 53
2.2.3. Классификации подходов семантического поиска 55
2.2.4. Ограничения подходов семантического поиска 58
2.3. Выводы 59
ГЛАВА 3. Предлагаемая модель семантического поиска информации на основе метаописаний
3.1. Семантическое обеспечение системы 61
3.1.1. Математическая модель онтологии предметной области 61
3.1.2. Семантические модели объектов знания 63
3.2. Логические представления документов и запросов 65
3.2.1. Набор триплетов 65
3.2.2. Концепция RDF-графов 66
3.3. Методы семантической близости 68
3.3.1. Оценка семантической близости между компонентами триплетов 69
3.3.2. Семантическая близость между триплетами 87
3.3.3. Семантическая близость между документами и запросами
3.4. Пример вычисления семантической близости 94
3.5. Оптимизация обработки запросов 96
3.6. Выводы 98
ГЛАВА 4. Архитектура системы семантического поиска 100
4.1. Общая схема процесса поиска информации 100
4.2. Формирование метаописаний
4.2.1. Ручное формирование метаописаний 102
4.2.2. Полуавтоматическое формирование метаописаний 102
4.3. Структуры индексов и алгоритмы индексирования 112
4.3.1. Поиск элементов онтологии с помощью SPARQL-запросов 115
4.3.2. Оптимизация хранения триплетов с использованием числовых идентификаторов 116
4.3.3. Индексирования базы знания с помощью системы Lucene 119
4.3.4. Представление онтологии предметной области в виде графа... 121
4.3.5. Индексирование метаописаний 124
4.4. Программная реализация 129
4.5. Выводы 131
ГЛАВА 5. Исследования алгоритмов 133
5.1. Метод оптимизации хранения набора триплетов 133
5.1.1. Эксперимент 1: объем оперативной памяти 133
5.1.2. Эксперимент 2: время поиска триплета 135
5.2. Алгоритмы вычисления семантической близости 136
5.2.1. Эксперимент 3: оценка близости между понятиями 136
5.2.2. Эксперимент 4: близость между метаописаниями 142
5.4. Выводы 153
Заключение 154
Литература
- Дополнительные модели информационного поиска
- Семантические методы, разрабатываемые в области информационного поиска
- Логические представления документов и запросов
- Полуавтоматическое формирование метаописаний
Введение к работе
Актуальность исследования. Огромный объем доступных в компьютерных сетях электронных ресурсов является ценным источником информации. Однако поиск в таком источнике может быть выполнен только с помощью поисковых систем.
Исследования, связанные с поиском информации, начались еще в середине прошлого века вскоре после изобретения электронно-вычислительных машин (ЭВМ). В результате этих исследований были разработаны сотни поисковых систем, однако большинство из них в основном базируется на общем методе, в соответствии с которым искомые документы описываются (индексируются) наборами содержащихся в них терминов (ключевых слов), и для выполнения поиска пользователи вводят запрос, также состоящий из набора терминов, описывающих их информационные потребности. После обработки такого запроса поисковая система возвращает документы (или ссылки на них), содержащие термины, заданные в запросе пользователя.
Классический метод является эффективным в том случае, когда у пользователей имеется информация о содержании требуемых документов. Однако с использованием классического метода трудно выполнять запросы исследовательского характера, когда пользователи не имеют информации о нужных документах, но могут сформулировать свои информационные потребности. Ограниченность классических систем поиска информации связана с отсутствием возможности понимания ими базовой концептуализации информационных потребностей пользователей и смысла искомых документов.
В связи с этим для преодоления ограниченности классического метода и достижения высокого качества поиска требуется выполнять работы с семантикой (смыслом) документов. В этом случае требуется описывать документы на более высоком концептуальном уровне с использованием понятий из семантических моделей знаний предметной области. Подходы информационного поиска, в которых используется такое представление документов, обычно называются семантическими подходами поиска информации.
Целью диссертационной работы является разработка комплекса моделей, методов и алгоритмов выполнения поиска информационных ресурсов на основе использования онтологических моделей знаний и семантических технологий.
Для достижения цели необходимо было решить следующие задачи:
-
Разработать метод описания документов и запросов с использованием семантических моделей знаний, которые позволяют выполнять работу с их семантикой;
-
Разработать алгоритмы вычисления семантической близости между метаописаниями документов и запросов;
-
Разработать эффективную систему поиска информационных ресурсов с возможностью работать с семантикой.
Объектом исследования является процесс поиска пользователями интересующих их информационных ресурсов в компьютерных сетях.
Предметом исследования являются методы и алгоритмы выполнения поиска информационных ресурсов с использованием семантических технологий для реализации концепции семантического поиска информации.
Методы исследования. При выполнении диссертационной работы использовались методы математической логики, семантического моделирования, системного анализа, а также проведения и обработки экспериментов с использованием экспертных оценок.
Научная новизна диссертационной работы заключается в следующем:
-
Разработана новая модель семантического поиска с использованием онтологических моделей знаний. В отличие от существующих моделей поиска информации, в разработанной модели документы и запросы описываются с использованием простых фраз (триплетов), составленных на основе онтологических моделей знаний предметной области (их метаописания).
-
Разработаны новые методы вычисления семантической близости между метаописаниями, между триплетами и между компонентами триплетов. Выполнено теоретическое обоснование и экспериментальные проверки предложенных методов вычисления семантической близости.
-
Разработан эффективный алгоритм поиска текстовых меток элементов онтологии в документах, который востребован для реализации метода полуавтоматического создания метаописаний.
-
Разработаны новый метод оптимизации хранения наборов триплетов с использованием числовых идентификаторов и алгоритм сжатия словарей строк URI, позволяющие значительно сократить требуемые объемы памяти.
-
Разработана новая архитектура системы семантического поиска на основе метаописаний. Описаны базовые функции системы и структуры данных необходимых индексов для её работы.
Практическая значимость диссертационной работы заключается в возможности использования разработанных методов, алгоритмов и прототипов программного обеспечения для выполнения поиска информации в компьютерных сетях. Разработанные алгоритмы вычисления близости также могут быть применены для решения таких задач, как классификация семантических данных, автоматическое разрешение многозначности терминов и т.п.
Предложенные в диссертационной работе модели, методы и алгоритмы были внедрены в одной вьетнамской и двух российских компаниях, а также использованы в учебном процессе кафедры оптимизации систем управления Института кибернетики Томского политехнического университета.
Получено два свидетельства Роспатента на программное обеспечение, разработанное в рамках выполнения диссертационной работы: «TST – инструментальное программное обеспечение для организации поиска по семантическим метаописаниям» [10] и «Triple – редактор семантических метаданных» [11].
На защиту выносятся следующие результаты:
-
Разработанная модель семантического поиска информации, основанная на метаописаниях, которые формируются с использованием онтологических моделей знаний.
-
Разработанные методы вычисления близости между метаописаниями, триплетами и компонентами триплетов.
-
Метод оптимизации хранения наборов триплетов с использованием числовых идентификаторов и алгоритм сжатия словарей URI-идентификаторов.
-
Алгоритм быстрого поиска меток элементов онтологии в документах.
-
Разработанная архитектура системы семантического поиска информационных ресурсов.
Личный вклад автора. Все выносимые на защиту результаты получены автором лично.
Апробация работы. Основные положения и отдельные результаты исследования докладывались и обсуждались на следующих конференциях:
-
VI Международная научно-практическая конференция «Электронные средства и системы управления» (Томск, 2010);
-
IV университетская научно-практическая конференция иностранных студентов, магистрантов и аспирантов, обучающихся в ТПУ, «Коммуникация иностранных студентов, магистрантов и аспирантов, в учебно-профессиональной и научной сферах» (Томск, 2010);
-
Интеллектуальные информационно-телекоммуникационные системы для подвижных и труднодоступных объектов (Томск, 2010);
-
IX Всероссийская научно-практическая конференция студентов, аспирантов и молодых ученых с международным участием «Молодежь и современные информационные технологии» (Томск, 2011);
-
VIII Всероссийская научно-практическая конференция студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования» (Томск, 2011);
-
IX Всероссийская научно-практическая конференция студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования» (Томск, 2012).
Публикации. Основные результаты диссертационного исследования изложены в 11 печатных работах, в том числе в 4 статьях из списка рецензируемых журналов, рекомендованных ВАК РФ.
Структура и объем диссертации. Диссертация содержит введение, 5 глав, заключение, список использованной литературы, содержащей 157 наименования. Общий объем диссертации составляет 198 страниц машинописного текста, включающих 38 рисунков, 18 таблиц, и 3 приложения.
Дополнительные модели информационного поиска
Любая система информационного поиска выполняет следующие три базовые функции: 1) Индексирование - сбор электронных ресурсов и создание их логических представлений, а также хранение логических представлений с использованием индексов (оптимизированных структур данных для быстрого выполнения поиска). 2) Формирование запросов - описания информационных потребностей пользователя на языке, поддерживаемом поисковой системой. 3) Сравнение - вычисление оценок близости (релевантности) между запросами и документами. На основе оценок релевантности определяется множество результатов, которое затем возвращается пользователям.
Связь между системными сообщениями и подсистемой формирования запроса означает возможность использования результатов поиска для уточнения запроса.
Отмечается, что любая система информационного поиска обычно реализуется на основе соответствующей теоретической модели, в которой описываются ее основные особенности: логическое представление документов и информационных потребностей, а также алгоритмы вычисления оценки релевантности между логическими представлениями запросов и документов.
При анализе модели имеется возможность прогнозировать множество результатов заданного запроса и обосновать релевантности полученных документов. В общем случае модель информационного поиска состоит из следующих 4-х компонентов [29]:
Model = [A a F, R{qb dj)], где D - множество логических представлений документов коллекции; Q -множество логических представлений информационных потребностей пользователя (запросов); F - платформа для моделирования представлений документов, запросов и отношения между ними; R(dir qj) - функция ранжирования, задающая вещественное число для запроса qt и представления документа dj -функция близости. Данное ранжирование определяет степень (порядок) соответствия документов запросу qt.
Например, для классической модели булевого поиска такая платформа включает множество документов и набор стандартных операций над множествами. Для классической модели векторного пространства платформа включает -мерное векторное пространство и стандартные операции линейной алгебры. Для классической вероятностной модели данная платформа включает множества, стандартные операции вероятностей и теорему Байеса
Булевая модель информационного поиска получила широкую популярность в середине девяностых годов прошлого века. Главной причиной этого, с одной стороны, является то, что данная модель является достаточно простой и интуитивно понятной, а с другой - то, что в те времена еще не были разработаны альтернативные подходы.
Булевая модель основана на теории множества и булевой алгебре. Запросы данной модели формируются как булевые выражения. Поисковый алгоритм в булевой модели основан на бинарном критерии решения, который заключается в том, что документы могут быть только либо релевантными, либо нерелевантными заданному запросу.
В булевой модели поиска документ представляется в виде бинарного вектора терминов, определяющего принадлежность терминов искомым документам. Запрос представляет собой список ключевых слов (терминов), объединенных булевыми операторами (И, ИЛИ и НЕ (л, V, --)). Например: q = («машина» или «автомобиль») и («праздник» или «отпуск»)
Для описания сложных запросов требуется использовать скобки для группировки операций. Например: в запросе [а А Ъ V с] требуется уточнить порядок выполнения операций: [(а A b)v с] или [а А (Ь V с)]. В данной модели существует небольшая семантическая путаница между операторами «И» и «ИЛИ». На естественном языке выражение «А и Б» обычно ссылается на большее количество предметов, чем только А или Б отдельно, однако в булевой логике этот выражение ссылается на меньшее количество предметов [49].
Булевое выражение может быть представлено как объединение (операция V) набора операции пересечения (операция л). Например, запрос q = а л (b v -с) может быть представлен в виде q = (а А Ъ) V (а А -с). Это соответствует векторному представлению (1, 1, 1) v (1, 1, 0) v (1, О, 0), где каждый компонент соответствует бинарному вектору трех компонентов (а, Ъ, с), как показано на рис. 1.3 [29].
Главном недостатком булевой модели поиска является отсутствие возможности ранжирования результатов по релевантности, что ограничивает её применение при работе с большими коллекциями документов.
Модель векторного пространства основывается на платформе, в которой допускается частичная релевантность между документами и запросами. Это достигается путем присваивания весовых коэффициентов для терминов запроса и документа. Такие весовые коэффициенты затем используются для вычисления степени близости между каждым документом и запросом. После этого модель векторного пространства упорядочивает документы по степени их соответствия терминам запроса (по степени их близости). В результате такой операции сортировки получается упорядоченное множество документов, которое считается более точным (с точки зрения удовлетворения информационной потребности пользователя) по сравнению с результатами модели булевого поиска.
Семантические методы, разрабатываемые в области информационного поиска
Информация в Web-сети в основном представлена с использованием таких языков (форматов), например HTML, которые понятны людям, но затрудняют автоматическую обработку семантики информации с помощью компьютеров. На рис. 2.1 эта ситуация поясняется на примере упрощенной версии сайта прогноза погоды.
Видно, что представление данных является_понятным-Для-людей,-Одна-ко при использовании данного языка описания информации компьютерной программе очень сложно определить, например текущую температуру, направление ветра и другую семантику (смысловое содержание) документа.
В этой ситуации компьютерная программа сможет направить пользователя на конкретную веб-страницу, предоставить информацию, но не может «понять» смысл этих данных (выполнить на основе нее какие-либо логиче ские выводы) и, следовательно, имеет ограниченные возможности выполнения автоматических действий.
Для преодоления (или хотя бы ослабления) этого ограничения используются описания содержания с помощью различных подходов формального представления знания. В настоящее время наиболее широко используемым подходом к формальному описанию знаний является подход, основанный на онтологиях. В соответствии с данным подходом, онтология представляет собой согласованный словарь терминов для описания предметной области в виде семантической сети связанных информационных единиц. При использовании таких сетей компьютерные программы получают возможность различать понятия и выполнять на их основе логические выводы.
В последние годы семантические технологии на основе онтологии разрабатываются в качестве инструмента для реализации концепции семантической Web-сети (Semantic Web, SW), идея которой была предложена в конце 90-х годов прошлого века и активно продвигается международным консорциумом W3C. Основная идея SW заключается в размещении понятных для компьютерных программ (машиночитаемых) данных в веб-сети, чтобы создать более выразительную среду, где легче найти и опубликовать информацию. С другой стороны, семантические технологии могут рассматриваться как новый абстрактный слой над имеющимися данными, который предоставляет возможность выполнять их автоматическую обработку для предоставления более совершенных услуг конечным пользователям. 2.1.2. Методы представления знаний
Представление знаний - это способ описания знаний о внешнем мире, которые могут обрабатываться компьютерными программами. В области информационных технологий выделяются следующие 4 метода представления знаний, содержащихся в документах или предметных областях: набор (пакет) слов {the bag of words) , множество несвязанных слов (терминов), которые характеризуют содержание некоторого электронного ресурса; таксономии: описание предметных областей с помощью терминов, объединенных в наборы категорий, и задания иерархических взаимосвязей между ними; тезаурусы: описание предметных областей с помощью терминов и словосочетаний, сгруппированных в единицы, называемые понятиями, которые иерархически сгруппированы и между которыми заданы некоторые фиксированные семантические (ассоциативные) отношения; онтологии: точное детальное описание концептуализации предметной области в виде понятий, классов и взаимосвязей между ними.
Пакет слов имеет самую простую структуру, согласно которой знание представляется в виде множества несвязанных терминов, которые еще также называются тэгами {tags). Данный метод представления знания использовался последние годы для категоризации веб-страниц, фотографий и т.д.
Таксономия - «Представляет собой множество понятий с заданными между ними отношением «родитель-ребенок», которое упорядочивает понятия в иерархию - таксономию» [21]. Кроме семантического отношения «родитель-ребенок», другие семантические отношения не учитываются.
Тезаурус - это словарь, в котором слова и словосочетания с близкими значениями сгруппированы в единицы, называемые понятиями, концептами или дескрипторами, и в котором явно указываются семантические отношения между этими понятиями (концептами, дескрипторами) [7]. В тезаурусах множество допустимых отношений между понятиями является ограниченным и четко определенным множеством. Это множество обычно включает следующие отношения реального мира: «родитель-ребенок», «часть-целое», «причина-следствие» и т.д. Термин «онтология» имеет два значения: 1) философская дисциплина, которая изучает наиболее общие характеристики бытия и сущностей; 2) артефакт, структура, описывающая значения элементов некоторой системы.
В данной работе слово онтология используется во втором значении. Онтологии начали использоваться в области информатики с 1980-х годов исследователями, работающими в области искусственного интеллекта, сначала для обработки естественных языков, а затем и для представления знаний. В конце 1990-х годов начались исследования возможности использования онтологии в таких областях, как интеграция информации, поиск информации в Интернете и управление знаниями. Позже онтологии стали рассматриваться в качестве ключевого элемента в реализации концепции семантического веба.
Неформально онтология представляет собой некоторое описание представления о внешнем мире применительно к конкретной области интересов. Это описание состоит из терминов и правил использования этих терминов, ограничивающих их значения в рамках конкретной предметной области.
На формальном уровне онтология - это система, состоящая из набора понятий и набора утверждений об этих понятиях, на основе которых можно описывать классы, отношения, функции и индивиды.
Существуют различные определения онтологии. Одно из самых известных определений онтологии дал Том Грубер [70] следующим образом: «онтология - это формальное, точное описание (спецификация) согласованной концептуализации».
Логические представления документов и запросов
В предлагаемой модели информационного поиска оценка семантической близости используется в качестве альтернативы традиционной оценке лексической близости в классических моделях информационного поиска по ключевым словам (гл. 1) и вычисляется на основе структуры онтологии, используемой в поисковой системе.
Как было описано выше, метаописания документов и запросов могут рассматриваться либо как наборы триплетов, либо как RDF-графы. Обзор подходов вычисления близости между метаописаниями в соответствии с каждым представлением имеется в разделе 3.3.3.
В предлагаемой модели семантического поиска логические представления документов и запросов принимаются в виде наборов триплетов. На их основе предложена схема вычисления семантической близости по структуре, которая представлена на рис. 3.1.
На данном рисунке знак «X » означает алгоритм комбинирования нескольких значений. Как показано на рис. 3.1, близость между документом и запросом вычисляется как близость между их метаописаниями. При этом близость между метаописаниями определяется как агрегация оценок между составляющими триплетов, а близость между триплетами вычисляется как функция от оценок близости, входящих в них компонентов.
При вычислении близости между компонентами триплетов возможны следующие виды оценки семантической близости между понятиями, между экземплярами и понятиями, между экземплярами, и между предикатами. Следующие виды оценки близости между литеральными значениями, между понятиями и литеральными значениями, между экземплярами и литеральными значениями не являются семантическими.
При вычислении семантической близости между компонентами триплетов на основе онтологии транзитивное свойство семантических отношений обычно опускается. Например, известно, что семантическое отношение «являться» (is-a) в онтологии определяется как транзитивное отношение, т.е. если A is-a В и В is-a С, то A is-a С. Однако при вычислении близости между понятиями А и С путь (А-В-С) обычно рассматривается, как кратчайший, так как отношение A is-a С опускается.
В данном разделе сделан обзор подходов вычисления концептуальной близости понятий (терминов) на основе использования таксономии, т.е. применяется только семантическое отношение «являться» (is-a, отношение «родитель-ребенок»). Рассматриваемые подходы группируются согласно оценкам (мерам), которые используются для вычисления близости. Оценка близости понятий чаще всего выполняется с использованием следующие единиц измерения: 1) длина пути между понятиями; 2) глубина в таксономии; 3) информационное содержание; 4) множество родительских понятий.
Кроме того, в разделе гибридные подходы рассматриваются методы комбинирования разных мер близости для получения новой оценки. Подходы на основе длины пути Rada R., Mili К, Bicknell Е. и Blettner М. В [118] предложено определять семантическое расстояния между понятиями (обратная величина близости, т.е. чем больше расстояние, тем меньше близость и наоборот), как количество ребер в пути между этими понятиями в таксономии: distRada{cu c2) = mm(\path(c{, c2)\), (3.14) где \path(c\, c2)\ - количество ребер пути от с\ до с2. Пути между понятиями определяются с учетом таксономии как неориентированный граф. Hirst G., St-Onge D. В [78] представлена мера близости, в которой задаются ограничения на характеристики путей между понятиями. В данной мере учитываются только те пути, которые содержат не больше 5 ребер или соответствуют одному из 8 шаблонов, описанных в [78]. Близость по допустимому пути вычисляется следующим образом: simHirst&st-Onge(c\ c2) = S-длинапути-А: кол.изм.напр. (3.15)
Таким образом, чем длиннее путь и больше количество изменений в направлении движения, тем меньше близость между понятиями.
Лукашевич Н. В., Доброе Б. В. Подобно подходу Hirst & St-Onge в [7] вводятся ограничения на конфигурацию путей, используемых при вычислении близости. При этом рассматриваются пути, состоящие из совокупности иерархических отношений (являться «выше-ниже» - is-a, «часть-целое» -partOf, и несимметричная ассоциация) либо направленные в одну сторону, либо включающие ровно один перегиб (изменение по направлению).
Bulskov Н, Knappe R., Andreasen Т. В работе [35] близость между понятиями х и у вычисляется как максимальное произведение весовых коэффициентов ребер путей между ними. В соответствии с этим методом, для отношения is-a задаются два параметра gen и spec [0, 1], которые соответственно выражают близости в направлении обобщения и детализации.
Полуавтоматическое формирование метаописаний
Создание и изменение онтологии может выполняться с помощью специального редактора. После этого элементы онтологии индексируются для обеспечения эффективной доступа к ним при составлении запросов, создания метаописаний документов и определении семантической близости между описаниями запросов и документов.
В предложенной модели поиска информации, при выполнении индексирования вначале создаются метаописания для документов, среди которых выполняется поиск. После этого создается индекс сформированных метаописаний для обеспечения эффективного выполнения поиска. Структуры индекса и алгоритмы его создания описаны далее.
Аналогично созданию метаописаний документов, пользователь формирует свою информационную потребность в виде метаописаний на основе онтологии, которые затем обрабатываются в подсистеме обработки запросов.
Задачей подсистемы обработки запросов является вычисление оценок близости между запросами и метаописаниями документов, на основе которых определяется множество результатов (релевантных документов).
Задача создания качественных метаописаний документов является одной из наиболее сложных и трудоемких подзадач реализации системы семантического поиска. Она может выполняться как с участием специалиста (человека), там, где это необходимо, так и без его участия - автоматически. Однако в связи с тем, что задача понимания текстов на естественном языке до сих пор в полной мере не решена, то не представляется возможным составление качественных метаописаний без участия специалиста. В лучшем случае этот процесс является полуавтоматическим, когда программы предлагают варианты утверждения, а специалист анализирует их: либо принимает, либо редактирует, либо отвергает.
Ручной вариант аннотирования заключается в создании редактора, позволяющего пользователю, с помощью специального интерфейса, выбирать элементы утверждений, используя онтологию некоторой предметной области и свои знания об аннотируемом объекте (документе, специалисте и т. п.). Основной задачей интерфейса является предоставление возможности конструирования метаописаний с одновременной навигацией по онтологии, в том числе и с интерактивной визуализацией отдельных ее частей.
В данном пункте представлено описание разработанного метода ручного создания метаданных описания, в соответствии с которым для составления утверждения на основе онтологии вначале требуется ввести его в простом формате «субъект-предикат-объект» на естественном языке. После чего редактор сопоставляет эти метки описания с элементами онтологии и показывает возможные варианты триплетов с использованием терминологии, заданной в онтологии. После этого пользователь может выбрать наиболее подходящий триплет и добавить его во множество триплетов метаописания.
В данном методе ручного создания метаописаний, основными запросами к хранилищу онтологических данных являются: получение всех понятий, экземпляров, и отношений онтологии для заданной текстовой метки; проверка согласованности составленного триплета с ограничениями предметной области и областями допустимых значений и определений для отношения.
Полуавтоматические методы выполнения аннотирования предполагают создание подсистемы, анализирующей содержание документов и предоставляющей пользователям черновые варианты семантических метаописаний, которые они могу редактировать. Таким образом, сокращается время требуемое для ознакомления с содержанием документа.
Основная часть автоматической составляющей полуавтоматического метода аннотирования заключается в идентификации в тексте элементов онтологии (понятий, экземпляров и отношений), которые затем могут быть использованы для формирования элементов семантических описаний.
Для цели идентификации элементов онтологии требуются: 1) поиск элементов онтологии по их меткам; 2) разрешение многозначности.
Постановка задачи. Задано текстовое описание документа Д. С использованием метода разбиения текста (например, по пробелам), документ Д может быть представлен в виде последовательности токенов: Д= ТОКЄНІ — токен2 — ...— токен„, (4.1) где п - количество токенов документа. На основе элементов онтологии С U RUE формируется множество (словарь) уникальных текстовых меток Die: Die = {меткаь метка2, ..., меткат}, (4.2) где т - количество уникальных меток. Каждая текстовая метка также может быть представлена в виде последовательности токенов: метка,;= токені —» ... —» токенад, (4.3) где Ці) - количество токенов /-й метки.
В некоторых языках, в связи с грамматической особенностью формы слова меняются в зависимости от контекста (например, русский, английский, французский и т.д.). В связи с этим для получения исходной формы слова (леммы) требуется выполнение этапа лемматизации. В других языках, например Вьетнамском, выполнения лемматизации не требуется, так как форма слова не меняется. Алгоритмы лемматизации подробно рассмотрены в [103].