Содержание к диссертации
Введение
ГЛАВА 1. Автоматизированная система смысловой обработки текстов 10
1.1. Обзор существующих программных продуктов анализа текстов 10
1.2. Смысловая обработка текстов в полнотекстовых базах данных 18
1.3. Описание работы системы автоматизированного смыслового анализа текстов 23
Выводы 32
Глава 2. Архитектура системы, процессы и методы обработки ЕЯ-текстов 33
2.1. Архитектура системы 33
2.2. Функциональная схема SemTextProcessor 35
2.3. Формализация представления данных 38
2.4. Общий процесс смыслового анализа текста 42
2.5. Методика смыслового анализа текстов в SemTextProcessor 44
Выводы 49
Глава 3. Инженерия знаний в системе SemTextProcessor 50
3.1. Процесс инженерии знаний в нотации IDEF3 50
3.2. Представление знаний с применением семантических сетей 53
3.2.1. Основная семантическая сеть системы 54
3.2.2. Семантическая сеть понятия «слово» 58
3.2.3. Семантическая сеть понятия «прилагательное» 65
3.2.4. Семантическая сеть понятия «местоименное» 66
3.3. Таксономии предметной области 68
3.4. Фреймовая модель представления знаний предметной области 71
3.4.1. Фрейм «Корпус» 72
3.4.2. Фрейм «Домен» 73
3.4.3. Фрейм «Кластер» 73
3.4.4. Фрейм «Пользователь» 73
3.4.5. Фрейм «Текст» 73
3.4.6. Фрейм «Раздел» 74
3.4.7. Фрейм «Абзац» 74
3.4.8. Фрейм «Предложение» 75
3.4.9. Фрейм «Термин» 75
3.4.10. Фрейм «Словосочетание» 76
3.4.11. Фрейм «Слово» 76
3.4.12. Фрейм «Толкование» 77
3.4.13. Фрейм «Тезаурус» 77
3.4.14. Фрейм «Ключевой терміні» 77
3.4.15. Фрейм «Язык» 78
3.4.16. Фрейм «Буква» 78
3.4.17. Фрейм «Смысловая сеть» 79
3.4.18. Фрейм «Прилагательное» 80
3.4.19. Фрейм «Притяжательное» 83
3.4.20. Фрейм «Относительное» 83
3.4.21. Фрейм «Качественное» 84
3.4.22. Фрейм «Наречие» 87
3.4.23. Фрейм «Артикль» 88
3.5. Регистрация правил вывода с применением логики предикатов первого порядка 88
3.5.1. Правило смыслового поиска по запросу 89
3.5.2. Правило классификации текстов по предметной области 89
3.5.3. Правило смысловой кластеризации текстов 90
3.5.4. Правило формирования реферата 90
Выводы 90
Глава 4. Онтология естественного языка, методы и алгоритмы обработки 91
4.1. Онтология естественного языка 91
4.2. Онтология текста на естественном языке 92
4.3. Методы статистической обработки текстов 94
4.3.1. Методы взвешивания термов 94
4.3.2. Взвешивание предложений текста 94
4.3.3. Взвешивание абзацев текста 95
4.3.4. Взвешивание разделов текста 95
4.3.5. Взвешивание отношений в семантической сети (онтологии) текста 96
4.3.6. Статистические матрицы анализа текстов 96
4.4. Пересечение онтологии текстов 977
4.4.1. Алгоритм пересечения онтологии текстов 97
4.4.2. Оценка степени пересечения онтологии текстов 98
4.5. Алгоритм смыслового поиска по запросу 99
4.6. Алгоритмы классификации текстов по предметным областям 101
4.7. Алгоритм кластеризации текстов 102
4.8. Алгоритм реферирования текста 104
Выводы 105
Глава 5. Онтологическое моделирование и программная реализация 106
5.1. Систематизация знаний в области онтологии 106
5.2. Процесс онтологического инжиниринга 107
5.3. Уровни описания и работы с онтологией 109
5.4. Природа онтологического исследования 110
5.5. Онтологическое моделирование в среде protege 110
5.5.1. Терминология среды Protege 110
5.5.2. Структурная модель среды Protege 112
5.5.3. Моделирование в protege 113
5.6. Извлечение знаний из онтологии с помощью SPARQL 116
5.7. Программная реализация и внедрение разработанных структур 116
5.7.1. Форма ведения онтологии 116
5.7.2. Формы смысловой обработки текстов '. 117
Выводы 123
Основные результаты работы 124
Литература
- Смысловая обработка текстов в полнотекстовых базах данных
- Формализация представления данных
- Семантическая сеть понятия «местоименное»
- Взвешивание отношений в семантической сети (онтологии) текста
Введение к работе
Актуальность работы. Несмотря на широкое использование мультимедиа, текст остается одним из основных видов информации в большинстве электронных хранилищ. Огромное количество информации скапливается в многочисленных текстовых базах, хранящихся в информационных агентствах, библиотеках, корпорациях, в личных ПК и во всемирной глобальной сети. Объем информации увеличивается с поражающей скоростью и люди не в состоянии решать проблемы, связанные с этим ростом. Ввиду большого роста объемов текстовой информации и сложной структурированности естественно-языковых (ЕЯ) текстов, анализ текстов представляет собой актуальную проблему. Человечество нуждается в интеллектуальных электронных помощниках, которые могут справиться со смысловым анализом текста. Разработка эффективных подходов к обработке текстов с целью фильтрации, формирования смыслового портрета, навигации по базе текстов и т.д. является одним из наиболее актуальных направлений современных информационных технологий. В связи же с практическими потребностями быстрой переработки и поиска информации все более актуальной становится проблема смыслового преобразования текстов. Под преобразованием понимается такой процесс переработки текстов, результатом которого является создание некоторых вторичных текстов, близких по смыслу к исходным, но не заменяющих их полностью. В практическом плане эта проблема заключается в разработке конкретных методов автоматического аннотирования, реферирования, индексирования и др.
В настоящее время в мире существуют и активно развиваются системы смыслового поиска в полнотекстовых базах данных, которые поддерживаются ведущими фирмами - производителями серверов баз данных, например, Oracle, Microsoft, IBM и др. Такие системы строятся на основе многомерных хранилищ, из которых данные извлекаются и обрабатываются с помощью алгоритмов для заранее определенных субъект-объектных отношений между ними. Крупные поисковые серверы в Интернете (например, Google, Yahoo, Yandex) поддерживают алгоритмы поиска текстов "схожих" с данным и расчета релевантности найденных документов исходному запросу. Специализированные системы полнотекстового анализа (например, в России это "Следопыт", "ТекстАналист") позволяют проводить автоматическую классификацию и реферирование текстов.
Классически в основе задачи обработки ЕЯ-текстов лежат морфологический и морфемный анализ, синтаксический и семантический анализ, результатами которых являются модели текста, адекватно отражающие его словообразовательные, грамматические и смысловые конструкции. В этом смысле, основные методы анализа текста достаточно подробно изложены в трудах Апресяна Ю.Д., Виноградова Д.В., Гладкого А.В., Клосса Б.М., Кожуновой О.С., Мельчука И.Д., Солтона Г., Н.С., Филмора Ч., Финна В.К., Шведовой Н.Ю., Дж.Дж.Катца, Дж.А.Фодора, Б. Патти, А. Вежбицкой и др. Ряд современных усовершенствованных методов представлены в статьях Ермакова А.Е., Леонтьевой Н.Н., Мозгового М.В., Плешко В.В., Сокирко А., Толпегина П.В., Тузова В.А. и др.
В настоящее время успешно решена задача морфологического анализа текстов, результаты которого применяются в поисковых Интернет-машинах, текстовых редакторах, подсистемах проверки орфографии и пр. Задачи синтаксического и, в особенности, семантического анализа не решены в полной мере. Синтаксический анализ (анализ грамматики) можно встретить в системах перевода, в подсистемах проверки грамматики. Несмотря на богатую теорию в области семантического анализа, применение находят лишь методы анализа основанные на статистических (факторных) характеристиках слов и словосочетаний анализируемого текста. Следует отметить, что подсистемы, реализующие указанные методы анализа текста, не предоставляют средств настройки процесса анализа, средств пополнения баз правил грамматики языка и часто эти подсистемы дают грубые результаты.
Семантические модели (СМ) текста, являющиеся результатом комплексного анализа, позволяют оценить корректность текста, в наглядной форме, визуально представить структуру сюжета, взаимосвязь объектов и процессов текста, их атрибуты. Последовательность моделей простых предложений текста и результирующая визуальная модель текста позволяют реализовать обратную связь "воздействие на модель - реакция в тексте", благодаря чему можно в интерактивном режиме отлаживать процессы анализа текстов и доказательства объективности (однозначности) истолкования текстов на естественных языках.
Применение семантических моделей актуально в автоматизированных обучающих системах, при решении задач извлечения знаний из текстов, информационного поиска, реферирования, контроля корректности словарей терминов и определений, автоматической генерации ассоциативных связей в гипертекстовых базах данных (ГБД) и пр.
Учитывая вышеизложенное, а также то, что проблема смыслового анализа ЕЯ-текстов до настоящего времени не решена в полной мере, считаем, что совершенствование методов анализа ЕЯ-текстов и повышение степени их достоверности является актуальной задачей.
Разработанность проблемы. Исследования в области автоматической обработки текстов в Европе и США привлекают внимание крупнейших частных фирм и государственных организаций самого высокого уровня. Европейский Союз уже несколько лет координирует различные программы в области автоматической обработки текстов (например, проект IST, 1998-2001 гг.). В США с 1991 по 1998 гг. существовал проект TIPSTER, организованный Департаментом обороны совместно с Национальным институтом стандартов и технологий и Центром военно-воздушных и военно-морских вооружений. В работе консультативного совета этого проекта участвовали также ФБР, Национальный научный фонд и некоторые другие организации. Основной целью проекта было сравнение и оценка результатов работы различных поисковых систем и систем реферирования. По результатам проекта был опубликован подробный обзор и даны рекомендации по использованию этих систем. В США среди систем подобного рода наиболее известной является электронная архивная система "Excalibur RetrievalWare" производства компании Excalibur Technologies. Программные продукты этой компании используются Госдепартаментом, Библиотекой Конгресса, ЦРУ, компаниями Ford Motors, Lockheed, Reynold Electrical & Engineering, Maine Yankee Atomic Power.
Современные системы смыслового анализа текстов, особенностью которых являются: предпочтение скорости обработки текстов, точности семантического и морфологического анализа, выявление смысла текста, реферирование, автоматическое индексирование, эффективная навигация по текстовой базе, статистический частотный анализ словоупотреблений, автоматическая классификация и кластеризация текстов, смысловой поиск и расчет релевантности текстов поисковому запросу.
OLAP-технологии. OLAP использует многомерное представление совокупных данных, чтобы обеспечить быстрый доступ к стратегической информации для дальнейшего анализа.
Недостатки: a) функциональность систем ограничивается возможностями SQL, так как аналитические запросы пользователя транслируются в SQL-операторы выборки; b) сложно пересчитывать агрегированные значения при изменениях начальных данных; c) сложно поддерживать таблицы агрегатов; d) сложно изменять измерения без повторной агрегации; e) снижение скорости обработки из-за вычислений по требованию; f) ограничение на объем данных;
система автоматического анализа текста TextAnalyst разработана в качестве инструмента для анализа содержания текстов, смыслового поиска информации, формирования электронных архивов.
Недостатки: a) не имеет готового словаря русского языка; b) не применяет сколько- нибудь развитых лингвистических средств, например синтаксического и морфологического анализа;
Oracle InterMedia Text. Одним из наиболее мощных продуктов, позволяющих реализовать поддержку полнотекстовых баз данных с доступом через интернет, является система InterMedia Text в составе СУБД Oracle8i. В InterMedia Text интеллектуальная обработка текста (тематическая классификация, аннотирование) сочетается с поисковыми возможностями, доступными при работе с реляционными базами данных.
Недостатки: a) большинство возможностей InterMedia оказывается доступно в полной мере лишь для английского языка и, в меньшей мере, еще для ряда европейских и восточно-азиатских языков; b) не задействует лингвистические технологии, которые зависят от лексики, грамматики и семантики языка; с) не устанавливает смысловые связи между темами;
Russian Context Optimizer (RCO). Адаптацией технологий Oracle к русскоязычным базам данных занимаются специалисты компании «Гарант-Парк-Интернет», которая выпускает продукт под названием Russian Context Optimizer (RCO), предназначенный для совместного использования с системой InterMedia Text.
Основной недостаток - функциональность системы ограничивается возможностями SQL, так как аналитические запросы пользователя транслируются в SQL-операторы выборки;
Система "Ключи от Текста" - смысловой поиск и индексирование текстовой информации в электронных библиотеках.
Недостатки: a) большие затраты интеллектуальной работы как при обработке первоисточника, так и при наполнении БД; b) в ней не учитывается коллективный характер использования Сети, а именно то обстоятельство, что ресурсы разделяемы;
Интеллектуальная система "СЛЕДОПЫТ" помогает быстро находить текстовые фрагменты документов, и предназначена для тех, кто в результате своей деятельности имеет дело с большим объемом информации.
Недостатки: a) ограничение на объем данных; b) зависит от сторонних программных продуктов, например, MS Office;
Большинство возможностей этих известных систем оказывается доступно в полной мере лишь для английского языка и, в меньшей мере, еще для ряда европейских и азиатских языков. Практически не поддерживают персидского языка.
В настоящее время в России и не только сложилась ситуация, что системы автоматизации управления корпоративными электронными архивами не поддерживают технологии автоматизированного смыслового анализа текстов, а современные системы анализа текстов не адаптированы к работе с электронными текстовыми архивами корпорации. Необходима разработка алгоритмов и методики автоматизированной смысловой обработки текстов и реализация программно-технического комплекса для внедрения смыслового полнотекстового анализа в технологию обработки электронных архивов. Данный комплекс также должен поддерживать персидский и другие азиатские языки.
Исходя из всего, что сказано выше, в данном диссертационном исследовании были сформулированы:
Объект исследования работы - математическое, информационное и программное обеспечение человеко-машинного взаимодействия на естественном языке.
Предмет исследования - модели, методы и алгоритмы смыслового анализа естественноязыкового текста.
Цель работы - исследование, разработка и научно-практическое обоснование алгоритмов и методики автоматизированной смысловой обработки текстов и внедрение их в технологию обработки текстов в системе управления электронными архивами.
Для достижения поставленной цели требуется решение следующих основных научных и практических задач:
-
-
Аналитический обзор существующих методов и систем анализа ЕЯ-текстов.
-
Исследование и разработка архитектуры автоматизированной системы смысловой обработки текстов, а также принципов смыслового анализа текстов.
-
Исследование и разработка онтологии предметной области «смысловая обработка текстов на естественном языке» и правил логического вывода как информационной основы построения системы с целью хранения и извлечения знаний о грамматиках естественных языков и о предметной области текста, а также выявления основных направлений снижения трудоемкости при проектировании алгоритмов смыслового анализа текстовой информации.
-
Разработка методов (статистических методов предварительного смыслового анализа текста, методики построения пересечения онтологий) и алгоритмов смыслового анализа текстов (алгоритм поиска, классификации, кластеризации, реферирования и т.д.), базирующихся на онтологиях ЕЯ.
-
Программная реализация автоматизированной системы комплексного смыслового анализа текстов и экспериментальное исследование предложенных методов и алгоритмов.
Методы исследования. Теоретические исследования выполнены с использованием моделей и методов системного анализа, статистического анализа, онтологического инжиниринга, теории множеств, семантических сетей, математической логики, теории проектирования баз данных. При разработке программного обеспечения использовались технологии объектно-ориентированного программирования и семантического web.
Достоверность и обоснованность полученных в работе результатов и выводов подтверждается корректным использованием математического аппарата и положительными результатами проведенных экспериментальных исследований.
Научная новизна.
-
-
-
Предложена архитектура автоматизированной системы смысловой обработки текстов.
-
Разработана онтология предметной области «смысловая обработка текстов на естественном языке», включающая декларативные и императивные знания о грамматиках естественных языков и правила вывода с применением языка логики предикатов первого порядка.
-
Разработаны методы (взвешивания термов, взвешивания предложений, взвешивания абзацев, взвешивания разделов текста, взвешивания отношений между понятиями, оценки степени смысловой близости текстов) и алгоритмы (определения пересечения онтологий текстов, классификации текстов, кластеризации текстов, поиска по ключевым словам, смыслового поиска, реферирования текста) смыслового анализа ЕЯ-текстов.
Степень новизны полученных результатов.
-
-
-
-
Архитектура отличается от известных автору тем, что ее ядро основано на уникальной впервые созданной онтологии естественного языка, и способах извлечения из заданных текстов, соответствующих им онтологий; а также на уникальной методике определения пересечения онтологий текстов.
-
Онтология предметной области «смысловая обработка текстов на естественном языке» предложена впервые и не имеет известных автору аналогов
-
Методика определения пересечения онтологий текстов также не имеет известных автору аналогов. Все реализованные алгоритмы смыслового анализа ЕЯ-текстов основаны на данной методике, поэтому они в свою очередь также являются уникальными.
Практическая полезность. Проведение смысловой обработки ЕЯ-текстов по предложенной технологии позволит облегчить процесс их обработки, повысить доверие к результатам обработки, снизить издержки на обработку, обеспечить дальнейшее развитие систем смысловой обработки ЕЯ-текстов. Кроме того, результаты, полученные в работе, окажут положительное влияние на конгломерацию частных систем смысловой обработки ЕЯ-текстов в общую систему смысловой обработки ЕЯ-текстов. Также практическая значимость исследования заключается в возможности использования предложенных методов и алгоритмов смысловой обработки ЕЯ-текстов для повышения эффективности систем управления электронными архивами.
На защиту выносятся:
-
-
-
-
-
Архитектура автоматизированной системы смыслового анализа текстов.
-
Онтология предметной области «смысловая обработка текстов на естественном языке», включающая декларативные и императивные знания о грамматиках естественных языков и правила вывода.
-
Методы и алгоритмы смыслового анализа ЕЯ-текстов.
Реализация результатов работы. Результаты работы использованы на кафедре «САПР» в преподавании дисциплины «Онтологический инжиниринг» для магистрантов направления «Информатика и вычислительная техника». Получено 2 акта о внедрении (использовании) результатов диссертационной работы.
Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на следующих конференциях и семинарах:
Материалы 63-й научно-технической конференции профессорско-преподавательского состава СПбГЭТУ. 2011.
Публикации. Основные теоретические и практические результаты диссертации опубликованы в 7 публикациях, включая 3 в изданиях, рекомендуемых ВАК, 3 статьи в международных журналах, 1 - материалы научно-технической конференции.
Структура и объем работы. Диссертационная работа состоит из введения, пяти глав, заключения и приложений. Основной текст изложен на 126 машинописных страницах с иллюстрациями. Список литературы включает 34 наименования.
Смысловая обработка текстов в полнотекстовых базах данных
Несмотря на широкое использование мультимедиа, текст остается одним из основных видов информации в большинстве электронных хранилищ. Разработка эффективных подходов к обработке текстов с целью фильтрации, формирования смыслового портрета, навигации по базе текстов и т.д. является одним из наиболее актуальных направлений современных информационных технологий.
Существующие подходы к анализу текстов можно разбить на два класса. К первому классу относятся простые, быстрые, не зависящие от языка и предметной области, но грубые механизмы анализа; чаще всего это подходы, использующие статистические методы. Второй класс формируют достаточно изощренные, дающие хороший результат, но сравнительно медленные подходы, зависящие от языка и предметной области; обычно они основаны на лингвистических методах. Эффективным можно считать такой подход, который сочетал бы в себе быстроту и независимость от языка алгоритмов первого класса с высоким качеством обработки второго.
Выбор метода анализа информации во многом определяет качество получаемых итоговых результатов и облегчает возможность принятия решения в реальных условиях [1]. Эта проблема особенно актуальна в экономических системах, системах управления, где правильно выбранные методы и алгоритмы анализа и обработки данных существенно определяют качество получаемого решения. Сейчас для обработки данных широко применяются компьютерные и информационные технологии. Задача выбора системы или процедуры анализа данных с помощью информационных технологий является многокритериальной и от правильного ее решения зависит качество результирующих показателей.
В настоящее время разработано множество технологий анализа информации. В данном обзоре представлены наиболее известные разработки как российских, так и зарубежных компаний.
Существует большое количество систем, разработанных в основном специалистами университетских центров и используемых для своих нужд. В данном обзоре они не описываются, так как принципы работы системы смыслового анализа текстов сходны и опираются на научный потенциал разработчиков, накопленный ранее.
В список также не включены системы анализа текстов, разработанные для больших поисковых серверов, таких как Google, Yahoo, Yandex, OZON, Rambler и т.д. В основном это комплексы, настроенные на работу в Интернете.
OLAP-технологии. Сегодня все больше организаций, в том числе и банков, используют в качестве инструмента анализа своей деятельности OLAP -технологии [1]. OLAP-технологии поддерживают различные аналитические приложения. Аналитические приложения позволяют собирать информацию, нацеленную на специфические проблемы бизнеса, сверять ее с данными из других источников, и составлять общую картину поведения клиентов, доходности производства по видам продукции, эффективности продвижения продукции, стратегического планирования, и т.д. Эта технология обеспечивает сбор и анализ информации, который невозможно осуществить с помощью традиционных систем интерактивного анализа, моделирования и планирования. OLAP-технологии Hyperion позволяют охватить все аспекты бизнеса, включая анализ производства, анализ управленческих решений, анализ электронного бизнеса, управление работой предприятия, анализ отношений с клиентами, анализ управления людскими ресурсами.
OLAP, использует многомерное представление совокупных данных, чтобы обеспечить быстрый доступ к стратегической информации для дальнейшего анализа. OLAP позволяет аналитикам, менеджерам, и исполнителям вникнуть в данные через быстрый, последовательный, диалоговый доступ к широкому разнообразию возможных видов информации. OLAP преобразовывает исходные данные так, чтобы это отразило реальное состояние предприятия в более понятном выражении для пользователя. OLAP - технология охватывают разнообразие организационных функций. Отделы Финансов используют OLAP для составления бюджета, финансового анализа работы предприятия, и финансового моделирования. Коммерческий анализ и прогноз - две из основных OLAP функции, найденных в коммерческих отделах. Среди других применений, отделы маркетинга используют OLAP для анализа рынка, прогноза продаж, анализа продвижений по службе, анализа клиента, и сегментации рынка.
Недостатки OLAP-технологий [9]: а) функциональность систем ограничивается возможностями SQL, так как аналитические запросы пользователя транслируются в SQL-операторы выборки; Ь) сложно пересчитывать агрегированные значения при изменениях начальных данных; с) сложно поддерживать таблицы агрегатов; d) сложно изменять измерения без повторной агрегации; с) снижение скорости обработки из-за вычислений по требованию; f) ограничение на объем данных; система автоматического анализа текста TextAnalyst разработана в качестве инструмента для анализа содержания текстов, смыслового поиска информации, формирования электронных архивов, и предоставляет пользователю следующие основные возможности [1,2]:
Недостатки: а) не имеет готового словаря русского языка; Ь) не применяет сколько-нибудь развитых лингвистических средств, например синтаксического и морфологического анализа; Oracle InterMedia Text. Одним из наиболее мощных продуктов, позволяющих реализовать поддержку полнотекстовых баз данных с доступом через интернет, является система InterMedia Text в составе СУБД Oracle8i [1, 3]. В InterMedia Text интеллектуальная обработка текста (тематическая классификация, аннотирование) сочетается с поисковыми возможностями, доступными при работе с реляционными базами данных. В частности, при написании приложений для обработки текста возможно использовать SQL с развитым языком запросов к полнотекстовой информации.
В основе технологий Oracle лежит использование семантического словаря английского языка - тезауруса, который содержит около полумиллиона слов, классифицированных по тематическим категориям и синонимическим рядам: для каждого слова установлены его синонимы, более общие и более частные понятия, а также "родственные" слова, часто имеющие с ним смысловую связь в тексте. Использование тезауруса в InterMedia Text может оказать помощь при контекстном поиске документа за счет расширения слов запроса различными видами близких по смыслу слов.
Наличие тезауруса также позволяет InterMedia проводить тематический анализ текста на английском языке. Относя каждое слово текста к соответствующим разделам тезауруса и учитывая частоту встречаемости слов, InterMedia Text может выделить несколько главных тем документа.
Классификация документов по темам может оказать большую помощь при поиске, например в случае, если пользователь затрудняется точно подобрать ключевые слова, или же, если он хочет сузить область поиска, уточнив тематику, по которой следует искать документы.
Поиск по теме обладает более высокой точностью и полнотой по сравнению с простым контекстным поиском. Так, если контекстный поиск находит все документы, содержащие заданные слова, то тематический поиск возвращает лишь те документы, в которых словам запроса соответствует одна из ключевых тем. Кроме того, он позволяет найти документы, вовсе не содержащие слов из названия заданной темы, однако имеющие к ней отношение.
Недостатки: а) большинство возможностей InterMedia оказывается доступно в полной мере лишь для английского языка и, в меньшей мере, еще для ряда европейских и восточно-азиатских языков; Ь) не задействует лингвистические технологии, которые зависят от лексики, грамматики и семантики языка; с) Fie устанавливает смысловые связи между темами;
Формализация представления данных
Диссертационная работа ориентирована на развитие систем управления электронными текстовыми архивами с целью внедрения новых технологий при организации полнотекстовых баз данных на основе массива текстов корпоративных электронных архивов и, соответственно, развития методик извлечения знаний на основе смыслового анализа текстов.
Самостоятельным разделом настоящей работы является разработка системы для структуризации числовой информации, которая рассчитывается при подготовке полнотекстовой базы данных к применению алгоритмов смыслового анализа текстов. Данная система является независимым программно-техническим продуктом и может использоваться в различных областях знаний, в частности, развитые технологии структуризации позволяют применять ее специалистам различных организации при создании естественно-тематического классификатора текстов в системе управления электронными архивами.
Мы будем рассматривать только текстовые информационные ресурсы электронных архивов. Это могут быть, например, электронные тексты, накапливаемые в компании как результат технологических процессов, например, сканирования текстов или создания электронного проблемно-ориентированного фонда ретроспективных и текстовых документов.
В целом, разрабатываемая в ходе диссертационной работы система предназначена для работы с набором текстовых файлов и должна позволить в оперативном режиме установить среди этого набора группы тяготеющих друг к другу файлов. Причем, критерий, по которому определяется величина "притяжения ", выбирается в диалоговом режиме на основании личного опыта и предпочтений пользователя или Эксперта.
Предлагаемая автоматизированная система смыслового анализа текстов имеет дело в общем случае с потоком текстовой информации. Для работы системы необходимо и достаточно иметь базу данных текстовых документов. Результатом работы системы является структуризация (классификация) текстов. Как следствие могут быть получены следующие результаты - словари, которые характеризуют данную группу, тексты-образцы для группы как смысловые ядра, числовые характеристики и диаграммы, описывающие взаиморасположение выбранных текстов в некотором тематическом пространстве, которое определяется пользователем системы, фрагменты текстов (автореферат) и наборы фрагментов текстов выбранные по заданным критериям, формирование гипертекста, смысловой поиск и т.д.
При создании больших баз данных естественным образом поднимается вопрос не только о быстром информационном поиске, но также об интеллектуальном смысловом поиске - извлечении знаний из найденной информации и анализе с целью накопления опыта. Здесь необходимо еще раз подчеркнуть разницу между информационным поиском и смысловым анализом найденных текстов. Информационный поиск - это поиск источника для дальнейшего использования, смысловой поиск, в рассматриваемом далее смысле - это часть задачи экспертного анализа для выработки или подтверждения некоторой гипотезы. Для информационного поиска вполне достаточно иметь электронный каталог с его подробными вторичными описаниями документов. Для смыслового анализа применяются алгоритмы извлечения из массива информации скрытого знания [10, 11, 12]. Какие задачи могут решаться с помощью предлагаемой системы? Основными применяемыми алгоритмами служат классификация, типизация, фрагментация, реферирование текстов и формирование гипертекста. Смысловой анализ текстов может быть сведен в рамках статистической теории вероятностей к задаче выдвижения некоторой гипотезы и оценки значимости этой гипотезы в рамках существующего материала. Иначе говоря, данная работа претендует на обоснование того факта, что какая бы задача по извлечению знаний не ставилась, разработанный метод анализа текстов позволит найти некие формы, модели представления данных, которые удовлетворяют заранее заданному критерию правдоподобия. Одновременно система нуждается в опыте и знаниях самого пользователя, то есть результат, строго говоря, неоднозначен и зависит от профессионального уровня подготовки пользователя. Почему так получается, будет ясно из дальнейшего изложения, здесь достаточно сказать что в таком виде проявляется факт не формальности задачи. С одной стороны есть мнение конкретного человека, а с другой накопленный опыт в виде различных текстов. И на то, каким образом соотносятся между собой эти тексты и фрагменты текстов, влияет личность того, кто эти тексты читает. Поэтому основой работы системы является человеко-машинный диалог, в котором предлагаются различные математические методы обработки данных и результаты либо принимаются, либо отвергаются самим пользователем на основании собственного опыта.
Задача системы автоматизированного смыслового анализа текстов разбивается на две части - подготовка базы данных к использованию алгоритмов смыслового анализа и разработка интерфейса для использования этих алгоритмов пользователями. Вторая часть задачи может быть решена в виде дополнительного поискового сервиса, но лучше всего эта задача решается как специальный Интернет-сервис. Об этом будет рассказано в последней главе диссертации.
Подготовка базы данных к применению алгоритмов смыслового анализа заключается, прежде всего, в индексации всех слов из внешних текстов. Технология извлечения слов из текстов может рассматриваться как стандартная процедура подготовки словаря базы данных.
Далее происходит формализация задачи смыслового анализа текстов. То есть задача сводится к математическому оперированию над числовыми матрицами вида объект-атрибут. Для получения таких числовых матриц используется статистический анализ частоты словоупотреблений в текстах. При этом программа опирается на заранее созданный частотный ряд абсолютных частот для слов естественного языка. Методика создания этого ряда и оценка достоверности описываются ниже в отдельном разделе.
После формализации задачи, перехода от набора слов к цифровым матрицам, применяются специально разработанные алгоритмы решения неформальных эвристических (с участием человека) проблем. Результатом этой работы является набор словарей (списки слов), которые рассматриваются как естественный классификатор накопленной текстовой информации. Смысловой анализ текстов опирается на эти словари, их принято называть предметно-ориентированные словари. Таким образом, подготовка базы данных разбивается на три этапа: индексация, формализация и классификация. Далее будет подробно описан каждый этап. Индексация слов включает в себя процедуру выделения слов, отсечения окончаний и создание ссылки словаря. При этом слово проходит проверку по стоп словарю. Будем считать, что все тексты написаны на естественном языке, принятом в научном сообществе, в данной предметной области. Так как для смыслового анализа используются среднестатистические методы выделения слов, неординарное применение слова не позволит его использовать, так как на общем фоне такие события будут редки. Однако, в научных статьях принято все же использовать формальный технический язык, легко подвергающийся синхронному переводу и понятный специалистам данной области. Этот факт следствие межнациональных связей в науке сегодняшнего дня. Язык всех текстов считается либо русский, либо английский, либо персидский. Для того, чтобы использовать систему с другими языками необходимо иметь частотный ряд для данного языка. Методика подготовки такого ряда для русского и персидского языков описана ниже.
Семантическая сеть понятия «местоименное»
SemTextProcessor может автоматически создавать реферат, который, в составе наиболее значимых предложений текста, позволяет осуществить первичное и быстрое знакомство с текстом.
В данной главе представлены различные аспекты (семантические сети, таксономии, фреймы, правила логики первого порядка) представления знаний, используемых в системе смысловой обработки текстов SemTextProcessor. Представлены логические правила смыслового анализа текстов, которые будут раскрыты полностью в следующей главе в виде конкретных алгоритмов.
В настоящей главе подробно описываются алгоритмы и методы смысловой обработки текстов на естественном языке. Разбирается метод взвешивания термов, метод взвешивания отношений, алгоритм формирования семантической сети текста, алгоритм определения пересечения семантических сетей (онтологии), метод вычисления степени пересечения онтологии, алгоритм классификации текстов, алгоритм кластеризации текстов, алгоритм смыслового поиска по запросу, алгоритм реферирования текстов и другие вещи.
Онтологией (О) называется краткое описание структуры предметной области (ПрО), которое включает в себя термины (Т), обозначающие объекты и понятия ПрО, отношения (R) между терминами и определения (D) этих понятий и отношений:
В графическом представлении онтология имеет вид сети, вершины которой обозначены терминами и отношениями ПрО, а ребра указывают на связи между ними. Начальная вершина, которая содержит название ПрО, связана отношением «целое-часть» с вершинами следующего уровня, которые представляют собой базовые категории данной ПрО. Каждая категория связана с вершинами следующего уровня (понятиями) своими отношениями и т.д.
Источником знаний, которые нужно отобразить в онтологии, является эксперт в данной прикладной области, которого нужно лишь освободить от программистской работы.
Онтологии содержат семантические сети, таксономии и фреймы. В определиях (D) указаны явное описание всех терминов (понятий) и отношений, а также все аксиомы предметной области.
Онтология естественного языка (ЕЯ) полностью описывается семантическими сетями, таксономиями и фреймами из главы 3. Фреймы и их слоты представляют классы и их свойства в ПрО. Таксономии задают иерархические структуры в ПрО. Семантические сети представляют важные понятия ПрО и все возможные отношения между ними. множество отношений, введённых как множества кортежей объектов, и функций как особой разновидности отношений, I - множество индивидов (экземпляров классов), А - утверждения, определяющие классы и отношения. Определения включают вербальные описания объектов и все аксиомы предметной области.
Целый класс современных формальных онтологических моделей основан на всевозможных видах дескрипционных логик. Это семейство логических формализмов, прекрасно подходящих для представления терминологических знаний и онтологии, а также логического вывода в них. Они характеризуются набором конструкций, которые позволяют создавать сложные понятия и отношения из простых и при этом оставляют возможность автоматического логического вывода для решения определённых задач. Онтологии в моделях, основанных на дескрипционной логике, составляют кортеж С, R, Не, HR, І, А , где С - множество классов, R: СхС -множество свойств (отношений) классов, Не: СхС - иерархия классов, HR: RXR -иерархия отношений, I - множество индивидов, А - множество аксиом над классами и ограничений отношений. В некоторых моделях могут отсутствовать HR И/ИЛИ І, а А составляют только конструкции определённых видов, предусмотренные в данной модели. Нужно заметить, что вся лингвистическая информация (лингвистические знания) полностью отражена в онтологии ЕЯ. Это значит, что при смысловой обработке текстов на естественном языке, после графематического анализа (разбиение текста на абзацы, предложения, слова), можно сразу получить всю необходимую лингвистическую информацию о каждом слове или словосочетании из текста, включая его тезаурусальную информацию (синонимия, антонимия и т.д.), его толькование по доменам (различным предметным областям), его части речи (существительное, глагол, артикль, причастие, междометие и т.д.) и т.д. Морфологический, синтаксический и семантический анализ условно выполняются в виде запросов извлечения знаний из онтологии, что намного увеличит простоту и скорость лингвистического анализа.
Интерпретация текста набором формальных утверждений, записываемых на предварительно строго определенном формальном метаязыке, является одной из центральных и не решенных в настоящее время задач автоматического анализа текста. Многообразие требований, предъявляемых к такому метаязыку со стороны различных приложений, делает практически невозможным его создание в законченном, раз и навсегда фиксированном виде. Но можно попытаться использовать в качестве метаязыка строго формализованную систему стандартных правил определения средств описания семантики текста для нужд конкретных приложений. Примером такого подхода, но для формирования описаний семантики данных во всемирной семантической паутине (Semantic Web) является предложенная W3C Консорциумом система формальных языков RDF/OWL [22, 23]. Опора на хорошо исследованную математическую модель (дескриптивные логики), наличие доступной и тщательно разработанной документации, имеющаяся уже в настоящее время программная поддержка (редакторы баз знаний, связи с языком программирования и современными базами данных) делают эту систему языков привлекательной и для экспериментов, нацеленных на получение формальной интерпретации текста.
Целесообразность интерпретации текста семантической сетью отношений между сущностями, упоминаемыми в тексте, стала общепризнанным фактом [8]. Сеть текста строится на основе описаний лексики языка, получаемых из семантического словаря (лексикона). Согласование описаний лексики в лексиконе с представлением семантических сетей текстов, формируемых на основе этих описаний, создание единой семантической основы, в терминах которой описываются как лексика языка, так и семантические сети текстов, написанных на этом языке - это задача, без решения которой говорить об автоматической интерпретации текстов просто не приходится.
В данной работе любой текст на ЕЯ интерпретируется онтологией текста (см. рисунок 3.2), которая содержит всю таксономию текста; отношения между сущностями, упоминаемыми в этом тексте; а также дополнительная лингвистическая (грамматическая информация, их тип сопряжения и т.д.) и семантическая (тезаурусальная информация, толкования сущностей и т.д.) информация, извлекаемая из онтологии ЕЯ. В таблице 4.1. представлены примеры отношений, которые могут быть между сущностями, упоминаемыми в тексте
Взвешивание отношений в семантической сети (онтологии) текста
Онтологический подход к компьютерному представлению информации уже сейчас имеет некоторые вполне законченные прикладные применения в самых разнообразных областях. Не менее важны и перспективные теоретические разработки, направленные на обеспечение семантически корректного поиска в документах (включая подбор информации сетевыми агентами) и автоматическое формирование онтологии по имеющимся ресурсам. Также сейчас на основе этого подхода специалисты осуществляют такие процессы как: Data mining - процесс обнаружения значимых зависимостей и тенденций в результате интеллектуального анализа содержимого хранилищ и баз данных. Text mining - совокупность технологий извлечения знаний из документов на естественных языках и их представления в необходимой пользователю форме. Контент анализ - методика объективного качественного анализа содержимого информационных ресурсов.
Будучи своеобразным общим словарем понятий, онтологии (см. ниже) существенно облегчают взаимопонимание людей при совместном использовании информации. К тому же представление данных в форме онтологии не просто обеспечивает возможность их автоматической обработки, но и позволяет людям наиболее наглядно и отчетливо сформулировать свои знания по выбранной тематике. Последнее обстоятельство с точки зрения образования представляет огромный интерес. Обучение, являясь процессом целенаправленной передачи знаний, вообще может служить весьма естественной областью для использования онтологии. В частности, от успехов в структурировании знаний и представлении их в машинном виде во многом зависит построение эффективных автоматизированных обучающих систем [21].
Онтологии Protege состоят из классов, слотов, фацетов и экземпляров [29, 30, 31]. Классы (classes) описывают отдельные понятия предметной области, а экземпляры класса (instances) представляют собой конкретные примеры реализации объектов данного класса. Слоты (slots) - свойства и атрибуты, применяются как классам, так и их экземплярам. Ограничения на слоты называются Фацетами (Facets). Например, в качестве классов учебного материала можно предложить выделить понятие или закон. Характерным слотом понятия может служить его определение, а для закона стоит предусмотреть слот для записи его математического выражения. Экземплярами понятия могут являться электрический ток или заряд, а законов - закон Ома или закон Джоуля-Ленца. Заметим, что в Protege между перечисленными категориями существуют строго определенные связи.
От класса могут быть порождены новые классы, а также конкретные экземпляры этого класса (некоторые классы, имеющие статус абстрактных, не допускают порождения экземпляров). Экземпляры являются конечными узлами иерархии, т.е. принципиально не могут иметь наследников. Существует (и в Protege поддерживается) множественное наследование классов, когда класс происходит от нескольких родительских классов и при этом наследует все их слоты [29, 30, 31]. В отличие от классов, экземпляр обязательно порождается от одного класса.
Слоты самостоятельны и напрямую не принадлежат какому-либо классу или экземпляру (это в принципе позволяет использовать один и тот же слот в разных ветвях иерархии). Они бывают двух типов - собственные слоты (own slots) и слоты шаблона (template slots). Первые являются собственностью данного класса или экземпляра и могут иметь индивидуальное значение. Вторыми может обладать только класс, причем все слоты шаблона передаются по наследству. Слоты шаблона по своей сути не могут иметь значений, пока не будут переданы конкретному экземпляру, где они, став собственными его слотами, приобретут свойство быть заполненными. Слоты могут дополняться только к классу, а экземпляры классов лишь способны их наследовать. Слоты могут иметь различные фацеты, которые описывают тип значения, разрешенные значения, число значений (мощность) и другие свойства значений, которые может принимать слот [29, 30, 31].
Опишем несколько общих фацетов для слота [29, 30, 31]. Мощность слота
Мощность слота определяет, сколько значений может иметь слот. В некоторых системах различаются только единичная мощность (возможно только одно значение) и множественная мощность (возможно, любое число значений). Другие системы позволяют определить минимальную и максимальную мощность для того, чтобы более точно описать количество значений слота. Минимальная мощность N означает, что слот должен иметь не менее N значений. Максимальная мощность М означает, что слот может иметь максимум М значений. Иногда полезно установить максимальную мощность в 0. Эта установка будет означать, что для определенного подкласса слот не может иметь значений. Тип значения слота
Разрешенные классы для слотов типа Экземпляр часто называют диапазоном значений слота. Некоторые системы позволяют ограничить диапазон значений слота, если слот привязан к определенному классу.
Классы, к которым слот привязан, или классы, свойство которых слот описывает, называются доменом слота.
С каждым классом жестко связана интерфейсная форма (form), применяя которую пользователь будет заносить необходимые значения в слоты. Формы легко редактируются, что позволяет придавать им удобный для ввода вид.
Protege разделено на две части: модельную часть и представления. Модель Protege -механизм внутреннего представления онтологии и баз знаний. Компонент представления Protege предоставляет пользовательский интерфейс для отображения и обработки нижележащего уровня.
Модель Protege основана на простой, гибкой метамодели, сопоставимой с объектно-ориентированными и фреймовыми системами. Для запросов и обработки моделей Protege предоставляет открытый Java API. Метамодель Protege сама является онтологией, что позволяет достаточно просто расширять ее, например, для обработки UML и OWL. Поддержка OWL реализуется с помощью специального плагина над Protege, который поддерживает RDFS, OWL Lite, OWL DL и часть OWL Full. OWL плагин расширяет модель Protege и предоставляет расширенный Java API для доступа и обработки OWL онтологии. В то время как основной API предоставляет доступ к классам, свойствам и элементам классов онтологии, OWL плагин расширяет этот API Java классами, специально созданными для различных типов классов OWL. Этот API инкапсулирует внутренние преобразования и таким образом защищает пользователя от подверженного ошибкам низкоуровневого доступа. Данный API можно расширить, определив специальные классы для расширений OWL, например, SWRL.
OWL плагин предоставляет полное соответствие между его расширенным API и стандартной библиотекой разбора OWL Jena. После того как онтология была загружена в Jena модель, OWL плагин генерирует соответствующие объекты Protege. Затем система все время хранит модель Jena в памяти и синхронизирует ее со всеми изменениями, произведенными пользователями. Таким образом, когда пользователь создает класс Protege, в то же время создается класс Jena с таким же именем. Наличие вторичного представления онтологии в терминах Jena объектов означает, что пользователь постоянно может вызвать произвольные основанные на Jena услуги, такие как интерфейсы классификаторов, языков запросов или средства визуализации. Соответствие Jena также облегчает встраивание существующих и будущих сервисов семантического web в OWL плагин [21].
Оба средства, Protege и TopBraid Composer, используют Jena [32] - открытую Java среду для создания приложений семантического web. Среда Jena предоставляет программное окружение для RDF, RDFS, OWL и SPARQL, а также включает основанный на правилах движок логического вывода. Она включает RDF и OWL API, чтение и запись RDF в форматах RDF/XML, N3 и Nriples, хранение в памяти и в базах данных, а также движок запросов SPARQL.
Похожие диссертации на Исследование и разработка автоматизированной системы смысловой обработки текстов в системе управления электронными архивами
-
-
-
-
-
-
-
-
-
-