Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методы и программные средства для анализа документов на основе модели предметной области Сидорова Елена Анатольевна

Методы и программные средства для анализа документов на основе модели предметной области
<
Методы и программные средства для анализа документов на основе модели предметной области Методы и программные средства для анализа документов на основе модели предметной области Методы и программные средства для анализа документов на основе модели предметной области Методы и программные средства для анализа документов на основе модели предметной области Методы и программные средства для анализа документов на основе модели предметной области Методы и программные средства для анализа документов на основе модели предметной области Методы и программные средства для анализа документов на основе модели предметной области Методы и программные средства для анализа документов на основе модели предметной области Методы и программные средства для анализа документов на основе модели предметной области Методы и программные средства для анализа документов на основе модели предметной области Методы и программные средства для анализа документов на основе модели предметной области Методы и программные средства для анализа документов на основе модели предметной области
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Сидорова Елена Анатольевна. Методы и программные средства для анализа документов на основе модели предметной области : дис. ... канд. физ.-мат. наук : 05.13.11 Новосибирск, 2006 125 с. РГБ ОД, 61:07-1/336

Содержание к диссертации

Введение

1 Обзор подходов к анализу текстов 9

1.1 Развитие информационного сервиса 9

1.2 Классы задач 12

1.3 Подходы к анализу текстов 14

1.4 Системы анализа текстов 17

2 Представление знаний 24

2.1 Онтология 24

2.1.1 Понятие онтологии 24

2.1.2 Определение онтологии 25

2.1.3 Назначение онтологии 27

2.2 Модель информационного пространства системы 28

2.2.1 Информационный объект: структура, контекст, контент 28

2.2.2 Определение информационною пространства системы 29

2.2.3 Текстовый ресурс 30

2.3 Лингвистическая база знаний 30

2.3.1 Формальное представление структуры текста 31

2.3.1.1 Сегмент 31

2.3.1.2 Модель документа 33

2.3.2 Словарь 36

2.3.2.1 Представіение словарной статьи 37

2.3.2.2 Морфоюгические типы словаря лексем 41

2.3.2.3 Иерархия классов словаря 42

2.3.2.4 Тезаурус 42

2.3.3 Описание фактов 43

2.3.3.1 Семантические ограничения 43

2.3.3.2 Структурные ограничения 46

2.3.3.3 Схема факта 47

2.3.3.4 Типизация схем фактов 49

2.4 Особенности представления знаний 50

3 Технология извлечения информации 52

3.1 Словарный компонент 53

3.1.1 Архитектура модуля словаря 54

3.1.2 Сборка словокомплексов 56

3.1.3 Модули автоматизированной настройки словаря 57

3.1.3.1 Общая схема обучения 57

3.1.3.2 Модуль классификации 58

3.1.3.3 Тематизация 58

3.1.3.4 Вьіявіение стоп-терминов 60

3.2 Конструктор онтологии 60

3.3 Конструкюр схем фактов 62

3.3.1 Методология создания схем фактов 63

3.3.2 Формирование внутреннего представления схем фактов 64

3.3.2.1 Обеспечение корректности и сходимости 64

3.3.2.2 Планирование 65

3.4 Фактографический анализ текста 67

3.4.1 Сегментация текста 67

3.4.2 Сборка фактов 68

3.4.2.1 Удовіетворение структурным ограничениям 70

3.4.2.2 Удовлетворение семантическим ограничениям 75

3.4.3 Формирование контента текстового ресурса 77

3.4.3.1 Идентификация объектов 78

3.4.3.2 Контроль корректности данных 81

3.5 Поддержка актуальности данных 82

4 Реализация и практические приложения 85

4.1 Особенности программной реализации 85

4.1.1 Архитектура системы анализа документов 85

4.1.2 Словарный компонент 87

4.1.2.1 Система классов 87

4.1.2.2 Пользовательский интерфейс 88

4.1.3 Модуль анализа документов 89

4.1.4 Качество работы системы анализа 90

4.2 Практические приложения технологии 91

4.2.1 InDoc 92

4.2.1.1 Модель делового письма 94

4.2.1.2 Система знаний InDoc 94

4.2.1.3 Общая схема анализа InDoc 99

4.2.2 Портал знаний по археологии и этнографии 100

4.2.2.1 Система знаний портала 101

4.2.2.2 Техно югия сбора онтологической информации о ресурсах 102

4.2.2.3 Индексирование новостных сообщений 102

4.2.2.4 Индексирование научных статей 105

Заключение

Введение к работе

Во многих областях человеческой деятельности на текущий момент накоплены большие объемы знаний и данных. Рост информационных потоков, связанных с деловой активностью человека, требует внедрения автоматизированных методов и систем хранения и обработки данных. В связи с этим, новые и накопленные ранее документы переводятся в электронный формат и хранятся в различных архивах и банках данных.

Однако доступ к этой информации значительно затруднен, так как большинство ее источников являются текстовыми документами, а большинство информационных систем (ИнС) не обеспечивают полноценной работы с такими документами. Хотя современные ИнС и обеспечивают поиск документов по ключевым словам и даже выполняют тематическую рубрикацию документов, но в любом случае, пользователь имеет доступ только к тексту документов, а не к основным смысловым фрагментам, содержащимся в них. Этого оказывается недостаточно для современных корпоративных информационных систем: во-первых, в постоянно разрастающемся архиве становится трудно (практически невозможно) найти нужную информацию; во-вторых, данные часто дублируются и противоречат друг другу.

Большой объем накопленной информации и высокая скорость поступления новой предъявляют все более жесткие требования к современным информационным системам. Современная ИнС должна быть способна решать весь комплекс задач, связанных с хранением и управлением потоком входящих «сырых данных», таких как автоматическая классификация и автоматическое содержательное индексирование текстов, оперативное и адекватное распределение новой информации среди пользователей, передача и хранение данных в электронном архиве и последующий поиск в нем по содержанию, обеспечение минимальной избыточности информации.

Важным аспектом, который нужно учитывать при разработке информационных систем, является требование настраиваемое™ в процессе эксплуатации. Невыполнение этого требования может привести к тому, что система с течением времени перестанет выполнять свои функции из-за изменений в структуре предметной области или спектре требований к системе, которые неизбежно ведут к изменению системы понятий, тематики документов и соответствующих условий их классификации, индексации и адресации.

Для решения этих проблем необходим переход на новый качественный уровень при обработке информации - необходимо вести обработку на семантическом уровне, т.е. учитывать смысл или содержание документов. За последние несколько лет это направление в информационных технологиях получило широкое развитие. Созданные на основе семантических гехнолоіий ИнС отличаются от традиционных тем, что используют явно выраженные (в виде онтологии) знания о предметной области. Часто онтология является не только основой для представления информации пользователям, ее хранения и поиска, но и для автоматической обработки поступающей текстовой информации.

Онтологический подход стал активно развиваться с начала 90-х годов [58]. Понятие онтологии можно считать логическим развитием понятия сетевых моделей представления знаний, таких как семантические сети или системы фреймов. Существует множество различных определений онтологии [92,97]. Общим для всех существующих определений является понимание онтологии как модели представления знаний какой-либо предметной области в виде набора понятий этой предметной области и существующих между ними отношений. Причем особое внимания уделяется отношениям «часть-целое», «класс-подкласс» и т.п., упорядочивающих понятия предметной области в иерархию. Именно концентрация на создании таксономии по заранее известным отношениям отличает онтологию от других сетевых моделей [34]. Это позволяет создавать программы, которые бы учитывали семантику этих отношений.

Применение онтологии является одним из наиболее перспективных направлений исследований, поскольку позволяет формализовать и унифицировать операции обработки информации для повышения качества различных информационных услуг и сервисов. В работе проводится исследование одной из наиболее востребованных услуг - информационного наполнения системы.

До сих пор задача анализа текста на естественном языке рассматривалась многими исследователями независимо от той обстановки, где се результаты планировалось использовать. Применяемые подходы либо никак не учитывают способ и форму хранения полученных результатов анализа в ИнС (например, классические лингвистические исследования Леонтьевой Н.Н. [56,57] по анализу текстов и построению семантических словарей или Мельчука И.А. [60] по теории «Смысл-Текст»), либо, наоборот, строго привязаны к узким целям поставленной задачи и форме результата (например, при извлечении информации о персонах и организациях [38,42], что часто встречается в задачах компьютерной разведки). Классические подходы к семантическому анализу текста используют формальную модель языка и с "большим трудом" переходят к модели предметной области, что не позволяет им естественным образом внедряться в ИнС с заданной предметной областью и удовлетворять поставленным перед такими системами требованиям. В отличие от работ, связанных с задачей полного извлечения смысла или извлечения всей информации из текстов документа, для большинства ИнС нет необходимости делать полный семантический анализ всего связанного текста. ИнС, построенные на основе онтологии, естественным образом задают как формат содержания тою, что требуется извлечь из текста документа (или любого текстового ресурса), так и формат хранения результата в базе данных системы в виде семантической сети объектов, являющихся экземплярами понятий и отношений, заданных моделью предметной области.

В связи с этим особую актуальность приобретает разработка технологии анализа текста в контексте ее применения в различных информационных системах [70] (в частности, для корпоративных систем документооборота или специализированных порталов знаний). Ориентация технологии на деловую и научную лексику является вполне обоснованным решением, позволяющим эффективно применить семантически-ориентированные методы к решению задачи анализа текста на естественном языке.

Создание инструментальных средств - средств настройки онтологии, тезауруса и схем фактов, описывающих способы естественно-языкового выражения понятий и отношений в тексте, - дает возможность обеспечивать содержательную обработку текста документов без специальных навыков программирования непосредственным носителям знаний - экспертам и лингвистам.

Предмеюм исследования данной работы являются способы описания лингвистических знаний в информационных системах, а также методы автоматического извлечения данных из текстовых документов.

Цель исследовании. Целью диссертационной работы является разработка способов описания лингвистических знаний и представления содержания документов в информационных системах, а также методов и инструментальных средств содержательного анализа текста на естественном языке.

Работа выполняется в рамках проекта по созданию технологии конструирования ИнС и направлена на автоматизацию наполнения различных ИнС данными, полученными в результате анализа содержания документов, поступающими в систему, либо в виде коллекции архивных документов, либо при регулярном оперативном поиске в сети Интернет. Технология должна включать средства описания предметной области и настройки лингвистической базы знаний.

Для достижения поставленной цели в диссертации последовательно решены следующие задачи исследования:

1. определены требования, предъявляемые к технологиям автоматической обработки текста на естественном языке в современных информационных системах;

2. создана лингвистическая модель описания фактов как способа естественно-языкового выражения в тексте понятий и отношений, которые представляют контент документа в информационной системе;

3. разработана технология конструирования лишвистической базы знаний, реализующая предложенную модель;

4. разработаны методы содержательного анализа документов, использующие предложенную модель;

5. реализованы инструментальные средства, предназначенные для автоматического извлечения фактов из текста и формирования контента документа в информационной системе;

6. апробированы компоненты предложенной технологии в реально функционирующих информационных системах.

Методы исследования. В диссертационном исследовании были использованы модели и методы искусственного интеллекта, компьютерной лингвистики, теории множеств, онтологический анализ, метод экспертных оценок, методы объектно-ориентированного проектирования и программирования.

Основными теоретическими результатами работы, выносимыми на защиту и определяющими научную новизну работы, являются:

- модель представления лингвистических знаний, включая описание фактов, для задачи автоматического анализа документов в ограниченной предметной области;

- методы семантическою анализа документа по деловой или научной тематике;

- способ представления контента документа в информационном пространстве системы.

Разработанная технология может быть применена как при создании новых информационных систем, так и при модернизации уже существующих. Программные компоненты, созданные на базе предложенной модели и методов, были апробированы при разработке ряда информационных систем. Анализ опыта внедрения демонстрирует ею достаточную эффективность, что характеризует практическую значимость работы.

НЛ ЗАЩИТУ ВЫНОСЯТСЯ следующие положения:

1. Модель лингвистической базы знаний, включающая предметный словарь, модель документа и модель описания фактов.

2. Технология конструирования лингвистической базы знаний, реализующая предложенную модель.

3. Методы, реализующие поэтапный анализ текста документов на основе предложенной модели лингвистической базы знаний;

4. Проблемно-ориентированная программная оболочка, предназначенная для конструирования лингвистической базы знаний, и инструментальные средства, использующие построенную базу знаний для автоматическою извлечения фактов из іекста и формирования контента документа в информационной системе.

Апробация. Основные выводы и научные результаты диссертационной работы докладывались на международных конференциях по компьютерной лингвистике и интеллектуальным технологиям «Диалог» в 2002, 2003, 2005 и 2006 гг., на международной конференции "Проблемы управления и моделирования в сложных системах" в 2003 г., на национальных конференциях но искусственному интеллекту в 2002 и 2004 і г., на международных конференциях по интеллектуальному анализу информации в 2005 и 2006 гг.; печатались в журналах и сборниках: «Искусственный интеллект», №4, Киев, 2004; «Информационные технологии» № 11, 2004; «Молодая информатика: Сборник научных трудов аспирантов и молодых ученых», ИСИ СО РАН, 2005; «Информационные технологии в гуманитарных исследованиях» в 2005 г.

По теме диссертации автором опубликовано 24 работы.

Структура и объем

Диссертационная работа состоит из 4 глав, введения, заключения, списка литературы содержащего 100 наименований. Общий объем работы составляет 120 страниц текста, включающего 2 приложения.

Благодарности (коллектив)

Результаты, выносимые на защиту в данной диссертационной работе, не были бы получены без слаженной работы всего научного коллектива, в котором работал автор. Созданию технологии содержательною анализа предшествовала работа над проектом InDoc [2-6], а также дальнейшее развитие основных идей в проектах, связанных с созданием технологии конструирования информационных систем [9-10,17-20]. В разное время в указанных проектах принимали активное участие следующие специалисты:

Ю.А. Загорулько (руководитель проекта),

А.С. Нариньяни (научный руководитель проекта),

И.С. Кононенко (лингвист),

О.А. Андреева,

Ю.В. Костов,

А.С. Цецохо,

О. И. Боровикова,

СВ. Булгаков.

Всем участникам проекта автор выражает большую блаї одарность.

Подходы к анализу текстов

Несмотря на обилие научной и технической литературы, посвященной описанию лингвистических моделей и созданию на их основе лингвистических процессоров, от узкоспециализированных до универсальных, в настоящее время практически не существует эффективных реализаций, способных на должном уровне решать задачу анализа текста. Формальные модели и их программные динамические реализации не способны охватить всю сложность и многообразие языковой системы. Применение формализма для структурирования текста зачастую приводит к потере правильного синтаксического представления предложений или комбинаторному взрыву, когда программа оказывается не в состоянии просчитать все возможные варианты сгруктур. Лингвистически мотивированные причины такого "провала" - явление омонимии, расстояние в тексте между связанными словами, сочинительные конструкции и другие виды эллипсиса, нарушающие дрсвесность графа, а также сложность сегментной структуры предложения.

Под лингвистическим процессором понимается сумма автоматизированных средств переработки текстовой информации на естественном языке, в том числе и не рассчитанных на работу с естественным языком (ЕЯ) в полном объеме [25]. Эффективность таких процессоров, включающих полный или ограниченный анализ морфологии, синтаксиса и семантики, может быть достигнута за счет существенных ограничений либо на язык, либо на проблемную область, либо на обе эги составляющие. Системы обработки информации, основанные на таких моделях, наиболее полно учитывают специфику классов задач, на решение которых они ориентированы.

В современных исследованиях по компьютерной лингвистике имеет место определенная поляризация. С одной стороны, разработаны очень простые грамматические модели, т.е. различного рода грамматики с конечным числом состояний, которые поддерживают высокую эффективность обработки текста [83]. Некоторые подходы вообще отказываются от грамматик и используют статистические методы для основных лингвистических шаблонов [27,46,47]. С другой стороны, разработан и активно используется целый ряд мощных и лингвистически сложных формализмов.

М.Г. Мальковский в [59] выделяет три основных подхода к анализу текста на ЕЯ: лингвистический, экспериментальный и прагматический.

Лингвистический подход использует максимально полные модели языка, которые, с одной стороны, должны охватывать максимальное количество языковых средств, используемых в выбранных проблемных областях, с другой стороны -учитывать различные явления и особенности ЕЯ.

Подход основан на утверждении, что язык есть врожденная компонента человеческого мышления, которая может быть представлена в виде абстрактной модели на метаязыке формальной грамматики и не зависит от способов использования языка [76]. Исследования в формальной лингвистике можно условно разделить на два подхода: построение универсальной грамматики, верной для всех существующих языков мира, и построение формальной модели, наиболее полно охватывающей все множество грамматических явлений конкретною языка. Н. Хомский стал родоначальником первого подхода и основателем школы генеративистов [28,79], самым ярким представителем второго подхода является И. Мельчук, автор модели "Смысл - Текст" [60].

Однако многие лингвистические описания не ориентированы на непосредственную машинную реализацию, т.к. авторы зачастую явно или неявно апеллируют к языковой интуиции человека, носителя описываемого языка, опуская ряд «очевидных» деталей, чрезвычайно существенных при автоматической обработке текста.

Попытка смоделировать понимание человеком семантически связанных текстов привела к постановке вопроса о семантических структурах в языке и об уровнях, на которых описываются значения слов, и построению экспериментальных систем обработки ЕЯ-текстов.

Экспериментальный подход характеризуется стремлением построить реально функционирующую эффективную систему за счет сокращения проблемной области и языка текста с целью глубокого проникновения в содержание ЕЯ-текста и рассматриваемого контекста. Существующие экспериментальные системы обработки ЕЯ-текстов используют следующие структуры и модели: описания семантических падежей, семантических ролей, определяющих роли участников ситуации, управляемых предикатом [33,77]; модели «семантик предпочтения» [67J, рассматривающие смысл предложения не просто как список значений слов с соответствующей синтаксической структурой, но и выделяющие структурированную форму сообщения, выражающую смысл предложения; модель концептуальной зависимости [82], предназначенную по замыслу авторов для описания модели мышления человека и характеризующуюся преобладанием роли семантики и, практически, отсутствием привычных представлений синтаксиса и морфологии. В этих системах главная роль при построении семантических структур отводится глаюлам и рассматриваются семантические категории субъектов и объектов действий. Это позволяет распознавать картину вида: кто, что делает, по отношению к кому, с кем, когда, где и т.д. Такая обработка текста, основанная на упрощенной модели языка, позволяет игнорировать сложности синтаксиса и создает хорошие предпосылки построения достаточно быстрых анализаторов текста.

Прагматические системы создаются для решения конкретного круга задач в узкой проблемной области и достигают высокой эффективности за счет ограниченности проблемной области, однозначности контекста и примитивности языкового интерфейса. При этом прагматика или нацеленность на результат, проявляется в процессе эксплуатации готовой системы пользователем. Лингвистическая модель, строю ориентированная на прагматику системы, объединяет всех участников вокруг целевой обработки текста. Под участниками подразумеваются все привлекаемые ресурсы и субъекты, включая обрабатываемый текст на ЕЯ, пользователя, нелингвистические блоки системы, проблемную область, контекст и т.п.

Авторы [37] замечают, что принцип целенаправленного (goaloriented) анализа может с успехом использоваться в общей лингвистической теории, в которой семантика ЕЯ в контексте взаимодействия человека с ЭВМ определяется на основе таких понятий, как поведение, цели и планы слушающего и говорящего. Известно, что предложение может иметь несколько разных значений, в зависимости от целей говорящего и от точки зрения слушающего. При таком подходе сложность задачи понимания ЕЯ определяется не только особенностями устройства входного текста, но и внутренними свойствами участников диалога и широтой предметной области, в рамках которой осуществляется взаимодействие.

Модель информационного пространства системы

В соответствии с [94,34] объект может быть рассмотрен в трех разных аспектах - структура, контекст и контент. Для ИнС, в основе которой лежит онтология, значительный интерес представляет описание семантики объектов с точки зрения содержания, или контента.

1. Структура. В данном исследовании иод структурой понимается набор атрибутов и их значений, характеризующих объект «сам по себе». Структура объекта определяется в онтолоіии в соответствии с набором атрибутов и их типом, заданным для понятия, к которому относится объект. Ключевой набор атрибутов позволяет идентифицировать объект среди множества других объектов.

2. Контекст. Объект характеризуется не только структурой, но и отношениями с другими объектами в информационной системе. Контекст является внешним но отношению к объекту свойством и определяется тем, с кем и как данный объект связан.

3. Контент. Объект создается в информационной системе для предоставления пользователям необходимой информации, и эта информация передается через информационное содержание объекта - контент. Контент описывается в терминах онтологии, это означает, что любой информационный объект, которому соответствует некоторый документ (а в общем случае, это может быть файл другого типа, например, звук, видео, рисунок и т.п.), связывается с набором других информационных объектов, присутствующих в БД системы и являющихся экземплярами понятий и отношений онтологии. Данный набор объектов отражает информационное содержание документа.

В системе может присутствовать описание одного или более аспектов объекта из трех приведенных выше.

Определение. Информационное пространство системы, для которою задана онтология О, - это знаковая система: О, = {l,RI,V,A,,TX,CT,PIC,Pm,PIi,Pir), в которой / = {ц,.. ,/„} - конечное множество экземпляров понятий онтологии, RI={nv...,rik] - конечное множество конкретизированных отношений (экземпляров отношений), т.е. бинарных отношений ri, (ix,ij) между экземплярами понятий, F = {vj,...,vJ - конечное множество конкретных значений стандартного типа, A, ={«/lv..,a/J - конечное множество конкретизированных атрибутов, т.е. бинарных отношений «/,(/,,vv) или m,(nx,v}) между экземпляром понятия или отношения и конкретными значениями, ТХ = {rvlv. ,/v,} - конечное множество текстов, Ст ={с/,,...,с7А} - конечное множество контентных связей, т.е. бинарных отношений /,(//,,«/ ) между текстом и конкретными атрибутивными отношениями, найденными в тексте в результате его анализа и составляющими контент документа, Рсс1хС - бинарное отношение инцидентности между множествами экземпляров I и понятий С, /% cR,xR - бинарное отношение инцидентности между множествами экземпляров отношений Ri и отношений R, Рп с А, х А - бинарное отношение инцидентности между множествами конкретизированных атрибутов Л! и атрибутов А, PncIxTX - бинарное отношение инцидентности между множествами экземпляров I и текстов ТХ.

Важным компонентом информационного наполнения системы является описание информационных ресурсов, содержание которых представлено текстом.

Определение. Текстовый ресурс, или документ, - это информационный объект, содержание которого представлено текстом на естественном языке.

Каждый текстовый ресурс соответствует некоторому понятию онтологии, а описание конкретного ресурса хранится в БД и включает экземпляр данного понятия, набор экземпляров отношений, связывающих это понятие с друїими понятиями онтологии и, возможно, описание контента. Набор атрибутов и связей может быть основан на стандарте Dublin Core [100]. Текст, представляющий содержание таких объектов, анализируется с целью извлечения значимой информации и формирования контента. Для того, чтобы связать контент с ИО используется специальное отношение, позволяющее указывать для текстового ресурса список атрибутивных отношений, найденных в тексте документа.

Для того, чтобы обеспечить автоматическое формирование описания содержания текста информационного ресурса требуется: - описать в онтологии понятие, соответствующее жанру (типу) документа; - описать в онтологии понятия и отношения, информацию о которых желательно извлекать из текста ресурсов данного жанра; - описать жанровую структуру текста, характерную для документов данного типа; - наполнить словарь терминами и описать схемы фактов, с помощью которых может быть выражено содержание (контент) текстового ресурса.

Понятно, что с помощью экземпляров понятий и отношений онтологии невозможно выразить семантику контента объекта абсолютно точно. Например, не учитываются временные и модальные характеристики описываемой информации. Но у данного представления другая функция. Оно описывает семантику объекта с точки зрения контента, основываясь на онтологии. Следовательно, нельзя описать контент объекта точнее, чем это позволяет онтология. Чем точнее описана предметная область в онтологии, тем точнее можно описать контент объектов ИнС.

Лингвистическая база знаний (ЛБЗ) содержит знания о языке представления информации в текстах документов, характерных для выбранной предметной и проблемной области, требуемых для анализа текста с той степенью подробности, которая необходима разработчикам ИнС.

ЛБЗ включает, во-первых, модель документов, которая описывает формальную структуру текста в зависимости от жанра документов. Во-вторых, словарь, который представляет всю ключевую лексику, используемую носителями языка и экспертами в данной предметной области. И, в-третьих, схемы фактов, извлекаемых из текста на стадии анализа и обеспечивающих наполнение ИнС знаниями о предметной области.

Модули автоматизированной настройки словаря

Словарь стоп-терминов (стоп-словарь) содержит, с одной стороны, шумовую общеупотребительную лексику, с другой - исключения или ошибочные термины, возникновение которых связано с одной из следующих причин: . неправильное предсказание лексемы по встретившемуся в тексте незнакомому слову, . неправильно собранный СК, . грамматические ошибки написания, встретившиеся в обучающей выборке.

Механизм автоматического определения шумовых стоп-терминов основан на статистическом распределении веса термина по рубрикам (темам). Чтобы термин можно было отнести к стоп-словарю его вес должен лежать в некотором пороговом интервале для всех тем (по которым накоплена достаточная статистическая информация).

Выявление ошибок обычно происходит вручную. Для облегчения ручной обработки эксперту предоставляется возможность фильтровать и просматривать часть словаря по любым статистическим параметрам. Так, при большом объеме обучающей выборки, грамматические ошибки (ошибки третьего типа) выявляются при фильтрации словаря по параметру «встречаемость в выборке» в интервале от 1 до 5, а при обнаружении неправильного словокомплекса (ошибка второго типа), сюит посмотреть на все словокомплексы собранные по тому же правилу.

Словарь стоп-терминов требуется на стадии обучения, а также при обработке текста, когда словарь предполагается пополнять автоматически (в этом случае при очередной обработке текста наличие термина предварительно будет проверяться в стоп-словаре).

Основными функциональными возможностями редактора онтологии являются создание, модификация и удаление отдельных элементов онтологии и работа с иерархией классов.

Элементами онтологии являются классы, отношения и домены (п. 2.1.2). В классе может быть задан набор атрибутов, описывающих структуру объектов данного класса. Каждый атрибут обладает следующими характеристиками: . Имя атрибута. Имя атрибута должно быть уникально в пределах класса и его подклассов. Допустимые значения атрибута. Определяет множество возможных значений данного атрибута. При этом атрибуту может быть назначен либо один из поддерживаемых системой типов данных (строка, число, дата), либо домен, включающий набор элементарных значений.

. Множественность. Если атрибут допускает множественные значения, то для каждого объекта соответствующего класса может быть задано несколько значений данного атрибута. . Обязательность. Если атрибут определен как обязательный, то каждый объект соответствующего класса обязан иметь хотя бы одно значение данного атрибута.

Поддержка механизма наследования: если для класса задан родитель, то класс наследует все атрибуты и отношения родителя.

При построении домена вводится его название и перечисляется множество значений.

При добавлении в онтологию нового отношения задаюіся название отношения, его тип, аргументы и необходимые атрибуты. Аргументы выбираются из уже созданных классов онтолої ии. Все отношения являются бинарными и направленными, левый аргумент является исходным, а правый - целевым. Тип отношения может быть одним из следующих: . Ассоциативное отношение. Этот тип определяет произвольные ассоциативные отношения, описывающие связи между объектами заданных классов. Отношение часть-целое. Отношения такого типа также определяют связи между объектами, но еще обладают свойством транзитивности.

Аналогично классам, для отношений могут быть определены атрибуты, необходимые для уточнения и/или конкретизации связей между объектами. При определении атрибута отношения также задаются его имя, тип значений, множественность и обязательность,

Дополнительными возможностями редактора онюлоіии являются определение уникальных идентификаторов (ключей) для объектов введенных классов

Ключи вводятся для того, чтобы можно было отличать один экземпляр класса от другого. Ключ - это набор атрибутов и отношений класса, определяющих уникальность объекта данного класса. Если в ключ входит отношение, то при сопоставлении объектов должны сопоставляться и связанные с ним объекты.

Таким образом, разработка онтологии включает: - определение классов в онтологии; - расположение классов в таксономическую иерархию (класс - подкласс); - определение слотов и описание допускаемых значений этих слотов. Более подробное описание и применение конструктора онтологии для реальных задач освещено в [17].

Конструктор схем фактов основан на тех же принципах, что и конструктор онтологии. Стоит отметить особенность данного конструктора: при конструировании схем фактов эксперт может использовать не только элементы онтологии, но и классы словаря-Тезауруса. Поэтому при построении схем фактов необходимо указать онтологию, выбрать предварительно созданный словарь и в дальнейшем обеспечить синхронизацию изменения структуры словаря и схем фактов.

Еще одной важной функциональной особенностью конструктора схем фактов является возможность генерации таблицы семантических ограничений, которая может наполняться и редактироваться даже во время эксплуатации системы. К задачам конструктора схем фактов относятся: 1. Предоставление рабочего места эксперту, обеспечивающего: . загрузку семантических классов словаря; . просмотр/редактирование схем фактов; . возможность генерации таблицы семантических ограничений для каждой схемы фактов; . сохранение/загрузка уже описанных схем фактов. 2. Хранение/предоставление схем фактов в универсальном формате (программное ЛРІ для использования другими программами). 3. Обеспечение корректности набора схем фактов, которая означает, что данная совокупность схем может быть корректно применена для данных, полученных в результате работы словарного компонента системы с использованием указанного словаря: возможность применения каждой схемы фактов; это означает, что для каждой схемы существует набор начальных данных, удовлетворяющий всем ограничениям данной схемы и, следовательно, для которого эта схема обязательно примениться; . неявное создание класса факта в случае, когда результатом применения схемы факта является промежуточный объект-факт; . проверка корректности именований классов; . проверка доменных значений, заданных в он голої ии и словаре; . установление соответствия между нормальной формой словарного объекта и требуемым атрибутом экземпляра понятия или отношения или объекта-факта. 4. Синхронизация словаря, онтологии и схем фактов. Синхронизация обеспечивается полуавтоматически - при обнаружении несоответствия (отсутствие классов словаря, использованных в схемах) выдается сообщение пользователю.

Практические приложения технологии

Отметим, что отношения между объектами также представлены объектами, для которых к ключевому набору атрибутов относятся его аргументы. n-rp-Y +y кг+рЪ-±. K\+p-Y.L-r K2+/y-X- (\ + P)-(K\-r\fiss+K2) {\ + р)-(К\тК)юг К2)

Kl -число правильно идентифицированных объектов, К2 - число частично идентифицированных объектов, Miss - число пропущенных объектов, Error - число ошибочно идентифицированных объектов, к, - число правильно определенных системой неключевых атрибутов і-го объекта, ІТІ! - число всех неключевых атрибутов і-го объекта, определенных системой, п, - число неключевых атрибутов і-го объекта, определенных экспертом, Р ((3 1) - коэффициент важности неключевых атрибутов, 7 ("/ !) - коэффициент значимости частично определенных объектов.

Приведенные формулы не учитывают различия в весах атрибутов, а также различную значимость объектов в зависимости от их типов.

Практические приложения іехнолоіии

Основные компоненты предлагаемой технологии анализа текста были успешно апробированы в практических приложениях.

Так, при создании системы документооборота InDoc автором были разработаны и реализованы основные алгоритмы сборки фактов и идентификации объектов. Система InDoc прошла опытную эксплуатацию в 2003 г.

При создании информационного портала по археологии и этнографии использовался словарный компонент в том виде, в ко юром он присутствует в технологии. Модуль индексирования археологических ресурсов использует при своей работе онтологию и создает контент ресурсов по тому же принципу, что и в предложенной технологии, однако только для фиксированного набора схем фактов. Автором была проделана следующая работы: разработана архитектура словарного компонента, реализовано ядро словарною компонента, осуществлялось общее руководство при создании модуля индексирования.

Портал находится на стадии опытной эксплуатации.

Система документооборота InDoc ориентирована на предметную область и потребности крупной инвестиционной компании, управляющей строительством газопроводов. При ее создании была разработана технология, основной задачей которой является интеллектуализация документооборота.

Такая технология должна поддерживать решение целого комплекса задач, связанных с управлением потоком входящих документов - их автоматическую классификацию и автоматическое индексирование, оперативное и адекватное распределение среди сотрудников предприятия, передачу в электронный архив и последующий поиск в нем документов по содержанию.

Так как указанные выше проблемы не решаются ни традиционными подходами к автоматизации документооборота [29], ни общепринятыми статистическими [84] или лингвистическими методами полнотекстового поиска в базе данных документов [90], потребовались интеллектуальные решения с ориентацией процесса автоматической обработки документов на понимание содержания текста.

В рамках предложенного подхода была разработана общая схема системы документооборота, которая включает три контура работы с документами: . ввод и первичная обработка документов, . автоматическая обработка, индексирование и распределение документов, . оперативный поиск и выдача документов в соответствии с их содержанием.

Под иніеллектуализацией документооборота понимается поддержка автоматической обработки документов с использованием знаний о предметной области и деятельности предприятия, обеспечивающая автоматическую адресацию и индексирование документов на основе выделенных из их текстов важных содержательных единиц.

Все проиндексированные документы хранятся в электронном архиве. Наличие индексов обеспечивает быстрый поиск документов по их содержанию.

Рассмотрим подробнее архитектуру системы документооборота (Рис. 9).

Документ поступает в систему через подсистему ввода документов. С каждым документом в системе ассоциируется электронный паспорт, который содержит индекс, т.е. список атрибутов, заполняемых либо вручную оператором при вводе документа, либо в результате его последующей автоматической обработки.

Все знания о предметной области и языке документов заносятся пользователем-экспертом в базу знаний через соответствующие АРМы. Эти же АРМы позволяют настраивать базу знаний при изменении среды и условий эксплуатации системы.

В процессе автоматической обработки текст документа поступает на вход лексического процессора, который выделяет из текста ключевые понятия ПО и передает их модулю основного анализа. Результатом работы модуля основного анализа является совокупность Фактов, отражающих содержание документа, на основе которых генерируется семантический индекс документа.

Для обеспечения рассылки документов их фактическим адресатам (получателям) служит модуль адресации. Он фильтрует полученные в результате основного анализа Факты, сравнивая их с фильтрами, отражающими информационные предпочтения сотрудников предприятия. Если тема документа соответствует фильтру, то он будет адресован ассоциированному с ним сотруднику. По завершении этапа автоматической обработки электронный документ направляется адресатам и в электронный архив.

Для поиска необходимых документов в архиве служит подсистема поиска.

Важную роль при автоматизации анализа документа играет его жанровая структура. Она определяет тематические разделы, ограничивая возможную смысловую нагрузку той или иной части текста документа. В системе InDoc рассматривался только один жанр документа - деловое письмо (ДП), как наиболее типичный для задачи интеллектуализации документооборота.

Подробное описание жанровой структуры ДП приведено в п.2.3.1.2.

Компоненты структуры документа отражают разбиение текста документа на информационные блоки различной функциональности. Можно говорить об основных и вспомогательных жанровых разделах в сгрукгуре ДП. Так, Обращение и Подпись служат для выделения блока Основной текст. К числу основных разделов, необходимых для решения поставленных задач, отнесены Отправитель, Адресаты, Основной текст. Процедура анализа использует границы раздела Отправитель для определения наименования организации-отправителя ДП, что позволяет применить знания о функциях этой организации. В границах Основного текста ищутся ключевые понятия, на основе которых анализируется пропозициональное содержание ДП и выявляется его тема.

Для хранения и поиска документов в архиве необходимо, чтобы при каждом документе хранилась некоторая структурированная информация, характеризующая его содержание и содержащая набор формальных параметров. Такая структурированная информация о документе хранится в виде электронною индекса документа. Под семантическим индексом понимается набор атрибутов индекса, в которых отражается смысл документа.

Похожие диссертации на Методы и программные средства для анализа документов на основе модели предметной области