Модели и методы извлечения знаний из текстов на естественном языке Симаков Константин Васильевич

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Симаков Константин Васильевич. Модели и методы извлечения знаний из текстов на естественном языке : диссертация ... кандидата технических наук : 05.13.17 / Симаков Константин Васильевич; [Место защиты: Моск. гос. техн. ун-т им. Н.Э. Баумана]. - Москва, 2008. - 267 с. : ил. РГБ ОД, 61:08-5/18

Содержание к диссертации

стр.

Введение 6

Актуальность работы 6

Цель и основные задачи работы '. 8

Объект и предмет исследования 8

Научная новизна 8

Области применения результатов диссертации 9

Глава 1. Постановка задачи извлечения знаний из текстов 12

Структура системы сопоставляющего анализа 12
Классификация знаний 14
Функционирование системы извлечения 16
Основные задачи диссертации 18
Оценка качества работы системы извлечения 21

Глава 2. Обзор методов извлечения знаний 22

2.1. Основные подходы к машинному обучению 22

Анализ и синтез при обучении 23
Дедуктивное обучение 25
Индуктивное обучение 26
Обучение на основе подобия 28
Типовые алгоритмы обобщения на основе подобия 30

2.2. Обучение в задачах извлечения информации 32

2.2.1. Детерминированный подход 32

Препозиционные методы 33
Реляционные методы 46
Предварительные выводы 64

2.2.2. Вероятностный подход 68

Классификатор Байеса и стохастические грамматики 68
Скрытые Марковские Модели 70

стр.

Максимизация энтропии 76
Условные случайные поля 82
Предварительные выводы 87

Анализ подходов к извлечению знаний 89
Выводы по главе 92

Глава 3. Разработка принципов построения систем сопоставляющего
анализа и извлечения знаний 94

3.1. Модель знаний предметной области 94

Онтологическое представление знаний 95
Фреймовое представление знаний 98
Наложение фреймов 100

Извлечение в сопоставляющем анализе 103
Функционирование системы извлечения 105
Единая стратегия обучения: A3 108
Выводы по главе 111

Глава 4. Разработка модели извлечения экземпляров фреймов 112

Модель представления текста 112
Компоненты модели извлечения 115

Описание модели 115
Элементы образцов и функция покрытия 117

4.3. Синтаксис правил извлечения 121

Способы описания лексических ограничений 121
Синтаксис правил извлечения 122
Примеры правил извлечения 126

Решетка лексических ограничений 130
Метод извлечения 132

Автомат извлечения 133
Алгоритм извлечения 139

стр.

Теорема о поиске модели извлечения 144
Выводы по главе 149

Глава 5. Разработка метода обучения модели извлечения 152

5.1. Описание метода 152

Представление обучающих примеров 153
Оценки качества результатов обучения 156
Фазы и этапы обучения 157

5.2. Описание этапов обучения 159

Формирование предельно конкретных правил 159
Итеративное обобщение 160

Алгоритм обобщения пары правил 165
Алгоритм обобщения пары образцов 168

Деградация незадействованных примеров 182
Генерация исключений 183

5.3. Выводы по главе 185

Глава 6. Разработка модели морфологического анализа и метода ее
обучения 188

6.1. Выбор основополагающего метода анализа 188

Методы анализа на основе аффиксов 189
Словарные методы 191
Принцип аналоги 192
Обоснование выбора основополагающего метода 196

6.2. Модифиция принципа аналогии 197

Описание модели морфологического анализа 198
Вычислительная сложность морфологического анализа 201

6.3. Метод обучения модели морфологического анализа 204

Обучение согласно стратегии A3 204
Алгоритм обучения 206

стр.

6.4. Выводы по главе 213

Глава 7. Экспериментальное исследование свойств разработанных
моделей 215

7.1. Свойства модели морфологического анализа 215

Исходные данные 215
Свойства алгоритма обучения 216
Точность и полнота морфологического анализа 222

7.2. Свойства модели извлечения 225

Исходные данные для эксперимента 226
Качество извлечения для текстов новостей 228
Качество извлечения для текстов стенограмм 230
Качество извлечения для текстов почтовых адресов 231
Зависимость показателей качества от длины контекста 233
Качественное сопоставление с зарубежными аналогами 236

7.3. Выводы по главе 239

Заключение 242

Общие выводы 244

Список литературы 246

Приложение 1. Описание системы семантического контроля документов ..260
Приложение 2. Описание системы проверки почтовых адресов 264

Введение к работе

Актуальность работы

Наиболее распространенной формой представления знаний являются естественно-языковые тексты. Текстовая форма знаний естественна для человека, такие знания легко воспринимаются, порождается, тиражируются и модифицируются. Однако интенсивный рост текстовых массивов является причиной трудной доступности целевых знаний, когда в* них возникает потребность. Дополнительной проблемой является сложность валидации текстовых массивов, состоящей в поиске и исправлении ошибок, устранении дубликатов и противоречий. Современные информационно-поисковые системы не рассчитаны на решение данной задачи, т.к. содержимое текстов, очевидное для человека, является скрытым для системы, поскольку она' оперирует словами и символами текста, а не знаниями, содержащимися в нем.

В связи с этим особую актуальность приобретают информационные системы, обеспечивающие извлечение знаний из текстов. В* результате извлечения знания приобретают явный вид и становятся пригодными для обработки интеллектуальными системами, оперирующими на уровне элементов модели предметной области. В частности такими системами являются системы сопоставляющего анализа, выполняющие сопоставление извлеченных из текста знаний с эталонной моделью предметной области с целью их валидации.

Проблеме извлечения посвящено множество зарубежных работ, объединяемых в единые класс задач извлечения информации из текстов. Извлекаемая информация представлена структурами данных, поля* которых заполняются текстовыми фрагментами. Однако для анализа текстов произвольного языка существующие разработки не подходят, поскольку привязаны к конкретной грамматике. Среди отечественных исследователей проблеме извлечения уделено крайне мало внимания. В настоящий момент

7 известны только две законченные разработки компаний RCO и Yandex, имеющие крайне ограниченное применение. В частности, не существует простого способа адаптации работающей системы к новой предметной области. Данный недостаток связан с отсутствием математической модели, описывающей процесс извлечения целевой информации из текстов. Более того, в современных работах нет сведений о системах сопоставляющего анализа, находящихся в эксплуатации.

Таким образом, разработка математической модели извлечения, применимой для обработки текстов произвольного языка и легко адаптируемой под- нужды- конкретной предметной области, представляет собой важную научную задачу, а разработка модели представления знаний, в рамках которой формируется результат извлечения, удобный' для выполнения сопоставляющего анализа, имеет существенное практическое значение.

Извлечение информации из текстов является подзадачей более крупной задачи, решению которой- посвящена диссертация, а именно - извлечению знаний. Чтобы иметь возможность выявлять в текстах структуры данных, необходимо. располагать двумя' наборами правил: правилами морфологического анализа и правилами извлечения. Первые выявляют лингвистические свойства слов текстов, тогда как вторые, используя эти свойства, накладывают условия на состав и структуру контекстов целевой информации.

Правила обоих типов наравне с извлекаемыми структурами данных являются знаниями предметной области. Формирование таких правил в существующих отечественных разработках осуществляется вручную, что является причиной сложности настройки системы извлечения для произвольной предметной области.

В связи с этим разработка методов автоматизированного составления правил извлечения и правил морфологического анализа является актуальной

8 задачей, решение которой в общем виде для текстов произвольного языка, в том числе для русского, в настоящий момент отсутствует.

Цель и основные задачи работы

Целью диссертации является разработка моделей извлечения знаний из текстов и методов их обучения для систем сопоставляющего анализа текстов на естественном языке. Для достижения цели решались следующие задачи:

исследование современных моделей извлечения информации из текстов и методов обучения таких моделей;
разработка модели представления знаний, позволяющей эффективно выполнять сопоставляющий анализ текстов;
создание модели извлечения знаний из предметно-ориентированных текстов;
разработка метода обучения модели извлечения знаний из текстов;
создание модели морфологического анализа слов и метода ее обучения;
экспериментальная проверка предложенных моделей и методов.

Объект и предмет исследования

В качестве объекта исследования выступают естественно-языковые тексты как форма представления знаний произвольной предметной области. Предметом исследования являются процессы автоматизированного выявления и формализации знаний, представленных в форме естественноязыковых текстов, для их последующего использования интеллектуальными информационными системами, реализующими логику сопоставляющего анализа.

Научная новизна

1. Предложена модель извлечения фреймовых слотов из предметно-ориентированных текстов. Введенная в модели решетка лексических ограничений позволила теоретически обосновать возможность обучения

9 модели. Простота структуры правил извлечения обеспечивает практическую реализуемость механизмов машинного обучения, а также реализацию метода извлечения на основе конечного автомата, независимого от грамматики естественного языка.

Разработан метод обучения модели извлечения, в рамках которого предложена новая сжимающая стратегия, группового обобщения обучающих примеров, а также новый подход к парному обобщению правил на основе оценки совокупной погрешности обобщения их отдельных элементов.
Предложена модификация принципа аналогии морфологического анализа текстов, позволяющая существенно сократить объем морфологического словаря и снизить вычислительную сложность алгоритма анализа.
Разработана модель морфологического анализа, действующего в соответствии с модифицированным принципом, а также предложен метод ее обучения, позволяющий без вмешательства человека построить морфологический анализатор, уникальным свойством которого является лучшее качество анализа в сравнении.со словарными методами.

Достоверность научных положений и выводов диссертационной работы подтверждена практической реализацией разработанных моделей и методов, результатами проведенных экспериментов, а также внедрением и опытной эксплуатацией в ряде систем сопоставляющего анализа текстов.

Области применения результатов диссертации

Наиболее распространенными областями применения разработанных моделей и методов являются следующие.

Наполнение баз данных. Из текстов извлекаются данные в> виде структур с заполненными полями, которые в последствии могут быть записаны в реляционную базу данных для проведения комплексного анализа. Примером использования такой технологии является разработка компании Boeing [105] для извлечения данных из текстовых сообщений, поступающих

256 on Industrial and engineering applications of artificial intelligence and expert systems. 1990. - Vol. 1. - P. 546-552.

Андреев A.M., Березкин Д.В., Симаков К.В. Архитектура системы машинного понимания текстов // Информатика и системы управления в XXI веке: Сборник трудов - М.: Изд-во МГТУ им. Н.Э. Баумана, 2003. -№1.-0.419-423.
Березкин Д.В., Симаков КВ. Формальный V - язык описания морфологии и синтаксиса текстов на естественном языке // Информатика и системы управления в XXI веке: Сборник трудов - М.: Изд-во МГТУ им. Н.Э. Баумана, 2003. - №1. - С. 364-368.
Андреев A.M., Березкин Д.В., Симаков К.В. Снятие синтаксической омонимии в задачах машинного понимания естественных текстов // Информатика и системы управления в XXI веке: Сборник трудов - М.: Изд-во МГТУ им. Н.Э. Баумана, 2003 -№1. - С. 415-418.
Автоматическая классификация текстовых документов с использованием нейросетевых алгоритмов и семантического анализа / A.M. Андреев, Д.В. Березкин, В.В. Морозов, К.В. Симаков // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды пятой всероссийской научной конференции (RCDL'2003) - Санкт-Петербург: НИИ Химии СПбГУ, 2003. - С. 140-149.

НО. Андреев A.M., Березкин Д.В., Симаков К.В. Особенности проектирования модели и онтологии предметной области для поиска противоречий в правовых электронных библиотеках // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды шестой всероссийской научной конференции (RCDL'2004) - Пушино, 2004. - С. 93-102.

Ш.Андреев A.M., Березкин Д.В., Симаков К.В. Обучение морфологического анализатора на большой электронной коллекции текстовых документов // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды седьмой всероссийской

257 научной конференции (RCDL'2005) - Ярославль: Ярославский государственный университет им. П.Г. Демидова, 2005. - С. 173-181.

Андреев A.M., Березкин Д.В., Симаков К.В. Модель извлечения фактов из естественно-языковых текстов и метод ее обучения // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды восьмой всероссийской научной конференции (RCDL'2006) - Ярославль: Ярославский государственный университет им. П.Г. Демидова, 2006. - С. 252-262.
Использование технологии Semantic Web в системе поиска несоответствий в текстах документов / A.M. Андреев, Д.В. Березкищ B.C. Рымарь, К:В. Симаков // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды восьмой всероссийской научной конференции (RCDL'2006) - Ярославль: Ярославский государственный университет им. П.Г. Демидова, 2006. - С. 263-269.
Автоматизация обнаружения и исправления опечаток в названиях географических объектов для системы семантического контроля документов электронной библиотеки / A.M. Андреев, Д.В. Березкин, А.С. Нечкин, К.В. Симаков, Ю.Л. Шаров // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды девятой всероссийской научной конференции (RCDL'2007) - Переславль-Залесский: Университет города Переславль, 2007. - Т.2. - С. 49-56.
Симаков К.В. Метод обучения модели извлечения знаний из естественно-языковых текстов / A.M. Андреев, Д.В. Березкин, К.В. Симаков // Вестник МГТУ. Приборостроение. - 2007. - №3. - С. 75-94.
Симаков К.В. Модель извлечения знаний из естественно-языковых текстов / A.M. Андреев, Д.В. Березкин, К.В. Симаков // Информационные технологии. - 2007. - №12. - С. 57-63.

ПРИЛОЖЕНИЕ 1. ОПИСАНИЕ СИСТЕМЫ СЕМАНТИЧЕСКОГО КОНТРОЛЯ ДОКУМЕНТОВ

Назначение Системы семантического контроля редактируемых документов заключается в поиске несоответствий в текстах стенограмм заседаний Совета Федерации Федерального Собрания Российской Федерации (СФ). Данный программный комплекс относится к классу систем сопоставляющего анализа и реализует поиск несоответствий согласно логике в таблице 7. Основными функциями системы являются следующие.

Поиск несоответствий между информацией о членах СФ, указанной в текстах редактируемых документов, и эталонной информацией о членах СФ, имеющейся в кадровой базе данных Совета Федерации.
Получение справки по выделенной в тексте фамилии члена СФ.
Наглядное отображение участков текста, в которых выявлены несоответствия с эталонной базой.

Система выполняет полный цикл обработки анализируемых текстов, отраженный ранее на рис. 3.3. Целевой фрейм, подлежащий извлечению, содержит ФИО члена СФ, его инициалы, название комитета или комиссии, членом которой он является, название должности и название регионального органа власти, который он представляет в Совете Федерации. Полная информация о каждом члене СФ имеется в кадровой базе данных СФ, которая перед началом функционирования системы приводится к онтологическому представлению. В итоге объекты с означенными свойствами, извлеченные из анализируемого текста, сопоставляются с объектами онтологии на предмет выявления несоответствий.

На рис. П1.1 приведена функциональная схем данной системы. Система реализована в соответствии с клиент-серверной архитектурой. В роли клиента выступает текстовый редактор MS Word и приложение-агент (слева на рис. П1.1). Текстовый редактор является инструментом правки текстов стенограмм, в который встроен модуль, выполняющий визуальную

259 подсветку участков текста, где выявлены несоответствия. Данный модуль подсвечивает участок текста, размещенный между первым и последним значениями слота извлеченного экземпляра фрейма. Также данный модуль отвечает за отображение справочной информации по выделенному члену СФ.

Мадуль cms wort

Рис. ПІЛ. Функциональная схема системы семантического контроля Приложение-агент является своего рода мостом между текстовым редактором и сервером системы. С одной стороны данное приложение реализует протокол сетевого взаимодействия с сервером, с другой стороны обеспечивает преобразование результата проверки и передачу этого результата текстовому редактору для визуального отображения.

Серверная часть системы представлена тремя подсистемами: сервер анализа, модуль сопоставления и сервер СУБД. Сервер анализа кроме функциональных блоков общего назначения (модуль сетевого взаимодействия, диспетчер запросов, модуль журналирования, модуль доступа к конфигурации системы и др.) содержит два модуля, непосредственно реализующих модель извлечения ЕМ и модель морфологического анализатора МЛ (выделены темным фоном на рисунке).

Модель ЕМ реализована в рамках модуля извлечения, где кроме модуля управления правилами, обеспечивающего интерпретацию XML-документов с правилами извлечения и сборку автомата извлечения, присутствует блок, отвечающий за наложение схемы фреймов на схему онтологии и блок, выполняющий сборку экземпляров фреймов из значений слотов, выявленных в анализируемом тексте.

Модель морфологического анализа реализована в рамках лингвистического модуля, который также обеспечивает сегментное представление анализируемого текста и нормализацию словосочетаний, таких как ФИО, названия комитетов и названия региональных органов власти. Нормализация словосочетания подразумевает преобразование его к такой форме, в которой оно присутствует в эталонной базе данных. Например, ФИО записанное в тексте в родительном падеже будет преобразовано к именительному. На данном этапе используется способность морфологического анализатора синтезировать канонические формы слов.

Извлеченные экземпляры фреймов, преобразованные к онтологическому представлению, передаются модулю сопоставления, реализующему логику выявления несоответствий. Данный модуль формирует поисковые запросы на основе извлеченных из текста экземпляров и обращается с этими запросами к онтологии, наполненной на основе информации эталонной кадровой база данных. В случае отсутствия в онтологии извлеченных экземпляров объектов (членов СФ с указанными значениями свойств и связей), делается вывод об ошибке, допущенной в тексте. О чем и информируется в итоге пользователь, редактирующий текст.

Обучение моделей ЕМ и МА выполняется отдельной системой, функционирование которой полностью отвечает схеме на рис. 3.4. Пример результата работы системы приведен на рисунке Ш .2. На рисунке приведен фрагмент стенограммы 186-ого заседания Совета Федерации, открытой в текстовом редакторе MS Word, с внедренным модулем, обеспечивающим

261 взаимодействие с системой семантического контроля (три кнопки в левом верхнем углу с надписями «Анализ», «Справка» и «Снять выделение»).

М1:ЛВШТ!Д-1Гта^^_т^ __|п|я|

трубопровода от разрешенных 43 метров до 160. в смещении трассы без экологической экспертизы на 1.5 километра и в перекрытии грунтом двух притоков нерестовой реки Аи? Если можете, пожалуйста, ответьте на этот вопрос.

Трутне в Ю.П. Меры, предусмотренные законодательством Российской Федерации. Как административные, так и уголовные.

Председательствующей. Леонов Виктор Васильевич, пожалуйста. Ваш вопрос.

Леонов. В.В. (^член^Хомитета Совета Федерации., пр.. делам _ Федерации и региональной политике, представитель в Совете. Федерации от за ко^дательно го (представительного} органа государственной власти Новосибирской области.

Уважаемый Юрии Петрович! Я с удовлетворением прослушал Ваш доклад с анализом сложившейся ситуации, и мне кажется, что доклад как раз соответствует заявленной теме. И те меры, которые Вы предполагаете принять, это. наверное, уже реакция на свершившееся. Но у меня возникает вопрос. А. вообще, что. в нашей системе органов

Рис. Ш.2. Результат выявления несоответствия в тексте стенограммы Данная стенограмма была проанализирована системой, в качестве результата выделен пунктирной рамкой фрагмент текста, где обнаружено несоответствие с онтологией. В данном случае в тексте был выявлен объект типа «член Совета Федерации» со значениями следующих простых свойств: ФИО - «Леонов В.В.», должность - «член», название комитета - «Комитет Совета Федерации по делам Федерации и региональной политике», название органа власти, представляемого в СФ данным членом, - «законодательный (представительный) орган государственной власти Новосибирской области». Сопоставляя данную информацию с онтологией, было выявлено несоответствие в должности данного члена СФ, т.к. на момент 186-ого заседания Леонов В.В. занимал должность «заместителя председателя».

ПРИЛОЖЕНИЕ 2. ОПИСАНИЕ СИСТЕМЫ ПРОВЕРКИ ПОЧТОВЫХ АДРЕСОВ

Данная информационная система разработана по заказу одного из крупных коммерческих банков и предназначена для выявления и исправления ошибок в почтовых адресах его клиентов. Данная система, также как и рассмотренная выше, реализует концепцию сопоставляющего анализа текстов. Особенностью системы является то, что в качестве анализируемых текстов выступают строки с почтовыми адресами физических лиц. В качестве эталонной базы данных используется классификатор адресов России - «КЛАДР». Основными функциями системы являются следующие.

Распознавание структуры адреса, записанного сплошной строкой, и его представление в виде отдельных полей. В отдельные поля записываются наименования адресных объектов (регион, район, город, населенный пункт и улица) и их типы (улица, переулок, бульвар и т.д.).
Выявление и исправление опечаток в наименованиях адресных объектов.
Восстановление значений пропущенных в адресе полей (например, почтового индекса).
Выявление несоответствий почтовых адресов эталонной базе данных КЛАДР и указание полей, в которых вероятнее всего допущена ошибка.

Основополагающей функцией является первая - выявление значений структурных элементов почтового адреса, изначально представленного сплошной строкой. Без реализации этой функции невозможно обеспечить эффективное исправление опечаток (т.к. неизвестно, к какому полю адреса относится каждое слово исходной строки), также невозможно сопоставление с эталонной базой данных и, как следствие, невозможно восстановление пропущенных полей или указание на конкретное поле адреса, в котором допущена ошибка.

Извлекаемыми фреймами в данном случае являются непосредственно почтовые адреса, слотам фреймов соответствуют поля адресной структуры,

263 принимающие в качестве значений наименования адресных объектов и их типы. Эталонная база данных КЛАДР преобразуется в онтологию, в рамках которой для каждого поля адресной структуры выделен отдельный класс (класс регионов, районов, городов и т.д.), одним из свойств которых является наименование и тип {например, улица, шоссе, бульвар и т.д.). Извлекаемые экземпляры фреймов в результате наложения схемы фреймов на схему онтологии раскладываются в экземпляры взаимосвязанных объектов, которые и принимают участие в финальной стадии сопоставляющего анализа.

На рисунке П2.1 отражена функциональная схема данной системы.

]" И Ь

«.фсрииц-оина

Ч— Доступ к процессу посредстас» SOAP ч—*- ^e^ ' ^V

-*---»- Доступ, процессу гисреао-во-свгевых «нет» ^^ Програчмньи вызовы внутри одного

Рис. П2.1. Функционирование системы исправления почтовых адресов Важной отличительной чертой данной системы является наличие множества источников, от которых поступают адреса на проверку как в режиме on-line, так и в режиме off-line. В связи с этим к системе дополнительно предъявляются требования к производительности. Отметим, что на фоне общего времени полной обработки почтового адреса время, работы модулей, выполняющих распознавание его структуры, составляет не более 20%.

Наличие нескольких источников почтовых адресов отражено на рисунке П2.1 несколькими информационными системами банка (ИС), при этом каждая ИС имеет свой характерный формат представления адресов. Характерность формата отражается наличием или отсутствием обязательных разделителей адресных полей, порядком следования их названий, наличием или отсутствием фиксированных классификаторов типов адресных объектов и т.д. В связи с этим для каждого из таких источников заводится независимая модель извлечения ЕМ, каждая из которых проходит независимый процесс обучения на примерах, характерных именно для данного источника адресов:

Система проверки почтовых адресов реализована в соответствии с SO А архитектурой, так что для всех внешних источников адресной информации вводится единый SOAP протокол,, регламентирующий их взаимодействие с системой. Реализация этого протокола обеспечивается вспомогательным процессом, реализующим HTTP (Web-сервер Microsoft Internet Information Services), в рамках которого встроены модули, обеспечивающие трансляцию SOAP запросов основному процессу сервера системы (AdCheck на рис. П2.1) и обратное преобразование результатов проверки в SOAP сообщения, доставляемые ИС, запросившей данную проверку.

В рамках основного процесса сервера системы реализованы как модули общего назначения (модуль сетевого взаимодействия, диспетчер команд, модуль доступа к конфигурации и др.), так и модули, реализующие основные функции системы. К последним относится в частности «Сегментатор адресов» и «Модуль проверки правильности».

Сегментатор выполняет непосредственное распознавание структуры почтовых адресов, его внутренняя реализация идентична реализации, отраженной ранее на рисунке П1.1 с той лишь разницей, что поддерживается не одна, а несколько независимых обученных моделей извлечения. На рисунке П2.1. данный модуль и вспомогательный блок управления правилами извлечения отражены темным фоном.

Модуль проверки правильности имеет внутреннюю структуру, аналогичную структуре модуля сопоставления, приведенного ранее на рисунке П1.1. Однако данный модуль реализует две логики сопоставления, направленные как на выявление совпадений, так и на выявление несоответствий.

Изначально предпринимается попытка выявить совпадение совокупности извлеченных из адреса объектов с объектами онтологии. В случае выявления совпадения выполняется извлечение недостающих объектов адреса посредством прохода по специализированным семантическим связям, установленным между любой парой объектов онтологии, для которых допустимо одновременное присутствие в полном почтовом адресе. Так выполняется восстановление пропущенных адресных полей, например почтового индекса. В случае отсутствия совпадения выполняется детальный поиск несоответствий, нацеленный на определение конкретного объекта, в котором допущена ошибка при составлении исходного адреса.

На рисунке П2.2 отражены варианты анализа почтового адреса, представленного следующей строкой «Московская область УЛ. ЗЕЛИНСКОГО Д. 10 КВ. 16;Г. ВОСКРЕСЕНСК».

У приведенного примера отсутствует почтовый индекс и название района, в котором расположен город, кроме того, наименование города указано в конце адреса, после остальных полей. В связи с нестандартным порядком следования полей предложено несколько вариантов распознавания структуры данного адреса, из которых единственный является правильным.

Однако, с точки зрения модели извлечения, все три варианта являются корректными. Определение правильного варианта выполняется путем поиска совпадений между онтологией и каждым из вариантов, совпадение выявляется только для третьего из них. Как следствие, для него выполнено восстановление значений недостающих полей, а именно, восстановлено

266 наименование района и почтовый индекс. Результирующий восстановленный

адрес представлен в последней строке на данном рисунке.

Рис. П2.2. Пример результата обработки почтового адреса

Для оценки качества работы системы в целом была подготовлена выборка из 1000 адресов, отобранных случайным образом из базы данных клиентов банка. Каждый адрес данного массива либо содержал ошибку, либо имел пропущенные незаполненные поля. На основе этих адресов формировалось 10 обучающих выборок, содержащих от 10 до 190 примеров с шагом 20. Выборки формировались не для одного поля адреса, как в эксперименте, представленном на рис. 7.11, а для всех адресных полей (регион, район, город, населенный пункт и улица). После обучения на каждой выборке для каждого адресного поля выполнялась проверка исходного массива (1000 адресов). В результате каждого такого эксперимента

фиксировалось количество корректных исправлений. Каждый эксперимент выполнялся 10 раз так, что выборки для каждого числа обучающих примеров отбирались случайным образом. Из 10 прогонов по каждому размеру выборки рассчитывалось среднее арифметическое количество корректных исправления и средняя квадратическая погрешность единичного результата измерения. На рис. П2.3 представлена диаграмма, отражающая результаты данных экспериментов. В каждой точке диаграммы вертикальными линиями отражена погрешность измерения.

770 >s

| 750 ш

(О

g-710 о

О 690

Й 670

о>

s 650

-І—*-

-— Усредненное количество исправлений

Количество примеров

Рис. П2.3. Оценка качества работы системы в целом Диаграмма повторяет характер изменения кривых на рис. 7.11, т.е. качество работы системы достигает высоких показателей уже на малых объемах обучающей выборки и далее практически не изменяется. Однако с ростом обучающей выборки снижается погрешность измерения с 2,8% до 0,28% так, что этот показатель можно использовать для прогнозирования требуемого числа обучающих примеров для достоверного достижения желаемого качества работы системы в целом.

10 от эксплуатационных служб, фиксирующих в виде электронных текстовых сообщений неполадки систем самолетов, причины их возникновения и способы их устранения. Сотрудникам данных служб удобнее составлять отчеты о диагностике неполадок в виде текстов, тогда как при выполнении такой диагностики желательно иметь доступ к накопленному опыту в виде структурированной базы неисправностей. Такая база обеспечивает систематизацию неисправностей, упрощение экспертизы- и профилактики новых неполадок. Для ее наполнения на основе текстовых отчетов⁵ могут использоваться методы извлечения знаний из текстов.

Информационная разведка. Другим применением^ таких технологий, является составление досье на интересующий, объект [73],. информация-о котором доступна в- открытых источниках. Например, интересующим* объектом может выступать политический деятель, досье которого может включать: Ф.И.О., возраст, происхождение, образование, отношения к партиям и другим политическим деятелям, мнения по,поводу интересующих событий и т.д. Аналогичным образом выполняется разведка в коммерческих целях, когда некоторая компания' интересуется активностью конкурента, действия которого освещаются в СМИ. В- данном случае извлечению подвергаются анонсируемые продукты конкурента, сделки с другими участниками рынка, изменения, происходящие на руководящих должностях, а также поглощения других компаний и слияния.

Автоматизированное составление справочников и словарей. Методы извлечения также могут использоваться для наполнения предметно-ориентированных онтологии, тезаурусов и словарей [32,86,89]. В данном случае извлечению подлежат понятия и отношения между ними, отраженные в текстах предметной области. Далее эти знания могут использоваться при понятийном индексировании текстов для улучшения качества полнотекстового поиска и классификации [106,109].

Выявление противоречий в текстах документов. Извлекаемые из текстов знания могут использоваться для дальнейшего сопоставления с

эталонной базой предметной области [110,113]. Например, из внутренних документов организации могут извлекаться: Ф.И.О. сотрудников организации, их должности и названия подразделений, в которых они работают. Далее, имея эталонную кадровую базу организации, можно выполнять сопоставление с ней извлеченной информации. В случае выявления несовпадений составителю документа может быть выдано сообщение о семантической ошибке с указанием текстового фрагмента, где это несоответствие было обнаружено.

Валидация и восстановление текста. Тексты некоторых предметных областей могут содержать неполную или ошибочную информацию, которую необходимо проверить и восстановить. Примером таких текстов являются, почтовые адреса клиентов некоторой организации, записанные оператором в виде сплошной строки. Обычно операторы вводят неполную информациюоб адресе, опуская индекс, название региона и др. Предлагаемые методы позволяют извлекать значения конкретных полей (названия городов, улиц, регионов идр.) из сплошной строки адреса [112,116]. Далее, имея эталонную базу почтовых адресов страны^ появляется возможность сопоставлять, извлеченные поля с ней [ИЗ],.исправлять опечатки в отдельных полях [114] и восстанавливать недостающие значения адресных полей.

Мониторинг потоков текстов: Наибольший интерес к системам подобного рода проявляют американские спецслужбы, для которых наиболее распространенными темами извлекаемых фактов являются теракты и массовые беспорядки. Данные факты выявляются по результатам анализа Web, аналогичной обработке может подвергаться и электронная почта на предмет выявления и предотвращения ? готовящихся преступлений. Извлекаемые факты состоят из структурных элементов, описывающих, например, участников события, их цели и средства, а также место события, его причины и последствия.

Модели и методы извлечения знаний из текстов на естественном языке Симаков Константин Васильевич

Похожие диссертации на Модели и методы извлечения знаний из текстов на естественном языке