Содержание к диссертации
Введение
Глава 1. Существующие алгоритмы обработки естественного языка 20
1.1 .Задачи обработки естественного языка 20
1.2. Особенности алгоритмов обработки естественного языка 23
1.3. Алгоритмы морфологического анализа в системах автоматического обработки естественно языковых (ЕЯ) текстов 26
1.3.1. Принципы построения компьютерной морфологии 27
1.3.1.1. Система кодирования словаря словоизменения 27
1.3.1.2. Точный морфологический анализ 28
1.3.1.3. Морфологический анализ на основе правил 29
1.3.1.4. Вероятностный морфологический анализ 29
1.3.2. Использование морфоанализа при разборе текста 30
1.3.2.1. Настройки морфоанализатора 30
1.3.2.2. Формальные факторы, определяющие варианты разбора ч слова 31
1.3.2.3. Учет контекста при разборе слова 33 1.4.Анализ тональности текста 3 6
1.4.1 Лингвистическая модель для компьютерного анализа тональности публикаций СМИ 37
1.4.2 Фильтрация и разбор пропозиций для оценки тональности 40
1.4.3 Прямая эмоционально-коннотативная характеристика 41
1.4.4 Ассоциированный эмоциональный коннотат 42
1.4.5 Методика принятия решения о тональности 42
1.5. Референция обозначений персон и организаций в публицистическихтекстах 45
1.5.1 Особенности референции обозначений в тексте 47
1.5.2 Обобщенный алгоритм анализа референции 51
1.5.3 Поиск референтов известных объектов 54
1.6. Поиск и классификация фактов 56
1.6.1 Технология фактографического поиска 56
1.6.2 RCO Pattern Extractor: компонент выделения особых объектов в тексте 58
1.6.2.1 Модуль предобработки текста 59
1.6.2.2 Выделение объектов 60.
1.6.2.3 Словарный модуль 61
1.6.2.4. Модуль выделения объектов 62
1.7. Нейросетевая технология в обработке ЕЯ информации 66
1.7.1 Использование статистических методов 68
1.7.2 Ассоциативная семантическая сеть 69
1.7.3 Реализация прикладных функций тематического анализа текста 72
1.8. Эксплицирование элементов смысла текста средствами синтаксического анализа-синтеза 74
1.8.1. Синтаксический анализ и эксплицирование отношений 75
1.8.2. Синтаксический синтез элементов смысла 7Ч6
1.8.3. Ранжирование элементов смысла и информационный портрет і, текста 79
1.9. Программные продукты для автоматического реферирования (Automatic Text Summarization) 81,
1.10 Выводы по Главе 1 88
Глава 2. Поуровневый анализ ЕЯ текста в системах автоматической обработки 90,
2.1. Знания о ЕЯ, необходимые для полного автоматического анализа 90
2.2. Общая схема автоматической обработки ЕЯ текста 91
2.3. Анализ отдельных слов 93
2.4. Проблема снятия омонимии 9$
2.4.1 Традиционные методы снятия лексико-семантической омонимии 98
2.4.2 Современные тенденции в решении проблемы автоматического снятия омонимии 103
2.4.3 Преимущества использования частотных коллокаций 105
2.4.4 Понятие частотных устойчивых коллокаций 107
2.4.5 Характеристика поверхностных фильтров 10
2.4.6 Оценка эффективности работы фильтров 109
2.5. Пример морфологического словаря («Открытые системы») 111
2.5.1 Структура морфологического словаря 111
2.5.2 Оболочка редактирования словаря 114
2.5.3 Бинарное представление словаря 116
2.5.4 Предсказание ненайденных слов 118
2.6. Анализ отдельных предложений 120
2.7. Анализ снизу вверх и сверху вниз 12J
2.7.1. Парсинг 123
2.7.2. Системы со встроенными правилами 125
2.7.3. Сравнение эффективности 126,
2.8. Классификация методов синтаксического анализа 128л
2.9. Синтаксический анализ в системе 130
2.9.1 Синтаксическое правило 132
2.9.2 Алгоритм работы 133
2.10. Использование семантических грамматик 141
2.11. Семантический анализ 144 2.11.1 Первичный семантический анализ 146 2Л1.2 Алгоритм поверхностного семантического анализа 148
2.12. Семантические сети и фреймы 149
2Л3. Выявление сверхфразовой структуры 154
2.14. Выводы 158
Глава 3. Модель алгоритма обработки ЕЯ текста 161
3.1. Некоторые методы автоматического анализа ЕЯ, используемые в ; о промышленных продуктах 161
3.1.1 Лексико-грамматический анализ (Part-of-Speech-tagging) 162
3.1.2 Синтаксический анализ (Text Parsing) 165
3.1.3 Автоматическое реферирование(Аи!отатіс Text Summarization) 169
3.2. Эксперимент v
3.2.1. Описание эксперимента 172
3.2.2. Результаты 179
3.2.3. Выводы 187
3.3.1 Модель текста 188
3.3.2 Схема обработки естественно-языкового текста 190
3.3.3 Первичная семантическая обработка 196
3.3.3.1 Инициализация семантических узлов и синтаксических вариантов фрагментов 196
3.3.3.2 Построение множества словарных интерпретации узлов 197
3.3.3.3 Построение групп времени 198-
3.3.3.4 Построение узлов в кавычках 200
3.3.3.5 Построение узлов типа «друг друга» 200
3.3.3.6 Подключение операторов типа не, только 201
3.3.3.7 Построение устойчивых словосочетаний 201
3.3.3.8 Построение лексических функций-параметров 202
3.3.3.9 Установление отношений между локативными узлами 203
3.3.3.10 Интерпретация тезаурусных должностей и организаций 204
3.3.3.11 Процедура инициализации валентной структуры 205
3.3.3.12 Процедура построения графа гипотетических связей 206
3.3.3.13 Построение множественных актантов 210
3.3.3.14 Процедура удаления длинных связей 212,
3.3.3.15 Процедура построения вариантов деревьев 212
3.3.3.16 Оценка деревьев 213
3.3.3.17 Проверка отношений по семантическим характеристикам 216
3.3.3.18 Проективность деревьев 216
3.3.3.19 Нарушение первой валентности и валентности из добавочных статей 217
3.3.3.20 Построение отношений по умолчанию 217
3.3.3.21 Межклаузные связи 21&
3.3.3.22 Правило восстановления анафорических местоимений 220
3.3.4. Алгоритм обработки текста после первичного семантического анализа 221
3.3.5 Основные принципы связей 224
3.3.6 Выявление тематического узла 227
3.3.7 Совместная встречаемость в предложениях 228
3.3.8 Семантическая сеть 229
3.3.9 Синтез информации из сети 230
3.4. Выводы по Главе 3 23 \
Заключение 233
Список литературы
- Алгоритмы морфологического анализа в системах автоматического обработки естественно языковых (ЕЯ) текстов
- Общая схема автоматической обработки ЕЯ текста
- Лексико-грамматический анализ (Part-of-Speech-tagging)
- Инициализация семантических узлов и синтаксических вариантов фрагментов
Введение к работе
В настоящее время исследование тематической структуры текста
приобрело особое практическое значение, поскольку совершенствование
механизмов автоматического определения основной темы и подтем документа
могло бы существенно улучшить эффективность информационного поиска в
информационных системах. В течение нескольких последних десятилетий этой
теме было посвящено большое число работ [Е. Black, G. Demetriou, М.А. Hearst,
JJ. Hopfield, D.Jurafsky, J.S. Justeson, S.M. Katz, A.Kilgarriff, JLKupiec,
C.Manning, D. Pearce, J.Pedersen, H.Schutze., P. Tapanainen, L. Van Guilder, D.
Yarowsky, Н.Д. Арутюнова, Б.В. Добров, A.E. Ермаков, Р.М.Жаркой, A.A.
Зализняк, A.A. Кибрик, Т. Ю. Кобзарева, Б.П.Кобрицов, Н.В.Крапухина, Д.М.
Кузнецов, Н.Н. Леонтьева, Н.В. Лукашевич, О.И.Максименко, Дж. Фон.
Нейман, Л.В. Орлова, Е.В. Падучева, Р.Г.Пиотровский, В.В. Плешко, Д.А.
Поспелов, Р.К.Потапова, Э. Хант, А.А. Харламов, Д.В.Чистов, Д.Н. Шмелев,
Д.Е. Шуклин и др.]. ,
Автоматизированный анализ естественно-языковых (ЕЯ) текстов является важной задачей, сориентированной на обработку больших объемов информации. Значительная часть всей доступной на сегодняшний день информации существует в виде неструктурированных текстов. Книги, журнальные статьи, научно-исследовательские работы, руководства по эксплуатации товаров, меморандумы, электронные письма и, конечно, всемирная сеть содержат естественно-языковую текстовую информацию, Результаты анализа массивов текстов связаны с процессом информирования- и принятия правильных практических решений.
Процедура автоматизированной обработки текстовой информации
обеспечит новый эффективный механизм как навигации, автоматического
создания рефератов документов, группировки и классификации, сравнения
текстов, так и поиска информации. -.-
Данное диссертационное исследование посвящено проблемам разработки лингвистического и алгоритмического обеспечения, служащего для создания
* >
8 современной системы извлечения ключевой содержательной информации посредством применения широкого класса математических и лингвистических методов логико-аналитической обработки больших массивов естественноязыковых текстов.
Актуальность данного исследования обусловлена необходимостью решения задачи разработки алгоритмов для проведения достоверного автоматического анализа постоянно увеличивающегося объема информации, порождаемого в рамках информационно-коммуникационных сред. Наличие вышеуказанной необходимости объясняется тем, что в последние годы быстрый рост индустрии информационно-поисковых систем, стимулированный расширением сферы Интернета, сосуществует с фактором относительно слабой развитости автоматизированных средств анализа естественно языковой информации, что связано с недостаточной степенью разработки соответствующего лингвистического обеспечения.
Научная новизна диссертации заключается в том, что:
впервые разработана обобщенная схема обработки массива публицистических текстов на естественном языке для подъязыка СМИ;
- впервые выявлены тенденции с учетом соответствия результатов
обработки естественно-языкового текста, выполненной компьютером и
человеком;
впервые предложена модель текста как композиция формальных моделей ее компонентов, в основе которой лежит интеграция статистических и формальных лингвистических методов;
впервые разработан алгоритм извлечения элементов смысла из массива текстов ограниченной тематики, включающий блок первичной семантической обработки, блок индексации и ранжирования понятий, блок установления связей, блок выявления тематического узла, блок установления попарной встречаемости, блок построения семантической сети, блок синтеза информации из сети.
9 r
Рабочей гипотезой исследования является предположение о том, что попытка автоматически проанализировать значительный объем информации, порождаемый в пределах информационно-коммуникационных сред, возможно сделает ненужными большинство классических операций обработки и подготовки текстовой информации.
Основная цель диссертации заключалась в разработке механизма построения информационного портрета [по А.Е. Ермакову] массива документов на основе элементов смысла. Данная цель обусловила необходимость решения следующих задач:
проведение анализа существующих систем автоматической обработки текстовой информации,
разработка поэтапного алгоритма автоматического анализа массива документов,
создание модели извлечения смысла посредством автоматического анализа и синтеза информационного корпуса,
нахождение характеристик механизма построения семантической сети,
построение модели синтеза строк, представляющих в унифицированном виде все элементарные отношения между ключевыми словами и словосочетаниями в тексте.
Основными методами исследования явились: метод сплошной выборки,
метод эксперимента, метод статистического анализа. ^
В качестве экспериментального материала- диссертационного исследования был использован корпус газетных текстов на русском и английском языках, функционирующих в рамках компьютерных сетей.
Достоверность полученных результатов и обоснованность выводов обеспечивается репрезентативной выборкой использованного в ходе исследования материала и достаточным количеством испытуемых (3483 проанализированные лексические единицы, n = 37).
Объектом исследования является процесс автоматического анализа
массивов документов. .
Предметом исследования является разработка алгоритма автоматического анализа информационного массива ограниченной предметной области (международные отношения Россия - США).
Теоретическая значимость диссертации заключается в том, что полученные результаты являются вкладом в теорию автоматического анализа текстовой информации, в теорию алгоритмизации автоматического анализа текстовых документов, а также в теорию автоматизированных систем в целом.;«
Практическая ценность диссертации заключается в следующем: полученные экспериментальные данные о различиях между результатами обработки текста, выполненной компьютером и человеком, проведение формального описания естественного языка на каждом языковом уровне, разработанный оригинальный анализатор для автоматической обработки текстовой информации в прикладных системах, а также результаты работы над алгоритмом автоматической обработки естественного языка могут быть использованы при разработке различных приложений: систем автоматического перевода, аннотирования и реферирования текстов, а также при чтении курсов по прикладной и математической лингвистике.
Основные результаты работы были апробированы на различных
конференциях: 10-й Международной конференции SPECOM'2005 ('Речь и
компьютер') (Патры, Греция, 17-19 октября 2005 г.), 11-й Международной
конференции SPECOM'2006 ('Речь и компьютер') (Санкт-Петербург, 25-29
июня 2006 г.), 9-й Международной конференции Cognitive modeling in
linguistics ('Когнитивное моделирование в лингвистике') (София, Болгария, 28
июля - 3 августа 2007) 12-й Международной конференции SPEGOM'200^
('Речь и компьютер') (Москва, 15-19 октября 2007 г.). :.
Цели и задачи исследования обусловили структуру диссертации, которая состоит из введения, трех глав, заключения и списка литературы.
По теме диссертационной работы имеются следующие публикации:
Irina Nikolaeva, Automated Natural Language Text Analysis with Superphrasal Structure Detection, Specom 2005 Proceedings (Patras; 17-19 October, 2005), Patras, Greece 2005
Irina Nikolaeva, Automated Detection of Semantic Connections in the Text Subject Organization, Specom 2006 Proceedings (St. Peterburg, 25-29 June 2006), St. Petersburg, Russia 2006
Николаева И.В., Объектный подход к механизму обработки естественно-языкового текста. Сборник «Исследования молодых ученых», Минск. 2006
Николаева И.В. Автоматизация установки связей между понятиями в естественно языковом тексте. Международная Конференция Российской Научной Школы «Инноватика - 2006», Ч. 3, Т. 2 - М., Радио и связь, 2006. - С. 45-51
Николаева И.В. Алгоритм выявления сферхфразовых структур в текстовом массиве в информационно-коммуникационных средаха Международная Конференция Российской Научной Школы «Инноватика - 2006», Ч. 3, Т. 2 - М., Радио и связь, 2006. - С. 51-60
Николаева И.В., Выявление сверхфразовой структуры в задачах автоматического анализа естественно-языкового текста, Вестник МГЛУ, 2007.
Irina Nikolaeva, The Experimental Approach to Developing the Automated Text Processing Algorythm; Когнитивное моделирование в лингвистике, Труды IX международной конференции (София, 28 июня - 3 августа 2007), ред. В.Соловьев, Р. Потапова, В. Поляков -Казань: Казанский Государственный Университет, 2007 L,
Rodmonga Potapova, Irina Nikolaeva, The Experimental Analysis of the Differences between the Results of the Natural Language Text Processing Made by the Computer and the Human, Specom 2007 Proceedings (Moscow, 15-17 October 2007), Moscow, Russia 2007
*
Структура и объем работы. Предлагаемая вниманию диссертационная работа состоит из введения, трех глав, заключения и списка литературы.
Во введении обосновывается актуальность исследования, определяются объект, предмет, гипотеза, цель, задачи и материал исследования, перечисляются методы исследования, раскрывается его научная новизна, теоретическая и практическая значимость, предлагаются рекомендации об использовании его результатов, формулируются положения, выносимые на защиту.
В первой главе «Существующие алгоритмы обработки естественного языка» рассматриваются задачи автоматической обработки текстов, на решение которых нацелены современные программные продукты, описываются особенности следующих алгоритмов обработки естественного языка с учетом прикладных задач:
Анализ тональности текста. Технология анализа тональности текста [С.Л. Киселев, А.Е. Ермаков, В.В. Плешко] позволяет распознать позитивное или негативное отношение автора текста к описываемому объекту или же выявить те составляющие образа объекта в тексте, которые призваны сформировать у читателя определенную окраску объекта по признаку "позитив/негатив". Следует отметить, что с высокой достоверностью удается выделить только негатив, тогда как подавляющая часть позитива оказывается скрытым негативом, иронией, или же перечеркивается рядом стоящим негативом.
Референция обозначений персон и организации. Данная технология [Н.Д. Арутюнова, Е.В. Падучева, М.В. Лебедев, А.З. Черняк, А.А. Кибрик, Т.Ю: Кобзарева, А.Е. Ермаков, В.В. Плешко] включает в себя, во-первых-распознавание и разбор наименований объектов с выделением всех элементов наименования для последующего отождествления наименований и приведения их к заданному каноническому виду, и во-вторых, отождествление различных вариантов наименования одного и того же объекта в тексте, в том числе косвенных обозначений.
3. Поиск и классификация фактов. Технология фактографического поиска [В.А. Митюнин] предполагает настройку шаблонов для поиска ц классификации фактов самых различных типов. Такие шаблоны создаются либо при помощи специальной программы-настройщика, которая позволяет строить шаблоны на основе типовых примеров, либо через настройку уже существующих стандартных шаблонов путем подключения требуемых словарей.
4. Эксплицирование элементов смысла. Этот метод [Г.В. Липинский, В.В. Плешко, А.Е. Ермаков] основан на использовании синтаксического анализатора с последующим преобразованием семантической сети во множество строк, которые представляют в унифицированном виде все элементарные отношения между сущностями в тексте.
Отдельное внимание уделяется использованию нейросетевой технологии,
статистических методов, ассоциативных семантических сетей. Дается
сравнительная оценка эффективности существующих программных продуктов
для автоматического реферирования. -,
Основная цель нейросетевого подхода [D. Landau, R. Feldman, Y. Aumann^ M. Fresko, Y. Lindell, O. Lipshtat, 0. Zamir, JJ. Hopfleld, A.A. Харламов, P.M. Жаркой, В.И. Волков, Г.Н. Мацаков, Д.М. Кузнецов] - сформировать словарь слов и выявить связи между ними, поэтому на первом шаге формируется словарь слов. Но на втором шаге, вместо формирования последовательности аббревиатур путем фильтрации слов словаря, сформированного на первом уровне, анализируется попарная встречаемость слов в предложениях. Таким образом, выявляются связи между словами. Полученная информация представляет собой частотный- портрет текста, который может быть визуализирован в виде сети слов словаря и их связей.
Семантическая сеть [И.А Мельчук, А.А. Харламов, Л.В. Орлова] представляет множество понятий текста - слов и словосочетаний, ассоциативно связанных между собой. В качестве критерия связности используется частота
14 совместной встречаемости ключевых слов и словосочетаний в предложениях текста.
В результате анализа вышеперечисленных алгоритмов и технологий был сделан вывод, о том, что для достижения приемлемого качества решения
л)
практических задач не требуется полный грамматический анализ фразы. Достаточно выделить наиболее информативные единицы текста - ключевые слова, словосочетания, предложения и фрагменты, причем в качестве критерия информативности выступает частота повторения этих единиц в тексте.
Такой подход подтверждается также нейропсихологическими исследованиями, в которых установлено, что анализ текста человеком опирается преимущественно на зрительное пространственно-предметноб восприятие и реализуется правым полушарием мозга, представляющим ассоциативную семантико-статистическую модель мира [Т.Б. Глезерман, Н.Н. Брагина, Т.А. Доброхотова]. Глубинная семантика сообщения изначально определяется структурой правополушарной модели и отражается ;В коммуникативном строении текста как иерархии тем и рем с соответствующей им совокупностью сверхфразовых единств [Т.В. Ахутина].
На основе этой точки зрения появился подход, в основе которого лежит
представление смысла текста в форме ассоциативной семантической сети [А.А.
Харламов, А.Е. Ермаков, Д.М. Кузнецов], узлы которой представлены
множеством часто встречавшихся понятий текста - слов и устойчивых
словосочетаний, из числа которых исключены общеупотребимые слова. Такая
семантическая сеть может быть, автоматически построена на базе множества
текстов и использована впоследствии как модель предметной области для
анализа неизвестных документов. j
Учитывая сверхфразовую связность сообщения в целом, считается, что наиболее вероятно обуславливание темы высказывания предшествующей темой или ремой, что отражает сохранение фокуса внимания или его переключение на связанный узел сети. Результатами такого анализа являются: набор ключевых тем документа, представленных ключевыми словами и словосочетаниями
семантической сети и ранжированных по релевантности; тематические резюме по ключевым темам, представленные наиболее информативными сверхфразовыми единствами; общий реферат, составленный из наиболее информативных сверхфразовых единств по ключевым темам.
Во второй главе «Поуровневый анализ естественно-языкового текста "в
системах автоматической обработки» приводится механизм анализа отдельны^
слов, описываются различные методы снятия омонимии, дается оценка их
эффективности, рассматриваются различные способы анализа отдельных
предложений. Предлагается развернутая классификация методов
синтаксического анализ с учетом их использования в прикладных системах.
Детально исследуются многочисленные процедуры семантического анализа
фразы в рамках алгоритма поверхностного семантического анализа. і
Существует три основных подхода к проведению морфологического анализа. Первый подход часто называют «четкой» морфологией [А.А. Зализняк]. Второй подход основывается на некоторой системе правил, по заданному слову определяющих его морфологические характеристики; в противоположность первому подходу его называют «нечеткой» морфологией [Гарант-Парк-РІнтернет]. Третий, вероятностный подход, основан на сочетаемости слов с конкретными морфологическими характеристиками [SRJLM], он широко применяется при обработке языков со строго фиксированным порядком слов в предложении.
Методы снятия омонимии включают как^ традиционные системы, использующие правила, созданные вручную - общие контекстные правила и правила-шаблоны [S.Weiss], системы на основе данных словарей [Y.Wilksj L.Gutrie, G.Demetriou, E.Atwell, M.Stevenson], вручную размеченных тренировочных корпусов [E.Black, M.A.Hearst, D.Yarowsky], переводных словарей и переводных корпусов [I.Dagan, W.A.Gale], тезаурусов^ [M.Masterman, A.B.Patrick, M.Sussna], так и современные системы» использующие методы автоматического тезаурирования [A.Kilgarriff] и устойчивых коллокаций [Д.Н.Шмелев].
16 .и
Что касается методик синтаксического анализа, то исторически первым
способом описания синтаксиса языка были формальные грамматики [З.Хант], а
затем трансформационные грамматики [Э.Хант]. Позже появились
вероятностные грамматики [C.D.Manning, H.Schutze], расширившие
формальные грамматики. Каждому правилу построения предложения была
указана некоторая вероятность применения этого правила. .
Синтаксический анализ на основе обучающихся систем заключается в
разработке множества примеров, содержащих пару: исходное предложение и
результат его синтаксического анализа, который вводится человеком,
занимающимся обучением системы, в ответ на каждое подаваемое на вход
предложение. Цель синтаксического анализа - построение синтаксических
групп с помощью синтаксических правил. *
При построении естественно-языковых интерфейсов проблемы повышения эффективности, удобства, учета особенностей речи и ошибок ввода решаются с помощью "семантической грамматики" - грамматики, в которой категории обозначают как семантические, так и синтаксические понятия.
Семантический анализ текста базируется на результатах синтаксического анализа, получая на входе набор деревьев, отражающих синтаксическую структуру каждого предложения. Большинство методов семантического анализа сориентированы на такую единицу, как слово. Поэтому существует тезаурус языка - общая для всех методов база. На математическом уровне он
представляет собой ориентированный граф, узлами? которого являются слова в
.г;
их основной словоформе. Семантическая структура предложения состоит из семантических узлов и семантических отношений. Семантический узел - это такой объект текстовой семантики, у которого заполнены все валентности, как эксплицитно выраженные в тексте, так и имплицитные - те, которые получаются из экстралингвистических источников. Вход семантического анализа - это синтаксическое представление предложения. Выход семантического анализа - это множество семантических структур, построенные на основе входного синтаксического представления.
Лингвистический анализ содержания текста позволяет выявить связи между описанными в нем событиями и предметами. Совокупность имен всех предметов (одушевленных и неодушевленных) и событий с их взаимосвязями образует семантическую сеть. В зависимости от характера отношений сети могут быть разного типа. Единого мнения в вопросах классификации семантических сетей у специалистов по искусственному интеллекту нет. Семантические сети часто рассматривают как наиболее общий формализм для представления знаний.
Таким образом, проведенный анализ современных прикладных систем обработки естественного языка позволил выявить следующие тенденцию большинство современных систем обработки естественного языка опирается на математику и статистику, что вызывает следующие трудности - во-первых, естественный язык является слабо формализуемой областью знаний, и вс^ вторых наблюдается огромная пропасть между возможностями аппаратных средств и методами решения задач обработки текста, то есть в дополнение к математическим и статистическим методам должны использоваться лингвистические методы, которые приводят к реальным результатам.
Необходимо особо отметить тот факт, что лингвистика, инженерия знаний и искусственный интеллект непосредственно связаны между собой и не могут быть изолированы друг от друга в решении задач описания естественных
ЯЗЫКОВ. л
В настоящее время * существуют сложные лингвистические алгоритмы,
которые позволяют проводить полный синтактико-семантический анализ
текста на естественном языке. Но, тем не менее, большинство современных
систем обработки естественного языка опирается на методы математической
статистики и теории вероятностей. ';Л
Наиболее освоенные на сегодня методы базируются на хорошо формализованных алгоритмах, полученных в результате построения математических моделей предметных областей. Такой тип обработки данных далеко не всегда подходит для систем автоматической обработки текста на
18 естественном языке, который принадлежит к числу плохо формализуемых систем, так как для него плохо изучены аналитические зависимости или цепочки действий, приводящие к результату без интеллектуального вмешательства человека.
Основная трудность заключается в том, что нельзя с уверенностью сказать} что набор параметров, описывающий объекты данной предметной области; наверняка полон и адекватен, а сами измеренные значения параметров в совокупности также полны и непротиворечивы. Все это не позволяет применять для решения плохо формализуемых задач только лишь традиционные статистические методы.
Именно поэтому в дополнение к «традиционным» математическим
методам появляются детально проработанные, проверенные экспериментально
лингвистические методы. ~;
В третьей главе «Модель алгоритма обработки естественно-языкового
текста» описывается проведенный эксперимент, приводятся выводы,
основанные на его результатах. .f'
Целью эксперимента по методике, предложенной Р.К. Потаповой, сталр выявление различий между результатами обработки естественно-языкового текста, выполненной компьютером и человеком для оценки эффективности компьютерной обработки естественно-языкового текста. Испытуемым было предложено провести ранжирование смысловых блоков, позволяющих передать содержание текста, определить-предложения, несущие основную смысловую^ нагрузку, выписать ключевые слова и словосочетания и расставить их в порядке уменьшения смысловой нагрузки от максимальной до минимальной. .
Для выполнения машинной обработки была выбрана компьютерная
программа TextAnalyst, реализованная российскими разработчиками компании
"Микросистемы". Система реализована на основе однородной нейросетевой
обработки информации. ;\
Материалом для экспериментального исследования послужила подборка публицистических текстов на тему «Международные отношения: Россия -
19 США». Все тексты были взяты с Интернет-сайтов различных информационных служб.
В третьей главе также предлагается модель текста как композиция
формальных моделей ее компонентов, разрабатывается обобщенная схема
обработки естественного языка, определяются алгоритмы первичной
семантической обработки, индексирования понятий, установления
семантических связей, выявления тематических узлов, построения
семантической сети, синтеза информации из сети. *-;
На базе предложенных методов обработки могут быть созданы модули
анализа и представления текстовой информации на естественном языке,
применяемые для автоматической генерации модели изучаемого текста, синтеза
текстовой информации по полученной модели, различных видов
реферирования текстов, автоматизации перевода текстов, автоматического
контроля усвоения материалов пользователем, который обучается языку. ,;"
В заключении подводятся общие итоги работы, намечаются направления для дальнейших исследований.
Алгоритмы морфологического анализа в системах автоматического обработки естественно языковых (ЕЯ) текстов
Система, анализирующая ЕЯ текст, не может функционировать без модуля морфологического анализа. Основные функции, обеспечиваемые модулем морфоанализа: получение всех словоформ слова, постановка слова в заданную форму и получение грамматических характеристик словоформы. Вопросам компьютерной морфологии посвящено множество работ, однако все известные нам касаются лишь анализа отдельно взятого слова. При применении морфоанализатора к разбору связного текста возникает комплекс проблем, которые выдвигают дополнительные требования к модулю морфоанализа.
Большая часть слов текста представляет неизменный фундамент языка и охватывается словарем в пределах 100 тысяч слов. Другая, более редкая, но не менее важная составляющая лексикона постоянно пополняется и в принципе не имеет четко очерченных границ, прежде всего в части имен собственных и словообразовательных вариантов известных слов. К счастью, общие правилу словообразования и словоизменения обладают регулярностью, что позволяет во многих случаях достаточно точно идентифицировать не только модель словоизменения, но и лексико-семантический разряд неизвестного слова. Возможность анализа неизвестных слов - необходимое качество морфоанализатора.
Реальность текста такова, что даже наличие сколь угодно "умного" морфоанализатора не всегда позволяет точно идентифицировать отдельное слово из-за присутствия в тексте омонимии. Для этого зачастую необходим учет контекста, как в рамках предложения, так и всего текста в целом: учет формальных особенностей написания, синтаксической организации фразы, кореферентных имен и правил их введения в текст. Отдельную проблему представляет выделение многословных единиц, таких как, например, полные наименования организаций, которые должны обрабатываться как единое целое. В связи с этим модуль морфоанализа должен иметь гибкие настройки, которые позволяют эффективно использовать его в составе обработчика текста; порождая множество правдоподобных гипотез о словах при возможности омонимии, часть из которых подтверждается, а часть отвергается впоследствии на основании контекста.
Неизменяемая часть слова, общая у всех его форм, представляется графической основой, возможно пустой (идти - шел). Вся оставшаяся часть слова описывается набором присоединяемых к основе окончаний. Список окончаний, упорядоченных в соответствии с грамматическими формами, образует парадигму словоизменения. Например, в русском языке существует четыре типа парадигм: парадигма существительного (14 грамматических форм; включая два родительных и предложных падежа), парадигма прилагательного (31 грамматическая форма) и парадигма глагола (146 возможных прямых форм и 86 возвратных). К четвертому типу относятся все неизменяемые слова.
Большинство слов языка изменяется стандартным образом, т.е. имеет одинаковые окончания в одинаковых грамматических формах. Вследствие этого все различные парадигмы компактно представляются в виде строк в трех таблицах размером 14, 31 и 146 столбцов, а при основе слова хранится ссылка на соответствующую строку таблицы. Большинство окончаний в парадигмах также является стандартным,, и для их хранения используется общая таблица окончаний, а в таблицах парадигм хранятся только ссылки на окончания. Таким образом, каждое слово словаря описывается основой и кодом парадигмы словоизменения - типом парадигмы и номером парадигмы в соответствующей типу таблице парадигм. Для построения заданной грамматической формы достаточно выбрать ссылку на соответствующее окончание из парадигмы и получить его строку из таблицы окончаний, после чего приписать к основе. Для быстроты поиска при анализе все основы хранятся в виде дерева" Корневой узел дерева соответствует нулевой основе, каждый дочерний узел возможной однобуквенной основе, каждый из следующих дочерних узлов -своей двухбуквенной основе с первой буквой, соответствующей узлу-родителю, и так далее. Структура дерева задается масками переходов, которые хранятся в каждом узле и определяют возможные последующие символы в основе. Дополнительно узел может содержать коды парадигм и частей речи, если соответствующая основа присутствует у каких-либо слов. Помимо основ, в форме деревьев хранятся все прочие дополнительные наборы строк, используемые в алгоритмах, которые описаны далее.
Для быстрого поиска словоформы в словаре используется дополнительная структура - дерево окончаний, которое дублирует все окончанияу представленные в таблице окончаний в форме строк. В каждом узле дерева хранятся коды всех парадигм, в которые входит соответствующее окончание.
Поиск словоформы реализуется следующим образом. Слово анализируется с конца на совпадение с деревом окончаний. Для каждого совпавшего окончания (включая пустое) оставшаяся часть слова ищется в дереве основ. В случае полного совпадения остатка слова с некоторой основой происходит сравнение кодов парадигм, хранимых при окончании и основе. Если обнаруживается общий код, значит, данное окончание возможно при данной основе и словоформа распознается, а из узла дерева основ извлекается код части речи.. После этого продолжается поиск, в дереве окончаний, так, как возможно несколько вариантов разбора слова с разными окончаниями и основами. Если необходимо определить, каким именно грамматический формам соответствует распознанная словоформа, достаточно провести поиск окончания в найденной парадигме - выполнить серию операций сравнения строк. Для оптимизации поиска в узлах дерева окончаний на каждую парадигму хранится номер первого вхождения окончания в парадигму и число повторений окончания в ней.
Общая схема автоматической обработки ЕЯ текста
словарь описания словоизменения для морфологического анализа известной и неизвестной лексики (словарный и бессловарный анализ); 2. словари и правила для выделения и анализа особых текстовых единиц, написание которых не подчиняется общим правилам грамматики языка: служебных (многословные предлоги, союзы, наречия, вводные и другие идиомы) и полнознаменательных (наименования персон и организаций, географические названия, даты, различные классы обозначений с числами); -; 3. общие правила грамматики русского языка (согласование, примыкание, управление) с учетом законов семантического согласования; 4. словарь моделей управления предикатов языка (глаголов! существительных, предикативов) с семантическими ограничениями на сочетаемость; 5. семантический классификатор лексики русского языка: предметы (одушевленные и неодушевленные, природные и искусственные; физические и- интеллектуальные), события (действия и состояния, физические и интеллектуальные), признаки І (качественные и относительные); 6. общий словарь синонимов (тезаурус для компьютерной обработки текста); 7. правила (синтактико-семантические преобразования) для эксплицирования элементов смысла текста, отождествления различных способов выражения одного смысла, синтеза нового текста на русском языке.
Автоматизированный анализ ЕЯ текстов является очень важной задачей для обработки больших объемов информации. Значительная часть всей доступной на сегодняшний день информации существует в виде неструктурированных текстов. Книги, журнальные статьи, научно-исследовательские работы, руководства по эксплуатации товаров -меморандумы, электронные письма и, конечно, всемирная сеть содержат ЕЯ текстовую информацию. Анализ огромных массивов текстовой информации часто связан с информированием и принятием правильных деловых решений [Ананян, Харламов 1997]. Решение задачи анализа такой информации может обеспечить средства для автоматизированной интеллектуальной обработки огромных массивов текстов, которые каждый день попадают в поле нашего внимания. По крайней мере, предварительный анализ различный статей, книг, бизнес-планов, уголовных и гражданских дел и так далее, в настоящее время мог бы производиться машинами.
Следует прежде всего рассмотреть наиболее общие задачи, возникающие в связи с анализом текста. Хотелось бы иметь возможность извлечь суть текста в кратком виде и внести полученный результат в список наиболее важных положений, гиперсвязанный с соответствующими местами в изначальном тексте [Ананян, Харламов 1997]. Эта процедура обеспечит новый эффективный механизм как навигации, автоматического создания рефератов документов, группировки и классификации, сравнения текстов, так и поиска ЕЯ информации. Достижение такого уровня функциональных возможностей могло бы иметь большое практическое значение для наших ежедневных действий, связанных с обработкой текста. }
Существующие подходы к анализу текстов можно разбить на два класса [Ермаков 2002: 180-185]: 1. Простые, быстрые, но грубые подходы. Они не зависят от языка и предметной области, чаще всего это подходы, использующие статистические методы. 2. Изощренные, но сравнительно медленные подходы, дающие хороший результат. Они зависят от языка и предметной области и обычно основаны на лингвистических методах.
Эффективным можно считать такой подход, который сочетал бы в себе быстроту и независимость от языка алгоритмов первого класса с высоким качеством обработки второго [Харламов 2002: 62-65].
Общая схема обработки текстов (рис. 1) инвариантна по отношению к выбору естественного языка. Независимо от того, на каком языке написан исходный текст, его анализ проходит одни и те же стадии. Первые две стадии (разбиение текста на отдельные предложения и на слова) практически одинаковы для большинства естественных языков. Единственное, где могут проявиться специфичные для выбранного языка черты, - это обработка сокращений слов и обработка знаков препинания (точнее, определение того, какие из знаков препинания являются концом предложения, а какие нет).
Лексико-грамматический анализ (Part-of-Speech-tagging)
Задача лексико-грамматического анализа - автоматически распознать, какой части речи принадлежит каждое слово тексте. Ниже показан пример текста, в котором каждому слову поставлен в соответствие лексико-грамматический класс [Francis, Kucera 1979].
1. Пример текста, в котором каждому слову поставлена в соответствие часть речи. Данную задачу не представляет труда выполнить для русского языка благодаря его развитой морфологии практически со стопроцентной точностью.
В английском языке простой алгоритм, присваивающий каждому слову в тексте наиболее вероятный для данного слова лексика-грамматический класс (син. часть речи) работает с точностью около 90 %, что обусловлено лексической многозначностью английского языка.
Для улучшения точности лексико-грамматического анализа используются два типа алгоритмов: вероятностно-статистические и основанные на продукционных правилах, оперирующих словами и кодами.
Большинство вероятностно-статистических алгоритмов [Linda Van Guilder 1995] использует два источника информации: 1. Словарь словоформ языка, в котором каждой словоформе соответствует множество лексико-грамматических классов, которые могут иметься у данной словоформы. Например, для словоформы well в словаре указано, что она может быть наречием, существительным, прилагательным и междометием. Для каждого лексико-грамматического класса словоформы указывается частота его встречаемости относительно других лексико-грамматических классов данной словоформы. Частота обычно подсчитывается на корпусе текстов, в котором предварительно вручную каждому слову приведен в соответствие лексико грамматический класс. Таким образом, словоформа well в словаре будет представлена следующим образом: well noun 4 occurences in corpus well adverb 1567 occurences in corpus well adjective б occurences in corpus well interjection 1 occurences in1 corpus 2. Информацию о встречаемости всех возможных последовательностей лексико-грамматических классов. В зависимости от того, как представлена данная информация, разделяют биграмную, триграмную и квадриграмную модели. В биграмной модели используется информация о всех возможных последовательностях из двух кодов: неопр.артикль + сущ.ед.ч 35983 occurences in corpus неопр.артикль + сущ.мн.ч 7494 occurences in corpus опр.артикль + сущ.ед.ч 13838 occurences in corpus неопр.артикль + сущ.мн.ч 47 occurences in corpus неопр.артикяь + глагол 3 л., ед.ч 0 occurences in corpus глагол 3 л., ед.ч + предлог 3744 occurences in corpus
В триграмной модели и квадриграмной модели используется соответственно информация о всех возможных последовательностях из 3-х и 4-X кодов.
Данная информация обрабатывается программой, использующей статистические алгоритмы, чаще всего алгоритм скрытых цепей Маркова [Linda Van Guilder 1995] для нахождения наиболее вероятного лексико-грамматического класса для каждого слова в предложении.
Алгоритмы, основанные на продукционных правилах, используют правила собранные автоматически с корпуса текстов [Brill 1995], либо подготовленные квалифицированными лингвистами [Tapanainen, Voutilainen 1994]. Примером могут быть следующие правила: Если словоформа мажет быть как глаголом, так и существительным, и перед ней стоит артикль, эта словоформа в данном случае является существительным.
Если словоформа может быть как предлогом, так и подчинительным союзом, и если после нее до конца предложения нет глагола, эта словоформа в данном случае является предлогом.
Оба- подходам дают примерно одинаковый результат [Samuelsson, Voutilainen, 1997] [Volk, Schneider 1998]. При их использовании раздельно либо в различных комбинациях точность лексико-грамматического анализа улучшается до 96-98 %. Поскольку точность при лексико-грамматическом анализа текста вручную также имеет определенную погрешность (0,5-2 %) согласно сведениям, предоставленным создателями Penn Treebank), можно считать, что точность лексико-грамматического анализа в автоматическом режиме достигла практически точности лексико-грамматического анализа в ручном режиме.
Инициализация семантических узлов и синтаксических вариантов фрагментов
В соответствии с лингвистической моделью, на которую опирается наш подход, основу семантической структуры высказывания представляет так называемый пропозициональный компонент [Лукашевич, Добров 1996] плана содержания. Этот компонент отражает внеязыковую ситуацию, описываемую предложением, и характеризует его объективное содержание.
Таким образом, наш подход к извлечению знаний предполагает выделение из структуры фразы ее семантического ядра - объективного описания ситуации, и абстрагирования от несущественных, субъективных компонентов плана содержания [Леонтьева 1982: 124-140].
Ядром процесса анализа при таком подходе является автоматическое,, индексирование ЕЯ текстов дескрипторами общественно-политического тезауруса [Intelligent Text Summarization 1998: 77-84.] (что определено нашей задачей), автоматическое построение тематического представления текста, описывающего темы и подтемы текста.
Построение тематического представления текста базируется на свойствах локальной и глобальной связности текста и предположении о том, что основная тема текста может быть описана некоторой пропозицией. Назовем ее макропропозицией [Лукашевич, Салий 1997], понятия, используемые в макропропозиции макропонятиями, а слова и термины, используемые в соответствующей словесной формулировке основной темы текста макротерминами [Information Technology 1998: 1-24].
Следствием предположения о глобальной связности текста является то, что, как правило, повторы макротерминов, использование семантически и тематически близких к макропонятиям слов и терминов, имеют непосредственное родственное отношение к этим макропонятиям.
Таким образом, глобальная связность текста [Climent, Rodriguez, Gonzalo 2003] реализуется, в частности, посредством совокупностей терминов, семантически и тематически близких к макропонятиям. Совокупность понятий текста тематически близких одному и тому же понятию назовем тематическим узлом, а само это понятие тематическим центром [Добров, Лукашевич 1996: 130-134.].
Поскольку макропонятия1 в- совокупности? характеризуют основную тему текста, то можно считать, что глобально связанный текст посвящен описанию отношений между этими макропонятиями. Поэтому основным содержанием большинства подтем текста является описание отношений между элементами различных основных тематических узлов (тематических узлов вокруг макропонятий). Это значит, что пары терминов, принадлежащих различным основным тематическим узлам, должны встречаться в тексте рядом чаще, чем термины тематических узлов, построенных вокруг других понятий текста.
Отсюда следует, что элементы тематических узлов каждого макропонятия должны проходить «тематическими нитями» через весь текст и постоянно упоминаться в различных сочетаниях рядом друг с другом. Постоянное совместное упоминание и есть та особенность тематических узлов макропонятий, которая выделяет их среди других возможных тематических узлов текста и позволяет находить их в текстах автоматически с большой точностью.
Эта закономерность определяется свойствами связности текста и не зависит от языка, на котором написан текст.
Тематическое представление текста - это иерархическая структура терминов текста, в которой тематически близкие термины собраны вокруг тематических центров в тематические узлы. Тематические узлы связаны между собой отношением «иметь_отношение_к» [Loukachevitch 1998]. Тематические узлы, можно» классифицировать по суммарной частотности терминов их составляющих, а также по суммарной текстовой связности с другими узлами: - основные тематические узлы, отражающие в совокупности основное содержание всего текста; - локальные тематические узлы, отражающие подтемы текста.
Основой для построения тематического представления текста служит общественно-политический тезаурус [Лукашевич, Салий 1997], который4 является по своему значению контролируемым словарем индексирования.
С 1994 года в АНОЦентр Информационных Исследований ведутсяфаботы по разработке Тезауруса для автоматического1 индексирования в общественно-политической области. С 1995 года Общественно-политический тезаурус активно и успешно применяется для различных приложений автоматической обработки текстов, таких как автоматическое концептуальное индексирование, автоматической рубрицирование с использованием нескольких рубрикаторов, автоматическое аннотирование текстов. В настоящее время Общественно-политический Тезаурус включает порядка 58 тысяч терминов и наименований; более 25 тысяч понятий, более 90 тысяч отношений между понятиями.
В отличие от тезауруса для ручного индексирования, тезаурус для автоматического индексирования должен включать в себя значительно более подробное и точное описание лексических и терминологических знаний, то есть увеличивается описываемая совокупность вариантов понятия, многие из которых являются избыточными для человека-индексатора [Language Text and Speech Retrieval].
Синонимические ряды понятий должны быть значительно богаче, чем совокупности вариантов дескриптора в тезаурусе для ручного индексирования, поскольку синонимы должны описывать различные способы выражения данного понятия в тексте для автоматического процесса, а не для человека. Ряды синонимов включают в себя не только существительные и именные группы, а также прилагательные, глаголы, глагольные группы. Значительные усилия должны быть также сделаны, чтобы найти различные многословные синонимы.
Поскольку тезаурус является общественно-политическим, а не описывает понятийную структуру языка в целом, то не включаются наиболее общезначимые слова и те значения терминов, которые очень редко встречаются, в текстах предметной области.
Важнейшими принципами включения в тезаурус многословных терминов являются существование у словосочетаний связей с другими элементами- и совокупность словосочетаний термина с общезначимыми словами представляющая собой одно и то же понятие. .