Содержание к диссертации
Введение
ГЛАВА 1. Проблемы математического моде лирования языковых единиц в области автоматической обработки текстов 16
1.1 Виды автоматической обработки текстов и области ее применения 19
1.2 Унив ерсальные способы моделирования знаний в об ластях
автоматической обработки текстов и искусственного интеллекта 22
1.2.1 Направления исследований в области и скусственного инт еллекта, относящиеся к автоматической обработке текстов 23
1.2.2 Проблема универсальных алгоритмов в автоматической обработке текста и искусственном интеллекте 24
1.2.3 Спо собы пре дставления знаний в сис темах а втоматической обработки текстов и искусственного интеллекта в контексте проблемы машинного обучения 26
1.2.4. Проблема разграничения знаний о языке и знаний о мире в сист емах автоматической обработки текстов и искусственного интеллекта 28
1.3 Проблемы математического моделирования синтаксических структур в различных лингвистических концепциях 29
1.3.1 Структуры непосредственных составляющих 31
1.3.2 Моделирование линейного порядка слов и взаимодействия грамматических признаков в трансформационной порождающей грамматике Н. Хомского 34
1.3.3 Проблема линеаризации структур составляющих: идеи , ал ьтернативные трансформациям 44
1.3.4 Структуры зависимостей 47
1.3.5 Комбинированные с труктуры непосредственных сост авляющих и зависимостей 48
1.4 Проблемы мод елирования грамматической семан тики в области автоматической обработки текста 50
1.4.1 Проблемы моделирования категориальных грамматических значений и учета грамматической полисемии при автоматической обработке текста 51
1.4.2 Свойства формальности и интенциональности грамматических значений в контексте автоматической обработки текста 52
1.4.3 Проблема моделирования межкатегориального взаимодействия 53
1.5 Пробл емы онтологич еского моделиро вания лексической семант ики в области автоматической обработки текста 55
1.6 Выводы 61
ГЛАВА 2. Теории син таксической семантики и их значение для автоматической обработки текста 62
2.1 Онтологоцентрический подход к моделированию семантики предложения 64
2.2 Концептоцентрический подход к моделированию семантики предложения 65
2.2.1 Пропозициональное направление в рамках концептоцентрического подхода к моделированию семантики предложения 65
2.2.2 Падежно-ролевые подходы к моделированию семантики предложения 66
2.2.3 Непропозициональное направление в рамках концептоцентрического подхода к моделированию семантики предложения 70
2.3 Синтактикоцен трический подход к моделированию семанти ки предложения 71
2.4 Антропоцентрический подход к моделированию семантики предложения 72
2.5 Комплексные подходы к моделированию семантики предложения 74
2.6 Подходы, основанные на сетевом моделировании семантики предложения 77
2.7 Подходы к моделированию семантики связного текста 82
2.7.1 Моделирование семантики анафорических отношений 83
2.7.2 Проблема моделирования актуального членения 86
2.7.3 Моделирование тематических прогрессий 89
2.7.4 Моделирование синтаксиса связного текста 90
2.8 Выводы 91
ГЛАВА 3. Методы автомат ической обра ботки текста и способы оценки их эффективности 93
3.1. Методы автоматического морфологического анализа текста 93
3.1.1 Основные проблемы автоматического морфологического анализа 93
3.1.2 Декларативные и процедурные методы автоматического морфологического анализа 95
3.1.3 Методы снятия морфологической неоднозначности 97
3.1.4 Способы оценки эффективности морфологического анализа 98
3.2. Методы автоматического синтаксического анализа текста 99
3.2.1 Основные проблемы автоматического синтаксического анализа 99
3.2.2 Одноцелевые, многоцелевые и комбинированные методы автоматического синтаксического анализа 101
3.2.3 Направленность ме тодов ав томатического синтакс ического анализа на построение графа зависимостей и на пост роение структуры непоср едственных составляющих 102
3.2.4 Формаль но-грамматические и вероя тностно-статистические методы автоматического синтаксического анализа 104
3.2.5 Методы снятия синтаксической неоднозначности 104
3.3. Методы автоматического семантического анализа текста 106
3.3.1 Проблемы семантического анализа текстов 106
3.3.2 Опубликованные универсал ьные онтологии, использу емые в с истемах автоматической обработки текстов 108
3.4 Тематическая к лассификация новостных т екстов. Методы автоматической рубрикации текста 118
3.4.1 Методы автоматической рубрикации текста 119
3.4.2 Автоматическая рубрикация текстов и информационный поиск 124
3.5 Анализ способов измерения эффективности автоматической рубрикации текста 127
3.5.1 Меры точности и полноты автоматической рубрикации текста 127
3.5.2 Статистические меры эффективности автоматической рубрикации текста 129
3.6 Особенности новостных сообщений как материала для автоматической рубрикации 132
3.6.1 Новостные сообщения и новостные тексты 134
3.6.2 Использование новос тных с ообщений как материала для оценки эффективности систем автоматической рубрикации текстов 140
3.7 Выводы 141
ГЛАВА 4. Система автоматической рубрикации новостных сообщений сред ствами синтаксического и семантического анализа текстов 143
4.1 Возможности применения комплексного лингвистического анализа текста к его автоматической рубрикации 143
4.2.1 Морфологический анализ узуальных и окказиональных словоформ в тексте 144
4.2.2 Алгорит мы анализа деривационных отношений в морфологии, словообразовании и синтаксисе 150
4.2.3 Алгоритм семантического анализа 160
4.3. Струк тура лингвис тического процес сора и ли нгвистических модулей русского языка 162
4.3.1 Структура лингвистического процессора 165
4.3.2 Разработанная система грамматических категорий 169
4.3.3 Разработанный морфологический словарь русского языка 171
4.3.4 Грамматические модули русского синтаксиса и синтаксической семантики. Моделирование разрывных составляющих 172
4.3.5 Разработанная онтология 187
4.4 Структура системы автоматической рубрикации новостных сообщений,
основанной на синтаксическом и семантическом анализе текстов 188
4.5 Пров ерка эфф ективности разработанной системы автоматической
рубрикации новостных сообщений 190
Заключение
- Проблема универсальных алгоритмов в автоматической обработке текста и искусственном интеллекте
- Пропозициональное направление в рамках концептоцентрического подхода к моделированию семантики предложения
- Декларативные и процедурные методы автоматического морфологического анализа
- Алгорит мы анализа деривационных отношений в морфологии, словообразовании и синтаксисе
Введение к работе
В диссертационном исследовании рассматривается возможность использования средств автоматического синтаксического и семантического анализа текстов новостных сообщений при решении задачи повышения эффективности их автоматической рубрикации.
В последние десятилетия возрос интерес к созданию эффективных инструментов работы с текстовой информацией, основанных на автоматической обработке текстов — систем информационного поиска, машинного перевода, автоматической рубрикации и классификации текстов, автоматического реферирования, систем фактографического анализа. Этот интерес в значительной степени обусловлен резким увеличением объема текстовой информации в электронной форме, приводящим к необходимости автоматизации различных видов деятельности, относящейся к поиску и структурированию информации, до сих пор выполнявшейся вручную.
Актуальность темы исследования определяется тем, что погрешность статистических моделей, стоящих за применявшимися до сих пор алгоритмами рубрикации, несмотря на постоянные усовершенствования этих моделей, становится все более существенной проблемой. Благодаря развитию сети Интернет, объемы текстовой информации резко возросли, и возникла необходимость в принципиально новых технологиях, обеспечивающих более качественный и точный анализ современного медиатекста, чем существующие средства автоматической рубрикации. Недостаточная разработанность инструментов работы с информационными потоками, прежде всего — с «новостными лентами», приводит к появлению новых научных исследований, направленных на поиск наиболее эффективных и точных методов автоматической обработки медиатекста и на развитие структурно-лингвистических моделей, необходимых для корректной работы этих методов. Востребованность таких методов приводит к росту интереса исследователей к развитию научных лингвистических подходов, основанных на выявлении принципов и объяснении особенностей функционирования языковой системы и позволяющих повысить эффективность автоматической обработки текстов и, в частности, их автоматической рубрикации. Тем не менее, вопрос о возможностях использования таких дополняющих друг друга методов лингвистической обработки текста, как синтаксический и семантический анализ, с целью повышения качества автоматической рубрикации до сих пор не подвергался детальному изучению.
Степень разработанности исследуемой проблемы. Комплексный формально-лингвистический подход активно применялся и применяется в областях машинного перевода (Л.Н. Беляева, М.И. Откупщикова), информационного поиска (И.П. Панков, В.П. Захаров), стилеметрии и атрибуции текстов (О.Н. Грин-баум, Т.Я. Мартыненко, М.А. Марусенко), автоматического реферирования текстов (В.В. Богданов, И.П. Севбо), но до сих пор не было попыток применить этот подход к задаче автоматической рубрикации текстов. В ряде работ группы «УИС Россия» (М.С. Агеев, Б.В. Добров, Н.В. Лукашевич и др.) и некоторых иных исследовательских групп рассматривался вопрос о применении морфологического анализа и лингвистического тезауруса к автоматической рубрикации текстов и было показано значимое повышение ее эффективности при использовании этих инструментов, однако возможности дальнейшего повышения качества автоматической рубрикации путем одновременного использования синтаксического и семантического анализа до сих пор не изучались.
Если в 50-е и 60-е годы XX века интерес к созданию комплексных моделей языка (Ю.Д. Апресян, А.К. Жолковский, И.А. Мельчук, Н. Хомский и др.) был крайне высоким, то позднее, в силу недостаточной эффективности создававших -
ся автоматизированных систем и высокой трудоемкости их разработки, наступил период смещения интереса в область более простых статистических (в меньшей степени лингвистических) подходов к решению прикладных задач, связанных с обработкой текстов. Эти подходы не всегда предполагали необходимость даже морфологического анализа текстов, однако именно они позволили создать действовавшие системы автоматической обработки текстов в относительно короткие сроки (например, модель Р. Шенка, системы SHRDLU, LUNAR, LIFER/LADDER и др.). Качество результатов работы этих систем было ограничено возможностями моделей, лежащих в основе их реализаций. Далеко не всегда учитывалась такая важная особенность языковых единиц, как морфологическая, синтаксическая и лексико-семантическая неоднозначность, что часто усугублялось осознанным отказом от учета высокочастотной служебной лексики, крайне важной для грамматики, но несущественной для статистических эвристик. Тем не менее, к 90-м годам XX века подходы к автоматической обработке текста, основанные на полностью статистических моделях, стали господствующими (методы, основанные на N-граммах, методы кластерного анализа, нейронные сети, методы машинного перевода, основанные на механизме «памяти переводов» и др.). Лишь к концу 90-х годов XX века, в связи с широким распространением новых поколений вычислительной техники, появилась возможность создания высокопроизводительных систем автоматической обработки текстов, основанных на структурно-лингвистических подходах: формальных грамматиках, формально-семантических моделях и собственно лингвистических алгоритмах анализа и синтеза текстов на естественных языках. В эти годы активно развиваются компьютерные реализации моделей, созданных еще в 60-е годы XX века — система «ЭТАП», реализовавшая модель «Смысл <-> Текст» (Ю.Д. Апресян, Л.Л. Иомдин, В.З. Санников, Л.Л. Цинман и др.), различные варианты синтаксических парсеров, основанных на порождающих грамматиках непосредственных составляющих и грамматиках зависимостей (системы ФРАП, ПОЛИТЕКСТ, ДИАЛИНГ, Link Grammar Parser, пакет NLTK и др.). Модель «Смысл <-> Текст» дала толчок развитию самостоятельных моделей естественного языка (Н.Н. Леонтьева, В.А. Тузов, З.М. Шаляпина и др.) и компьютерных реализаций этих моделей. Кроме того, в конце 90-х — начале 2000-х годов, в условиях высокой популярности идеи «семантической паутины» (Т.Б. Ли), возникло множество новых подходов к моделированию лексической семантики, основанных на компьютерных онтологиях.
Непрерывный рост количества разработанных моделей в различных областях компьютерной лингвистики привел к особой актуальности изучения методов объективной оценки эффективности создаваемых технологий и сопоставления различных статистических, структурно-лингвистических и комбинированных подходов путем сравнения показателей эффективности результатов работы их компьютерных реализаций. Широкое распространение статистических методов оценки этих показателей позволило выявить ряд объективных проблем в некоторых областях компьютерной лингвистики, в частности, в области автоматической рубрикации (классификации) документов (М.С. Агеев, Б.В. Добров, Н.В. Лукашевич, И.С. Некрестьянов, А.В. Антонов, С.Г. Баглей и др.).
Экспериментальные исследования, направленные на сравнение эффективности возможных способов решения этих проблем, показали наибольшую перспективность с точки зрения эффективности автоматической рубрикации текстов комплексных инженерных (в терминах инженерии знаний) и лингвистических подходов к организации систем автоматической обработки текстов и, следовательно, к описанию и математическому моделированию единиц различных уровней языковой системы. Подходы, основанные только на статистических методах машинного обучения, а также комбинированные подходы, предполагающие при-
оритет отдельных языковых уровней или отдельных аспектов языковых единиц, на сегодняшний день характеризуются более низкими показателями качества, чем альтернативные им полностью инженерные подходы.
Одним из таких комплексных подходов, которые предполагают одновременный учет наибольшего количества аспектов языковых явлений, является подход, характерный для Петербургской лингвистической школы и ее последователей в области математической, структурной и прикладной лингвистики (В.Г. Адмони, Л.Н. Беляева, В.В. Богданов, В.Д. Буторов, А.С. Герд, Л.Р. Зиндер, Г .Я. Мартыненко, М.И. Откупщикова, И.П. Панков, Р.Г. Пиотровский, В.Ш. Ру-башкин, С.Я. Фитиалов, Г.С. Цейтин и др.). Этот подход предполагает всестороннее рассмотрение языковых единиц при их моделировании, сочетающееся с максимальной детализацией как семантических (когнитивных, концептуальных, онтологических и др.), так и формальных (синтаксических, морфологических, фонологических и др.) аспектов создаваемых лингвистических моделей. Безусловно, исследователи, придерживающиеся данного подхода, часто отмечают центральную роль семантики в языковой системе, поскольку семантика «пронизывает» практически все уровни языка. Вместе с тем, именно поэтому семантике не отводится роль отдельного языкового уровня, а при моделировании языковых единиц детализируются как их семантические свойства, так и формальные, с максимально возможной степенью достоверности. В русле такого подхода выполнено настоящее диссертационное исследование.
Объектом исследования являются методы автоматического синтаксического и семантического анализа текстов новостных сообщений, позволяющие повысить точность и полноту их автоматической рубрикации.
Предмет исследования — способы использования средств автоматического синтаксического и семантического анализа текстов новостных сообщений при повышении эффективности их автоматической рубрикации.
Гипотеза исследования состоит в том, что эффективность автоматической рубрикации текстов, основанной на анализе синтаксической семантики1, выше, чем эффективность автоматической рубрикации текстов, не учитывающей синтаксическую семантику.
Цель диссертационного исследования состоит в установлении принципов и разработке алгоритмов автоматического синтаксического и семантического анализа и рубрикации текстов новостных сообщений и в определении степени эффективности их автоматической рубрикации, основанной на комплексном лингвистическом анализе. Цель исследования предусматривает решение следующих задач:
-
Определить основные принципы математического моделирования языковых единиц в области автоматической обработки текстов, характеризующиеся высокими показателями эффективности применения создаваемых моделей к анализу текстов новостных сообщений.
-
Выявить основные положения структурно-лингвистических подходов к описанию и моделированию синтаксической семантики, применимые к автоматической обработке текстов новостных сообщений и обеспечивающие наиболее высокие показатели эффективности такой обработки.
-
Проанализировать существующие методы автоматической обработки текстов, их автоматической рубрикации, способы оценки их эффективности и основные проблемы, выявляемые при такой оценке.
Прим. автора: под термином «синтаксическая семантика», согласно определению В.Г. Адмони, в диссертационном исследовании понимается семантика синтаксических структур.
-
Создать компьютерную модель синтаксиса русского языка, включающую в себя информацию о синтаксических единицах, о структурных отношениях между этими единицами, о допустимых способах их линейного развертывания и об их семантических свойствах, достаточную для повышения эффективности автоматической рубрикации новостных сообщений.
-
Разработать алгоритмы морфологического, синтаксического и семантического анализа текстов, необходимые для компьютерного анализа текстов новостных сообщений на уровне синтаксической семантики; реализовать указанные алгоритмы в виде единой компьютерной системы.
-
Разработать систему автоматической рубрикации новостных сообщений, основанную на комплексном лингвистическом анализе текстов на уровне синтаксической семантики, и, в частности, систему образов рубрик (правил отнесения текстов к рубрикам), соответствующих набору рубрик, используемых информационным агентством, опубликовавшим анализирующиеся в исследовании новостные сообщения.
-
Экспериментально апробировать и произвести оценку эффективности автоматической рубрикации текстов, обеспечиваемой разработанной в результате исследования системой.
Научная новизна результатов исследования заключается в следующем:
-
Впервые исследованы возможности одновременного применения компьютерного синтаксического и семантического анализа текстов новостных сообщений к их автоматической рубрикации.
-
Создана инновационная компьютерная модель иерархии синтаксических составляющих русского языка, одновременно отражающая информацию о синтаксических зависимостях, об отношениях между единицами этой иерархии и о системе значений синтаксических составляющих, обеспечивающая возможность производить эффективный автоматический синтаксический анализ текстов новостных сообщений на русском языке.
-
Разработан новый, универсальный алгоритм лингвистического анализа, применимый к языкам различных типов, предполагающий строгое разделение алгоритмического ядра, независимого от языка, и подключаемых языковых модулей.
-
Дано научное обоснование архитектуры системы автоматической обработки текстов, обеспечивающей высокопроизводительный комплексный лингвистический анализ текстов новостных сообщений.
-
Впервые создана система автоматической рубрикации новостных сообщений, основанная на комплексном анализе текстов на уровне синтаксической семантики.
-
Установлена эффективность использования компьютерного синтаксического и семантического анализа текстов новостных сообщений при их автоматической рубрикации.
Теоретическая значимость результатов исследования определяется тем, что в нем:
1. Обоснована целесообразность моделирования синтаксических структур при помощи нестрого бинарных комбинированных структур составляющих и зависимостей с точки зрения соответствия модели языковому материалу; создано математическое исчисление контактных и разрывных составляющих, отражающее возможные степени нарушения проективности и альтернативное модели трансформационной грамматики; выявлены основные принципы моделирования
лексической семантики при помощи компьютерных онтологии, необходимые для корректной автоматической обработки текстов.
-
Расширены существующие представления о возможностях моделирования синтаксической семантики в части обоснования необходимости уточнения пропозициональных моделей семантики предложения путем сведения их к сетевому представлению и в части возможностей отражения семантической перспективы при сетевом представлении семантики предложения и высказывания.
-
Дано научное обоснование универсальности метода межуровневого взаимодействия при решении проблемы неоднозначности на различных языковых уровнях при анализе текста.
-
Обоснована целесообразность использования компьютерного синтаксического и семантического анализа текстов для их автоматической рубрикации; конкретизированы научные представления о рубриках, соответствующих медиа-топикам, как о предметных областях и концептах компьютерной онтологии, и образах рубрик, используемых при автоматической рубрикации текстов.
Практическая значимость результатов исследования заключается в том, что созданная система автоматической рубрикации новостных сообщений может широко применяться в практической деятельности информационных агентств и новостных порталов и служить средством для существенного ускорения и упрощения работы экспертов, осуществляющих структурирование новостных потоков. Применение созданной системы автоматической рубрикации новостных сообщений при поиске новостей может ускорить и упростить работу пользователя, состоящую в фильтрации результатов поиска информации по конкретной тематике. Созданная система автоматической обработки текстов может применяться в системах машинного перевода, информационного поиска и автоматического реферирования текстов. Кроме того, полученные результаты могут быть использованы в курсах по синтаксической семантике, генеративной грамматике, уровням лингвистического анализа, математическим моделям языка, информационным технологиям, информационному поиску, а также при разработке спецкурсов, посвященных автоматической обработке текстов и автоматической рубрикации текстов.
Методология исследования. Теоретико-методологической основой исследования являются, прежде всего, труды отечественных и зарубежных исследователей в области синтаксической семантики, а также работы, посвященные проблемам автоматической обработки текстов и, в частности, их автоматической рубрикации. Для диссертационного исследования наиболее значимыми являются следующие положения.
-
Наиболее перспективен комплексный подход к изучению синтаксической семантики, основывающийся на приоритете принципов концептоцентриче-ского анализа падежно-ролевого типа при учете онтологического фактора (Н.Д. Арутюнова, В.В. Богданов, Дж. Катц, Ч. Филлмор и др.).
-
Семантика предложения складывается из значений его частей и способа их соединения в соответствии с принципом композициональности (Г. Фреге, Р. Монтегю, Б. Парти и др.).
-
Синтаксическая структура предложения может моделироваться при помощи древовидных структур непосредственных составляющих, содержащих в себе информацию о зависимостях между отдельными частями предложения (Л. Блумфилд, 3. Харрис, Н. Хомский и др^,); древовидные структуры непосредственных составляющих бинарны (Дж.Б. Иоханессен, Р.С. Кейн, Н. Хомский и
ДР-)-
-
Семантика представляет собой сложный целостный объект (А.В. Бондарко), пронизывает практически все уровни языка и тем самым не представляет собой отдельного уровня (А.С. Герд); автоматическая обработка текста должна быть функциональной моделью человеческого понимания этого текста и включать в себя анализ текста на всех уровнях языка, а не только один из видов анализа (А.В. Гладкий, А.К. Жолковский, Н.Н. Леонтьева, И.А. Мельчук и др.)
-
Существующие инженерные подходы к автоматической рубрикации текстов, а также подходы, основанные на машинном обучении, приводят к неразрешимым проблемам, связанным с невозможностью учета в рамках этих подходов полисемии и омонимии лексических единиц и с возникновением так называемых ложных корреляций, обусловленных игнорированием синтаксических связей между лексическими единицами в тексте, что требует разработки и апробации нового подхода к автоматической рубрикации текстов (М.С. Агеев, Б.В. Добров и Н.В. Лукашевич).
Методы исследования выбраны с учетом специфики объекта, языкового материала, целей и задач работы. В работе применяются методы лингвистического анализа языкового материала (метод анализа структур непосредственных составляющих и зависимостей, методы комплексного анализа синтаксической семантики), методы и приемы компьютерной лингвистики и статистические методы оценки и сравнения эффективности автоматической рубрикации текстов (в том числе — разработанный автором настоящего диссертационного исследования экспериментальный метод, основанный на сравнении машинной рубрикации с несколькими эталонами).
Основным материалом исследования являются данные эксперимента, позволяющего установить значения показателей эффективности разработанной системы: коллекция новостных сообщений агентства «РИА Новости» объемом 24327 документов, 16450 отнесений 165 испытуемыми 200 случайных текстов из указанной коллекции новостных сообщений к 10 рубрикам, 2000 отнесений текстов к рубрикам, выполненных системой автоматической рубрикации.
На защиту выносятся следующие положения.
-
Анализ синтаксической семантики в существенной мере решает проблемы морфологической, синтаксической и лексической неоднозначности и ложной корреляции, возникающие при использовании методов автоматической рубрикации новостных сообщений, основанных на ключевых словах и сочетаниях слов, при этом эффективность автоматической рубрикации новостных сообщений повышается при использовании средств синтаксического и семантического анализа.
-
Алгоритмы синтаксического и семантического анализа и модели синтаксических структур и их семантики, используемые при автоматической рубрикации текстов, могут быть универсальными и совпадать с аналогичными алгоритмами, используемыми в системах машинного перевода и информационного поиска;
-
Те рубрики новостных сообщений, которые соответствуют конкретным предметным областям, в наибольшей мере характеризуются единообразием оценок их соответствия текстам; семантические отношения между такими рубриками и относящимися к ним значениями языковых единиц имеют детерминированную логическую интерпретацию и потому могут моделироваться при помощи компьютерных онтологии наравне с иными семантическими отношениями; при этом образом рубрики является совокупность всех концептов онтологии, привязанных к предметной области, соответствующей этой рубрике, или ее подобластям.
Достоверность и научная обоснованность теоретических и практических результатов исследования обеспечивается:
-
Использованием материалов как традиционных, так и новейших отечественных и зарубежных фундаментальных исследований в области компьютерной, структурной и прикладной лингвистики.
-
Выбором методов анализа языкового материала, адекватных цели и задачам исследования.
-
Применением математических методов оценки эффективности работы систем автоматической рубрикации; методов математической статистики, в частности — критерия согласия Пирсона для проверки гипотезы о нормальности выборочного распределения и t-критерия Стьюдента для сравнения выборочного среднего с заданным значением для нормально распределенных выборок.
Апробация результатов исследования
Основные положения диссертации были представлены на международных конференциях «Востоковедение и африканистика в диалоге цивилизаций» (Санкт-Петербург, СПбГУ, апрель 2009 г.), «Языки меньшинств в компьютерных технологиях: опыт, задачи и перспективы» (Йошкар-Ола, Республика Марий-Эл, апрель 2011 г.), «VI Международная научно-практическая конференция «психолингвистика в современном мире» (Переяслав-Хмельницкий, Украина, октябрь 2011 г.), собраниях научного коллектива лаборатории информационных лингвистических технологий ИЛИ РАН (2004-2008 г.), собраниях научного коллектива лаборатории интеллектуальных систем отдела свободного программного обеспечения инновационного центра Санкт-Петербургского Государственного Университета Телекоммуникаций (2008-2011 г.). По теме диссертации опубликовано 7 работ общим объемом 4,3 п.л., в том числе 3 статьи в научных журналах и изданиях, включенных в перечень рецензируемых научных журналов и изданий для опубликования основных научных результатов диссертаций, рекомендованный ВАК РФ, и одна статья в зарубежном издании. 3 работы опубликованы в материалах международных конференций.
Объем и структура диссертации. Работа состоит из введения, четырех глав, заключения, списка сокращений и условных обозначений, словаря терминов, списка затекстовых ссылок, списка использованной литературы, включающего 210 наименований, в том числе 58 на иностранных языках, и списка иллюстративного материала. К диссертации прилагаются исходные коды программ системы автоматической рубрикации новостных сообщений, основанной на синтаксическом и семантическом анализе текстов (Приложение А), материалы эксперимента (Приложение Б) и расчеты оценки эффективности разработанной системы автоматической рубрикации (Приложение В). Общий объем работы составляет 417 машинописных страниц печатного текста: основное содержание изложено на 250 страницах, 167 страниц занимают Приложения.
Проблема универсальных алгоритмов в автоматической обработке текста и искусственном интеллекте
Степень разработанности исследуемой пр облемы. Комплексный фор -мально-лингвистический подход активно применялся и применяется в областях машинного перевода (Л.Н. Беляева, М.И. Откупщикова), информационного поиска (И.П. Панков, В.П. Захаров), стилеметрии и атрибуции текстов (О.Н. Гринбаум, Г.Я. Мартыненко, М.А. Марусенко), ав томатического реферирования тек стов (В.В. Богданов, И.П. Севбо), но до сих пор не было попыток применить этот подход к задаче автоматической рубрикации текстов. В ряде работ группы «УИС Россия» (М.С. Агеев, Б.В. Добров, Н.В. Лукашевич и др.) и некоторых иных исследовательских групп рассматривался вопрос о применении морфологического анализа и лингвистического тезауруса к автоматической рубрикации текстов и было показано значимое повышение ее эффективности при использовании этих инструментов, однако возможности дальнейшего повышения качества автоматической рубрикации путем одновременного использования синтаксического и семантического анализа до сих пор не изучались.
Если в 50-е и 60-е годы XX века интерес к созданию комплексных моделей языка (Ю.Д. Апресян, А.К. Жолковский, И.А. Мельчук, Н. Хомский и др.) был крайне высоким, то позднее, в силу недостаточной эффективности создававшихся автоматизированных систем и высокой трудоемкости их разработки, наступил период смещения интереса в область более простых статистических (в меньшей степени лингвистических) подходов к решению прикладных задач, связанных с обработкой текстов. Эти подходы не всегда предполагали необходимость даже морфологического анализа текстов, однако именно они позволили создать действовавшие сист емы автома тической обработки текс тов в относительно короткие сроки (например, модель Р. Шенка, системы SHRDLU, LUNAR, LIFER/LADDER и др.). Качество результатов работы этих систем было ограничено возможностями моделей, лежащих в основе их реализаций. Далеко не всегда учитывалась такая важная особенность языковых единиц, как морфологическая, синтаксическая и лексико-семантическая неоднозначность, что часто усугублялось осознанным отказом от учета высокочастотной служебной лексики, крайне важной для грамматики, но несущественной для статистических эвристик. Тем не менее, к 90-м годам XX века подходы к автоматической обработке текста, основанные на полностью статистических моделях, стали господствующими (методы, основанные на N-граммах, методы кластерного анализа, нейронные сети, методы машинного перевода, основанные на механизме «памяти переводов» и др.). Лишь к концу 90-х годов XX века, в связи с широким распространением новых поколений вычислительной техники , появилась возможность создания высокопроизводительных систем автоматической обработки текстов, основанных на структурно-лингвистических подходах: формальных грамматиках, формально-семантических моделях и собственно лингвистических алгоритмах анализа и синтеза текстов на естественных языках. В эти годы активно развиваются компьютерные реализации моделей, созданных еще в 60-е годы XX века система «ЭТАП», реализовавшая модель «Смысл Текст» (Ю.Д. Апресян, Л.Л. Иомдин, В.З. Санников, Л.Л. Цинман и др.), различные варианты синтаксических парсеров, основанных на порождающих грамматиках непосредственных соста вляющих и грамматиках зави симостей (системы ФРАП, ПОЛИТЕКСТ, ДИАЛИНГ, Link Grammar Parser, пакет NLTK и др.). Модель «Смысл Текст» дала толчок развитию самостоятельных моделей естественного языка (Н.Н. Леонтьева, В.А. Тузов, З.М. Шаляпина и др.) и компьютерных реализаций этих моделей. Кроме того, в конце 90-х начале 2000-х годов, в условиях высокой популярности идеи «семантической паутины» (Т.Б. Ли), возникло множество новых подходов к моделированию лексической семантики, основанных на компьютерных онтологиях.
Непрерывный рост количества разработанных моделей в различных областях компьютерной лингвистики привел к особой актуальности изучения методов объективной оценки эффективности создаваемых технологий и сопоставления различных статистических, структурно-лингвистических и комбинированных подходов путем сравнения показателей эффективности результатов работы их компьютерных ре ализаций. Широкое ра спространение ста тистических методов оценки этих показателей позволило выявить ряд объективных проблем в некоторых областях компьютерной лингвистики, в частности, в области автоматической рубрикации (классификации) д окументов (М.С. Агеев, Б.В. Добров, Н.В. Лукашевич, И.С. Некрестьянов, А.В. Антонов, С.Г. Баглей и др.).
Экспериментальные исследования, направленные на сравнение эффективности возможных способов решения этих проблем, показали наибольшую перспек 8 тивность с точки зрения эффективнос ти автоматической рубрикации текстов комплексных инженерных (в терминах инженерии знаний) и лингвистических подходов к организации систем автоматической обработки текстов и, следовательно, к описанию и математическому моделированию единиц различных уровней языковой системы. Подходы, основанные только на статистических методах машинного обучения, а также комбинированные подходы, предполагающие приоритет отдельных языковых уровней или отдельных аспектов языковых единиц, на сегодняшний день характеризуются более низкими показателями качества, чем альтернативные им полностью инженерные подходы.
Одним из таких комплексных подходов, которые предполагают одновременный учет наибольшего количества аспектов языковых явлений, является подход, характерный для Петербургской лингвистической школы и ее последователей в области математической, структурной и прикладной лингвистики (В.Г. Адмони, Л.Н. Беляева, В.В. Богданов, В.Д. Буторов, А.С. Герд, Л.Р. Зиндер, Г.Я. Марты-ненко, М.И. Откупщикова, И.П. Панков, Р.Г. Пиотровский, В.Ш. Рубашкин, С.Я. Фитиалов, Г.С. Цейтин и др .). Этот подход предполага ет всестороннее рассмотрение языковых единиц при их моделировании, сочетающееся с максимальной детализацией как семантических (когнитивных, концептуальных, онтологических и др.), так и формальных (синтаксических, морфологических, фонологических и др.) аспектов создаваемых лингвистических моделей. Безусловно, исследователи, придерживающиеся данного подхода, часто отмечают центральную роль семантики в языковой системе, поскольку семантика «пронизывает» практически все уровни языка. Вместе с тем, именно поэтому семантике не отводится роль отдельного языкового уровня, а при моделировании языковых единиц детализируются как их семантические свойства, так и формальные, с максимально возможной степенью достоверности. В русле такого подхода выполнено настоящее диссертационное исследование.
Пропозициональное направление в рамках концептоцентрического подхода к моделированию семантики предложения
Область автоматической обработки текста (а. о. т.) относится к центральным направлениям математической лингвистики.
Согласно определению В.М. Андрющенко, автоматическая обработка текста — это «... преобразование текста на искусственном или естественном языке с помощью ЭВМ» [1, с. 14]. В данном определении не указывается, в какой именно вид преобразовывается текст при его автоматической обработке. То представление, в которое преобразуется текст при его автоматической обработке, зависит от области применения а. о. т.: «В издат. деле А. о. т. — одно из направлений автоматизации редакционно-издат. процессов. В этих областях термин «А. о. т.» употребляется, как правило, в относительно узком смысле как преобразование формы. В вычислит. лингвистике, предметом к-рой является автоматич. лингвистич. анализ и синтез текста, а также лингвистич. аспекты общения с ЭВМ на естеств. языке, термин «А. о. т.» понимается в более широком смысле, охватывающем и процедуры анализа содержания и синтеза (по заданному содержанию понятного человеку) текста» [1, с. 14-15].
В данной работе термин «А. о. т.» используется в «широком» смысле: под автоматической обработкой текс та подразумевает ся автоматическое выявление при помощи ЭВМ представленных в тексте языковых единиц, отношений между этими единицами и их значений.
Согласно указанному выше определению термина «а. о. т.» в «широком» смысле, сформулированному в Лингвистическом Энциклопедическом Словаре, к автоматической обработке текста относятся как процедуры анализа, так и процедуры синтеза текста. В данной работе термин «а. о. т.» употребляется в более узком понимании: поскольку при синтезе текста объектом обработки является не текст, а некоторое внутреннее представление его содержания, а при автоматическом лингвистическом анализе текста, в отличие от синтеза, именно текст представляет собой объект обработки, к а. о. т. представляется целесообразным относить прежде всего процедуры анализа, а не синтеза текста.
Следует отметить, что некоторые исследователи предпочитают использовать иные термины для обозначения совокупности автоматических процедур, относящихся к выявлению содержания текста. Так, Н.Н. Леонтьева называет совокупность таких процедур «автоматическим пониманием текста», противопоставляя ее другим видам а. о. т. Систе мы автоматического понимани я тек стов (АПТ) «... выделяются из множества систем, в которых просто используется автоматическая обработка текста, включающая техническое сжатие текста, сортировку слов по частоте, длине и т. п., любой статистический анализ, исправление грамматических ошибок и другие частные задачи, а также различные исследовательские приемы работы с текстом, выполняемые на компьютере. Нас интересует не количественный, а качественный аспект понимания. В системах АПТ действительно моделируются некоторые функции человеческого понимания, а общение с ЭВМ предполагает использование естественного языка на входе и/или на выходе работы системы. Если некая система АПТ реализовала лишь один такт понимания, она должна хотя бы в модели объяснять весь цикл процесса, в который встраивается этот такт АПТ. В отличие от многих других систем АОТ системы АПТ обладают максимальным набором лингвистических компонентов это полные системы» [2, с. 10].
Совокупность процедур, которые Н.Н. Леонтьева называет АПТ, противопоставляя их другим видам а. о. т., действительно во многом соотносится с тем пониманием а. о. т., которое было приведено выше. Вместе с тем, определенные статистические харак теристики текста все же сущес твенны д ля его «понимания», например, принадлежность текста той или иной предметной области (рубрике), жанр и стиль; жанровые и стилистические характеристики текста выявлявляются статистическими методами (см. работы О.Н. Гринбаума [3], Г.Я. Мартыненко [4], М.А. Марусенко [5]). Исправление грамматических ошибок также относится к операциям, часто необходимым для «понимания» текста: ошибки в текстах встречаются, и, тем не менее, человек может понять текст, несмотря на наличие в нем ошибок, хотя такой текст невозможно интерпретировать с точки зрения формальной грамматики без дополнительных процедур, относящихся к обнаружению и исправлению ошибок.
Механизмы человеческого понимания, о котором говорит Н.Н. Леонтьева, в существенной мере выходят за рамки лингвистического моделирования. Эти меха
низмы относятся к области высшей нервной деятельности коры головного мозга человека и не могут быть достоверно объяснены на современном этапе развития науки. Более того, как отмечает М.И. Откупщикова, «Как устроен и как функционирует язык, исследователю также не дано наблюдать непосредственно, и свои гипотезы о структуре и функционировании языка он выдвигает лишь на уровне изучения языковой продукции» [6, с. 107]. Поэтому термин «понимание», как представляется, может вводить в заблуждение, если не указывается, что речь идет о моделировании этого понимания, а не о нем самом.
Системы а. о. т. могут представлять собой модели человеческого понимания текста, но только функциональные модели: при моделировании понимания может осуществляться попытка воспроизвести конечный результат этого понимания, но не отдельные этапы этого процесса, поскольку исследователь не может их непосредственно наблюдать или регистрировать. И.А. Мельчук указывает на то, что «одной из центральных задач … лингвистики является … построение функциональных моделей языка действующих моделей типа «Смысл Текст» [7, с. 14]. При этом подчеркивается, что под функциональной моделью X предмета Y понимается «искусственно созданная система, быть может, совершенно иной физической природы, нежели Y, но такая, что если ее поместить в обстановку, в которой действует Y, то она будет вести себя …достаточно похоже на Y, а в идеале неотличимо от Y» [7, с. 13]. Создание компьютерных систем, раскрывающих содержание единиц различных уровней языка, относится к центральным задачам компьютерной лингвистики. Вместе с тем, устройство таких систем может существенно отличаться от механизма человеческого мышления, до конца не изученного современной наукой.
Декларативные и процедурные методы автоматического морфологического анализа
Термин «онтология» был впервые использован в применении к компьютерным представлениям знаний в работах по информатике, в которой он был заимствован из философии. В области ИИ термин «онтология» стал употребляться еще на ранних этапах ее развития (см. работу Т. Грубера [51, с. 1963]). Тем не менее, как отмечает А. Бенель [52], связь между деятельностью Венского кружка 1930-х годов в области онтологии (в философском смысле) и современными работами над компьютерными онтологиями теряется, все библиографические ссылки на онтологии в работах по информатике ведут к краткой работе Т. Грубера (1991) [52, с. 5]. В исследованиях до 1991 года, посвященных а.о.т., встречается термин «онтологический» в некотором «промежуточном», одновременно философском и лингвистическом, смысле: так, в работе [53] встречается упоминание обобщенных лингвистически мотивированных «онтологических» категорий [53, с. 56]. Хотя А. Бенель утверждает, что термин «онтология» возник а информатике благодаря математическим лингвистам, первое упоминание этого термина в публикациях по ИИ принадлежит математику Дж. Маккарти (также автору термина «искусственный интеллект»): приводя пример описания лодки с использованием постулата о том, что лодку можно использовать для пересечения реки, если ничто не препятствует ее использованию, Дж. Маккарти утверждает, что «... мы должны ввести в нашу онтологию (вещи, которые существуют) категорию, которая включает в себя «что-то не так с лодкой» или категорию, которая включает в себя «что-то, что может препятствовать ее использованию» [55] 5.
На сегодняшний день не существует общепринятого определения термина «онтология». Ниже осуществляется попытка привести некоторые примеры описаний и определений этого термина, сформулированных в различных работах.
Работа Р. Нечеса, Р.Е. Файкса, Т. Финина, Т. Грубера и др. содержит в себе одни из первых описаний понятия «онтология» [56, с. 40], предполагающие включение в онтологию только абстракций верхнего уровня. Один из соавторов вышеуказанной работы Т.Р. Грубер в своих дальнейших публикациях приводит определения термина «онтология». Согласно первому из них, онтология это спецификация репрезентативного словаря для некоторой общеиспользуемой области дискурса определения классов, отношений, функций и иных объектов [57, с. 1]. Согласно второму определению Т.Р. Грубера, онтология это явно выраженная спецификация некоторой концептуализации [57, с. 1], где концептуализация это некоторое абстрактное, упрощенное представление о мире, которое мы хотим представить для некоторой цели [57].
Из указанных описаний и определений понятия «онтология» следует, что онтология представляет собой модель некоторой предметной области, к которой предъявляется в сущности только одно требование: она должна содержать в себе в упрощенном, но эксплицитном виде знания о мире, релевантные для моделируемой предметной области. Этому требованию может удовлетворять практически любое эксплицитное описание некоторой предметной области, в том числе компьютерный тезаурус и электронный словарь: только в одном из перечисленных определений указывается, что онтология (точнее специфицируемая ею «концептуализация») должна строиться из классов, отношений, функций и иных объектов, однако не уточняется, какими могут быть классы, отношения, функции и иные объекты (из определений не вполне ясно, какие именно).
В 1990-е годы одними из первых работ, посвященных вопросу об использованию компьютерных онтологий в системах а.о.т., были исследования, относящиеся к проекту WordNet. В 1993 году была опубликована работа К. Найта [58]. Данная работа была не только одной из первых попыток использования онтологий в системах а.о.т., но и одной из первых работ, в которых термин «онтология» был употреблен в несколько упрощенном понимании, возникшем, возможно, в связи с некоторой нечеткостью определений этого термина, использовавшихся в работах того времени. Фактически, произошло, как представляется, некоторое смешение понятий «компьютерный тезаурус» и «онтология». В публикациях 1990-х годов такое «упрощенное» понимание термина «онтология» встречалось нередко и, как представляется, предопределило ряд проблем, обусловленных недостатком необходимых для систем а.о.т. семантических отношений прежде всего, проблем, связанных с многозначностью лексических единиц (см. параграф 3.3.2). Отношения, существующие между значениями языковых единиц (синонимия, гиперонимия, антонимия и др.), не отражают семантические валентности. Для их моделирования необходимы иные отношения, связывающие скорее понятия, стоящие за лексическими значениями, чем сами эти значения (отношение между физическим объектом и его частями (меронимия); отношения между деятелем и действиями, которые он способен совершать; отношения между действием и объектами, на которые эти действия могут быть направлены, и т. д.).
Включение в онтологию языковой информации, отличающейся от свойственных тезаурусам отношений, было предложено в работе С. Ниренбурга и В. раскина [59]. Согласно определению Ниренбурга и Раскина, онтология это представление о мире интеллектуального агента, включающее в себя знания о типах вещей в этом мире; такая онтология состоит из модели физического мира, модели участников дискурса («я» и остальные), включающей в себя знания о целях и отношении участника к элементам онтологии и к экземплярам онтологических объектов знаний о языково-коммуникативной ситуации [59, с. 25].
В отечественных публикациях 2004 года также возникают новые определения термина «онтология», содержащие указания на включение лингвистической информации в онтологии. Так, в работе Д.О. Горовой [60] указывается, что в онтологию должен включаться словарь: «Онтология — это структурная спецификация некоторой предметной области, ее формализованное представление, которое включает словарь (или имена) указателей на термины предметной области и логические выражения, которые описывают, как они соотносятся друг с другом» [60, с. 173].
Алгорит мы анализа деривационных отношений в морфологии, словообразовании и синтаксисе
Снятие синтаксической неоднозначности это одна из наиболее сложных задач, возникающих при а.о.т. В отличие от уровня морфологии, где существуют статистические механизмы, обеспечивающие более чем 95% эффективности разрешения омонимии , уровень синт аксиса хара ктеризуется неод нозначностью в гораздо большей степени, и на сегодняшний день задачу снятия синтаксической неоднозначности вряд ли можно счи тать приближаю щейся к окончател ьному решению. О.В. Митренина выделяет следующие способы снятия синтаксической
Прим. а втора: В д анной работе семантический анализ производится одновременно с синтаксическим и морфологическим, поэтому в ранжировании и фильтрации гипотез участвуют также семантические критерии (см. параграф 3.2.5) неоднозначности:«а) лексические (основывающиеся на описании семантических свойств и валентностных способностей слова); б) конфигурационные (основанные на свойствах синтаксических структур); в) квантитативные (учитывающие частоту встречаемости словосочетаний); г) просодические (учитывающие просодическое оформление предложения ); д ) коммуникативно- стилистические (учитывающие особенности линейной организации предложения); е) психолингвистические (оценивающие степень приемлемост и конкурирующих конс трукций д ля носителя языка); ж) контекстные (использующие контекст, в котором употреблено предложение); з) генеративные (использующие скрытые закономерности языка, выявляемые генеративной грамматикой)» [136, с. 86].
Как представляется, способы а) и ж) можно отнести к разряду методов, основанных на семантических ограничениях, способы б), г), д), е) и з) к методам, основанным на грамматических ограниченичениях, наконец, способ в) к статистико-вероятностным методам. В системах а.о.т., выполняющих анализ текста на всех его уровнях, использование только статистико-вероятностных методов снятия синтаксической неоднозначности может привести к полному отсутствию гипотез на уровне семантики (так как статистико-вероятностные методы всегда имеют некую погрешность, часть неоднозначных предложений в этом случае будет получать некорректные синтаксические интерпретации, необязательно поддающиеся дальнейшим семантическим вычислениям); с другой стороны, игнорирование любого из вышеуказанных способов снятия синт аксической неоднозначности может повлечь за собой комбинаторный взрыв. В системах, ограниченных синтаксическим анализом и не выполняющих дальнейшую семантическую обработку синтаксических структур , применение семантических мет одов снятия неодно -значности представляется малопродуктивным.
В рамках данного исследования основными способами снятия синтаксической неоднозначности являются способы а) и б).
Снятие синтаксической неоднозначности, основанное на свойствах синтаксических структур, чаще всего происходит в тех случаях, когда выстраиваются гипотезы разбора, предполагающие эллипсис или заполнение комплементной позиции, которое не может произойти в силу особенностей линейного порядка.
Снятие с интаксической неоднозначности, основ анное на в алентностных свойствах значений лексических единиц, происходит довольно часто и позволяет, например, различать обстоятельства и определения в зависимости от семантических свойств предлогов и присоединяемых к ним именных групп. Как представляется, основным недостатком этого способа является его непосредственная зависимость от того, насколько полной оказывается используемая модель лексических значений. Любое неучтенное значение или семантическое отношение может послужить причиной уничтожения не только излишних, но и многих корректных гипотез синтаксического анализа. Поэтому, хотя этот способ в силу специфики задач, поставленных в данном исследовании, является основным, ощущается острая необходимость либо в некотором смягчении многих семантических ограничений, либо в качественном изменении ситуации с полнотой имеющихся компьютерных онтоло-гий.
Основной проблемой , относящейся к семаническому анализу текстов, видится отсутствие в достаточной мере полных источников информации, которые бы содержали в себе, по крайней мере, основные значения наиболее употребительных лексических единиц, но эти значения были бы представлены в предельно конкретизированной и специфицированной форме. На сегодняшний день существует ряд предметно-ориентированных онтологий и даже онтологий верхнего уровня, претендующих на универсальность, однако, как правило, большая часть информации в э тих онтолог иях посвящена знач ениям имен сущест вительных, причем далеко не всегда самых употребительных. Отношения, которые выстраиваются в современных онтологиях между концептами, часто оказываются недостаточными не только для снятия семантической или синтаксической неоднозначности, но и не способными обеспечить семантическую связь как таковую.В параграфе 3.3.2 осуществляется попытка проанализировать, как представляется, наиболее полные из опубликованных онтологий, так или иначе используемых в задачах а.о.т.
По всей видимости, проблема спецификации тех семантических отношений, потребность в учете которых возникает при связывании понятий или даже при снятии неоднозначности, связана не столько с трудоемкостью этого процесса, сколько с отсутствием устоявшихся принципов выделения этих отношений. Например, в толковых словарях и тезаурусах часто используются такие абстрактные отношения, как «относящийся к чему-либо», которые не могут использоваться в правилах логического вывода или явных валентностных ограничениях. Крайне редко осуществляются попытки систематического выделения в большей степени конкретизированных отношений , которые могли бы испол ьзоваться в процессе а.о.т. Проблема лексической неоднозначности видится во многом производной от этого обстоятельства.