Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Многомерный количественный анализ и классификация текстов на основе лингвостатистических характеристик Суровцова Татьяна Геннадьевна

Многомерный количественный анализ и классификация текстов на основе лингвостатистических характеристик
<
Многомерный количественный анализ и классификация текстов на основе лингвостатистических характеристик Многомерный количественный анализ и классификация текстов на основе лингвостатистических характеристик Многомерный количественный анализ и классификация текстов на основе лингвостатистических характеристик Многомерный количественный анализ и классификация текстов на основе лингвостатистических характеристик Многомерный количественный анализ и классификация текстов на основе лингвостатистических характеристик Многомерный количественный анализ и классификация текстов на основе лингвостатистических характеристик Многомерный количественный анализ и классификация текстов на основе лингвостатистических характеристик Многомерный количественный анализ и классификация текстов на основе лингвостатистических характеристик Многомерный количественный анализ и классификация текстов на основе лингвостатистических характеристик Многомерный количественный анализ и классификация текстов на основе лингвостатистических характеристик Многомерный количественный анализ и классификация текстов на основе лингвостатистических характеристик Многомерный количественный анализ и классификация текстов на основе лингвостатистических характеристик
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Суровцова Татьяна Геннадьевна. Многомерный количественный анализ и классификация текстов на основе лингвостатистических характеристик : диссертация ... кандидата технических наук : 05.13.18 / Суровцова Татьяна Геннадьевна; [Место защиты: Петрозавод. гос. ун-т].- Петрозаводск, 2008.- 134 с.: ил. РГБ ОД, 61 09-5/572

Содержание к диссертации

Введение

ГЛАВА 1. Математические методы для выделения групп текстов 20

1 Использование кластерного анализа 20

1.1 Метод кластеризации 20

1.2 Метод иерархической кластеризации 21

1.3 Классификация на основе полученных кластеров 22

2 Методы для исследования переходов между составляющими единицами текста 23

2.1 Метод "сильного графа" 23

2.2 Метод подсчета отличий между матрицами переходов 25

3 Методы, основанные на проверке статистических гипотез 26

3.1 Общее распределение частей речи 28

3.2 Средняя длина слова в буквах, вычисляемая на основании выборок размером в 500 слов 30

3.3 Общее распределение длины слова 31

3.4 Средняя длина предложения в словах, вычисляемая на основании выборок размером в 30 предложений 32

3.5 Общее распределение длины предложения 33

3.6 Лексический спектр текста на уровне словаря 33

3.7 Лексический спектр текста на уровне текста 34

3.8 Индекс разнообразия лексики 34

4 Метод, основанный на индуктивном построении классификаторов 35

4.1 Описание метода 35

5 Сравнение методов и их совместное применение 37

5.1 Комитеты классификаторов 38

5.2 Методика построения статистического критерия на основе классификатора 39

ЗАКЛЮЧЕНИЕ К ПЕРВОЙ ГЛАВЕ 42

ГЛАВА 2. Описание информационно-аналитической системы для анализа лингвостатистических характеристик литературных произведений 44

1 Цели и задачи разработки информационно-аналитической системы 44

1.1 Описание ПК "СМАЛТ". 44

1.2 Информационно-аналитическая система для анализа лингвостатистических характеристик литературных произведений47

2 Описание информационной системы 48

2.1 Организация и основные принципы работы информационно-аналитической системы 48

2.2 Описание архитектуры информационно-аналитической системы 51

2.3 Интерфейс пользователя 54

2.3 Описание модулей 57

2.4 Описание структуры базы данных 59

2.5 Описание использованного программного обеспечения 60

3 Описание спецификации на основе языка XML 61

3.1 Цели разработки спецификации 61

3.2 Описание спецификации на основе языка XML 62

3.3 Выводы и дальнейшее использование формата 66

Заключение ко второй главе 67

ГЛАВА 3. Результаты применения информационно-аналитической системы 68

1 Описание материала для исследования 68

2 Использование методов кластерного анализа 69

2.1 Метод кластеризации 71

2.2 Метод иерархической кластеризации 73

2.3 Дальнейшая обработка данных 74

2.4 Заключение 75

3 Использование методов для исследования переходов между составляющими единицами текста 76

3.1 Выбор характеристик для анализа 76

3.2 Построение "сильных графов" произведений и их анализ 77

3.3 Метод подсчета отличий между матрицами переходов синтаксических классов 81

3.4 Заключение 82

4 Использование методов, основанных на проверке статистических гипотез 83

4.1 Общее распределение частей речи на различных позициях предлооїсения 84

4.2 Средняя длина слова в буквах, вычисляемая на основании выборок размером в 500 слов 87

4.3 Общее распределение длины слова 88

4.4 Средняя длина предложения в словах, вычисляемая на основании выборок размером в 30 предложений 91

4.5 Общее распределение длины предложения 92

4.6 Лексический спектр на уровне словаря и на уровне текста 92

4.7 Индекс разнообразия лексики 93

4.9 Заключение 94

5 Использование метода, основанного на индуктивном построении классификаторов 94

5.1 Рассматриваемые лингвостатистические характеристики 94

5.2 Формирование обучающей и тестовой выборок 97

5.3 Построение классификатора 98

5.4 Проверка гипотез об авторстве на основе построенного классификатора 100

5.5 Заключение 101

Заключение к третьей главе 102

Основные выводы и рекомендации 103

Список использованных источников

Введение к работе

Актуальность темы

Исследование языка в первую очередь вызвано интересом к естественному интеллекту человека [43, 49], поэтому такая форма существования языка как письменный текст, также является объектом пристального внимания. Наблюдается устойчивый интерес к работам, проводимым в этой области.

Задачи по автоматической обработке текста, включают в себя задачи информационного поиска, связанные с нахождением информации в электронных базах знаний, автоматическим извлечением данных и фактов по заданной тематике, автоматическим реферированием электронных документов. А также другие проблемы обработки естественного языка с использованием вычислительной техники, а именно понимание естественного языка, лингвистическое обеспечение информационных систем разных типов, машинный перевод.

При автоматической обработке текстов среди других задач возникают две близкие, а именно классификации и кластеризации текстов. Первая состоит в том, чтобы отнести текст к определенной категории. Вторая — разбить набор текстов на группы, близкие в некотором смысле.

Общая постановка задачи классификации может быть записана следующим образом. Задано множество документов D = {dl,d2...dD]\ и

множество категорий С = {схг...с^. Задана неизвестная функция F,

которая определяет принадлежность документа определенной категории F :DxC —> {0,1}. Необходимо найти функцию F', максимально близкую к F, которая и будет классификатором.

Построение классификатора F' проводится на подмножестве документов D, которое называют обучающей выборкой, проверяется с использованием подмножества документов D, которое называют тестовой выборкой. Эффективность построенного классификатора можно оценить по количеству полученных на тестовой выборке совпадений.

При кластеризации текстов происходит попытка выяснить естественное выделение в группах текстов определенных групп с использованием соответствующих алгоритмов и визуализации. Для каждого текста в любом случае строится набор признаков.

Задача автоматической классификации и кластеризации текстов имеет большое практическое значение. Соответствующие процедуры применяются при обработке информационных потоков, таких как электронная почта и новости, рекламные объявления, создания каталогов в Интернете, при автоматическом реферировании и аннотировании.

Тесно связана с этим задача атрибуции текстов. Атрибуция (от лат. attributio — приписывание) — определение атрибутов. Существуют методы позволяющие проводить атрибуцию текста. А именно отнесение его к определенному жанру, стилю, времени написания и т. п. Но вероятно наиболее важной является задача атрибуции авторства произведения. Для нее могут быть использованы любые методы классификации и кластеризации текстов, но существуют и значительные отличия при проведении этих процедур. В первую очередь это связано с определением авторства литературных произведений, когда сомнению подвергается принадлежность автору известного произведения, или происходит попытка восстановить историческую справедливость, вернув миру имя неизвестного писателя.

Автоматическое установление авторства письменных текстов, помимо литературоведения, применяются в сфере безопасности и при защите

авторских прав, уголовном и гражданском делопроизводстве, криминалистике. Задача достаточно актуальна, так как все больше текстов приходится анализировать в электронном виде, лишенном, тех характерных атрибутов, которые отличают тексты, написанные от руки. Например:

послано электронное письмо от имени человека, который отказывается от послания, сказав, что письмо было написано с его рабочего места во время его отсутствия;

сообщения в блогах пишутся одним автором под несколькими вымышленными именами;

при подготовке электронных изданий было проведено изменение содержания.

С такими ситуациями приходится сталкиваться все чаще, так как доступ к рабочему месту за компьютером часто не защищен. До сих пор при расследовании таких случаев использовали такие методы, как снятие показаний, анализ почерка, отпечатков пальцев, ритм печатания текста на клавиатуре и другие. Сейчас ищут возможность извлечь информацию об авторе текста из самого текста.

Особую важность имеет работа по атрибуции (установлению авторства) анонимного или псевдонимного литературного произведения, так как это связано с этическими проблемами.

В общем случае в атрибуции литературного произведения может быть выделено два этапа:

этап формирования гипотезы;

этап проверки гипотезы и интерпретации результатов.

Этап формирования гипотезы выполняется при помощи традиционных филологических методов атрибуции с учетом как субъективных, так и объективных данных. На этом этапе может быть сформулирована гипотеза

о принадлежности текста Mi писателю А. Может выдвигаться гипотеза о времени написания текста Мі на основе его языковых и стилистических связей с текстами Мг, М3,... Мп писателя А, датировка которых известна, и т. п.

Проверка гипотезы выполняется с учетом как субъективных, так и объективных данных, а именно наличия свидетельств в документах архивов, письмах, анализе стиля автора и других. Атрибуция считается выполненной, когда имеется совпадение биографических, идеологических и стилистических данных произведения предполагаемого автора с полученными материалами.

Этап проверки гипотезы и интерпретации результатов может выполняться и методами прикладной лингвистики с использованием процедур статистико-вероятностного анализа, теории классификации, теории распознавания образов и других математических методов. Но при этом надо понимать, что статистико-вероятностные методы, применяемые при атрибуции, используются только для проверки гипотезы и никакой самостоятельной роли не играют.

Таким образом, положительное решение по вопросу атрибуции текста может быть принято только в случае совпадения результатов филологического и математико-статистического анализа. Этот подход используется в данной работе при рассмотрении результатов тех или иных методов при проведении атрибуции текстов.

Возможность применения математических методов при атрибуции авторства обеспечивает принятое в стилистике понятие стиля, которое исследовалось в частности академиком В. В. Виноградовым, по его мнению "стиль писателя должен изучаться как единая, внутренне целостная система функционально согласованных средств словесного

выражения", в том числе и с использованием математических методов [12, 13, 14].

История и анализ современных методов

Истоки изучения текстов с использованием математики можно увидеть еще в занятиях кабалистов, которые видели скрытый смысл письменных знаков, если их отобразить цифрами.

Первым источником, в котором упоминается использование численных методов при исследовании литературных произведения, считается письмо шотландского математика Огастеса Моргана (Augustus De Morgan) написанное в 1851, в котором он рассказывает о своих вычислительных опытах, проводимых им при изучении Нового Завета, и делает предположение о том, что "один человек напишет о разных вещах более похоже, чем разные люди об одном и том же". Он предложил сравнить среднее число букв в греческом тексте "Послания к Евреям" (Epistle to the Hebrews) со средним значением в других посланиях Павла [79].

Таким образом, в то время основной интерес лежал в области определения авторства книг Ветхого и Нового завета, изучения произведений авторов школы Платона, Аристотеля, Гомера и Шекспира, и многое другое. Сравнивались легко вычисляемые характеристики, такие как длины слов, предложений, предпочтения в использовании служебных слов.

В восьмидесятые годы XIX века было предпринято множество попыток описания особенностей литературного стиля с помощью таблиц и графиков, самой заметной стало произведение американского физика Томаса Мандельхолл "Характеристические кривые композиции", в котором он рассматривал распределения длины слов и частоты букв в текстах Бэкона, Шекспира, Марлоу [85].

В опубликованной в 1944 году работе шотландского статистика Уд-ни Йеля "Статистическое исследование литературного словарного запаса"

рассматривалось число встречаемости существительных как признак, по которому можно судить об авторстве произведений [99].

В качестве основных работ, которые были посвящены стилеметрии (stylometry), в России в докомпьютерный период для решения задач атрибуции, можно привести исследования начала XX века Николая Александровича Морозова (1854 -1946). В статье, вышедшей в 1915 году и названной "Лингвистические спектры", Н. А. Морозов характеризует свой метод как "средство для отличения плагиата от истинных произведений того или иного известного автора" [38]. Идею метода Морозов заимствует у немецких исследователей XIX века В. Диттербергера и К. Риттера, которые изучали спорные тексты (среди них тексты, приписываемые Платону, Гёте и др.) методами статистического анализа употребительности отдельных речевых форм, слов, выражений, фразеологических оборотов и синонимов. Причем в качестве счетных единиц выбирались наиболее подвижные и легко заменяющиеся синонимами элементы языка. Интересна реакция на эту статью крупнейшего отечественного ученого А. А. Маркова, который, ссылаясь на свой опыт, изучения текста "Евгения Онегина", а также на результаты повторенных им исследований тех же текстов, что служили материалом анализа для Н. А. Морозова, показал, что выводы последнего не достоверны, так как были получены на текстах недостаточного объема [36].

В русской и советской литературе много вопросов связанных с атрибуцией текстов. Например, древнерусские тексты, летописи, которые создавались в Древней Руси анонимными и псевдонимными летописцами.

30-е годы XIX века стали годами "восстания псевдонимов" из-за гонений связанных с восстанием декабристов, оставили миру целый ряд произведений с неизвестным и приписываемым авторством.

В конце XIX века русская публицистика также очень часто была анонимна или подписывалась псевдонимами. Тогда же появились первые "фабрики по производству романов", явление широко распространенное и в наши дни. В современной литературе наиболее известным вопросом остается авторство "Тихого Дона".

Большинство современных методов определения авторства, так или иначе, основаны на анализе лингвостатистических (числовых) характеристик, вычисляемых по тексту.

Можно выделить следующие характеристики, которые могут быть получены для письменного текста и доступны для последующего анализа:

  1. легко вычисляемые по тексту: длина предложений и слов, средняя длина предложений и слов;

  2. однородность текста (распределение по тексту составляющих единиц текста);

  3. грамматические конструкции языка;

  4. морфологические конструкции языка;

  5. синтаксические конструкции языка;

  6. лексика (богатство лексики, частотные словари, наличие определенных слов);

  7. переходы между составляющими единицами текста;

  8. анализ дополнительных признаков текста (сокращений, пунктуации, "смайликов", ошибок).

Полученные лингвостатистические характеристики подвергаются анализу с использованием различных математических методов, среди которых можно выделить следующие:

  1. статистические методы [6, 11, 15, 17, 28, 51, 66, 91];

  2. изучение переходов между составляющими единицами текста [9, 65, 67];

  1. арифметические методы [63, 92];

  2. методы распознавания образов и искусственного интеллекта [50, 87, 90].

Несмотря на большое количество работ посвященных методам автоматического определения авторства, к ним обнаруживается достаточно настороженное отношение, как со стороны математиков [36], так и филологов [24, 94], что не остается без внимания специалистов в области атрибуции, которые рассматривают критику как требование к систематизации уже накопленных материалов и создания базы для проведения дальнейших исследований [78, 93].

Постановка задачи и объект исследования

Изучение структуры литературного текста с использованием различных математических методов имеет богатую историю, а появление вычислительных машин расширило возможности проведения различных экспериментов.

Проведение подобных исследований предполагает наличие литературного материала, отобранного и подготовленного специалистами. Многие используемые электронные корпуса текстов обычно ориентированы на тексты XX века современного русского языка, есть корпуса, посвященные текстам средневековой Руси. В данном исследовании использован корпус, в основе которого лежат тексты 60-70-х гг. XIX века, а именно публицистические статьи из журналов "Время", "Эпоха", "Современник", "Гражданин" и других в оригинальной орфографии дореволюционной России.

Работа по созданию и поддержке корпуса ведется в Петрозаводском государственном университете с 1995 года. Информационная поддержка осуществляется с использованием программного комплекса "Статистические методы анализа литературного текста" (ПК "СМАЛТ"). Проект был

поддержан грантом РГНФ № 02-04-12015в, № 05-04-12418в, руководитель Рогов А. А. Адрес в Интернет, посвященный ресурсу: .

Информационная система имеет модульную структуру, для своей работы использует архитектуру клиент-сервер. В настоящее время реализованы модули, которые позволяют проводить наполнение базы информацией о литературных произведениях, проводить морфологический и синтаксический разбор произведения, осуществлять хранение и обработку полученной информации.

Было предложено разработать информационно-аналитическую систему, расширяющую возможности ПК "СМАЛТ", которая, опираясь на единый тестовый материал, позволит сравнить имеющиеся методы по классификации и кластеризации текстов, предложить новые, дать ;. рекомендации по их применению.

В первую очередь нас интересовали методы, которые позволяют проводить атрибуцию текстов и работать с текстами небольшого объема, так как, несмотря на большое количество исследований в этой области, , существует потребность в надежных и обоснованных методах определения авторства [78].

Цель работы

Целью данной работы является разработка информационно-аналитической системы для анализа лингвостатистических характеристик литературных произведений, расширяющей возможности программного комплекса "Статистические методы анализа литературного текста" (ПК "СМАЛТ") [44].

Информационно-аналитическая система должна включать методы, позволяющие проводить классификацию и кластеризацию текстов и групп текстов, а также рассчитывать необходимые числовые характеристики, что позволяет сравнивать методы на едином тестовом материале.

Для достижения поставленной цели в ходе исследования были решены следующие задачи:

  1. Проанализированы существующие методики для классификации и кластеризации текстов и групп текстов и предложена новая. Проведена их программная реализация и апробация на имеющемся материале. Созданы рекомендации по применению.

  2. Спроектирована и разработана информационно-аналитическая система для анализа лингвостатистических характеристик литературных произведений.

  3. Проведены исследования синтаксической структуры произведений.

  4. Проведена атрибуция Ф. М. Достоевскому ряда произведений из раздела Dubia1.

  5. Рассмотрены возможности комплексной оценки для результатов работы различных методов.

  6. Исследованы возможности для описания морфологического и синтаксического разбора текстов с использованием языка XML.

При решении указанных задач использовались методы теории вероятностей и математической статистики, теории распознавания образов, прикладного статистического анализа, теории графов, теории баз данных.

Научная новизна 1. Обоснована разработка и реализована информационно-аналитическая система, входящая в ПК "СМАЛТ", предназначенная для анализа лингвостатистических характеристик литературных произведений, которая позволяет проводить классификацию и кластеризацию текстов на основе рассчитываемых характеристик. Дает возможность сравнить

Dubia (лат. "сомнительное") — произведения, предположительно приписываемые тому или иному автору.

методы на едином тестовом материале, выявить наиболее эффективные, комплексно учитывать результат работы нескольких методов.

  1. Проведены исследования синтаксической структуры текста с использованием методов кластерного и иерархического кластерного анализа, а также метода "сильного графа". Даны рекомендации по использованию.

  1. Предложено использование метода, основанного на индуктивном построении классификаторов, для классификации текстов и групп текстов, и методика построения статистического критерия на основе классификатора. Проведена их апробация при проведении атрибуции Ф. М. Достоевскому ряда произведений, относящихся к разделу Dubia.

  2. Разработана спецификация на основе языка XML для описания морфологического и синтаксического разбора текста в соответствии с грамматикой русского языка.

Объем и структура диссертации

Диссертация состоит из введения, трех глав, заключения и списка литературы, содержащего 99 наименований. Общий объем работы, изложенный на 134 страницах машинописного текста, включает 18 страниц приложения, 16 таблиц и 13 рисунков.

Во введении обосновывается актуальность темы диссертации, дается историческая справка и обзор современного состояния исследуемой области. Указывается место проблематики, рассматриваемой в диссертации, среди других задач близкой тематики, определяются объект и предмет исследования. Также во введении сформулирована цель работы, описана ее структура и представлены результаты, выносимые на защиту.

В первой главе рассказывается о математических методах, которые были использованы в работе для классификации и кластеризации текстов и групп текстов. Приводится подробное описание применения используемых методик для анализа лингвостатистических характеристик.

Вторая глава содержит описание информационно-аналитической системы для анализа лингвостатистических характеристик литературных произведений, которая является частью ПК "СМАЛТ". Обосновано создание информационно-аналитической системы. Описана ее архитектура, структура базы данных и интерфейсов пользователя. Даны технические характеристики информационно-аналитической системы, а также программного обеспечения, которое используется при ее работе. Введена спецификация на основе языка XML для описания грамматического и синтаксического разбора.

В третьей главе описаны исследования, которые были выполнены с использованием информационно-аналитической системы. А именно исследование синтаксической структуры произведения и атрибуция ряда произведений Ф. М. Достоевского, входящих в раздел Dubia, с использованием математических методов.

В приложении представлены статьи, являющиеся материалами для исследования. Описана структура базы данных. Приведены результаты применения метода "сильного графа", методов, основанных на проверке статистических гипотез, а также результаты классификации при индуктивном построении классификаторов и проверки статистических гипотез об авторстве на основе построенного классификатора.

Основные практические результаты работы

Рассмотренные в данной работе методы для классификации и кластеризации текстов и групп текстов реализованы в виде информационно-аналитической системы, которая может быть использована при проведении филологических исследований. В информационно-аналитической системе были учтены рекомендации, полученные в данной работе, а также реализован ряд "типовых" процедур, которые помогут облегчить работу филолога.

Предложен метод, основанный на индуктивном построении классификаторов, который может быть использован при классификации текстов и групп текстов, и обладает высокой степенью интерпретируемости результатов. Методика построения статистического критерия на основе классификатора может быть использована и в других исследованиях.

Спецификация на основе языка XML для описания морфологического и синтаксического разбора текста в соответствии с грамматикой русского языка может быть использована для хранения разборов в виде "плоских" файлов.

Основные результаты, выносимые на защиту

  1. Реализована информационно-аналитическая система для анализа лингвостатистических характеристик литературных произведений.

  2. Предложен метод, основанный на индуктивном построении классификаторов с построением статистического критерия, который демонстрирует хорошие результаты при классификации текстов и групп текстов, эффективен при работе с короткими текстами, имеет возможность выделения наиболее информативных признаков, осуществляет наблюдение за несколькими лингвостатистическими характеристиками в одном критерии.

  3. Разработана спецификация на основе языка XML, позволяющая хранить морфологический и синтаксический разбор текста в виде файлов в формате, доступном для обработки большинству информационных систем.

  4. Выявлен ряд ограничений для методов, основанных на проверке статистических гипотез, кластерного анализа и «сильного графа» при их применении для классификации и кластеризации текстов и групп текстов.

Реализация

Информационно-аналитическая система реализована с использованием сервера баз данных Oracle 10g ХЕ [88], с помощью которого -осуществляется хранение и обработка информации. Этот сервер баз данных распространяется свободно фирмой Oracle и может быть использован разработчиками при создании собственных программных продуктов.

Со стороны клиента работа осуществляется посредством платфор-монезависимого и свободнораспространяемого браузера Mozilla Firefox 2 [86]. Интерфейс создан с помощью технологии Web 2.0. Интернет адрес проекта: .

Апробация работы и публикации

Результаты диссертации были представлены на XI международной конференции серии "Нелинейный мир": "Языки науки — языки искусства" (Пущино, 2006), 13 международной конференции "Математика. Компьютер. Образование" (Пущино, 2007), международной конференции "Диалог 2007" (Бекасово, 2007), XIII Всероссийской конференции "Математические методы в распознавании образов" (Зеленогорск, 2007), ежегодном международном научном семинаре AMICT'2007 (Петрозаводск, 2007), международной конференции "Проблемы компьютерной лингвистики — 2008" (Воронеж, 2008), на научном семинаре "Компьютерная лингвистика" кафедры математического моделирования систем управления ПетрГУ. Основные результаты работы отражены в одиннадцати публикациях [45-47,55-61,77].

Автор работы выражает глубокую благодарность научному руководителю доктору технических наук, профессору кафедры математического моделирования систем управления А. А. Рогову за идеи и рекомендации в процессе проведения исследований и их анализе. Автор работы также выражает благодарность научному консультанту и идейному вдохновителю данной работы доктору филологических наук, профессору Петрозаводского государственного университета В. Н. Захарову за предоставленный для исследований материал, ценные рекомендации при работе с литературными текстами. Автор работы также выражает благодарность научному консультанту кандидату технических наук, научному сотруднику Карельского научного центра С. П. Чистякову за плодотворную совместную работу над новыми идеями, которые получили развитие в данной работе.

Классификация на основе полученных кластеров

В своей работе, которая посвящена анализу стилевых характеристик библейских текстов, В. Фукс [65] предлагает метод, основанный на подсчете отличий между матрицами переходов между синтаксическими классами в текстах. В ней в частности говориться о том, что "частоты переходов для синтаксических классов слов играют в исследованиях подлинности текстов чрезвычайно важную роль". С помощью этого метода В. Фуксу удалось четко различить стилевые особенности всех четырех канонических евангелических текстов.

Метод подсчета отличий между матрицами переходов может быть использован для выделения групп текстов. Приведем его описание. Сначала определяется матрица относительных частот парной встречаемости классов единиц текста, как описано выше в пункте 2.1 «Метод "сильного графа"». Затем вводится индекс различия Р, который вычисляется для пары текстов или групп текстов как сумма мер различия по всем соответствующим элементам двух матриц: Ilk- , /=17=1 где А = (3) а и ,i = l..n,j = l..n3 B=bijJ = l..n,j = \..n —матрицы относительных частот парной встречаемости единиц двух любых текстов, п — число выбранных для анализа классов.

Получая близкие значения индекса различия Р, можем сделать вывод о близости текстов в некотором смысле. Результаты апробации метода даны в главе 3.

В основе большой группы методов лежат алгоритмы проверки статистических гипотез. Они основаны на проверке гипотез о значимости различий распределений лингвостатистических характеристик для сопоставляемых произведений или групп произведений.

Так в своей работе «"Принадлежность Достоевскому: к вопросу об атрибуции Ф. М. Достоевскому анонимных статей в журналах "Время" и "Эпоха"» [66], посвященной исследованию анонимных статей в журналах "Время" и "Эпоха", Гейр Хетсо описывает целый ряд таких статистических методов, которые были использованы им при проведении атрибуции Ф. М. Достоевскому ряда произведений. Он исходит из предположения, что каждый писатель неосознанно отдает предпочтение некоторым грамматическим и синтаксическим конструкциям при написании текста.

С помощью методов, основанных на проверке статистических гипотез, Г. Хетсо анализирует отдельные элементы языка и стиля писателя, которые поддаются измерению, а именно: длина предложения; длина слова; какая часть речи стоит на первом месте в предложении; лексический спектр текста; разнообразие лексики писателя; и т. д.

Методы, основанные на проверке статистических гипотез, могут быть использованы для выявления групп текстов. В этом случае проводится выявление близости текстов по рассматриваемым характеристикам путем сравнения их с одним или с целой группой произведений. В результате получаются группы текстов, имеющие близкое распределение рассматриваемых характеристик, или существенно отличающееся.

Общий алгоритм следующий: выдвигается основная гипотеза Н0 о близости рассматриваемых характеристик к тем, которые наблюдаются в исследуемых текстах, и альтернативная гипотеза Hi о наблюдаемых значительных отличиях. Например, если проходит проверку гипотеза об авторстве определенного писателя, то выполняются следующие действия: для рассматриваемой характеристики определяется критическая граница акр, а для произведения определяется числовое значение этой характеристики а. С помощью статистического критерия (критерий Стьюдента, критерий х1 , непараметрический критерий Колмогорова-Смирнова) проводится проверка гипотезы. Если в результате проверки гипотезы Н0 она не отвергается, то есть а акр, тогда у нас нет оснований отвергнуть авторство определенного писателя. Если Н0 отвергается в пользу альтернативной Hi с заданным уровнем значимости (а акр), тогда у нас есть основания считать, что статья, скорее всего, не принадлежит писателю. В качестве критического значения акр берется максимальная величина из значений, полученных на текстах, безусловно принадлежащих исследуемому автору.

В результате проверка каждого критерия дает положительный или отрицательный результат о близости текстов или групп текстов.

Возможность использования критерия Стьюдента для проверки статистических гипотез об однородности распределения лингвостатистиче-ских характеристик показана в [52]. Далее приведены некоторые из возможных алгоритмов проверки статистических гипотез.

Лексический спектр текста на уровне словаря

Опишем кратко метод построения статистического классификатора текстов, основанного на получении системы правил.

Введем обозначения. Пусть X = (XvX2,...,Xn) — набор номинальных признаков, который может быть получен для каждого предложения текста, где Xl = \xn,xl2,...,xin },і = 1,2...п — множество возможных значений признака Xt.

Так как выбранный нами тип классификатора, описанный ниже, предполагает, что все признаки обучающей выборки измерены в номинальной шкале, а среди рассматриваемых нами лингвостатистических характеристик могут присутствовать признаки, измеренные в интервальной шкале, например, средняя длина слова в буквах, то для этих признаков предварительно проводилась процедура дискретизации.

В результате дискретизации область возможных значений непрерывного признака разбивалась на совокупность дизъюнктных интервалов таким образом, чтобы различие распределений классового признака для любой пары смежных интервалов было статистически значимо. Использо вался критерий однородности % при уровне значимости 0.01. Затем каждый интервал интерпретировался как одно значение нового номинального признака.

Аналогично были преобразованы все признаки в порядковой шкале, например, количество слов в предложении [71].

Существует к классов, по которым проводится классификация текстов. Обозначим Y — классовый признак с множеством возможных значений D = {0,l,...,k-l}, к 2. Предполагается существование неизвестного совместного распределения Р(х,у) признаков X1,X2,...,Xn,Y. Из распределения Р(х,у) имеется обучающая выборка

Строим правила вида "ЕСЛИ предпосылка ТО заключение с весом w ", где предпосылка имеет С вид: С = К = хаЛ }& [Хаг = хаіРг }&...& {Xar = хагРг}, где cct = 1,2,...,п, Д, = 1,2,...,Г;, i = 1,2,...,г, то есть рассматриваем цепочки конъюнкций длины г, состоящие из упорядоченных пар "признак-значение", перебирая все возможные комбинации и исключая рассмотрение в одной цепочке одного признака с разными значениями, обычно предпосылка рассматривается при г = 1 и г = 2 .

Заключение имеет вид: то есть классовый признак в случае выполнения "предпосылки" принимает определенное значение классового признака. Вес w є (ОД) является мерой влияния предпосылки правила на заключение. Получаются правила вида C = Cj w . Если существует два правила с одним и тем же заключением, то для вычисления общего веса правил пользуемся формулой для комбинации весов [89]: wxw2 w w2 = л V1 г- (8) Если 9Я — множество правил, то функция комбинации весов применяется к весам всех правил, входящих в 9Ї, для которых имеется одинаковое заключение. Получаем композиционный вес для множества правил W{Ci C,9T) = awa. Тогда множество правил 9Ї индуцирует некоторый классификатор f :X- D, который относит предложение х = (х1,х2,..,,хп) =Х, определяемое набором признаков, к тому классу, для которого композиционный вес максимальный: /„( ) = arg тах ф;С(х),и). (9)

В множестве правил 9Я нас интересуют только те, которые по обучающей выборке показали статистически значимые отличия распределения классового признака. Результаты апробации метода приведены в главе 3.

Для сравнения результатов работы методов по классификации текстов можно рассматривать их работу на специальной коллекции документов, или хотя бы единой коллекции, как это предложено в информационно-аналитической системе, входящей в ПК "СМАЛТ", описанной в главе "Описание информационно-аналитической системы для анализа лингвос-татистических характеристик литературных произведений ".

Не исключена возможность, когда методы дают противоречивые результаты, некоторые подходы к обработке подобных ситуаций описаны ниже. Если одновременно используется несколько классификаторов, которые дают разные результаты при работе с одними и теми же группами текстов, то в этом случае существует несколько методов объединения: выбор большинства — выбирается результат, который дают большинство классификаторов; взвешенная линейная комбинация, когда для каждого классификатора задается число, характеризующее степень доверия к классификатору, затем подсчитывается взвешенное число голосов; динамический выбор классификатора — для каждого классификатора определяются категории, в которых он наиболее "компетентен", в зависимости от категории выбирается тот или иной классификатор; динамическая комбинация классификаторов — объединение "взвешенной линейной комбинации" и "динамического выбора классификатора", то есть в зависимости от категории определяется степень доверия классификатору, а затем подсчитывается число голосов.

В разработанной информационной системе использован первый из возможных подходов, который, по мере накопления результатов, можно будет усовершенствовать.

Информационно-аналитическая система для анализа лингвостатистических характеристик литературных произведений47

Модуль статистической обработки ПК "СМАЛТ" представляет собой информационно-аналитическую систему, которая может быть использована для выявления количественных характеристик литературных произведений, которые определяются читателем текста как стилистическая направленность, авторский стиль, стиль присущий произведениям одной эпохи или группе близких языков. Модульная структура, использование архитектуры "клиент-сервер" и web-технологий, позволяет обеспечить расширяемость, гибкое изменение конфигурации, отсутствие необходимости в установке.

После регистрации в системе пользователь может создавать свои проекты, каждый из которых содержит рассматриваемые тексты, определяемые для них признаки и методы интеллектуального анализа данных. На рисунке выше, см. рисунок 2, представлена схема организации работы информационно-аналитической системы.

На первом этапе пользователем: формируются группы текстов, каждая группа может включать один или несколько текстов, например, принадлежащих одному автору, жанру, времени; определяются возможные расчетные характеристики для групп, например, количество слов в предложении, часть речи, стоящая на третьем месте предложения и пр., возможно построение сложного условия на основании имеющихся; существующая система анализа признаков позволяет сделать рекомендации по их выбору, предложить наиболее предпочтительные для выбранных текстов, наиболее информативные или часто используемые.

На втором этапе: производится расчет выбранных признаков, полученные значения могут быть экспортированы для обработки в других программных средствах; выбираются методы, модули которых присоединены к информационной системе, если необходимо, то для выбранных методов указываются начальные условия, есть метод, который выводит рассчитанные значения для признаков; существующая система анализа методов позволяет сделать рекомендации по их выбору, предложить более эффективные; указывается необходимость расчета комплексной оценки на основе выбранных методов.

На третьем этапе: проводится анализ полученных данных, а именно указывается близость групп произведений по рассматриваемым признакам с некоторым уровнем значимости, на основе каждого из методов, а также на основе комплексной оценки, или просто получаются значения для заданных признаков.

В процессе работы проект может быть изменен, а именно добавлены новые произведения, признаки и методы, в этом случае требуется повторное проведение вычислений. Если получен интересный результат, то проект может быть продублирован, чтобы сохранить текущее состояние и начать работу с того же места, но в новом проекте. Доступ к проекту может быть разделен с другими зарегистрированными участниками информационной системы.

Для проведения анализа в информационно-аналитической системе предлагаются следующие группы методов: разбиение анализируемых текстов на группы с использование кластер ного анализа; проверка статистических гипотез об однородности распределения частотных характеристик текстов; метод "сильного графа" для оценки парной связи грамматических и синтаксических классов.

К информационно-аналитической системе можно подключать новые расчетные модули. В процессе работы накапливается информация, позволяющая определить методы, которые обеспечивают более эффективную работу, то есть провести их ранжирование. На основании этого проводится комплексное рассмотрение результатов тестов, с помощью введения оценки, учитывающей каждый из полученных результатов. Каждый из тестов может давать положительное или отрицательное заключение о близости групп произведений, а комплексная оценка учитывает все результаты и выдает единый результат, причем вклад каждого теста берется в соответствии с введенным ранее ранжированием методов.

Описание архитектуры информационно-аналитической системы Общая архитектура системы представлена на рисунке ниже, см. рисунок 3. В качестве сервера был использован сервер баз данных Oracle 10g ХЕ [88], с помощью которого осуществляется хранение и обработка данных. Клиент работает с системой удаленно с использованием браузера. В настоящее время поддерживается браузер Mozilla Firefox 2 [86]. Интерфейс создан с помощью технологии Web 2.0. Краткое описание использованных программных продуктов дано ниже, см. пункт 2.5 "Описание использованного программного обеспечения".

Метод подсчета отличий между матрицами переходов синтаксических классов

В качестве материала для исследований выступили статьи, представленные в таблице АЛ "Материалы исследования" приложения А, всего рассматривалось 44 статьи. Для каждого текста дан его размер в предложениях — колонка "Длина (в предл.)", в скобках — количество не атрибутируемых предложений, а именно, имеющих тип: цитата, иностранный язык, не атрибутируется, конструкция с прямой речью, диалогическое предложение, не принадлежащее автору текста.

Основная группа статей была опубликованы в журнале "Время" в 1861-1863 годах. Статьи в оригинальной орфографии России конца XIX века были разобраны с использованием ПК "СМАЛТ", получены их грамматические и синтаксические разборы. Результаты были сохранены в единой базе данных, для расчета параметров по каждой статье.

Для удобства описания проделанной работы по исследованию текстов был введен следующий способ кодирования — колонка "Код текста" в таблице А. 1: — "Тексты Достоевского", коды текстов начинаются с 0 (10 статей); — "Тексты для атрибуции", коды текстов начинаются с 1 (22 статьи); — "Коллективное творчество", коды текстов начинаются с 2 (1 статья); — "Чужие тексты", коды текстов начинаются с 3 (11 статей).

Методы кластерного анализа, см. глава 1 1, были применены для исследования синтаксической структуры произведений. Синтаксический уровень языка ярко характеризует индивидуальность писателя. Было предложено выделить синтаксические характеристики, которые были бы характерны для стиля Ф. М. Достоевского, а также определить группы текстов, близких в определенном смысле.

База синтаксического разбора литературных произведений, созданная с использованием ПК "СМАЛТ", позволяет сформировать большое количество лингвостатистических характеристик для анализа.

В качестве основы для анализа синтаксического разбора публицистических произведений были использованы характеристики, приведенные в [53]. Выбраны были те из них, которые могли быть рассчитаны на основании имеющихся разборов предложений. В итоге был сформирован список признаков, приведенный в таблице 1.

В результате получился набор данных, который содержит частоту встречаемости каждого признака в каждом произведении. Относительные частоты были рассчитаны не от общего числа предложений в тексте, а от числа предложений, которые подвергаются разбору. Кроме этого, провели уменьшение числа характеристик, так, был произведен отказ от тех, относительная частота встречаемости которых меньше пяти процентов. Предварительный анализ показал, что разброс полученных значений для рассматриваемых статей велик.

Метод кластеризации В данной работе с использованием алгоритма К-средних была проведена кластеризация исходных данных. В качестве центров первоначального разбиения для задаваемого количества кластеров были использованы следующие подходы: выбрать в качестве центров кластеров максимально-различные наблюдения; отсортировать расстояния, разбить на N интервалов, взять по наблюдению из каждого интервала; взять первые N наблюдений.

Информация о том, какие объекты попадали в один кластер при разных видах первоначального разбиения, представлена в таблице 2. Курсивом выделены короткие тексты (менее 60 предложений), а полужирным - длинные (более 220 предложений). Статьи 004(21), 109(7), 110(14) объединяются в один класс, см. группа 3. Это очень короткие тексты, в скобках дана - длина статьи в предложениях.

А длинные тексты, кроме 122(242), объединяются в группу 2: 116(312), 003(272), 011(669), 303(225), 305(243), 120(233), 121(233).

Статьи 120 и 121, являющиеся частями одной статьи, всегда попадают в один кластер. Статьи 119 и 305, предположительно принадлежащие одному автору, попадают в один кластер. Статьи 306 и 317, принадлежащие одному автору, попадают в один кластер, а статья 316 попадает в другой.

Похожие диссертации на Многомерный количественный анализ и классификация текстов на основе лингвостатистических характеристик