Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Лингвистические методы определения авторства средневековых текстов (на материале французского романа XIII века "Продолжение Персеваля") Шабалина Анастасия Вадимовна

Лингвистические методы определения авторства средневековых текстов (на материале французского романа XIII  века
<
Лингвистические методы определения авторства средневековых текстов (на материале французского романа XIII  века Лингвистические методы определения авторства средневековых текстов (на материале французского романа XIII  века Лингвистические методы определения авторства средневековых текстов (на материале французского романа XIII  века Лингвистические методы определения авторства средневековых текстов (на материале французского романа XIII  века Лингвистические методы определения авторства средневековых текстов (на материале французского романа XIII  века Лингвистические методы определения авторства средневековых текстов (на материале французского романа XIII  века Лингвистические методы определения авторства средневековых текстов (на материале французского романа XIII  века Лингвистические методы определения авторства средневековых текстов (на материале французского романа XIII  века Лингвистические методы определения авторства средневековых текстов (на материале французского романа XIII  века Лингвистические методы определения авторства средневековых текстов (на материале французского романа XIII  века Лингвистические методы определения авторства средневековых текстов (на материале французского романа XIII  века Лингвистические методы определения авторства средневековых текстов (на материале французского романа XIII  века Лингвистические методы определения авторства средневековых текстов (на материале французского романа XIII  века Лингвистические методы определения авторства средневековых текстов (на материале французского романа XIII  века Лингвистические методы определения авторства средневековых текстов (на материале французского романа XIII  века
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Шабалина Анастасия Вадимовна. Лингвистические методы определения авторства средневековых текстов (на материале французского романа XIII века "Продолжение Персеваля"): диссертация ... кандидата Филологических наук: 10.02.20 / Шабалина Анастасия Вадимовна;[Место защиты: ФГБОУ ВО Санкт-Петербургский государственный университет], 2017.- 343 с.

Содержание к диссертации

Введение

Глава 1. История вопроса. основные проблемы 16

1.1. Общий обзор продолжений романа Кретьена де Труа о Персевале 16

1.2. Обзор манускриптов продолжений романа о Персевале и манускрипта «Романа о Фиалке» 23

1.3. Проблема авторства «Четвёртого продолжения» 34

1.4. Датировка произведений в контексте проблемы атрибуции 52

1.5. Объект атрибуции и выбор референтных изданий 54

1.6. Формирование атрибуционной гипотезы 57

1.7. Выводы к Главе 1 58

Глава 2. Методологические основы атрибуции. обзор методов атрибуции 60

2.1. Стиль как основное понятие теории атрибуции и проблематика применения методов атрибуции 60

2.2. История развития и применения методов атрибуции. Появление формально-количественных методов 70

2.3. Лингвоматематические методы во второй половине XX века. От лексики к синтаксису 75

2.4. Современные методы атрибуции анонимных и псевдонимных текстов

2.4.1. Методы параметризации текста 80

2.4.2. Математические методы решения задач атрибуции 83

2.5. Выводы к Главе 2 86

ГЛАВА 3. Атрибуция «четвёртого продолжения» с использованием параметров описания старофранцузского языка 88

3.1. Постановка задачи 88

3.2. Формирование параметрического пространства 89

3.3. Формирование априорного алфавита классов 93

3.4. Определение информативных параметров 94

3.5. Определение минимального объёма выборок 105

3.6. Двухступенчатая процедура классификации 108

3.7. Атрибуция с помощью детерминированного алгоритма 109

3.8. Атрибуция с помощью вероятностного алгоритма 111

3.9. Атрибуция при помощи критерия Сёренсена-Чекановского 116

3.10. Атрибуция при помощи вероятностных классификаторов 124

3.10.1. Вероятностный классификатор Байеса 124

3.10.2. Формирование массива исходных данных для атрибуции 126

3.10.3. Алгоритм атрибуции при помощи наивного классификатора Байеса 127

3.10.4. Результаты атрибуции при помощи наивного классификатора Байеса

3.11. Атрибуция при помощи алгоритма иерархической кластеризации 135

3.12. Выводы к Главе 3 141

Глава 4. Атрибуция с использованием параметризации рифмованных строк 144

4.1. Обоснование подхода к решению задачи атрибуции анонимных и псевдонимных произведений на основании рифмованных строк 144

4.2. Описание математических методов, используемых при атрибуции с использованием рифмованных строк 150

4.3. Атрибуция при помощи классификатора Байеса 154

4.4. Атрибуция при помощи теории распознавания образов 164

4.4.1. Работа детерминированного алгоритма 165

4.4.2. Атрибуция при помощи вероятностного алгоритма 168

4.4.3. Оценка качества классификации

4.5. Атрибуция при помощи критерия Сёренсена-Чекановского 174

4.6. Атрибуция с использованием иерархической кластеризации 176

4.7. Выводы к Главе 4 180

Заключение 184

Список затекстовых ссылок 191

Список использованной литературы 209

Введение к работе

Актуальность темы исследования определяется проблематикой,

связанной с применением лингвистических методов атрибуции при помощи многомерных классификаций и количественного описания индивидуально-

авторского стиля на материале рифм и синтаксиса старофранцузского языка, а также недостаточностью исследований в области количественных методов атрибуции средневековых текстов и необходимостью решения целого комплекса проблем, связанных с влиянием фактора времени, стремлением средневековых авторов к анонимности, сохранностью оригинального текста, сложным взаимодействием автора и последующих переписчиков манускриптов, редакторов, издателей в литературном процессе того времени.

Среди средневековых текстов XII-XIII веков значительное количество составляют тексты, не сохранившие сведений об авторе или вызывающие спорное мнение об их принадлежности приписываемому автору. Длительное время литературоведы, филологи практически не предпринимали попыток комплексного подхода к решению этой проблемы. В XX веке велись активные поиски путей решения проблемы авторства на материале подобных текстов, однако отсутствие единого подхода и наличие существенного массива текстов, нуждающихся в атрибуции, привели к тому, что вопрос о возможности решения проблемы авторства становится в XXI веке ещё более актуальным.

Параметризация подобных текстов с целью их атрибуции представляет собой комплексную филологическую задачу, тесно связанную с задачами квантитативной лингвистики, типологии, текстологии и стилеметрии и требующую применения методов историко-филологического анализа и математического моделирования. Это, в свою очередь, отвечает задачам междисциплинарной интеграции современной науки, заключающимся в совмещении количественных и качественных методов различных дисциплин для решения конкретных прикладных задач на стыке теории и методологии.

Степень разработанности проблемы. Настоящее диссертационное исследование представляет собой не только первую отечественную работу, посвящённую применению математико-статистических методов атрибуции к тексту романа средневекового цикла «Продолжение Персеваля», но и, в целом, первое комплексное исследование проблемы авторства этого романа. В советской и российской критике присутствуют лишь краткие очерки с ознакомительной информацией, справочные материалы о романах цикла о

короле Артуре и рыцарях Круглого стола и предисловия к переводам романа Кретьена де Труа, где указывается на наличие последующих продолжений других авторов. В зарубежном литературоведении к этому вопросу стали обращаться ещё в конце XIX века (А. Бирх-Хиршфельд, Ф. Кошвиц, Ф. Краус, М. Вильмот), но общее количество исследований немногочисленно. В XX веке к этой проблеме обращались Ж. Бедье, Ж.-Л. Вестон, Ш. Франсуа, А. Стентон. На рубеже столетий вновь возник интерес к Циклу о Граале и продолжателям труда Кретьена де Труа. M. Брукнер, К. Басби, Л. Тефер, Л. Стивенс изучали построение и содержание манускриптов, сравнивая их между собой, работали с текстом и сюжетом романов, не обращаясь глубоко к проблеме авторства. В 2014 году было опубликовано новое издание «Четвёртого продолжения» Персеваля под редакцией профессора Ф. Ле Нан с обширным обзором круга вопросов, связанных с этим произведением. Однако отсутствие глубокого всестороннего анализа вопроса об истинном авторстве продолжений из цикла о Граале Кретьена де Труа и, в целом, возросший интерес со стороны отечественных и зарубежных учёных к проблеме атрибуции средневековых произведений придаёт работе особое значение.

Основой для разработки теоретического подхода к решению проблемы атрибуции послужили отечественные и зарубежные работы по стилистике и методологическим основам атрибуции, среди которых необходимо отметить исследования в области:

понятия «стиль» и индивидуального авторского стиля (В. В. Виноградов, А. В. Фёдоров, М. П. Брандес, А. Н. Соколов, А. Н. Ефимов и др.);

применения формально-количественных методов при анализе авторского стиля (А. Т. Фоменко, Б. Я. Слепак, Н. А. Морозов, А. А. Марков и др.);

лексической и синтаксической параметризации текста (В. Диттенбергер, Ю. А. Тулдава, Г. Я. Мартыненко, Х. Бааен, Х. Ван Хальтерн, М. Гамон, Е. Стамататос);

математических методов решения задач атрибуции, в частности, с

использованием многомерного статистического анализа (М. А.

Марусенко, И. О. Тарнопольская, Г. Шварц) а также методы,

основанные на машинном обучении (Р. Мэттьюс, М. Коппел, С.

Николенко и др.). Целью работы является атрибуция текста «Четвёртого продолжения Персеваля» с применением различных методов комплексного лингвистического и математико-статистического анализа и исследования индивидуальных авторских стилей на различных уровнях с целью решения проблемы авторства атрибутируемого произведения. Достижение поставленных целей предполагает решение следующих задач:

проведение полного обзора работ об авторстве «Четвёртого продолжения» Персеваля и формирование атрибуционной гипотезы и априорного алфавита классов (список предполагаемых авторов);

анализ и систематизация существующих методов атрибуции литературных произведений, включая современные информационные технологии, и обоснование дальнейшего применения математико-статистических методов, основанных на теории распознавания образов, в данной работе;

формирование правил параметризации стихотворных текстов XIII века на старо французском языке на основании априорного словаря параметров;

проверка атрибуционной гипотезы относительно принадлежности «Четвёртого продолжения» Персеваля априорным классам Qj (Жербер де Монтрёй) и Q2 (Манессье) методом распознавания образов.

выделение критериев для составления априорного словаря рифмованных пар и типов рифм;

проверка атрибуционной гипотезы с использованием метода распознавания образов на априорном словаре рифмованных пар и типов рифм;

дополнительная проверка атрибуционной гипотезы путём детального рассмотрения особенностей рифмования текста;

- интерпретация полученных различными методами результатов проверки атрибуционной гипотезы относительно авторства «Четвёртого продолжения» Персеваля.

Объектом исследования выбраны синтаксические и статистические характеристики индвидуальных авторских стилей предполагаемых авторов «Четвёртого продолжения» Персеваля, Жербера де Монтрёя и Манессье. Предметом исследования стала атрибуция анонимного произведения из цикла романов о Граале, установление сходства и различия анализируемых произведений на основе математико-статистической оценки их принадлежности к априорным классам.

Материалом для исследования были выбраны следующие тексты:

  1. «La Quatrime Continuation Perceval» («Четвёртое продолжение Персеваля», изд. Mary Williams, 1922-1925, Marguerite Oswald, 1975);

  2. «La Troisime Continuation Perceval» («Третье продолжение Персеваля», изд. William Roach, 2004);

  3. «Le Roman de la Violette ou de Gerart de Nevers» («Роман о Фиалке, или Жерар Неверский», изд. Douglas Labare Buffum, 1928).

Методы и методики исследования. Для комплексного решения задачи атрибуции выбранного анонимного произведения в работе были изучены возможности применения методов сравнительно-типологического языкознания и математико-статистических и вероятностных методов с использованием семиотического и математического моделирования на основе теории распознавания образов, а также применены общие статистические методы обработки данных, стилеметрии, лингвостатистики. При решении данной проблемы комбинировались типологический метод на материале идиолектов разных авторов, системно-описательный метод и принципы филологического анализа, в частности, историко-документальный (исторические и биографические данные), идейно-стилистический метод и методы анализа состава и структуры предложения, и слов, составляющих рифмованные пары. Методологической базой для диссертационной работы стала теория распознавания образов, выявляющая статистически значимые различия между

математическими моделями атрибутируемых текстов и предоставляющая основу для составления многомерных классификаций. Применение данного метода при проверке целого ряда атрибуционных гипотез на материале художественных произведений различных исторических периодов и языков продемонстрировало его высокую эффективность. Кроме того, для проверки гипотез на материале, полученном на основании анализа рифм, использовался вероятностный классификатор (наивный классификатор Байеса) и алгоритм иерархической кластеризации. Использование данных методов является весьма перспективным при обработке информации на естественном языке.

Научная новизна работы заключается в комплексном подходе к
решению конкретной задачи атрибуции средневекового стихотворного
произведения на старофранцузском языке путём совмещения количественных и
качественных методов различных наук. Подобный подход подчёркивает
междисциплинарный характер исследования и отвечает современной научной
парадигме. Реализация данного подхода позволила не только всесторонне
изучить лингвистические методы определения авторства средневековых
текстов, но получить достоверный результат проверки атрибуционной гипотезы
и внести вклад в решение целого ряда проблем, связанных с исследованием
стихотворных произведений на старофранцузском языке: влияние

недостаточной грамматикализации «мёртвого» языка на параметризацию текста, соавторство переписчиков и комбинирование издателями нескольких рукописей, влияние литературных моделей и законов жанра Средневековья на процесс создания произведения.

Теоретическая значимость исследования. Впервые на стихотворном материале старофранцузского языка была применена методика параметризации текста не только на синтаксическом уровне, но и при помощи рифмующихся пар, что доказало их высокий потенциал как стилеразличающих параметров, позволяющих описать уникальный поэтический стиль каждого автора, и подтвердило универсальность метода, основанного на теории распознавания образов, и средств многомерной классификации и их независимость от

внешних факторов воздействия на язык автора, а также от типологических характеристик языкового материала. Результатом исследования стало определение статистических характеристик индивидуального авторского стиля средневековых стихотворных произведений, для чего, помимо априорного словаря синтаксических параметров, был предложен и применён словарь параметров рифмованных пар, составленный с учётом принципа формирования рифм в средневековых стихотворных произведениях на старофранцузском языке.

Практическая значимость исследования и рекомендации по
использованию
результатов. Научно-практическое значение работы

определяется возможностью использовать её результаты в ходе дальнейшего исследования романов из цикла произведений о Короле Артуре и Рыцарях Круглого стола, продолжений романа Кретьена де Труа о Персевале и других средневековых произведений на старофранцузском языке, а также при чтении общих и специальных лекционных курсов по истории средневековой французской литературы, стилеметрии, текстологии, квантитативной и прикладной лингвистике и ведении практических семинаров по применению лингвистических и математико-статистических методов.

Основные положения, выносимые на защиту:

  1. В результате проведённого в диссертационном исследовании историко-филологического анализа, хронологической и пространственной локализации языковых явлений в текстах исследуемых произведений в список потенциальных авторов «Четвёртого продолжения» Персеваля, помимо Жербера де Монтрёя, включены Манессье и неизвестный автор.

  2. Изучение индивидуальных авторских стилей Жербера де Монтрёя и Манессье и их особенностей, а также документальных источников, позволили сформулировать гипотезу о том, что «Четвёртое продолжение» Персеваля может быть атрибутировано одному из указанных выше авторов. Каждый из известных авторов представлен

текстом, образующим априорный класс. При интерпретации
результатов атрибуции необходимо учитывать влияние искажений,
вносимых в авторский текст переписчиками оригинальных

манускриптов.

  1. Проверка атрибуционной гипотезы с помощью математико-статистического анализа установила, что автором «Четвёртого продолжения» Персеваля является Манессье.

  2. Предложенная методика определения значений на синтаксическом уровне и при помощи рифмованных пар, на материале стихотворных произведений XIII века на старофранцузском языке, позволяет решать задачу определения авторства анонимных и псевдонимных текстов данного периода с учётом всех факторов, оказывавших влияние на состояние и структуру текста на протяжении длительного периода времени.

  3. Результат исследования подтверждает наличие статистически значимых стилистических различий между романами «Третье продолжение» и «Роман о Фиалке», являющихся априорными классами.

Степень достоверности и апробация результатов исследования.
Степень достоверности полученных результатов подтверждается

репрезентативными объёмами выборок из априорных классов и

атрибутируемого объекта, используемых для формирования параметрического
пространства, на котором определяются координаты данных объектов, с
применением алгоритма снижения размерности путём определения

информативных параметров. Для случая параметров, основанных на свойствах старофранцузского языка, в процессе исследования были произведены две прикидочные выборки из 100 предложений каждая по 48 параметрам. По информативным параметрам оценивались 829 предложений из класса 1 «Романа о Фиалке», 1583 предложения для класса 2 «Продолжение Манессье» и 1104 предложения для атрибутируемого объекта. Для случая

использования параметров, основанных на оценке рифм, было взято по 1000 рифмованных пар для каждого класса. Математические методы, использованные для обработки полученных классов, широко применяются в задачах анализа текстов и показали высокую эффективность в решении проблемы определения авторства. Выводы, полученные в настоящей работе, непротиворечивы, аргументированы и логически вытекают из результатов всестороннего анализа объекта исследования. Основные положения диссертации и её отдельные аспекты обсуждались на научных конференциях и семинарах, в том числе:

XXXIX международная филологическая конференция (СПб, март 2010);

XL международная филологическая конференция (СПб, март 2011);

Научно-практическая конференция с международным участием «Неделя Науки СПбГПУ» (СПб, декабрь 2013);

Международная заочная научно-практическая конференция «Актуальные вопросы образования и науки» (Тамбов, декабрь 2013);

Всероссийская конференция «Герценовские Чтения. Иностранные языки» (СПб, май 2014);

V международная научно-практическая конференция «Наука сегодня» (Вологда, октябрь 2014).

Принципиальные положения диссертации получили отражение в шести публикациях, три из которых входят в перечень ВАК Министерства образования и науки Российской Федерации.

Объём и структура работы. Диссертационное исследование содержит 227 страниц машинописного текста, состоит из введения, четырёх глав, заключения, списка затекстовых ссылок и библиографии, включающей 172 наименований, из которых 94 на иностранных языках. Для математической и статистической обработки данных были использованы пакет Microsoft Excel и отдельно разработан набор специализированных программных инструментов в

среде Microsoft Visual Studio 2013 (платформа .Net Framework 4.5). Основные результаты исследования обобщены в 66 таблицах. В качестве приложения приводится априорный словарь параметров с примерами и таблиц исходных данных. Общий объём исследования с приложениями - 343 страницы.

Датировка произведений в контексте проблемы атрибуции

Своё второе название, «псевдо-Вошье», это продолжение получило в связи с тем, что длительное время оно атрибутировалось Вошье де Денэну. Однако уже при подготовке издания «Первого продолжения» были высказаны сомнения в том, что Вошье де Денэн имел отношение к описанию приключений Гавейна [24]. Известный бельгийский исследователь манускриптов романа о Персевале М. Вильмот предположил, что Кретьен де Труа был автором значительного количества строк из «Первого» и «Второго» продолжений, а анонимный автор или группа авторов работали по оставленным им материалам, поскольку чувствуется «le faire du grand matre» [25, p.51]. Однако другие исследователи эту гипотезу не поддержали. Также не были найдены ответы на основные вопросы: почему Вошье де Денэн «обнаруживает» себя лишь через 12 000 строк от окончания «Первого продолжения» («Gauchiers de Dondain, qui l estoire Nos a mis avant en memoire, Dit et conte que Perceval» [d. Roach, IV, 31415-23]), и несмотря на связь с повествованием о Гавейне в этом же фрагменте («Einsint remest o lui Gauvains» [там же], к этому рыцарю сюжетная линия уже не возвращается. Поскольку других сколько-нибудь существенных предположений о том, кем мог быть автор этой части романа, до настоящего момента так и не появилось, то за ней закрепилось название «псевдо-Вошье». 2. «Второе продолжение» было создано между 1205 и 1210 годами, насчитывает около 13 000 строк, сохранилось в тех же списках, что и «Первое продолжение», в короткой и длинной версиях, и возвращает сюжетную линию к дальнейшим приключениям Персеваля. В зависимости от манускрипта автор продолжения называет себя «Gauchiers de Dondain» (E,M), «Gautiers de Denet» (T), «Gauchier de Dordan» (S), «Gauciers de Donaing» (L), «Gautiers de Dons dist» (P), «Gauchier de Doulenz» (U) [26, p.65], что позволило исследователям (впервые на это указывает P. Meyer в «Histoire littraire de la France» (П. Мейер «История французской литературы»), а позднее - М. Вильмот в «Les pomes du Graal et ses auteurs» («Поэмы о Граале и их авторы»)) ассоциировать его с Вошье де Денэном, одним из крупнейших литературных деятелей при дворе Филиппа Фландрского и его племянницы Иоанны. Автор известен, в первую очередь, составлением первой крупной исторической монографии и переводческим трудом «Vie des Pres» («Житие Отцов»). Подобная атрибуция подвергалась значительной критике (М. Вильмот развивает идею о том, что «Второе продолжение», в значительной степени, задумано и реализовано самим Кретьеном де Труа), были проведены сопоставления возможной датировки различных эпизодов всех четырёх повествований и приблизительных вех из творческой биографии Вошье де Денэна и анализировались сюжетные линии, связанные с событиями, описываемыми в прозаических версиях Персеваля (например, [27]). Однако доводы сторонников авторства (G. Vial, C.Corley), отсылающие и к закономерности фонетических вариантов имени поэта, и к стилистическому сходству некоторых фрагментов, переведённых им «Vies des Pres», и к общей с Манессье патронессе, Иоанне Фландрской, не позволили однозначно утверждать об анонимности «Второго продолжения». Вопрос об авторстве Вошье де Денэна по-прежнему остаётся открытым. 3. «Третье продолжение», или «Продолжение Манессье», составлено между 1225 и 1230 годами и добавляет к общему повествованию ещё около 10 000 строк. Оно сохранилось в семи манускриптах (EMPQSTU), в переводе на средневерхненемецкий (D) и печатной версии в прозе 1530 года (G), и также небольшой фрагмент обрывается в манускрипте V. Несмотря на свой порядковый номер, это продолжение завершает повествование и содержит в себе заключительные строки о смерти Персеваля после семи лет правления на троне Короля Рыбака. Наименование «Третье» продолжение получило в связи с тем, что в шести списках (EMPQSU) отсутствует «Четвёртое продолжение», по сюжету предваряющее события повестования Манессье. Авторство с некоторой уверенностью приписывают Манессье, так как в завершении романа автор дважды называет себя так: «Si com Manesier le tesmoingne» с. 42641 [28], «…s en est pen/ Manessier…» сс. 42657-8 [там же]. Про Манессье известно лишь то, что он посвятил свой труд Иоанне Фландрской, и никаких других его литературных трудов или их следов не сохранилось. Датировка произведения вызывает некоторые споры среди исследователей. Некоторые полагают, что период написания находится между 1214 и 1225 годами, так как прослеживается наличие общего сюжетного источника с романом в прозе «Queste del saint Graal», датируемым 1225 годом [29, p. 241]. В посвящении Иоанне Фландрской, «El non Jehanne la contesse, Qu est de Flandres dame et mestresse» [там же, с. 42643-4], можно увидеть указание на период её правления с 1214 по 1227 год, когда её супруг Фердинанд был в заточении после битвы при Бувине 1214 года, или на период между его смертью в 1223 году и её повторным замужеством в 1237 году. К. Корли указывает на то, что Манессье был знаком с циклом «Ланселот-Грааль» (1215-1230 гг.) и, следовательно, работал над Персевалем не ранее 1230 года [30].

Лингвоматематические методы во второй половине XX века. От лексики к синтаксису

Методы параметризации текста можно условно разделить на несколько основных групп: Лексическая параметризация Основывается на представлении текста как набора слов. Включает в себя множество методов (например, использование функциональных слов). Параметризация при помощи функциональных слов является развитием идеи Диттенбергера (см. раздел 2.2.) и впервые используется в знаменитой работе [136], посвященной авторству «Записок Федералиста». Данный тип параметризации подразумевает использование в качестве параметров некоторого набора простых слов и определение частоты их встречаемости, при этом, используется фиксированный набор слов, включающий в себя местоимения, предлоги, вспомогательные глаголы, артикли и т.д. Иногда в список функциональных слов включают также числа и междометия.

Принцип, по которому исследователи остановились на использовании функциональных слов, заключается в том, что они, с точки зрения смыслового наполнения, практически бессодержательны. Вследствие этого, частота их повторений теоретически не должна зависеть от темы текста, поэтому в разных текстах одного и того же автора они должны встречаться примерно с одинаковой частотой. Кроме того, предполагается, что сознательно контролировать использование функциональных слов достаточно затруднительно, поэтому снижается риск быть намеренно введённым в заблуждение [137].

Очевидным недостатком метода параметризации при помощи функциональных слов является вариативность списка параметров (например, для английского языка выделяют от 150 [138] до 675 [139] функциональных слов) и зависимость их, в том числе, от языка текста. Другими возможными лексическими параметрами являются оценка богатства словарного запаса, частота использования слов и n-грамм и даже ошибок в тексте. Лексическая параметризация зачастую включает в себя набор дополнительных процедур, таких как токенизация, лемматизация и стемминг.

Синтаксическая параметризация при решении задач атрибуции Дальнейшим этапом развития вычислительных методов определения авторства является использование синтаксической параметризации при описании авторского стиля. Синтаксическая параметризация стала естественным развитием использующейся в лексическом анализе параметризации на основе функциональных слов. Можно утверждать, что функциональные слова относительно бессмысленны потому, что выступают в качестве связок между словами, несущими основную смысловую нагрузку. Соответственно, можно предположить, что излюбленные синтаксические конструкции автора, определяющие принцип взаимного расположения слов, несущих смысловую нагрузку, обладают теми же полезными свойствами: отсутствием зависимости от темы текста и сложностью фальсификации. Использование методов обработки естественного языка позволяет зачастую автоматизировать процесс такой параметризации, однако в данной работе это свойство не используется по двум основным причинам: на данный момент отсутствует убедительно функционирующий парсер старофранцузского языка для требуемых параметров, а кроме того, даже для тех языков, для которых такие парсеры существуют, точный результат невозможно достигнуть, не вызывая искажения исходных данных.

Среди отчественных исследователей синтаксических структур, внёсших значительный вклад в теорию атрибуции, можно выделить, в первую очередь, И. П. Севбо [140] и Г.Я. Мартыненко [141], изучавших синтаксический анализ на основании теории графов, и М. А. Марусенко [142], изучавшего анализ корреляций различных синтаксических конструкций.

Среди зарубежных учёных необходимо отметить Х. Бааена, Х. Ван Хальтерна и Ф. Твиди [143], использовавших для атрибуции автора извлечение правил замены из вручную разобранного текста. Позднее, М. Гамон [144] и Е. Стамататос [145] использовали для тех же целей парсеры для английского и новогреческого языков соответственно.

Кроме вышеперечисленного, можно использовать параметризацию при помощи разбора частей речи, речевых оборотов и даже синтаксических ошибок. Символическая параметризация При такой параметризации текст рассматривается как набор символов. Набор параметров может включать в себя не только частоту букв, но и цифр, знаков препинания, регистров и прочего. Метод примечателен максимальной простотой проведения параметризации и в некоторых случаях [146] даёт вполне удовлетворительные результаты.

Альтернативным подходом является использование символьных n-грамм и определение частоты их вхождения в текст. Этот подход позволяет дополнительно отследить лексическую и контекстную информацию, использование пунктуации и регистров. Кроме того, он удобен для использования с языками, не имеющими разделителей между словами (китайский, японский). Эффективность данного метода подтверждена многими работами по атрибуции, в том числе [147] с «Записками Федералиста», Р. Форсайт и Д. Холмс [148] убедились в более высокой эффективности данного метода по сравнению с лексической параметризацией.

Прочие методы параметризации

Кроме вышеперечисленного, но существенно реже, используются и другие методы параметризации, в том числе, семантический (предъявляются слишком высокие требования к парсеру текста), а также методы, основанные на параметризации авторских ошибок, и некоторые другие.

В данной работе используется два различных набора параметров. Первый основывается на предложенном М. А. Марусенко [Error! Reference source not found.] наборе первичных параметров и синтаксическом методе параметризации текстов. Второй, основанный на методе параметризации рифмованных строк, включает в себя композицию лексических, синтаксических параметров и параметров рифм. Параметры рифм включают в себя набор общепринятых характеристик рифмованного французского языка в зависимости от их определённых свойств. Подробнее описание выбора параметров изложено в главах III и IV соответственно.

Определение информативных параметров

Так как получен большой разброс результатов максимального значения выборки, необходимо выбрать максимальное значение параметра для каждого класса, т.е., в данном случае, оно составит 1583 для параметра X35 класса 2 «Продолжение Манессье» и 829 для того же параметра класса 1 «Романа о Фиалке». Минимальный объём выборки по атрибутируемому объекту определён аналогичным способом и составляет 1104 предложения. В этом случае все параметры, в том числе требующие максимального размера выборки, будут определены с достаточной точностью. Полученные на основании результатов подсчёта параметров по классам-эталонам и атрибутируемому объекту матрицы данных приведены в Приложении 2.

Проблема распознавания образов в задачах атрибуции текстов, как правило, рассматривается в содержательном и в «статистическом аспектах, в соответствии с которыми применяемый алгоритм распознавания включает в себя детерминированную и вероятностную атрибуции» [171, с.119], [172, с.123]. Алгоритм детерминированной атрибуции предполагает принятие решения о принадлежности атрибутируемого объекта к какому-либо априорному классу посредством сопоставления апостериорной информации о нём с эталонами априорных классов путём применения определённого классификатора – решающего правила.

В случае статистического аспекта предполагается, что описание атрибутируемого объекта является набором наблюдений его состояний, на основании которых производится классификация и выбор одной из атрибуционных гипотез.

Детерминированная атрибуция проводилась в четырёхмерном пространстве классификации с применением уже использовавшегося ранее критерия t-критерия Стьюдента (формула 3.1.) в качестве решающего правила. Аналогично расчётам в разделе 3.4. будет использоваться критическое значение критерия, равное 1.96 и соответствующее уровню значимости а = 0,05.

Для обеспечения большей точности классификации используется алгоритм классификации в одномерном пространстве с помощью /-критерия, а решение о принадлежности объекта к классу принимается только в том случае, когда во всех измерениях существуют плоскости, разделяющие исследуемые объекты.

В соответствии с [173, с.135] применение такой методики позволяет обеспечить разбиение объектов на непересекающиеся классы. Можно говорить, что если значение критерия для пары объектов не превышает данную величину по какому-либо из параметров, то по этому параметру отсутствует статистически существенная разница между этими двумя объектами.

Атрибутируемый объект относится к эталонному классу в том случае, когда значение критерия меньше критического по всему параметрическому пространству. Для отнесения объекта к классу необходимо выполнение условия [там же, с. 135]: X Є аА, tt ll,- taj = ГТп yJ (3.13.) [х є nBl t 2Rj taj = і.. n Классификационная процедура является итеративной, на каждом шаге происходит попытка классификации объектов, а после каждого шага - уточнение состава и мощности классов. Значения координат эталонов классов на каждом шаге определяются в соответствии с физическим смыслом по формулам [174, с. 60] (3.14), (3.15):

Поскольку не существует более двух параметров, по которым атрибутируемый объект принадлежал бы к разным классам, то можно утверждать, что автором «Четвёртого продолжения» является Манессье. Остановка итерационного алгоритма произошла на 0-ой итерации.

Несмотря на то, что сработал детерминированный алгоритм, для дополнительной проверки результатов, полученных в разделе 3.7, была проведена атрибуция с использованием вероятностного алгоритма. Задача классификации атрибутируемого объекта решается путём определения расстояния между его координатами и координатами эталонов априорных классов. Для определения расстояния необходимо предварительно определить используемую меру сходства. В качестве меры сходства может использоваться расстояние между двумя объектами. Существует множество различных метрик расстояний, но большинство из них являются частным случаем специального класса метрических функций расстояний, известных как метрика Миньковского [175, с. 158], определяемых по формуле: у 1 dtj = &Рк=1\хік - xJk\ )r (3.15.) Одним из таких частных случаев является Евклидово расстояние, для определения которого г (константа Миньковского) равна 2: 9 1 dtj = a:pk=1\xik -xJk\ )2 (3.16.) Евклидово расстояние представляет собой геометрическое расстояние в многомерном пространстве и может рассчитываться как по исходным, так и по стандартизированным данным. При p = 1 метрика Миньковского даёт так называемое «манхэттенское расстояние», которое является суммой разности по координатам: dij = T,Pk=1\xik - х]к\) (3.17.) Преимуществом использования евклидова расстояния является независимость расстояния от направления осей, а недостатком - повышенное влияние отдельных выбросов, так как их вклад возводится в квадрат.

Сходство двух объектов обратно пропорционально данной величине: чем меньше расстояние между объектами, тем ближе они друг к другу. Таким образом, задача классификации сводится к задаче поиска минимального расстояния от атрибутируемого объекта до эталонных классов.

Описание математических методов, используемых при атрибуции с использованием рифмованных строк

Для атрибуции с использованием рифмованных строк в данной работе используется четыре основных метода, фактически дублирующие предложенные в первой главе: 1. Атрибуция при помощи теории распознавания образов 2. Атрибуция с использованием коэффициента Сёренсена-Чекановского 3. Атрибуция с использованием вероятностных классификаторов 4. Атрибуция с использованием аггломеративной иерархической кластеризации Описание вышеперечисленных методов подробно приведено в третьей главе данного исследования, поэтому в данном разделе будет приведено только описание их применения в условиях изменившегося набора используемых параметров. В отличие от главы III, где для трёх методов применялся полный набор параметров из словаря априорных параметров, в данной главе для каждого метода выделяется некоторое подмножество из всего параметрического пространства, определяемое особенностями данного метода.

Для атрибуции при помощи теории распознавания образов нерационально использовать группу «количественные параметры» так как в таком случае размерность вектора, соответствующего каждому классу, будет несоразмерно велика относительно входящих в него ненулевых элементов, что объясняется принципом формирования тестовой выборки. Параметрическое пространство, используемое для атрибуции при помощи теории распознавания образов, будет включать в себя параметры с P1 по P11.

Для параметризации при помощи коэффициента Сёренсена-Чекановского, напротив (в соответствии с другим его названием – «мера сходства по обилию»), удобно использовать группу «количественные параметры», то есть параметры с P12 по P16. Для параметризации при помощи наивного классификатора Байеса и иерархической кластеризации используются обе группы параметров, но с некоторыми уточнениями:

1. Близость между априорными классами и атрибутируемым классом определяется для каждого параметра по отдельности – в данном случае у суммарного значения классификатора нет никакого смыслового наполнения.

2. Для каждого параметра из группы «количественных параметров» используется классический вариант определения наивного классификатора Байеса без дополнительных уточнений.

3. Для иерархической кластеризации не применяются P12, P13, P14 что объясняется их большой размерностью.

4. Для группы «качественные параметры» для наивного классификатора Байеса вводятся дополнительные уточнения аналогично уточнениям к определению понятия «слово» из главы №3. Так как некоторые подмножества параметров из группы «качественных параметров» являются взаимоисключающими (P1 и P2, P3 и P4, P5, P6, P7, P8, P9, P10, P11), то в качестве компонентов объекта для подсчёта коэффициента используется: 1. P1 или P2 2. P3 или P4 3. P5 или P6 или P7 или P8 или P9 или P10 или P11 Таким образом, например, один объект для пары рифм «fine – define» будет состоять из параметров «Женская рифма», «Законченный леонинский стих», «Единственное число» или P1P3P11.

Для определения координат атрибутируемого класса и классов-эталонов в выбранном параметрическом пространстве используются случайные выборки по 1000 пар рифм в каждой. Аналогично подходу к формированию выборок из главы 3, для случайной выборки устанавливается размер шага по каждому классу, в соответствии с которым осуществляется отбор пар рифм.

При помощи специально созданного программного обеспечения формируются списки уникальных значений параметров P12-P16 и комбинаций параметров P1-P11. Как и следовало ожидать, для параметров P1-P11 встречаются все возможные комбинации параметров. Перечень уникальных значений параметров P15 и P16 приведён в таблицах 4.2 и 4.3 соответственно. Перечисление параметров P12-P14 лишено смысла, так как количество возможных значений, которое может принимать каждый из них, нивелирует ценность их визуальной оценки.

Решение задачи атрибуции при помощи классификатора Байеса осуществляется независимо по вышеперечисленным параметрам. Размеры обучающей и тестовой выборки взяты из соотношения 7/3 по классам-эталонам, то есть размер одного текста выборки составил 200 слов для параметров P12-P14 и по 100 слов - для остальных.

Для оценки качества обучения классификатора на априорных классах процедура обучения и тестирования проводилась по десять раз для выборок, формируемых случайным образом при помощи генератора случайных чисел. Результаты приведены в таблицах 4.4. – 4.14. (классы М1-М3 – тестовые выборки для класса 2 – «Продолжение Манессье», классы Ф1-Ф3 – выборки для класса 1 – «Роман о Фиалке»).