Содержание к диссертации
Введение
Глава 1. Содержание и методы изучения проблемы авторства приписываемой А. С.Пушкину публицистики 10
1.1. «Литературная газета» А. А. Дельвига и А. С. Пушкина 10
1.2. Основные направления и периоды изучения проблемы 15
1.2.1. Период становления проблемы (1850—1900-е гг.) 15
1.2.2. Период развития и изучения проблемы (1900—1930-е гг.) 19
1.2.3. Период систематизации материалов и исследований (конец 1930-х — 2000-е гг.) 30
1.2.4. Освещение проблемы в изданиях сочинений А. С. Пушкина,
Н. В. Гоголя, П. А. Вяземского и А. А. Дельвига 34
1.3. Методы и критерии атрибуции в изучении проблемы 38
1.3.1. Критерии атрибуции Н. О. Лернера 38
1.3.2. Критерии атрибуции В. Я. Брюсова 42
1.3.3. Критерии атрибуции Б. В. Томашевского 43
1.3.4. Комплексный подход к атрибуции В. В. Виноградова 46
1.3.5. Критерий интерпретации подписи «Изд.» В. Э. Вацуро 56
1.4. Основные тенденции изучения проблемы 57
1.5. Формирование атрибуционной гипотезы 61
1.5.1. Критерий спорности авторства текста 61
1.5.2. Предмет атрибуционной гипотезы 63
1.5.3. Формулировка атрибуционной гипотезы 70
Глава 2. Методы проверки атрибуционной гипотезы 71
2.1. Классификация принципов и методов атрибуции 71
2.2. Развитие принципов атрибуции 75
2.3. Этапы разработки статистико-вероятностных методов применительно к задачам изучения авторских стилей 82
2.4. Некоторые направления и проблемы квантитативно-структурного изучения авторских стилей в целях атрибуции 83
2.5. Атрибуция методами распознавания образов в аспекте функционирования в ней знаковых систем 93
2.5.1. Основные понятия теории распознавания образов 93
2.5.2. Некоторые положения теории знаковых систем 96
2.5.3. Функционирование знаковых систем в процессе атрибуции анонимных и псевдонимных произведений как акте познания 101
Глава 3. Атрибуция приписываемой А. С. Пушкину публицистики методами распознавания образов 106
3.1. Априорный алфавит классов 107
3.1.1. Априорный класс Q\ (Вяземский П. А.) 113
3.1.2. Априорный класс 1 (Гоголь Н. В.) 118
3.1.3. Априорный класс 23 (Дельвиг А. А.) 121
3.1.4. Априорный класс С14 (Пушкин А. С.) 126
3.1.5. Априорный класс Cls (Сомов О. М.) 131
3.2. Определение априорного словаря параметров и описание классов на языке этих параметров 135
3.3. Определение словаря диагностирующих параметров 139
3.3.1. Определение набора релевантных параметров 139
3.3.2. Свертывание параметрического пространства 143
3.4. Координаты эталонов априорных классов и распознаваемых объектов 146
3.5. Работа распознающего автомата по атрибуции приписываемой
А. С. Пушкину публицистики 154
3.5.1. Работа детерминированного алгоритма распознавания (ДАР) 154
3.5.2. Работа вероятностного алгоритма распознавания (ВАР) 156
3.5.3. Интерпретация результатов ВАР 164
3.5.4. Общие результаты эксперимента по атрибуции 170
Заключение 173
Список литературы
- Период развития и изучения проблемы (1900—1930-е гг.)
- Критерий интерпретации подписи «Изд.» В. Э. Вацуро
- Некоторые направления и проблемы квантитативно-структурного изучения авторских стилей в целях атрибуции
- Определение априорного словаря параметров и описание классов на языке этих параметров
Введение к работе
История изучения проблемы авторства публицистики А. С. Пушкина насчитывает более лет. В разное время ею и связанными с нею вопросами занимались специалисты различных областей русской филологической науки — П. В. Анненков (сочинения Пушкина — гг.; ), В. П. Гаевский ( ), П.А.Ефремов ( ), Н. О. Лернер ( — ), С. А. Венгеров (сочинения Пушкина — ), Н. К. Замков ( — ), М.Л.Гофман ( ), А.Г.Фомин ( ), Н. А. Синявский и М. А. Цявловский ( , ), Б. В. Томашевский ( , ), Ю. Г. Оксман (сочинения Пушкина , ), В.В.Виноградов ( , ), М. И. Гиллельсон ( ), Е.М.Блинова ( ), В. Э. Вацуро ( ) и др. Не остались равнодушными к некоторым вопросам проблемы лучшие поэты переломной для России эпохи первой трети XXв. — В.Я.Брюсов и А.А.Ахматова. Проблема вновь была поднята в г. Н. Е. Мясоедовой, в ее книге «Подвиг честного человека» (с. — ).
Актуальность изучения этой проблемы авторства, отдельные вопросы которой были отложены с -х гг. XX в. на неопределенный срок, объясняется двояко. Во-первых, не подлежит сомнению необходимость точного определения границ публицистического наследия А. С. Пушкина. В ходе изучения и развития проблемы оно оказалось тесно связанным с творчеством не только таких значительных фигур литературы первой половины XIX в., как А. А. Дельвиг, П. А. Вяземский и Н. В. Гоголь, но и писателей менее известных, таких, например, как О. М. Сомов и В. Н. Щастный. Важной задачей является проведение демаркационной линии между творческим наследием этих писателей. Во-вторых, поскольку решающее значение здесь приобретает выбор методов атрибуции, актуализация названной проблемы сегодня объясняется возникновением ряда новых методик атрибуции, основанных на применении точных математических методов и позволяющих решать задачи атрибуции на новом уровне (см.: Марусенко, ; От Нестора до Фонвизина, ).
Объектом исследования является авторство приписываемой А. С. Пушкину публицистики.
Исследование осуществляется на материале анонимных, псевдонимных и авторизованных публицистических текстов «Литературной газеты, издаваемой бароном А. А. Дельвигом» ( — гг., далее — ЛГ), альманаха «Северные цветы» ( г.), «Современника, литературного журнала, издаваемого Александром Пушкиным» (за г., далее -— «Современник»), газеты «Северная пчела» (за г.), а также неопубликованной статьи «О Татищеве», приписываемой А. С. Пушкину. В общей сложности изучению подвергаются текстов (объемом предложений), написанных каждым из изучаемых авторов, а также текстов со спорным авторством (объемом предложений). Исследуемый период ( — гг.) охватывает около % всей журналистской деятельности А. С. Пушкина.
Предметом исследования являются индивидуально-стилевые особенности публицистики А. С. Пушкина, П. А. Вяземского, А. А. Дельвига, Н. В. Гоголя и О. М. Сомова.
Целью работы является установление авторства приписываемых А. С. Пушкину публицистических произведений —- гг.
Достижение цели основано на проверке трех взаимоисключающих гипотез (первая — основная, другие — альтернативные): (Но): все статей написаны А. С. Пушкиным; (Н ): часть статей принадлежит А. С. Пушкину, а другая часть — одному или нескольким альтернативным авторам, что не исключает возможность совместной работы писателей над отдельными текстами; (Н ): А. С. Пушкину не принадлежит ни одна из приписываемых ему статей, и все они являются произведениями других авторов, что не исключает возможность совместной работы этих писателей над отдельными текстами.
Для достижения цели необходимо выполнить следующие задачи: 1) определить состав и границы корпуса приписываемых А. С. Пушкину публицистических текстов со спорным авторством; 2) для каждого из предполагаемых авторов определить перечень текстов, оптимально характеризующих его публицистику; 3) в целях выполнения предшествующих задач определить критерии спорности и подлинности авторства; 4) на уровне критериев формирования корпусов текстов обеспечить их сопоставимость между собой; 5) обосновать выбор применяемой методики атрибуции; 6) осуществить процедуру атрибуции.
Теоретические основы исследования. Априорно принимаются положения: 1) корректность результатов квантитативно-структурного изучения авторских стилей зависит от степени когерентности исследуемых текстов в хронологическом и жанровом отношениях (Б. Я. Слепак); 2) для адекватного определения особенностей индивидуального стиля писателя необходимо обращение к анализу синтаксического уровня языка текста (И. П. Севбо; Г. Я. Мартыненко; М. А. Марусенко); 3) для повышения качества классификации текстов в задачах атрибуции необходимо применение процедур многомерного анализа (М. А. Марусенко). Методологическая основа эксперимента по атрибуции — методика, разработанная М. А. Марусенко. В рамках этой методики процедура атрибуции интерпретируется как задача классификации текстов и основывается на применении методов распознавания образов. Методика апробирована на материале ряда сложных проблем авторства, которые не могли получить своего решения на пути применения как традиционных филологических, так и современных математических средств атрибуции. Морфолого-синтаксический анализ текста основан преимущественно на подходе, принятом в «Русской грамматике» г.
Методы исследования: 1) метод сравнительно-исторического анализа использован для определения и описания основных направлений, периодов и тенденций в истории изучения проблемы авторства публицистики, приписываемой А. С. Пушкину; 2) методы классификации применяются для систематизации изученных материалов; 3) метод сопоставительного анализа применен для характеристики современных методов атрибуции; 2) методы распознавания образов (методы математического моделирования, снижения размерности параметрического пространства, построения решающего правила классификации) применяются в эксперименте по атрибуции. Основные положения, выносимые на защиту:
1. Проблема авторства приписываемой А.С.Пушкину публицистики не получает достаточно точного решения на пути применения традиционных филологических методов атрибуции;
2. Предложенное В. В. Виноградовым разделение принципов атрибуции на субъективные и объективные избыточно по отношению к задаче раскрытия методологического аспекта этой проблемы авторства;
3. Методология атрибуции, основанная на применении методов теории распознавания образов, предполагает корректную реализацию всех стадий функционирования знаковых систем в эксперименте по атрибуции;
4. Названая методология атрибуции позволяет существенно повысить уровень решения проблемы авторства приписываемой Пушкину публицистики;
5. Предлагаемый вариант решения этой проблемы авторства является оптимальным в смысле минимизации влияния субъективного фактора на конечный результат эксперимента по атрибуции.
Научная новизна исследования: 1) предложено систематизированное и подробно иллюстрированное изложение проблемы авторства приписываемой А. С. Пушкину публицистики, дана периодизация изучения проблемы; 2) решение этой проблемы впервые осуществлено математическими методами атрибуции; 3) впервые с опорой на эти методы предложено решение проблемы авторства текстов сверхмалых объемов (от двух предложений); 4) пересмотрена классификация принципов атрибуции, разработанная В. В. Виноградовым; 5) введено понятие «коэффициент значимости решения» для оценки результатов вероятностной процедуры атрибуции.
Теоретическая значимость результатов исследования определяется тем, что в нем: 1) раскрыты содержательный и методологический аспекты проблемы авторства • публицистики, приписываемой А. С. Пушкину; 2) на материале исследованных периодических изданий — гг. составлены указатели текстов, приписываемых А. С. Пушкину, П. А. Вяземскому, А. А. Дельвигу и О. М. Сомову; 3) показана избыточность деления принципов атрибуции на субъективные и объективные в рамках традиционной классификации принципов атрибуции (В. В. Виноградова); 4) дан критический обзор ряда практических реализаций некоторых современных методик атрибуции, показано, что они не вполне соответствуют задачам изучения авторских стилей; 5) логические этапы процедуры атрибуции, основанной на применении методов распознавания образов, охарактеризованы с точки зрения функционирования в них знаковых систем.
Практическая значимость результатов исследования определяется возможностью их применения: 1) в подготовке публицистики А. С. Пушкина, А. А. Дельвига, П. А. Вяземского, Н. В. Гоголя и О. М. Сомова к научному изданию; 2) в поиске решений проблемы атрибуции текстов малых объемов; 3) при разработке правил параметризации стилей на материале русскоязычных текстов; 4) для решения частных задач по атрибуции.
Рекомендации об использовании результатов исследования. Полученные результаты могут быть использованы: 1) в качестве исходных данных для решения прикладных задач: а) по атрибуции публицистических текстов, приписываемых П. А. Вяземскому, А. А. Дельвигу и О. М. Сомову (приложение 3); б) по изданию публицистики А. С. Пушкина и этих писателей (глава 3 (комментированные перечни публицистических текстов писателей), приложения 1 и 2); 2) в практике преподавания соответствующих теоретических и прикладных научных дисциплин: а) при чтении курсов по истории русской литературы и журналистики первой трети XIX в.; б) при чтении специальных курсов по методам атрибуции.
Апробация результатов исследования. Результаты исследования освещены в докладах на XXXV и XXXVII Международных филологических конференциях (СПбГУ, Факультет филологии и искусств, г. и г. соответственно), изложены в трех публикациях общим объемом 1,4 п. л.
Объем и структура работы. Работа состоит из введения, трех глав, заключения, списка литературы, списка сокращений и четырех приложений. Основное содержание исследования изложено на страницах машинописного текста. Общий объем приложений — страниц. Список литературы включает наименований.
Во введении обоснована актуальность темы исследования, указаны его объект, материал и предмет, определены цели и задачи, сформулированы гипотезы, названы теоретические основы и методы исследования, перечислены выносимые на защиту положения, описана научная новизна, теоретическая и практическая значимость результатов исследования, даны рекомендации по использованию, наконец, приведены сведения об апробации результатов исследования, его объеме и структуре.
В первой главе описаны содержательный и методологический аспекты проблемы, сформулирована атрибуционная гипотеза. Во второй главе рассматривается классификация принципов атрибуции, на примере сопоставления некоторых современных методик атрибуции дано обоснование выбора используемой методики, описана специфика последней в терминах теории знаковых систем. В третьей главе принимается решение о том, кому из рассматриваемых авторов и с какой степенью вероятности принадлежит каждый из приписываемых А. С. Пушкину текстов.
В заключении подведены итоги исследования, сформулированы выводы.
Приложение 1 информирует о том, кем и в какой период впервые был приписан Пушкину тот или иной публицистический текст (в соответствии с периодизацией изучения проблемы, представленной в главе 1). Приложение 2 в форме комментированного указателя раскрывает разработанную в главе 1 рабочую классификацию этих текстов. Приложение 3 представляет собой комментированный указатель публицистических текстов, приписываемых П. А. Вяземскому, А. А. Дельвигу и О. М. Сомову. В приложении 4 описаны правила лингвистического анализа текстов (в качестве иллюстраций приведены примеры из исследуемых публицистических произведений).
Период развития и изучения проблемы (1900—1930-е гг.)
В работах Н. О. Лернера, А. Г. Фомина, Н. К. Замкова и М. Л. Гофмана — исследователей, занимавшихся проблемой в 10-е гг. XX века, впервые находят свое применение определенные методы и приемы атрибуции. Это начальный этап изучения проблемы (1900—1910-е гг.).
Н. О. Лернер посвятил проблеме авторства анонимных текстов ЛГ множество исследований. Немалое место в своих работах он уделил общей характеристике роли Пушкина в ЛГ. Лернер определяет ее как весьма значительную и во многом определяющую идеологическое и тематическое направление издания. Давая такую оценку, исследователь опирается в первую очередь на свидетельства современников поэта: 1) замечание В. П. Гаевского о «деятельном участии Пушкина и князя Вяземского» в ЛГ в отсутствие А. А. Дельвига; 2) свидетельство А. А. Шаховского в письме С. Т. Аксакову: «Александр Пушкин до приезда Дельвига надзирает за изданием "Литературной Газеты"» (Лернер, 1913 б, с. 29).
Вместе с тем, порой Н. О. Лернер присовокупляет к документальным свидетельствам аргументацию неопределенного характера. Например, он приводит высказывание В. Г. Белинского о том, что существует ряд «затерянных» статей, «которые публика читала, не зная, что автор их — Пушкин» (Лернер, 1916, с. 8).
Поначалу источником атрибуционных гипотез Н. О. Лернеру служат приведенные выше предположения П.В.Анненкова и В. П. Гаевского относительно авторства ряда анонимных статей и заметок ЛГ. Лернер по порядку рассматривает эти предположения, дополняет их различного рода аргументацией и таким образом осуществляет атрибуции статей. Впоследствии он вырабатывает особые критерии атрибуции, которые становятся основой аргументации его дальнейших исследований (см. раздел 1.3).
Следует сказать, что исследователь не всегда подходит к изучаемым статьям критически. Это справедливо по отношению к беглому обзору ряда статей в № 10, 20, 40, 43 и 45 ЛГ, в котором речь идет именно о тех номерах газеты, на которые указывали в свое время П. В. Анненков и В. П. Гаевский. Здесь Лернер поддерживает некоторые атрибуции Анненкова, но отрицает возможность авторства Пушкина в отношении двух заметок, помещенных в разделе «Библиография» №40 ЛГ, указанного Гаевским (см.: Лернер, 1909, с. 125)1. В обоих случаях он не аргументирует и не комментирует свой выбор. Вероятно, здесь «несомненно» пушкинскими Лернер называет те или иные статьи вслед за Анненковым.
В целом, атрибутируя анонимные статьи Пушкину, Н. О. Лернер опирается на элементы стилистического, языкового и идейно-тематического анализа произведения. В двух случаях Лернер приводит документальные доказательства авторства рассматриваемого текста. Отталкиваясь от позиции П. В. Анненкова, который считал свидетельства современников недостаточными для определения «литературной собственности», Лернер пишет: «...если это были люди литературных интересов, вроде Соболевского, Вяземского или Киреевского, то их показания стоили бы "юридической точности"» (Лернер, 1913 б, с. 30).
Н. О. Лернер приписал А. С. Пушкину более 10 статей, не включавшихся ранее в сочинения поэта (см. приложение 1). В отношении некоторых статей и заметок исследователь счел необходимым опровергнуть авторство поэта; в иных случаях он не смог принять четкого решения. Поскольку значительная доля атрибуций, пополнивших публицистику Пушкина, принадлежит именно Н. О. Лернеру, рассмотрим его исследования более подробно. Начнем с атрибуций, основная сила которых — в привлечении документальных данных.
«Князь Вяземский перевел и скоро напечатает...». Атрибутируется по письму О.М.Сомова к князю В.Ф.Одоевскому: «Князь! Господин Пушкин составил для "Литературной газеты" маленькую заметку о переводе романа Бенжамена Констана "Адольф", который князь Вяземский хочет напечатать в Москве ... » (Лернер, 1910, с. 175—176). Не имея еще этих документальных данных, ранее Н. О. Лернер атрибутировал эту заметку, основываясь на следующих соображениях: 1) язык заметки — «обычный важный и серьезный язык пушкинской прозы»; 2) имеется «цитата из VII главы "Онегина"», тогда еще не вышедшей в свет; 3) наиболее важный, по мнению исследователя, аргумент — «мнение Пушкина о Вяземском, как писателе» совпадает с таковым у автора заметки (Лернер, 1909, с. 127). Статья включена в состав сочинений Пушкина в 1910 г. (Пушкин, 1910, т. IV, с. 537).
2. Жизнь, стихотворения и мысли Иосифа Делорма. Атрибутируется по письму А. С. Пушкина П. А. Плетневу: «Сомов написал мне длинное письмо ... . Скажи ему, что Делорма я сам ему привезу, потому и не посылаю» (Лернер, 1909, с. 153). Лернер указывает также на текстуальные — «близко, до буквального местами тождества», — и смысловые совпадения: взгляд на творчество Делорма как на явление выдающееся во французской поэзии и неприятие последней «за отсутствие "истинного вдохновения"» характеризуют именно пушкинское видение французской литературы (Лернер, 1909, с. 156— 158). Статья включена в состав.сочинений Пушкина с издания под редакцией С. А. Венгерова (Пушкин, 1911, т. V, с. 36—40).
Как видно, помимо привлечения переписки поэта и его современников, существенную часть аргументации этих атрибуций Н. О; Лернера составляет анализ содержания текстов. Этот методический прием атрибуции Лернер использует наиболее часто, а документальные источники привлекает реже. Так, посредством выявления переклички содержания с высказываниями А. С. Пушкина в статьях, подписанных псевдонимом Феофилакт Косичкин1, Лернер атрибутирует следующие тексты.
Критерий интерпретации подписи «Изд.» В. Э. Вацуро
Системный подход В. В. Виноградова к атрибуции нашел отражение в работе В. Э. Вацуро, который приписывает А. С. Пушкину рецензию на роман В. А. Ушакова «Киргиз-кайсак». Атрибуция Вацуро построена на выявлении автобиографических, тематических, синтаксических и текстуальных особенностей рецензии. Но мы остановимся подробнее на другом аргументе атрибуции. Как известно, эта статья традиционно приписывается О. М. Сомову, который во время ее публикации исполнял обязанности издателя ЛГ. Все же, полагает Вацуро, несмотря на подпись «Изд.» авторство Сомова маловероятно, потому что «на первых порах после смерти А. А. Дельвига — X. С Сомов всячески стремится избежать опасной полемики и сколько-нибудь декларативного заявления позиции газеты» (Вацуро, 1968, с. 25).
В. Э. Вацуро замечает, что подобная подпись «не всегда является достаточным основанием для атрибутирования»: в № 1 ЛГ за 1831 г. была издана статья А. А. Дельвига «Борис Годунов», также подписанная «Изд.», хотя издателем газеты был О. М. Сомов. Тематическое и идейное содержание рецензии на роман «Киргиз-кайсак» могло сослужить плохую службу Пушкину, если бы его имя стало известно в цензуре. Поэтому подпись «Изд.», которая могла быть инициативой и самого О. М. Сомова, издателя газеты, была призвана замаскировать имя автора и ослабить внимание цензуры (там же, с. 35—36). Аналогичную интерпретацию подписи «Изд.» в отношении проблемы авторства другой статьи ЛГ предлагал Ю. Н. Верховский, считая подлинным автором А. А. Дельвига (Верховский, 1922, с. 22—24).
Так или иначе, В. Э. Вацуро показал, что наличие подписи «изд.» под статьей еще не означает, что она написана тем, кто официально исполняет обязанности издателя ЛГ. В связи с этим интересно следующее наблюдение. В указателе Е. М. Блиновой О. М. Сомов значится автором 17 статей ЛГ за 1831 г., подписанных сходным образом. При этом в примечаниях к большинству из этих статей мы находим указание на авторство Сомова, но не обнаруживаем конкретных доказательств. 1.4. Основные тенденции изучения проблемы
История изучения проблемы демонстрирует три основные тенденции: 1) к поиску неподписанных статей поэта; 2) к полемике, критическому пересмотру проблемы; 3) к обобщению и систематизации материала. Первая из них определяет развитие, усложнение проблемы, остальные две — изучение ее. Ни одна из этих тенденций не исчерпывает содержания какого-либо одного из рассмотренных выше этапов и направлений изучения проблемы.
1. Поиск неподписанных статей А.С.Пушкина является неотъемлемой чертой практически всех исследований. Первоначально вся проблема, поставленная П. В. Анненковым, сводилась к незначительному количеству вопросов относительно авторства отдельных статей ЛГ. Но по мере подключения к ее решению новых исследователей она все больше расширялась. Процесс усложнения проблемы был обусловлен стремлением исследователей найти ответы на вопросы, поднятые Анненковым, а также определить границы публицистического наследия Пушкина вообще.
В начале XX в. проблема стала охватывать публикации не только ЛГ, но и некоторых других изданий (хотя и в гораздо меньшей степени). Особенно много внимания поиску неподписанных статей Пушкина уделил Н. О. Лернер. Интенсивное увеличение числа приписываемых А. С. Пушкину текстов неоднократно вызывало тревогу отдельных исследователей, которые пытались остановить поток «сомнительных атрибуций» (по выражению В. В. Виноградова). Так, против некоторых атрибуций Н. О. Лернера выступал В. Я. Брюсов. Б. В. Томашевский, подводя промежуточный итог изучению творчества А. С. Пушкина в ЛГ, признал его авторство лишь в отношении 16 статей, тогда как на тот момент Пушкину приписывалось значительно большее количество текстов. В. В. Виноградов посвятил критическому обзору атрибуционных исследований ЛГ отдельное исследование и практически остановил поток «сомнительных атрибуций».
Поиски пушкинских статей привели к возникновению множества взаимопротиворечащих точек зрения, все разнообразие которых с трудом поддается систематизации. Атрибуции многих статей, приписываемых А. С. Пушкину, представляют собой самостоятельные небольшие исследования, нередко содержащие лишь предположения и догадки.
Некоторые исследователи пошли по пути разработки специальных критериев атрибуции текстов. В частности, Н. О. Лернер в своих атрибуциях применял «метод исключения», методы анализа языка, стиля и содержания текста. В рамках изучаемой проблемы он был первым, кто непосредственно указал методологическую базу своих атрибуций и тем самым попытался нормализовать подход к вопросам атрибуции.
Так или иначе, в работах всех исследователей используются следующие способы определения авторства: 1) поиск документальных свидетельств авторства (писем, цезурных дел); 2) поиск рукописных вариантов (автографов) атрибутируемых текстов; 3) анализ языковых и стилевых особенностей текста; 4) идейно-тематический анализ текста.
Существенно, что в собраниях сочинений А. С. Пушкина закрепились преимущественно те статьи ЛГ, авторство которых было определено на основании доказательств первого и второго вида. Исключение составляют лишь несколько статей, атрибутированных В. В. Виноградовым.
Точные (лингвостатистические) методы атрибуции к изучению проблемы не привлекались. 2. Необходимость критической оценки атрибуций неподписанных статей A. С. Пушкина была отчетливо осознана в конце 20-х гг. XX в. Однако наиболее последовательной и информативной оказалась лишь «Критика мнений о статьях "Литературной газеты", приписывавшихся А. С. Пушкину» B. В. Виноградова (Виноградов, 1961, с. 368—415).
Некоторые направления и проблемы квантитативно-структурного изучения авторских стилей в целях атрибуции
Отталкиваясь от освещения этого вопроса в монографии М. А. Марусенко (Марусенко, 1990, с. 19—23), можно сделать предварительное обобщение, которое позволяет свести все многообразие проблем изучения авторских стилей квантитативными методами к двум основным проблемам: 1) определения специфики авторского стиля; 2) точности атрибуции.
Первая проблема осложняется тем, что авторский стиль не однообразен и зависит от того, в какой период жизни писателя было написано произведение, в каком оно выполнено жанре и какова его тема. Так, ряд экспериментов показал, что для текстов, написанных разными писателями, но в одном жанре, средний размер длины предложения оказывается примерно одинаков, т. е. не позволяет обнаружить своеобразие авторского стиля. В то же время существенно различны значения этого же параметра для произведений одного и того же писателя, выполненных в разных жанрах (Марусенко, 1990, с. 18—19). Поэтому в рамках квантитативного изучения стилей особенно высокие требования предъявляются к однородности исследуемого материала в хронологическом, жанровом и даже тематическом отношениях. Соблюдение этих требований — необходимое условие всякого эксперимента по установлению авторства.
Конкретное решение проблемы определения специфики стиля автора зависит и от того, какие структурные уровни языка изучаемого текста оказываются предметом атрибуционного исследования. Наиболее распространены морфология, лексика, синтаксис. В последнее время появились методики атрибуции, в которых предлагается обследовать явления текста, напрямую не соотносимые с традиционно выделяемыми уровнями языка. В связи с этим следует уделить особое внимание вопросу о том, каким образом такие явления отражают специфику авторского стиля, насколько получаемые на основе применения таких методик результаты адекватны задачам атрибуции.
Способы решения проблемы точности атрибуции определяются спецификой используемого метода. В любом случае, в силу природы квантитативных методов, мера этой точности поддается вычислению. Так, точность результатов разработанного И. П. Севбо метода определения автора путем сравнения графов зависимостей, характеризующих синтаксическую структуру авторской фразы, зависит от количества сравниваемых авторов. Для двух авторов вероятность правильного решения составляет 75% (автор будет определен правильно в 75% случаев), для трех — 50%, для четырех — 35%, и т. д. (Севбо, 1977, с. 101—103). Поэтому можно сказать, что в отношении этого метода проблема точности результатов атрибуции заключается в снижении вероятности правильного решения при увеличении количества авторов.
В зависимости от того, каким образом осуществляется постановка и решение первой проблемы, в науке различается несколько подходов к решению задач атрибуции. Рассмотрим несколько позднейших работ в этой области, представляющих некоторые из этих подходов. Не разбирая детально математическую часть этих работ, обратим внимание на то, как в них формулируется атрибуционная задача и определяется объект анализа. При этом посмотрим, в какой мере то и другое отвечает филологической и квантитативно-структурной трактовкам проблем определения авторства, — трактовкам, подразумевающим изучение авторских стилей.
Под руководством проф. В. Н. Захарова коллектив исследователей Петрозаводского государственного университета с 1993 г. занимается созданием баз данных для многоаспектного филологического анализа литературных текстов. Одной из целей этой работы является решение атрибуционных задач (Захаров, 2001). В центре внимания исследователей оказалась проблема авторства приписываемых Ф. М. Достоевскому анонимных статей из журналов «Время» и «Эпоха» (1861—1865). Последним результатом работы коллектива стало создание информационной системы «Статистические методы анализа литературных текстов», или ИС СМАЛТ (Рогов, 2004; Сидоров, 2002). В системе реализована возможность морфологического и синтаксического анализа текстов, хранящихся в специализированной базе данных, а также возможность атрибуции этих текстов. Методы компонентного анализа используется в системе в целях снижения размерности признакового пространства. В задачах собственно классификации текстов используются методы кластерного анализа: метод ближайшего и дальнего соседа, метод корреляционных плеяд (см.: Захаров, 2001, с. 405). В системе предусмотрена возможность подключения любых методик атрибуции — в виде динамических библиотек (Рогов, 2004, с. 486; Сидоров, 2002).
Процедуры обработки данных, процедуры атрибуции в предлагаемой системе предельно формализованы. Однако не так обстоят дела с постановкой задачи. В первую очередь следует отметить, что вместо понятия «авторского стиля» (которое имеет множество определений) исследователи используют понятие «стилистического инварианта» (Захаров, 2001, с. 405), предложенное Гейром Хетсо (Хетсо, 1986). Данные понятия не идентичны, и это сказалось на интерпретации сути проблемы и на определении непосредственного объекта анализа. В итоге немаловажные аспекты изучения авторского стиля, разрабатываемые на протяжении многих десятилетий и подробно описанные в классической филологии и ее прикладных дисциплинах (см.: Виноградов, 1961; Слепак, 1982, с. 107—117; Марусенко, 1990, с. 4—23), оказались неучтенными.
Собственно постановка атрибуционной задачи основана, главным образом, на предположении о том, что стилистический инвариант представлен распределением частей речи на первых трех и последних трех позициях предложений рассматриваемых текстов (Захаров, 2001, с. 405). (Г. Хетсо исследовал дистрибуцию частей речи первых двух и последней позиций предложения в качестве детализации сравнительной частотности частей речи в тексте — см. I главу книги: Кто написал «Тихий Дон»?, 1989.) Выбор исследователей не прокомментирован в аспекте задач изучения авторских стилей. Как видно, не исследованным оказывается материал, равный объему остальных позиций предложений, в то время как нет оснований полагать, что этот материал не информативен в отношении авторского стиля. Не обследованным остается синтаксис текстов.
Определение априорного словаря параметров и описание классов на языке этих параметров
Априорный словарь параметров — это перечень таких параметров, «относительно которых может быть получена априорная информация, необходимая и достаточная для описания классов на языке этих параметров» (В поисках потерянного автора, 2001, с. 9). Единицы данного перечня отбираются из «исходного набора первичных параметров» (Марусенко, 1990, с. 66—75), которые могут быть использованы для описания синтаксической структуры текстов, написанных на разных языках и относящихся к разным жанрово-стилистическим разновидностям.
Из стандартизованного набора параметров были исключены две группы параметров. Первую составляют параметры Х48, Х49, Х50 и Х51, которые затрагивают языковые явления (синтаксические конструкции), не существующие в русском языке. Вторая группа параметров — Х01, Х02 и Х03 — исключена потому, что направлена на характеристику длины предложения (в словах и графемах), а всякий «параметр длины предложения ... является статистически бессмысленным, так как представляет собой смесь распределений» (Марусенко, 2003, с. 116).
На языке параметров из априорного словаря параметров были описаны все тексты классов из приведенного выше априорного алфавита классов (правила лингвистического анализа этих текстов даны в приложении 4).
Из каждого класса была сделана предварительная выборка. При определении ее объема использовался единственный критерий — адекватность применения к получаемой совокупности инструментов статистического анализа. Мы остановили свой выбор на объеме в 100 предложений. Выборка была осуществлена методом случайного отбора.
В результате мы получили пять матриц данных размерностью Nxn, где N=49 (число параметров), а и=100 (число объектов — отобранных предложений). В этих матрицах столбцы соответствуют наблюдаемым объектам, а строки — параметрам.
Как известно, каждую из этих матриц можно интерпретировать геометрически: как совокупность Дивекторов в пространстве объектов, или как совокупность п векторов в пространстве параметров, учитывая при этом способ построения таблицы и, соответственно, значение символов п и N (см.: Марусенко, 1990, с. 94). Таким образом, получаем два типа векторов: 1) в пространстве объектов существует N векторов типа х,- (представленных строками), каждый из которых имеет длину п и задан значениями, которые /-й параметр принимает на всех п объектах; 2) в пространстве параметров существует п векторов типа х7 (представленных столбцами), каждый из которых имеет длину N и представляет собой набор значений, принятых каждым из N параметров на -м объекте.
Полученные предварительные описания классов в дальнейшем были использованы для определения набора информативных параметров (словаря диагностирующих параметров), способного достаточно эффективно различать как можно большее количество авторов (классов). Процесс формирования такого набора основан на применении схемы Бонгарда и предполагает последовательное осуществление двух этапов: 1) определения параметров, релевантных для различения априорных классов; 2) свертывания параметрического пространства (В поисках потерянного автора, 2001, с. 9—11).
Этот этап представляет собой процедуру разбиения параметров из априорного словаря параметров на два подмножества. Первое должны составить параметры, релевантные для различения одной или более пар авторов, а второе — нерелевантные в этом отношении параметры. В качестве критерия классификации параметров использован t-критерий Стьюдента:
Критическое значение критерия при уровне значимости а = 0,05 равно 1,96. Если при сравнении двух классов наблюдаемое значение t-критерия для і-го параметра выше 1,96, то с доверительной вероятностью 0,95 это свидетельствует о наличии статистически существенных различий между ними, т. е. о том, что /-й параметр релевантен для различения этих классов (В поисках потерянного автора, 2001, с. 11).
Сопоставляя статистические характеристики всех классов между собой, мы получили значения t-критерия для 10 пар авторов. Результаты вычислений приведены в табл. ЗЛО.
Релевантность того или иного параметра в отношении различения нескольких пар авторов производна от особенностей синтаксиса языка этих авторов. В связи с этим ожидаемо существование таких параметров, которые способны отличать какого-либо одного автора от нескольких других, но не могут различать последних между собой (см. табл. 3.13). Применительно к отдельно взятой ситуации сопоставления текстов разных авторов подобная специализация параметров на том или ином авторе свидетельствует о наличии в его языке относительно ярких синтаксических особенностей. Таблица 3.13. Специализация релевантных параметров
Так, из приведенной таблицы видно, что для О. М. Сомова специализированным является параметр Х55, который описывает число знаменательных слов в группах существительных. Из этого можно заключить, что по данному признаку язык Сомова существенно отличается от языка остальных изучаемых авторов. То же самое можно сказать в отношении параметра Х09 и особенностей языка А. С. Пушкина. Но распознающая система должна уметь различать как можно большее количество пар авторов, что необходимо учесть при формировании словаря диагностирующих параметров, которые будут использоваться в ней.
Центральным методическим приемом этой процедуры является обработка корреляционной матрицы связей параметров, выполняемая путем вычисления следующих величин: