Количественные критерии авторизации текста как проблема теоретической лингвистики Верхозин, Степан Сергеевич

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Верхозин, Степан Сергеевич. Количественные критерии авторизации текста как проблема теоретической лингвистики : диссертация ... кандидата филологических наук : 10.02.19 / Верхозин Степан Сергеевич; [Место защиты: ГОУВПО "Бурятский государственный университет"].- Улан-Удэ, 2013.- 241 с.: ил.

Содержание к диссертации

Введение

Глава I. История, сущность и сопоставимость понятий идиолекта, идиостиля и языковой личности

1.1. История появления понятия идиолекта и его развитие 11

1.2. Современные подходы к изучению идиолекта 21

1.2.1. О двойственности подходов к пониманию термина «идиолект» 21

1.2.2. Идиолект vs социолект 24

1.2.3. Об основаниях современных теорий идиолекта 26

1.3. Проблема соотношения понятий идиолект и идиостиль 30

1.4. Идиолект и языковая личность 37

1.4.1. Понятие языковой личности 37

1.4.2. Соотношение понятия «языковая личность» с понятиями «идиостиль» и «идиолект» 45

1.5. Определение идиолекта как основной цели авторизации текста 47

1.6. Лингвистические единицы как маркёры идиолекта 52

Выводы по первой главе 56

Глава II. Лингво-теоретический анализ количественных методов и их применение в русле изучения идиолекта

2.1. Теоретическая специфика количественных методов и количественной лингвистики 58

2.1.1. Место математической и количественной лингвистики в кругу лингвистических дисциплин 58

2.1.2. Об идеологии количественных методов в лингвистике 62

2.1.3. Релевантные лингвистические методы исследования идиолекта 66

2.1.4. Количественные методы в кругу лингвистических исследований 69

2.1.5. Качественные и количественные методы: основные различия 71

2.1.6. Количественные методы исследования языка: pro et contra 74

2.2. Место количественных методов в теоретической лингвистике 81

2.2.1. Применение количественных методов в теоретической лингвистике 81

2.2.1.1. Применение количественных методов в исследованиях идиолекта автора 84

Выводы по второй главе 89

Глава III. Лингво-теоретические особенности количественной авторизации текста

3.1. Авторизация текста как средство описания идиолекта и языковой личности 91

3.1.1. Понятие авторизации текста и недостатки качественных методов установления авторства 91

3.1.2. Стилеметрия как количественный метод авторизации 95

3.1.3. Количественные подходы к авторизации текста с точки зрения лингвистической вариативности 99

3.2. Краткая история количественной авторизации текстов 103

3.3. Характеристика современных количественных методов авторизации 107

3.4. Опыт количественной авторизации текстов российских публицистов 113

3.4.1. Задачи и цели исследования, отбор текстового материала 113

3.4.2. Предварительная обработка текстов, определение критериев авторизации и ее инструментарий 116

3.4.3. Описание методики исследования идиолектов российских публицистов 120

3.4.4. Анализ и интерпретация полученных результатов 125

3.4.4.1. Лексические критерии: распределение средней длины слова и индекс лексического разнообразия 125

3.4.4.2. Синтаксические критерии: распределение средней длины предложения и степени синтаксической сложности 130

3.4.4.3. Процент служебных слов 133

3.4.4.4. Доля квазисинонимических лексем 135

3.4.4.5. Доля встречаемости репрезентаций и наклонений глаголов 138

Выводы по третьей главе 143

Заключение 145

Библиографический список 149

Список использованных словарей и принятых сокращений 162

Список использованных источников 163

Приложение 1 165

Приложение 2 192

Приложение 3 222

Об основаниях современных теорий идиолекта
Об идеологии количественных методов в лингвистике
Количественные подходы к авторизации текста с точки зрения лингвистической вариативности
Доля встречаемости репрезентаций и наклонений глаголов

Введение к работе

Реферируемое диссертационное исследование посвящено изучению количественных методов анализа в рамках теоретической лингвистики и авторизации текста, в частности. Исследование сосредоточено на изучении функции и места идиолекта в теоретической лингвистике и возможностей его количественного описания в рамках авторизации текста.

Авторизация или атрибуция текста - явление для лингвистики не новое. Оно возникло тогда, когда учёных впервые заинтересовала проблема авторства того или иного произведения. Широко известны случаи оспаривания авторства некоторых пьес У. Шекспира, комедий, приписываемых Мольеру, критико-литературного творчества А.С. Пушкина и Ф.М. Достоевского, Н.Г. Чернышевского, М.А. Шолохова.

К решению этой проблемы языковеды подходили с разных сторон. На ранних этапах пользовались преимущественно собственно лингвистическими методами. Однако в конце 19 и начале 20 веков впервые в умах языковедов начала формироваться и возникать идея о возможном приложении к этой сфере подходов, характерных для других наук, прежде всего, математики. На математизацию языковедения в своё время указывали ещё Ф. де Соссюр и И.А. Бодуэн де Куртенэ [Соссюр, 1999; Бодуэн де Куртенэ, 1963]. Впоследствии об этом стали говорить и другие видные психологи и лингвисты, в частности, Л.С. Выготский, В. В. Виноградов, Ю. Д. Апресян и т.д. [Выготский 1935; Виноградов, 1938; Апресян, 1966].

Окончательно математические методы закрепились в лингвистике лишь в 50-х годах 20 века. Кроме того, они начали применяться и для решения проблемы авторства. Математический аппарат позволил фиксировать в текстах некоторые функционально-формальные показатели (например, подсчитывать долю служебных слов), которые, как предполагалось, в значительной мере характеризуют индивидуальный авторский стиль.

Уникальный индивидуальный стиль в зависимости от конкретного подхода или направления можно назвать идиостилем, но с точки зрения авторизации текста наиболее адекватным является понятие идиолекта.

Идиолект представляет собой различительный и идиосинкратический (специфический) выбор при порождении текста [Coulthard, 2004, р. 431]. Он выражается в умении пользоваться функционально-формальным аппаратом языка, что, в свою очередь, наводит на мысль о применимости к его описанию и изучению количественных методов, используемых разными учёными в русле исследований по авторизации.

Актуальность темы диссертации обусловлена недостатком исследований проблем авторизации текста в теоретико-лингвистическом ракурсе. Кроме того, необходимы научная оценка возможностей авторизации текста, равно как и определение границ их применения, с целью диагностики языковой личности и уточ-

нение места количественной методологии по отношению к качественным методам в теоретической лингвистике.

Объектом исследования является идиолект разных авторов, установленный по выборке некоторого количества их текстов.

Предметом исследования избраны, исходя из задач авторизации текста, идиолекты с точки зрения их количественных показателей на релевантных уровнях языка.

Целью диссертации является анализ феномена идиолекта, а также выделение тех его аспектов, которые могут лечь в основу подхода к определению авторства. Кроме того, ставится цель историко-теоретического исследования количественных методов лингвистики и возможностей их применения.

Для достижения поставленной цели в работе решаются следующие задачи:

анализируется понятие идиолекта, его история и подходы к изучению;
анализируется отношение понятия «идиолект» к смежным понятиям «идио-стиль» и «языковая личность»;
устанавливается идиолект и его составляющие в качестве главной цели описания при авторизации текста;
изучаются и анализируются количественные методы, их специфика, место в теоретической лингвистике, а также применение в рамках лингвистических исследований;
обосновываются возможности использования количественных методов с целью изучения и описания идиолекта;
определяются лингвистические основания авторизации текста;
проводится обзор и анализ релевантных количественных методов и подходов к проблеме установления авторства текста;
проводится количественное описание идиолектов трёх разных авторов с точки зрения авторизации принадлежащих им текстов.

Материалом диссертационного исследования послужили тексты трёх авторов-публицистов, ведущих колонки в «Российской Газете»: Валерия Выжутовича, Леонида Радзиховского, Андрея Чеснакова. Первоочередное внимание уделено идиосинкратическим особенностям, обнаруженным в их статьях, для описания которых подходят некоторые количественные методы.

Научная новизна работы состоит в том, что впервые обоснованы правомерность количественных подходов к авторизации текста с целью описания соответствующего идиолекта и характеристика эвристических возможностей количественных методов в исследовании феномена языковой личности.

Теоретическая значимость диссертационной работы заключается в том, что полученные результаты вносят вклад в разработку современных методов параметризации идиолекта на основе количественных показателей функционирования языка. Поскольку такие показатели устанавливаются на материале текста, они служат надёжным основанием для дальнейшей разработки критериев идентифи-

кации языковой личности.

Практическая значимость диссертации заключается в том, что её результаты могут быть использованы как для филологического или описательного исследования идиолекта, идиолектных аспектов языковой личности, так и для выполнения практических задач по установлению авторства различных текстов с помощью применения количественных методов. Материалы диссертации могут использоваться в курсах общей и прикладной лингвистики, а также при подготовке курсовых и дипломных работ.

Методологическую основу исследования составляют количественные методы, применяемые в лингвистических и автороведческих исследованиях, а именно: критерии средней длины слова и средней длины предложения (в разных вариациях использовались различными учёными: Г. Хьетсо, В.П. Фоменко и Т.Г. Фоменко, Д.В. Хмелёвым), критерии степени синтаксической сложности и коэффициента лексического разнообразия (А.П. Варфоломеев), критерий процента/доли служебных слов (Н.А. Морозов, П. Фоменко и Т.Г. Фоменко), критерий определения процента квазисинонимичных лексем (А.Н. Баранов), а также критерий распределения в текстах различных репрезентаций и наклонений глаголов. Теоретическое обобщение сути количественных методов осуществляется путём их научного синтеза.

На защиту выносятся следующие положения.

Идиолект и идиостиль - разные, но смежные понятия. Если идиолект представляет собой совокупность структурно-языковых особенностей (стабиль-ных характеристик), проявляющихся в речи отдельного носителя языка, то идиостиль - это совокупность речетекстовых характеристик отдельной языковой личности (индивидуальности писателя, учёного и т.д.).
Идиолект и идиостиль являются составными частями более общего целого, а именно языковой личности. Они действуют на разных её уровнях. Идиолект относится к первому - вербально-семантическому уровню структуры языковой личности (лексикон и грамматикой в терминах Ю.Н. Караулова), а идиостиль действует на двух оставшихся уровнях более «глубокого» порядка: когнитивном и прагматическом.
Авторизация текста может рассматриваться как одно из направлений исследования и описания идиолекта и, кроме того, основываться на его параметрах. Это обусловлено характерными особенностями идиолекта, в частности, непреднамеренностью выбора тех или иных языковых средств автором.
Количественные методы могут успешно применяться при авторизации текста, предоставляя весьма объективную информацию об авторстве. При этом они применимы, главным образом, к структурно-языковым характеристикам текста.
Выделенные в результате их апробации количественные критерии установления авторства позволяют описать и дифференцировать идиолекты разных

авторов, выраженные в принадлежащих им текстах.

Апробация работы. Результаты исследования были представлены на заседаниях кафедры прикладной лингвистики Иркутского государственного лингвистического университета (2011-2013). По теме диссертации сделаны доклады на межвузовских конференциях молодых учёных «Современные проблемы гуманитарных и естественных наук», проводимых в рамках недели науки ИГЛУ (2011-2013), на Всероссийской научно-практической конференции «Аспирантские чтения ИГЛУ» (2011). Всего по теме диссертации опубликовано 6 научных работ.

Объём и структура работы. Общий объём диссертации составляет 241 страницу, из них 148 - основной текст. Диссертация состоит из введения, трёх глав, выводов по главам, заключения, списка литературы, включающего 135 наименований, списка использованных словарей (8 наименований) и принятых сокращений, списка источников примеров (14 наименований), приложений.

Об основаниях современных теорий идиолекта

С теоретической точки зрения существует два подхода к изучению идиолекта - когнитивный и стилистический. На этом основании можно выделить когнитивные и стилистические теории идиолекта.

Подход к идиолекту и его теории с когнитивной точки зрения предполагает, что индивидуальный язык определяется в основном языковой компетентностью, под которой понимается когнитивная способность человека к языку. При таком подходе некоторые аспекты языка, например его синтаксическая сложность, могут быть описаны с помощью когнитивных моделей. Когнитивные теории, однако, не позволяют объяснить ни наличия постоянных характеристик в текстах одного автора, ни наличия отличительных особенностей в текстах разных авторов. При этом теория идиолекта должна отвечать на вопрос, почему языковые способы выражения у одного автора остаются постоянными и почему язык одного автора отличается от языка другого. Когнитивные теории могут некоторым образом помочь в объяснении сходства текстов одного человека, но намного сложнее привести когнитивные причины различий текстов разных людей [Grant, 2010, р. 509 514].

При описании системы производства языка учёные, работающие в когнитивном русле, обычно принимают такое положение, при котором индивидуальные различия минимальны (или различия между текстами разных людей не стоят изучения) [ibid, р. 510]. Примером когнитивного подхода к идиолекту может выступать теоретическая дихотомия между I-Language и E-Language, предложенная Н. Хомским. По мнению Н. Хомского, предпочтение отдается пониманию индивидуальной языковой способности.

Стилистический подход к идиолекту иногда рассматривается в качестве оппозиции когнитивному подходу. Сторонники стилистического подхода исходят из того, что важнейшую роль в понимании различий, проявляющихся в идиолектах разных людей, играют теории стилистических вариаций. Такие теории более ориентированы на объяснение фактов изменения и постоянства языка; они направлены на идентификацию устойчивых и отличительных характеристик текстов одного автора [ibid, р. 512]. Примером стилистического подхода к идиолекту является анализ языка американского политического лидера 20 века Б. Джордан, проведенный Б. Джонстоном. В своей работе он описывает постоянство лингвистических установок Б. Джордан не только в изучаемых текстах, а также на протяжении всей её жизни [Johnstone, 2009]. С когнитивной точки зрения стилистический способ рассмотрения опирается на слабую лингвистическую теорию или теорию идиолекта.

Иными словами, сущность когнитивных теорий заключается в том, что они предполагают «нахождение» идиолекта в когнитивных, ментальных структурах человека. Таким образом, идиолект в первую очередь зависит от характера мышления человека и его интеллекта. Стилистические теории, в свою очередь, предполагают, что идиолект определяется индивидуальным, социолингвистическим прошлым, то есть тем уникальным языковым опытом, который человек получает в течение своей жизни в определенном социуме. По этой причине мы можем говорить о том, что когнитивный анализ идиолекта может проводиться на основе стилистического исследования (например, изучения ярко выраженных характеристик текста, их сравнения и сопоставления), а стилистический, соответственно, стилеметрического исследования (например, изучения функциональных слов, распределения частоты слов и т.д.). В некотором смысле в методологическом плане когнитивные и стилистические теории сводятся к оппозиции качественных (стилистических) и количественных (стилеметрических) методов исследования.

Помимо когнитивного и стилистического, существует универсальный подход. В рамках него происходит объединение особенностей когнитивных (ориентированных на язык отдельного автора) и стилистических теорий (ориентированных на различия идиолектов разных людей). В соответствии с универсальным подходом, теории идиолекта не могут только лишь указывать на устойчивые и отличительные характеристики языка человека. Они должны пытаться предоставить объяснение этого факта [Grant, 2010, р. 513]. Универсальный подход сформирован рядом исследований, например, работами М. Култхарда, который пытался продемонстрировать, насколько очевидно индивидуальный характер носят бытовые высказывания [Coulthard, 2004], М. Хоуи [Ноеу, 2005], С. Гринфилда [Greenfield, 2008]и других.

В качестве примера, иллюстрирующего когнитивный и стилистический подходы к анализу идиолекта, рассмотрим текстовый материал, взятый из Интер-нет-блога [hup://eugenyshultz.livejournal.com/]:

«Один-одинешенек идет Путин по пустому каменному городу. ОДИНОЧЕСТВО. БОЛЬ ПОТЕРИ. Ушел из жизни тренер по дзюдо... Как теперь жить? Путин. .. Такой маленький на фоне каменных джунглей и такой великий на фоне истории нашей страны, да и всего мира... Идет. Один. Теперь он совсем один.

Очень жаль, что приходится это говорить, но я уже реально не понимаю, а есть ли теперь Президент Путин? Или он стал актером, который снимается в 14-летней драме «Управляя Россией»?

Ну неужели непонятно, что есть чувство меры? Я соболезную родным и близким умершего тренера по дзюдо. Но такова жизнь. Люди живут, а потом умирают. Вполне возможно он и сыграл большую роль в жизни Владимира Владимировича. Но НАМ это неизвестно. А следовательно, тот скорбный пафос, который звенит в каждом шаге Путина по пустому городу НАМ непонятен!!! Мы его не чувствуем, и поэтому воспринимаем все происходящее, как совершенно неуместную натяжку. Ведь даже при чудовищно трагичных для России событиях (гибель десятков людей во время теракта, гибель Курска, например) такого накала пафоса не было...».

В рамках когнитивного подхода следует изучать ярко выраженные в тексте индивидуальные авторские особенности (особенности написания некоторых слов, характерные сокращения, неологизмы и т.п.) и стоящие за ними социолингвистические явления, а также их влияние на автора текста. Среди таких маркёров в приведенном выше материале о В.В. Путине можно выделить, во-первых, слова, полностью состоящие из заглавных букв. Судя по всему, автор старается акцентировать на них особое внимание, например: ОДИНОЧЕСТВО, БОЛЬ ПОТЕРИ, НАМ. Во-вторых, наблюдается изобилие односоставных и простых предложений, особенно в начале текста, например: ОДИНОЧЕСТВО; Идет; Один; Теперь он совсем один. В-третьих, имеет место большое количество вопросительных предложений, а также факт выделения восклицательного предложения тремя восклицательными знаками {А следовательно, тот скорбный пафос, который звенит в каждом шаге Путина по пустому городу НАМ непонятен!!!). В-четвертых, достаточно часто в рассматриваемом тексте встречаются слова и словосочетания, несущие оценочно-эмоциональный характер, например: один-одинешенек, маленький на фоне каменных джунглей, 14-летняя драма, скорбный пафос, неуместная натяжка, чудовищно трагичный.

В целом для анализируемого текста Интернет-блога характерна высокая степень эмотивности. Кроме того, за выделенными чертами можно рассмотреть некоторые особенности самого автора. Так, можно предположить, что он достаточно образован (отсутствие очевидных ошибок), активный пользователь Интернета (о чем может свидетельствовать написание некоторых акцентированных слов заглавными буквами), а также остро переживает события, происходящие в России и, возможно, занимает оппозиционную сторону по отношению к действующей власти (в тексте присутствует критическая оценка, выраженная с помощью некоторых языковых средств, приведенных в предыдущем абзаце).

Со стилистической точки зрения на идиолект следует применить ряд стиле-метрических методов, например: распределение длины предложения и длины слова. Необходимо заметить, что данный подход предполагает использование методов основанных преимущественно на количественном описании. Данный текст состоит из 163 слов и 21 предложения, поэтому для сохранения условий распределения мы разбили его на равные промежутки из 80 слов и 10 предложений.

Полученные результаты свидетельствуют о том, что распределение длины предложения в данном тексте составляет, соответственно, 4,5 слова и 9,8 слов (1 и 2 выборка предложений, соответственно), а распределение длины слова - 5,51 и 4,88 (1 и 2 выборка слов, соответственно). Таким образом, можно сказать, что полученные показатели характеризуют стилистические особенности автора текста, проявляющиеся на уровне его дорефлексивного умения пользоваться языком.

Результаты анализа современных теорий идиолекта дают нам основания говорить, что когнитивные и стилистические подходы, по своей сути, соотносятся с двумя разными явлениями. Преломив теоретические аспекты данных теорий к проблематике данного диссертационного исследования, мы можем говорить, что предметом изучения когнитивного подхода в первую очередь является идиостиль, а стилистического - собственно идиолект.

Об идеологии количественных методов в лингвистике

Исходной точкой появления в лингвистике количественных методов (в современном понимании) принято считать начало 20 века, а именно возникновение структурной лингвистики. Структурная лингвистика - это совокупность воззрений на язык и методов его исследования, в основе которых лежит понимание языка как знаковой системы с четко выделенными структурными элементами и стремление к строгому (приближающемуся к точным наукам) описанию языка. Своё название это направление получило благодаря особому вниманию к структуре языка, которая представляет собой сеть отношений (противопоставлений) между элементами языковой системы, упорядоченных и находящихся в иерархической зависимости в пределах определённых уровней [БСЭ].

Для того чтобы установить и понять связь между количественными методами и структурной лингвистикой, следует проанализировать фундаментальные идеи и работы, лежащие в основе этой области, а также привести ее основные положения.

В основе структурного направления языкознания лежат работы швейцарского лингвистика Ф. де Соссюра, выдвинувшего важное положение о системности языка. По Ф. де Соссюру, язык определяется как система взаимообусловленных знаков, состоящих из означающего и означаемого [Соссюр, 1999, с. 98-103]. Причем каждый языковой знак рассматривается не сам по себе, а в совокупности и противопоставлении с другими знаками. По словам Ф. де Соссюра, «язык - это форма, а не субстанция» [Там же, с. 152]. Другими словами, существенным для языковой единицы является не материал, из которого она построена, а исключительно множество противопоставлений, в которые она входит. Из этого положения вытекает и другая важная идея швейцарского лингвиста - идея о независимости формы от субстанции [Апресян, 1966, с. 31].

Еще одна важная мысль, высказанная Ф. де Соссюром, - это разделение языка на собственно язык (langue) и речь (parole). Речь связана с языком и является результатом его использования. Она индивидуальна, линейна и имеет физический характер. Язык же, напротив, социален, нелинеен и имеет психический характер. Язык как система не определяется речью, то есть индивидуальным использованием этой системы [Соссюр, 1999, с. 49-53]. Другими словами, язык - это некие «правила», а речь - реализация этих правил.

Идеи Ф. де Соссюра оказали огромное влияние на развитие как теоретической, так и структурной лингвистики. Как отмечал датский языковед Л. Ельмслев, Ф. де Соссюр «первый требовал структурного подхода к языку, то есть научного описания языка путём регистрации соотношений между единицами» [Слюсарева, 2004, с. 54].

Не менее ценный вклад в становление структурной лингвистики внес и русско-польский лингвист И.А. Бодуэн де Куртенэ, ставший родоначальником Казанской (позднее и Петербургской) лингвистической школы. Главная заслуга И.А. Бодуэна де Куртенэ - построение теории фонем и фонетических чередований. Он установил «несовпадение физической природы звуков с их значением в механизме языка для чутья народа»; это привело к различению материального элемента языка - «звука речи» с основной фонетической единицей языка - фонемой [БСЭ]. И.А. Бодуэн де Куртенэ предложил несколько важных идей, в значительной степени повлиявших на развитие структурного направления лингвистики. Во-первых, он обратил внимание на отличие языка как определенного комплекса известных составных частей и категорий языка как беспрерывно повторяющегося процесса. Во-вторых, в период господства сравнительно-исторического направления И.А. Бодуэн де Куртенэ разграничил в языке динамику (процесс) и статику (состояние) и впервые выдвинул мысль о том, что лингвистика в равной степени должна заниматься обоими. В-третьих, И.А. Бодуэн де Куртенэ стал одним из первых лингвистов, обративших внимание на специфическую структуру письменной речи. И, в-четвертых, И.А. Бодуэну де Куртенэ принадлежат пророческие мысли о будущем лингвистики и той роли, которую будет играть в ее развитии математика. В 1909 году он высказал мнение о том, что «лингвистика по мере своего развития будет становиться все ближе к точным наукам» [Цит. по: Апресян, 1966, с. 24-27]. Следует упомянуть и других известных лингвистов, чьи работы легли в основу структуралистского направления. Они работали в рамках трех классических школ структурной лингвистики: Пражской (Н.С. Трубецкой, Р. Якобсон и работы по функциональной лингвистике), Копенгагенской (Л. Ельмслев и работы по глоссематике), а также Американской (Л. Блумфильд, Э. Сепир, 3. Харрис, Н. Хомский и их работы по дескриптивной и генеративной лингвистике).

Эти школы не исчерпывают всего разнообразия концепций, разработанных в рамках структурной лингвистики. Некоторые учёные (А. Мартине, Э. Бенве-нист, А.В. де Гроот, Е. Курилович, А. Соммерфельт и другие), не относясь к какой-либо из них, внесли важный вклад в развитие теории структурной лингвистики [БСЭ].

Главной идеей, родившейся в Пражской лингвистической школе структурализма (основными представителями которой были чешские языковеды В. Мате-зиус, Б. Трнка, Б. Гавранек, И. Вахек, В. Скаличка и русские лингвисты Н. С. Трубецкой и P.O. Якобсон), стало положение о языке как о функциональной системе, то есть системе средств выражения, служащей какой-то определенной цели. Свою задачу пражские языковеды видели в обнаружении этой системы во всех аспектах языка - фонологическом, морфологическом, синтаксическом и лексическом [Апресян, 1966, с. 65-77]. Кроме того, пражцам принадлежат заметные работы в области фонологии, поверхностного синтаксиса высказывания (актуальное членение предложения) и т.д.

Второе течение — датская глоссематика, развивавшееся в рамках Копенгагенской школы, объединило под своей эгидой таких языковедов, как В. Брёндаль, X. Ульдалль и Л. Ельмслев. Л. Ельмслев стал первым из лингвистов, кто серьезно занялся математикой и математической логикой. Он сделал попытку применить в языкознании методы точных наук. Главную задачу Л. Ельмслев видел в построении имманентной алгебры языка, позволяющей дать непротиворечивое, исчерпывающее и полное описание языка [Засорина, 1974, с. 116-132]. Центральное понятие Копенгагенской школы - глоссематика. В её рамках языковеды стремились построить универсальную лингвистическую теорию. В соответствии с ней, язык рассматривался как система отношений, не зависящих от материальной природы языковых единиц.

Третье классическое направление структурной лингвистики - Американская школа структурализма, известная Э. Сепиром, Л. Блумфильдом, Н. Хомским, 3. Хэррисом и другими. В трудах этих ученых родились положения, в которых весьма значительную роль играли математические (в том числе и количественные) методы. Следует выделить, прежде всего, следующие идеи и концепции Американской школы: глоттохронология М. Сводеша, этнолингвистика Э. Сепира, гипотеза лингвистической относительности Б. Уорфа и Э. Сепира, дескриптивная лингвистика и дистрибутивный анализ, алгебраическая и генеративная лингвистика Н. Хомского [Засорина, 1974, с. 132-157].

В русле структуралистского направления были высказаны идеи, важнейшим образом повлиявшие на появление и становление в лингвистике практики применения количественных методов: представление о языке как о системе и структуре противопоставленных элементов, определение языка как формы, отделение языка и речи, идеи фонологии (фонемы стали идеальным вариантом проверки и применения формальных, строгих методов анализа) и некоторые другие. Формализация языка стала предпосылкой к использованию для его анализа столь же формальных и строгих методов, а именно количественных.

Дальнейшее развитие практики использования количественных методов в языкознании, лежащее уже вне рамок структурализма, обусловлено становлением новых направлений лингвистики. Кроме того, возникновение и бурное развитие компьютерной техники, технологий, кибернетики и других достижений человечества в этой области, привело к тому, что появилась возможность разработки «математизированных» областей знания о языке (машинный перевод, системы человеко-машинного общения, автоматическая обработка естественного языка, составление частотных словарей и т.д.), в основу которых легла лингвистическая теория. Более того, такой технологический скачок позволил быстро обрабатывать огромные массивы текстовой информации, открыл совершенно новые инструменты лингвистических исследований теоретического и практического характера, дал возможность унифицировать, оптимизировать и анализировать полученные данные о языке. Другими словами, лингвисты получили совершенно новый способ изучения языка, речи, их структуры, функционирования, семантики, синтаксических, лексических и грамматических характеристик.

Количественные подходы к авторизации текста с точки зрения лингвистической вариативности

Маркёры, выделенные Дж. Макменамином, указывают на очень важную роль, которую играет понятие лингвистической вариативности. У. Лабов — один из первых учёных, преуспевших в установлении причин лингвистического разнообразия и их связи с системой языка. Вариативность может проявляться на разных уровнях, например, групповом и индивидуальном (социолект/диалект, идиолект). С точки зрения групповой вариативности индивид создаёт свою собственную систему вербального поведения, схожую с системой той группы, с которой он себя идентифицирует [McMenamin, 2010, р. 487], привнося в нее частицу своего собственного, индивидуального творчества.

Среди факторов лингвистической вариативности выделяют чаще всего следующие:

1) социолингвистическая вариативность (влияние социальных изменений и социальной мобильности на развитие языка);

2) текстуальная вариативность (взаимодействие жанра, темы текста, его лингвистической выразительности);

3) региональная вариативность (различия и сходства региональных разновидностей языка);

4) индивидуальная вариативность [Шарафутдинова, 2012, с. 47-48].

Существует и более универсальный подход к выделению типов лингвистических вариаций. В соответствии с ним, выделяют:

1) вариации в языке отдельного человека;

2) вариации среди всех носителей языка в рамках определенного языкового сообщества [McMenamin, 2003].

Изначально вариациям в языке приписывали случайный характер. С 60-х годов 20 века парадигма отношения к этому явлению сменилась и в новом виде она сохраняется по сей день. В соответствии с ней, лингвистическая вариация системна, а доступ к внутренней системе языка можно получить с помощью наблюдения за его использованием [ibid, р. 46-47].

Тщательное исследование и анализ языка показывают, что лингвистическая вариативность может быть описана и измерена в той степени, в которой она обусловлена собственно лингвистическими и экстралингвистическими факторами [ibid, р. 47].

Стиль как часть поведения человека отражает индивидуальные вариации, представляющие его инвариант. Их измерение в языке, выраженном в письменном виде, - это важное дополнение к описательному анализу и, в случае изучения проявлений вариаций с точки зрения авторизации текста, необходимость. Таким образом, исчисление лингвистических данных позволяет делать выводы об авторстве текста на более точных и объективных основаниях. По мнению Дж. Макме-намина, лингвистическое оценивание стиля, выраженное в числовых значениях, зачастую более реалистично репрезентирует некоторые факты. При качественном подходе учёный рискует трактовать проявление некой вариации в качестве случайного явления, не учтя ее системную природу [ibid, р. 491].

Все методы авторизации, используемые исследователями для решения вопросов, лежащих в рамках различных направлений (например, судебной лингвистики или источниковедения), служат единственной цели, а именно: выделению и описанию языковой личности в целом и идиолекта конкретного автора в частности. С точки зрения цели авторизации не имеет значения, к какому именно подходу (количественному или качественному) прибегает учёный. Главное в его работе - определение характерных уникальных особенностей, которые позволяют отличить языковую личность или идиолект, выражающийся в текстах одного человека, от языковой личности или идиолекта, выражающегося в текстах другого.

Будучи одним из средств описания языковой личности и ее идиолекта, авторизация текста должна ориентироваться исключительно на те особенности, благодаря которым автора можно дифференцировать не только от всех носителей его языка, но и от представителей одного с ним социума. С этой точки зрения ключевое значение приобретает вопрос того, в чём заключаются те самые уникальные характеристики языковой личности.

Авторизация текста должна, в первую очередь, основываться на исследовании идиолекта, поскольку именно на этом уровне проявляются формальные умения автора пользоваться родным языком. Сам по себе язык в достаточной мере ограничен. Так, французский лингвист К. Ажеж выделяет своеобразную «область ограничений»: «Грамматику можно определить как то, что является обязательным. Если и возможен выбор в пределах парадигм, скажем, выбора аккузатива, генитива и т.д. в языках, обладающих склонением, то он происходит, в зависимости от намерений говорящего, из числа навязанных им возможностей», и далее: «Субъект высказывания не может по своей воле отказаться от присоединения к существительному классификатора в таком языке, в котором нельзя обозначить какой-либо предмет без отнесения его к определенному классу» [Ажеж, 2003, с. 228]. По мнению К. Ажежа, субъект высказывания действует в неком пространстве, полном стесняющих ограничений, которые и определяют облик грамматики [Там же, с. 229].

Кроме грамматики в достаточной мере ограничен и синтаксис языка. В меньшей степени ограничена лексика. Тем не менее, несмотря на все ограничения, инициатива субъекта не сводится к нулю. По этому поводу К. Ажеж пишет: «Она находит свое проявление в многочисленных зонах, где с виду господствуют жесткие правила; субъект высказывания может обыгрывать сами ограничения, накладываемые уже имеющимися в языке формами» [Там же, с. 231].

Лексика, грамматика и синтаксис - это основные платформы проявления характеристик идиолекта в языке. С некоторыми ограничениями в этот список можно включить пунктуацию с той лишь разницей, что она в отличие вышеперечисленных уровней языка не допускает варьирования. Иными словами, варьирование в пунктуации приводит к возникновению ошибки. В этом смысле идио-лектным проявлением и объектом изучения станет нарушение пунктуационных правил языка.

Из этого следует, что идиолект автора текста проявляется в том или ином способе его действия в границах установленных языком ограничений и способе их «обыгрывания». В этом смысле задача атрибуции сводится к установлению уникальных для автора текста методов взаимодействия с системой языка и данными ограничениями, накладываемыми на его различных уровнях.

Самой изменяющейся составной частью языка является его лексика. По этой причине авторизация текста опирается, прежде всего, на анализ разнообразных лексических особенностей идиолекта. Однако в этом случае нельзя не учитывать грамматику, которая также может носить весьма информативный характер. Так, одной из особенностей идиолекта автора текста может являться выбор им определенных залогов, времен и других грамматических показателей, подлежащих количественному описанию. Такой комплекс лексико-грамматических параметров текстов, написанных одним человеком, и должен рассматриваться с точки зрения атрибуции. В этом смысле особую значимость приобретают лексикон и грамматикой языковой личности как основные «единицы» вербально-семантического уровня языковой личности, служащие основными объектами авторизации. Атрибуция текста позволяет идентифицировать языковую личность автора текста, а, следовательно, и его идиолект.

История лингвистической науки показывает, что обозначенные выше вопросы интересуют языковедов достаточно давно. Постепенно лингвисты стали приходить к мысли о том, что автора текста характеризуют не только редкие слова, которые он употребляет, но и самые обычные языковые единицы и связанные с ними параметры. Таким образом в истории авторизации стали рассматриваться и применяться количественные методы, которые, в частности, позволили более эффективно решать проблему лингвистической вариативности, с который неизбежно сталкивается исследователь авторства текстов.

Доля встречаемости репрезентаций и наклонений глаголов

Последний из рассматриваемых критериев - доля встречаемости репрезентаций и наклонений глаголов. Она высчитывается на основе выборки в 400, 200, 100 слов, а также общих корпусов. Сравнительные результаты для всех авторов представлены в таблицах 3.31, 3.32, 3.33.

Из результатов вычислений по выборкам видно, что доля каждой из предложенных репрезентаций и наклонений глаголов для одного автора достаточно различается от доли этого показателя для двух других. В некоторых случаях они очень близки, однако это характерно, прежде всего, для более коротких выборок. Значения выборки в 400 слов более стабильны и детерминируемы. Более полные и фиксированные показатели были получены в результате анализа полных корпусов текстов (таб. 3.34).

Значения, полученные на основании количественного анализа корпусов текстов авторов, в целом следуют обозначенной тенденции выше (за некоторыми исключениями). Так, например, В. Выжутович и Л. Радзиховский практически с одинаковой долей используют глаголы в форме инфинитивов (0,216 и 0,215, соответственно), хотя проценты использования ими других типов весьма различны (например, изъявительное наклонение - 0,588 и 0,649, соответственно). Деепричастия - это единственная форма глагола, доля которой у А. Чеснакова (0,034) весьма схожа с долей в текстах одного из двух других авторов (В. Выжутович, 0,037). Во всех остальных случаях его показатели отличны от показателей других авторов.

Для того чтобы подвести окончательный итог опыта авторизации, определить и разграничить идиолекты исследуемых авторов, все основные данные были занесены в общую таблицу 3.35 (данные взяты на основе подсчётов по полным корпусам).

Итак, в рамках диссертационного исследования было количественно описано 30 текстов, принадлежащим трём разным авторам: В. Выжутовичу, Л. Радзи-ховскому и А. Чеснакову. В зависимости от определенного критерия были сделаны выборки на основе слов и предложений, а также составлены корпуса текстов каждого автора (в каждый корпус автора вошли все 10 исследуемых текстов). Сравнение результатов по каждому из 7 показателей выявило количественные различия между выбранными публицистами: в одних случаях достаточно очевидные, реже небольшие. Однако на основании всех сделанных выше утверждений и предположений в целом мы полагаем, количественный анализ позволяет с определенной долей вероятности утверждать, что результаты проделанной работы указывают на количественное различие текстов разных авторов, а также их идиолектов.

Близость некоторых выявленных числовых показателей свидетельствует о том, что поднятая в данном диссертационном исследовании проблематика нуждается в дальнейшем изучении и совершенствовании как со стороны теоретических аспектов идиолекта (его выделения, описания и фиксации), так и со стороны применимости и дальнейшей интеграции в лингвистику математико-статистических методов, которые могут позволить решить проблему авторизации. Полученные результаты позволяют уточнить ряд современных лингво-теоретических положений. Во-первых, опора на структурные особенности текста открывает возможность применения количественных методов к его анализу, что приводит к выведению надежных критериев разграничения идиолекта и идиостиля. При этом именно дорефлексивная природа признаков, формирующих идиолект, даёт основания полагать, что их количественные характеристики могут служить основой адекватного описания конкретной языковой личности. Во-вторых, применение количественных методов в авторизации текста даёт надёжные основания для установления связи между «языковой механикой», с одной стороны, с другой - особенностями текстобразования в исполнении конкретной языковой личности. В-третьих, устанавливаются относительно ясные границы применения количественных и качественных методов к исследованию языковой личности. В конечном счёте эти результаты способствуют решению актуальных проблем теории языка.

Здесь важно упомянуть о том, что при изучении текстового материала большего объема все полученные значения различных критериев, вероятно, стабилизировались бы в большей степени. Таким образом, имелись бы основания ав-торизировать тексты разных авторов с большей долей объективности, а также более чётко разграничить те показатели, результаты подсчёта по которым близки (например, при подсчёте индекса лексического разнообразия).

Тем не менее, основной результат работы заключается в том, что была продемонстрирована возможность использования количественных методов для описания идиолекта в общетеоретическом плане и в рамках авторизации текста. При этом характерна сводимость всех параметров к двум начальным уровням описания языковой личности - грамматикону и лексикону. Следовательно, есть основания полагать, что разработаны надёжные критерии идентификации языковой личности на данных уровнях описания.

Количественные критерии авторизации текста как проблема теоретической лингвистики Верхозин, Степан Сергеевич

Об основаниях современных теорий идиолекта

Об идеологии количественных методов в лингвистике

Количественные подходы к авторизации текста с точки зрения лингвистической вариативности

Доля встречаемости репрезентаций и наклонений глаголов

Похожие диссертации на Количественные критерии авторизации текста как проблема теоретической лингвистики