Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Лексико-квантитативное моделирование языковой личности в идентификационном аспекте (на материале русскоязычных интернет-дневников) Напреенко Галина Викторовна

Лексико-квантитативное моделирование языковой личности в идентификационном аспекте (на материале русскоязычных интернет-дневников)
<
Лексико-квантитативное моделирование языковой личности в идентификационном аспекте (на материале русскоязычных интернет-дневников) Лексико-квантитативное моделирование языковой личности в идентификационном аспекте (на материале русскоязычных интернет-дневников) Лексико-квантитативное моделирование языковой личности в идентификационном аспекте (на материале русскоязычных интернет-дневников) Лексико-квантитативное моделирование языковой личности в идентификационном аспекте (на материале русскоязычных интернет-дневников) Лексико-квантитативное моделирование языковой личности в идентификационном аспекте (на материале русскоязычных интернет-дневников) Лексико-квантитативное моделирование языковой личности в идентификационном аспекте (на материале русскоязычных интернет-дневников) Лексико-квантитативное моделирование языковой личности в идентификационном аспекте (на материале русскоязычных интернет-дневников) Лексико-квантитативное моделирование языковой личности в идентификационном аспекте (на материале русскоязычных интернет-дневников) Лексико-квантитативное моделирование языковой личности в идентификационном аспекте (на материале русскоязычных интернет-дневников) Лексико-квантитативное моделирование языковой личности в идентификационном аспекте (на материале русскоязычных интернет-дневников) Лексико-квантитативное моделирование языковой личности в идентификационном аспекте (на материале русскоязычных интернет-дневников) Лексико-квантитативное моделирование языковой личности в идентификационном аспекте (на материале русскоязычных интернет-дневников) Лексико-квантитативное моделирование языковой личности в идентификационном аспекте (на материале русскоязычных интернет-дневников) Лексико-квантитативное моделирование языковой личности в идентификационном аспекте (на материале русскоязычных интернет-дневников) Лексико-квантитативное моделирование языковой личности в идентификационном аспекте (на материале русскоязычных интернет-дневников)
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Напреенко Галина Викторовна. Лексико-квантитативное моделирование языковой личности в идентификационном аспекте (на материале русскоязычных интернет-дневников): диссертация кандидата филологических наук: 10.02.01 / Напреенко Галина Викторовна;[Место защиты: Кемеровский государственный университет].- Кемерово, 2015. - 302 с.

Содержание к диссертации

Введение

ГЛАВА I. Лингвоперсонология и «идентификационная лингвистика» 16

1. Лингвоперсонология: идентификационный аспект описания языковой личности 17

1.1.1. Направления развития лингвоперсонологии 17

1.1.2. Языковая личность и персонотекст как объекты идентификационной лингвоперсонологии 25

2. Феномен идентификации в лингвистике 29

1.2.1. Идентификация, тождество и различие, общее и частное: философское обоснование 29

1.2.2. Идентификация в лингвоперсонологии и юрислингвистике 37

3. Методы моделирования языковой личности в идентификационном аспекте: оппозиция специальных и универсальных методов 48

1.3.1. Постановка проблемы методов исследования текста в идентификационном аспекте.. 49

1.3.2. «Этюдное» индивидуализированное описание языковой личности и персонотекста 63

1.3.3. Универсальные методы идентификации текстов: теоретические основания 75

1.3.4. Формализованные методы и автоматизированные программы по установлению авторства 91

Выводы по 1 главе 114

ГЛАВА II. Специально-ориентированый метод моделирования текстов в идентификационном аспекте 116

1. Интернет-дневник как материал идентификационного 116 исследования

2. Разработка специально-ориентированного метода идентификации текста 121

2.2.1. Описание подготовительных этапов: создание частотного словаря 121

2.2.2. Гипотеза и реализация специально-ориентированного метода идентификации текстов 127

2.2.3. Алгоритм специально-ориентированного метода идентификации текста 144

Выводы по 2 главе 146

ГЛАВА III. Универсальный метод моделирования текстов в идентификационном аспекте 148

1. Разработка универсального метода идентификационного моделирования текстов (первый этап идентификации) 148

3.1.1. Описание подготовительных этапов 148

3.1.2. Гипотеза исследования 151

3.1.3. Реализация универсального метода идентификации текстов 155

3.1.4. Результаты идентификационного моделирования текстов 164

2. Сопоставление словников по текстам с «абсолютным» показателем распределения слов по частотности (второй этап идентификации) 168

3.2.1. Частотный словарь русского языка как объект сопоставления 168

3.2.2. Идентификационное сопоставление словников по текстам с частотным словарем современного русского языка 176

3.2.3. Алгоритм универсального метода идентификации текстов 187

Выводы по 3 главе 190

Заключение 192

Библиография 197

Список интернет-источников

Введение к работе

Актуальность предпринятого исследования обусловлена рядом факторов. Во-первых, объектами описания данной работы являются текст как воплощенная языковая личность и собственно языковая личность как антропоцентрические категории. В исследованиях языковой личности обнаруживается тенденция к доминированию субъективного плана – его преодоление требует выявления объективных параметров, имеющих массовые проявления. Необходима выработка особых методов, разработка «матричных» схем, в которых отражается комплекс лексико-квантитативных параметров текста, способствующих идентификации языковой личности. Существенным основанием применения подобных методов следует признать «объективную присущность языку количественных признаков, количественных характеристик и внутреннюю зависимость, существующую между ними» (Б. Н. Головин).

Во-вторых, проблема преодоления субъективности является также фундаментальной задачей экспертологии и решается путем применения квантитативных методов в исследованиях и создания

ряда автоматизированных программ по атрибуции текста. Задача разработки объективных методов идентификации текстов актуальна в связи с тем, что сохраняется проблема соблюдения авторских прав, обусловленная быстротой и легкостью распространения и передачи информации благодаря электронным ресурсам. Необходимость в изучении объективных параметров текста отмечается в современных исследованиях, направленных на установление тождества текстов или авторства произведений: Н. С. Бельская (2014), С. С. Верхозин (2013), М. П. Захаров (2007), З. И. Резанова (2013), А. С. Суркова (2004) и т. д.

В-третьих, настоящая работа включается в процесс формирования новой научной парадигмы, в которой активно действуют интегративные тенденции – диссертационное исследование находится в области пересечения разных наук: лингвоперсонологии, лингвистики текста, квантитативной лингвистики и юрислингвистики.

Объектом настоящего исследования выступает лексический уровень русскоязычных текстов,
понимаемых как воплощенная в тексте языковая личность (персонотексты). Предметом
исследования является лексико-квантитативная модель текста и языковой личности,

рассматриваемая в идентификационном аспекте.

В основу исследования положена следующая гипотеза: языковая личность, воплощенная в тексте, представляется набором индивидуальных лексико-квантитативных закономерностей, выявление и описание которых по формализованным алгоритмам позволяет идентифицировать анализируемые тексты и языковую личность по ним.

Цель работы заключается в выявлении лексико-квантитативных закономерностей текстов как воплощенных языковых личностей, способствующих установлению тождества текстов и языковых личностей по ним. В соответствии с поставленной целью предполагается решить следующие

задачи:

  1. сформировать базу способов портретирования языковой личности и методов идентификации текста;

  2. выделить и описать оппозицию интуитивных (в нашей терминологии – специально-ориентированных) и квантитативных (в нашей терминологии – универсальных) методов описания языковой личности, в том числе в идентификационном аспекте;

  3. разработать два идентификационных метода обнаружения и описания лексико-квантитативных закономерностей русскоязычного текста в рамках выявленной оппозиции методов идентификации текстов и языковой личности по ним:

a. разработать специально-ориентированный метод идентификационного

моделирования воплощенной языковой личности в тексте по словам, связанным синонимическими отношениями;

b. разработать алгоритм специально-ориентированного метода идентификации
текстов и языковой личности;

c. разработать универсальный метод идентификационного моделирования
воплощенной языковой личности в тексте по высокочастотным словам текста;

d. разработать алгоритм универсального метода идентификации текстов и
языковой личности;

4) апробировать данные методы на материале русскоязычных интернет-дневников;

  1. сопоставить словники, созданные по текстам, с частотным словарем русского языка на предмет выявления общего и частного в ранжировании каждого;

  2. обобщить и интерпретировать результаты представленных нами методов идентификации текста.

При решении поставленных задач использовался комплекс методов исследования: а) метод
сплошной выборки при сборе материала; б) сравнительно-сопоставительный метод,

заключающийся в установлении сходств и различий между ранговыми и частотными показателями
лексем в частотных словарях, принадлежащих одному и разным авторам; в) общенаучный

описательно-аналитический метод с характерными приёмами обобщения, обработки,

интерпретации результатов исследования, дающий возможность выявить идентификационный потенциал двух методов; г) метод статистического анализа, применяемый в качестве исходного этапа лексико-квантитативных методов идентификации.

Материалом исследования послужили русскоязычные интернет-дневники, размещенные на сайте Использование выбранного материала обусловлено тем, что интернет-дневники индивидуализированы, имеют большой объем словоупотреблений, а также характеризуются анонимностью, позволяющей осуществлять формализацию текстовой информации. Интернет-дневник порожден естественным, спонтанным проявлением языковой способности, а тем самым данный материал отвечает поставленной цели настоящего исследования.

Нами произвольно отобрано два русскоязычных интернет-дневника, каждый из которых
разделен на две части. Таким образом, искусственно создана ситуация экспертного анализа
«множественная неопределенность» (А. Н. Баранов), когда «имеется множество текстов или их
фрагментов. Необходимо установить, скольким авторам принадлежат тексты, и атрибутировать
каждый текст конкретному автору» (А. Н. Баранов). Идентификационному исследованию
подверглось четыре фрагмента интернет-дневника, принадлежащих двум авторам. Каждому
фрагменту интернет-дневника дано условное буквенное обозначение (А, Б, В, Г), тем самым
соблюден принцип анонимности, необходимый для объективности получаемых

идентификационных выводов. В тексте А – 31 362, в Б – 21 660, в В – 31 624, в Г – 22 053 словоупотреблений. В настоящем исследовании под словом принято считать «набор букв между

двумя пробелами, как это принято в машинном переводе» (О. С. Ахманова). Количество словоупотреблений - количество распознанных программой SimWordSorter наборов «букв между двумя пробелами» (О. С. Ахманова) в одном фрагменте текста.

В главе 2, представляющей специально -ориентированый метод идентификации текстов, для квантитативного анализа отобраны синонимические ряды. В главе 3, описывающей универсальный метод идентификации текстов, анализу подвергнуты первые сто самых частотных слов каждого текста.

Общетеоретическую и методологическую базу исследования составили труды ученых в области:

лингвоперсонологии и теории языковой личности: И. В. Башкова (2010), Л. О. Бутакова (2011, 2013, 2014), Н. Д. Голев (2004; 2006; 2007), Е. В. Иванцова (2002; 2008; 2009; 2010); А. Н. Караулов (1989), Н. Б. Лебедева (2006; 2009), Н. В. Мельник (2011), К. Ф. Седов (1999; 2004; 2006; 2007; 2008) и др.

квантитативной лингвистики, формализации, компьютерной обработки текстовой информации, статистических методов изучения языка: Н. Д. Андреев (1959; 1967), О. С. Ахманова (1961), И. В. Богословская (2010), А. И. Новиков (1983), А. Я. Шайкевич (1976) и др.

лингвокриминалистики, юридической лингвистики, идентификации языковой личности, идентификационной экспертизы: А. Н. Баранов (2001; 2007), Е. И. Галяшина (2006), Н. Д. Голев (1999; 2002; 2003; 2009; 2010), В. В. Наумов (2006), В. Г. Наумов (2011) и др.;

идентификации текста в квантитативном аспекте: Т. В. Батура, М. А. Марусенко (1996), З. И. Резанова (2013), Е. С. Родионова (2008), А. С. Романов (2006; 2008; 2009), А. С. Суркова (2004), Ю. А. Тамбовцев (2008; 2011).

Научная новизна исследования состоит в том, что:

а) текст исследован с точки зрения его лексико-квантитативной вариативности, основанной на
персоноразличительной функции квантитативных характеристик отдельных текстовых лексем и
всего набора лексем - осуществлена попытка формализации лингвоперсонологической информации
на этой основе;

б) впервые феномен идентификации исследуется в лингвоперсонологическом аспекте и вводится
определения «идентификационная лингвистика» как аспект лингвоперсонологии;

в) впервые предложена оппозиция двух методов идентификации языковой личности,
воплощенной в персонотексте и отражен переход от «ручного» способа идентификации к
«конвейерному»: методы специально-ориентированные (или этюдные) и универсальные (или
формализованные).

г) впервые разработан и апробирован универсальный (лексико-ранговый) метод идентификации
текстов и языковой личности по ним;

д) впервые осуществлено сопоставление лексико-ранговых данных частотных словарей, созданных по текстам, принадлежащим конкретным языковым личностям, и лексико-ранговых данных частотного словаря русского языка.

Теоретическая значимость исследования обусловлена:

а) вкладом в разработку концепции теории лингвоперсонологии;

б) расширением границ лингвоперсонологии посредством его изучения в идентификационном
аспекте – раскрыты направления взаимодействия разных научных дисциплин;

в) выделением оппозиции специально-ориентированных и универсальных методов
идентификации текстов и языковой личности по ним и их представлением в развитии;

г) обоснованием универсального характера проявлений лексико-квантитативных способностей
языковой личности;

д) разработкой двух вариантов методов идентификации текстов и языковой личности.
Практическая значимость состоит в том, что полученные в ходе исследования данные могут

быть использованы в криминалистике при проведении экспертизы по идентификации текста и языковой личности, в автороведческой экспертизе; в лингвоперсонологии при портретировании языковой личности; в математической лингвистике при исследованиях квантитативных закономерностей текста и создании автоматизированных компьютерных программ по установлению авторства; в лингводидактике – в системе личностно-ориентированного обучения для выявления типа обучаемой личности и корректировке в соответствии с этим методики обучения. На защиту выносятся следующие положения:

  1. Вариант языковой способности, в том числе индивидуальный, проявляется на разных уровнях текста и может быть выявлен квантитативным способом на лексическом уровне. Лексико-квантитативная закономерность как следствие закона частотно-рангового распределения описывает структуру любого текста и является общей закономерностью построения любого текста.

  2. За частотным словарем стоит не только количественное описание частотности словоупотреблений, свойственное каждому тексту, но также и лингвоперсонологические особенности, свойственные каждому автору текста.

  3. Существующие методы описания языковой личности и идентификации текстов предстают в оппозиции специально-ориентированных и универсальных методов идентификации текстов и языковой личности по ним.

  4. Специально-ориентированный метод идентификации текстов и языковой личности базируется на том, что языковая личность осуществляет выбор преимущественно одного из слов в синонимическом ряду, зафиксированном в словаре синонимов русского языка. Выделение в тексте ряда индивидуальных предпочтений в выборе употребления некоторых синонимов в своей речи и

интерпретации их путем формально-количественного моделирования способствует идентификации воплощенной в тексте языковой личности.

5. Универсальный метод идентификации текстов и языковой личности базируется на том, что различное ранжирование текстов обладает идентификационным потенциалом. Языковая личность проявляется в предпочтительном употреблении ряда слов в большей степени, чем других.

Апробация и оценка достоверности результатов исследования. Основные положения работы обсуждались в докладах на заседании кафедры русского языка Кемеровского государственного университета. Результаты исследования были представлены на Второй Всероссийской научно-практической конференции «Письменная русская речь в ВУЗе и школе: теория и практика» (Кемерово, 2010); Международной научно-практической конференции студентов, аспирантов и молодых ученых «Образования, наука, инновации – вклад молодых исследователей» (Кемерово, 2010, 2011, 2012, 2014, 2015); Первой Интернет-конференции по юрислингвистике «Право как дискурс, текст и слово» (Конференции СИБАЛЭКС) (2011); Всероссийской конференции молодых ученых «Актуальные проблемы лингвистики и литературоведения» (Томск, 2011, 2012); 50-й юбилейной международной научной студенческой конференции «Студент и научно-технический прогресс» (Новосибирск, 2012); Международной научной конференции «Проблемы современной лингвистики, литературоведения и методики преподавания филологических курсов» (Кемерово, 2015).

Основное содержание работы отражено в 11 публикациях общим объемом 5,5 п. л. (авторский вклад – 5,05 п.л.), в том числе в 3 статьях, опубликованных в рецензируемых научных изданиях, включенный в перечень ВАК Минобрнауки РФ.

Личный вклад соискателя состоит в постановке цели и задач исследования, в обосновании положений, выносимых на защиту, в разработке методов исследования и ее реализации на конкретном материале, в интерпретации результатов и формулировании выводов.

Структура работы. Диссертация общим объемом 303 страницы (197 страниц основного текста) состоит из Введения, трех глав, Заключения, Библиографии (219 наименований), Списка интернет-источников (56 наименований), Списка использованных словарей (14 наименований) и отдельного тома Приложений (72 страницы).

Языковая личность и персонотекст как объекты идентификационной лингвоперсонологии

В центре современной лингвистики находится антропоцентрическая парадигма, которая большое значение уделяет языковой личности. Антропоцентрическая парадигма явилась фактором, порождающим лингвоперсонологию (Н. Д. Голев, В. И. Карасик, В. П. Нерознак). Н. В. Мельник в статье «Языковая личность и текст как предмет лингвоперсонологии русского языка» [Мельник 2011: 200] приводит историческую справку о возникновении лингвоперсонологии. В. П. Нерознак [Нерознак 1996] говоря о становлении новой лингвистической дисциплины, обобщает опыт французских персоналистов, а также труды Н. С. Трубецкого. В. П. Нерознак проецирует идеи ученых в область лингвистической персонологии, под которой подразумевается теория языковой личности. Истоки формирования теории языковой личности можно найти в исследованиях художественной литературы, например, в работах В. В. Виноградова (1930). Труды В. В. Виноградова посвящены анализу образа автора в структуре художественного текста: «видимо, по этой причине исследования языковой личности шли по направлению изучения языка творцов художественных произведений» [Мельник 2011: 200]. Лингвоперсонология как сравнительно новая научная дисциплина активно развивает теоретико-методологические вопросы, которые представлены в ряду современных монографий и сборников научных трудов – «количество литературы по указанной теме возрастает лавинообразно» [Башкова 2014: 569]. К значительным трудам по лингвоперсонологии относятся: «Лингвоперсонология: типы языковых личностей и личностно-ориентированное обучение языку» [2006], «Вопросы лингвоперсонологии» [2007], «Лингвоперсонология и личностно-ориентированное обучение языку» [2009], «Лингвоперсонология: Основы теории языковой личности» [Иванцова 2010], а также две части коллективной монографии «Языковая личность: Моделирование, типология, портретирование. Сибирская лингвоперсонология» [2014; 2015], отдельные положения которых рассмотрены в настоящем исследовании.

Н. Д. Голев [Голев 2007] выделяет два аспекта лингвоперсонологии, которые коррелируют, как отмечает Н. В. Мельник, с двумя подходами к исследованию языковой личности: «дедуктивным (с позиции личности) и индуктивным (с позиции языка) [Карасик 2004]: персонология в лингвистическом измерении и лингвистика в персонологическом измерении» [Мельник 2011; Мельник 2014: 34].

1. Первый аспект лингвоперсонологии – персонология в лингвистическом измерении – представляет собой аспектуальное направление персонологии как науки о личности. Предметом изучения в данном аспекте лингвоперсонологии является языковая личность.

По Ю. Н. Караулову, существует три степени абстрактности языковой личности: а) конкретная языковая личность, например, языковая личность автора художественного произведения, ученого, известного деятеля, историка Ю.Н. Фадеенкова [Катышев 2009], элитарная языковая личность [Романова]; б) коллективная языковая личность или языковая личность группы людей. К данной ступени абстрактности можно отнести профессиональный, возрастной, социальный аспекты описания языковой личности: языковая личность служащего [Панова 2005]; языковая личность юриста [Кубиц 2005; Лебедева 2009]; в) языковая личность народа или, по Н. С. Трубецкому [Трубецкой 1995], многочеловеческая или симфоническая языковая личность. Исследованию национальной языковой личности посвящены следующие работы: [Ким 1999; Колесов 2006; Шестак 2003]; «общерусского языкового типа»: [Караулов 2004], а также исследования русской языковой личности в лингвокультурологическом аспекте: [Воркачев 2001; Городецкая 2007]. Таким образом, персонология в лингвистическом измерении направлена на решение экстралингвистических задач: языковые параметры дополняют экстралингвистические характеристики, выделяемые психологами, социологами, педагогами.

2. Другой аспект лингвоперсонологии – лингвистика в персонологическом измерении – представляет собой описание языка, текста, речевой деятельности в персонологическом срезе. Предметом исследования в данном аспекте становится язык (лексема, текст, речевая деятельность), который рассматривается посредством характеристик личности. В рамках данного подхода «устройство языка, разнообразие речевых произведений и типов речевого поведения объясняется кроме прочего разнообразием языковых личностей, при таком подходе типы языковых личностей выделяются по результатам исследования, типологизации (типизации) продуктов речевой деятельности носителей языка – текстов» [Мельник 2014: 35].

Данная установка позволяет говорить о гипотезе лингвоперсонологической вариативности языка, предложенной Н. Д. Голевым [Голев 2004], в рамках которой вводятся понятия лингвоперсонологическое функционирование языка и затем – лингвоперсонологическое варьирование. Развитие данной гипотезы нашло свое место в исследованиях Л. Г. Ким, рассматривающей вариативно-интерпретационное функционирование текста в системно-структурном и лингвоперсонологическом аспектах [Ким 2009].

Разработка специально-ориентированного метода идентификации текста

Разнообразие методов, используемых в идентификационных экспертизах, также явилось основанием для выявления и представления в диссертационном исследовании оппозиции специальных и универсальных методов идентификации текстов в «идентификационной лингвоперсонологии». Правомерность выделения данной оппозиции подтверждается путем анализа исследований в разных областях применения проблемы идентификации: например, потретирование языковой личности как предпосылка идентификации, установление авторства художественного произведения, идентификация текстов как проблема юрислингвистики. Идентификационное исследование представляется прикладной отраслью лингвоперсонологии. Проблема идентификации также входит в область лингвокриминалистики, а потому ее решение осуществляется и в автороведческой идентификационной экспертизе. В обоих случаях идентификационное исследование и идентификационная экспертиза испытывают недостаток разработки универсальной методологии, что ведет к отдалению от объективности получаемых идентификационных результатов. Н. Д. Голев отмечает, что «у лингвистов отсутствуют единые принципы, методы и приемы проведения экспертизы, отсутствует согласование лингвистических понятий с правовыми, обозначающими юридически значимые обстоятельства для данной категории дел» [Голев 2002: 15; Голев 2003а]. Объективность результатов важна как в идентификации автора текстов, так и в установлении тождества текстов друг другу, в связи с чем проблема объективности результатов идентификации обращает на себя все большее внимание исследователей. В следующих частях параграфа, во-первых, представлена оппозиция существующих методов идентификации текста и языковой личности, во-вторых, отражен переход от «ручного» способа идентификации к «конвейерному» в так называемой «идентификационной лингвистике».

В настоящее время работы по идентификации в широком смысле ее применения распространены: попытки найти ответ на практический вопрос об авторстве определенного текста или на теоретический вопрос о методе и способах проведения данной процедуры встречаются достаточно часто в научной литературе. С другой стороны, при всем многообразии разработок проблема универсальности методов установления авторства остается открытой. В качестве наиболее объективных методов все чаще предлагаются методы, использующие квантитативные способы анализа единиц письменного текста. Действительно, такие методы можно считать объективными, т. к. они выявляют объективные характеристики текста, выражаемые посредством количественных параметров. Такие методы противопоставляются методам традиционным, этюдным или «рукописным». Разработки количественных методов по установлению авторства являются актуальными и потому, что, несмотря на обилие подобных работ, единой точки зрения об универсальности применения параметров идентификаторов пока не существует. Необходимость получения достоверных результатов идентификации персонотекста или языковой личности является следствием ряда причин. Идентификационное исследование направлено на получение достоверного результата. Отсутствие четких методов проведения идентификационного исследования, как отмечают многие исследователи (например, [Галяшина 2006а; Голев 2002а] и др.), ослабляет надежность ее результатов. Решение данной проблемы в юрислингвистике как практической области реализации идентификации представляется все более важным еще в связи с тем, что идентификационное исследование обретает форму лингвистической экспертизы1. В данном случае речь идет о правовой ответственности2 исполнителя лингвистической экспертизы: «лингвисты слабо представляют себе, что судебная экспертиза — это не только лингвистическое исследование, но и особый способ доказывания, строго регламентированный в гражданском и уголовном процессе» [Голев 2002: 17]. Н. Д. Голев как один из самых авторитетных учёных в области юрислингвистики отмечает: «юридическая строгость предполагает, прежде всего, максимальную (насколько это возможно) правовую однозначность ответа: именно с целью ее достижения правовые органы и обращаются чаще всего к экспертизе и именно ее ожидают от экспертов. Другими словами, требование объективности выводов лингвистической экспертизы потенциально нацеливает эксперта на дачу вероятностного заключения. Все это говорит о необходимости серьезных научных исследований по разработке и унификации принципов, методов и приемов лингвистической экспертизы текстов, включению ее в общую систему судебных 1 Лингвистическая экспертиза может проводиться в рамках уголовных, арбитражных, гражданских и административных дел. Если экспертиза проводится в рамках судебного процесса, выдается заключение эксперта, если исследование осуществляется во внесудебном порядке, то - заключение специалиста-лингвиста. 2 Согласно статье 25 Федерального закона от 31.05.2001 г. «О государственной судебно-экспертной деятельности в Российской Федерации» [Статья 25] в заключении эксперта необходимо отразить предупреждение эксперта в соответствии с Законодательством Российской Федерации об ответственности за дачу заведомо ложного заключения. экспертиз и нормативному закреплению ее положения в этой системе» [Голев 2002: 16; Голев 2003а]. Е. И. Галяшина и Е. В. Приводнова выделяют одну из проблем современного судебного автороведения, рассматриваемую также в настоящем исследовании: «необходимость выработки среди практикующих судебных экспертов-автороведов единого подхода к проблемам речеведческих экспертиз, в том числе и автороведческой, а также восполнение пробела в методической литературе и экспертной практике. Для этого необходимо усовершенствовать разработанные ранее методики с целью их адаптации для исследования новых нетрадиционных объектов автороведения (сетевых жанров интернет-коммуникации со смешением письменной и устной форм речевого общения), а также автоматизировать отдельные этапы автороведческого исследования путем создания электронных блоков формализованных бланков экспертных заключений» [Галяшина 2006]. Отсутствие единой методики идентификации отмечает и М. Н. Черкасова [Черкасова]. Автор полагает, что создание универсальной методики является невозможной в связи с тем, что выбор методов зависит как от поставленной исследователю задачи, так и от жанра и стилистического оформления текста. Данное замечание правомерно, т. к. различная жанровая направленность исследуемых текстов1, как то текст договора или текст художественного произведения, требует применения различных методов2.

Алгоритм специально-ориентированного метода идентификации текста

В данном пункте параграфа представлены существующие разработки и автоматизированные программы по установлению авторства, относящиеся к универсальным методам согласно представленной нами классификации методов идентификации текстов и языковой личности по ним1.

Количественные методы давно используются в лингвистике2 – «исходной точкой … появления в лингвистике количественных методов в современном понимании принято считать начало ХХ века» [Верхозин 2013б: 145]. К современным исследованиям, в которых используются статистические и количественные методы анализа текста в лингвоперсонологическом аспекте, относятся, например, статьи и кандидатская диссертация Т. А. Головиной [Головина 2006; Головина 2007; Головина 2008]. Т. А. Головина исследуя лингвоперсонологические функционирование частей речи в статистическом аспекте, «просчитывает» объем частей речи в произведениях русских писателей. Статистический анализ употребления частей речи, используемый исследователем, «может наглядно показать отличие одного авторского языка от другого и диагностировать разные типы языковой личности писателя» [Головина 2007: 149]. Результатом исследования частоты встречаемости разных частей речи в 1 Оппозиция методов идентификации текста представлена в п. 1.3.1. 2 Отметим, что в зарубежной лингвистике применение количественных методов появилось несколько раньше, чем в отечественной: «история применения количественных методов в зарубежной лингвистике берет свое начало в XVIII веке в работах Э.Мэлоуна, а в отечественной в XX веке в статье Н.А. Морозова» [Верхозин 2013а]. кандидатской диссертации явилось следующее распределение маркеров, характеризующих определенных авторов: глагольная константа – маркер текстов В. В. Быкова и В. М. Шукшина, субстантивная константа – маркер выборок текстов В.П. Астафьева и К. Г. Паустовского и т.п. Исследователь на основе анализа «наличия или отсутствия систематической проявленности в плане частеречного выражения» [Головина 2008: 17] создает типологию персонотекстов, которая способствует созданию типологии собственно языковых личностей: частеречно-характеризованный и частеречно-нехарактеризованный типы языковых личностей. Я. А. Дударева в кандидатской диссертации «Номинативные единицы с близким значением как компоненты ассоцитативно-вербальной сети носителей русского языка» [Дударева 2012] использует количественный анализ при определении «степени близости совпадающих ассоцитативных пар сопоставляемых лексических единиц» [Дударева 2012: 12]. Применение коэффициента корреляции К. Пирсона позволяет определить степень семантической близости анализируемых единиц. В рамках идентификационных исследований выделяются исследования промежуточные, в которых при выявлении в идентифицируемом объекте его специфических особенностей используются количественные подсчеты1. Е. С. Родионова отмечает, что «любое стилистическое исследование будет носить субъективный характер без учета количественных показателей, именно количественная оценка однородности или неоднородности состава и структуры сравниваемых языковых систем составляет основу лингвостилистического анализа, без которого невозможна объективная атрибуция» [Родионова 2008б:

1 Применения количественных методов анализа текста ставит проблему объема, необходимого для эффективности такого синтеза. Е. Ворончак пришел к выводу о том, что минимальный объем, требуемый для установления автора текста путем квантитативного описания параметров текста, составляет 5 000 (пять тысяч) словоформ [Ворончак 2007]. 118]. Такие методы установления авторства текста, удачно сочетая специальный и квантитативный методы исследования, сделали существенный шаг в преодолении субъективности путём попытки формализации1 идентифицируемых параметров2.

Одним из первых трудов, в котором применяется статистический метод исследования текста, является работа А. А. Маркова 1913 года, в которой проводится статистический анализ по достоверно установленным текстам автора. Результатом применения статистического анализа является оценка частоты появления отдельных слов в текстах автора. Автор предстает уникальным набором частот, что позволяет его отличить от другого автора. Для этого «в качестве критерия близости текстов служит введенное понятие «расстояния» между соответствующими текстами, которое и является, в конечном счете, определяющим фактором при вынесении решения о принадлежности текста тому или иному автору» [Павлов 2011].

Н. А. Морозов в работе «Лингвистические спектры. Средство для отличия плагиатов от истинных произведений того или другого известного автора. Стилеметрический этюд» [Морозов 1915] в качестве единицы анализа использовал наиболее часто встречающиеся и общие «для всех родов литературы» слова, т.е. служебные, или, по терминологии Н. А. Морозова, распорядительные частицы – союзы, предлоги, местоимения и т. п., т. к. они не связаны с темой и содержанием текста, а потому характеризуют идиостиль автора. В указанной работе Н. А. Морозов выдвинул предположение о том, что именно подобные слова являются показательными для индивидуального стиля писателя.

Н. А. Морозов отмечает перспективу объективности подхода и объективизации результатов исследования: «с тех пор было выработано и предложено множество С точки зрения разных подходов, в качестве достоверных количественных критериев определения авторства текста признавались: доля служебных слов как авторский инвариант, средняя длина слова, средняя длина предложения, индекс разнообразия лексики и многие другие. У каждого из подходов есть свои преимущества и свои недостатки, свои сторонники и свои противники» [Морозов, 1915]. Н. А. Морозов для установления авторства текста предлагал переводить частоты встречаемости анализируемых единиц на графики, «обозначая каждую распорядительную частоту на горизонтальной линии, а число ее повторений на вертикальной, и сравнить эти графики между собой у различных авторов» [Морозов, 1915]. Именно данные графики, отражающие частоту встречаемости слов в текстах разных авторов, получили название «лингвистические спектры».

Значительным исследованием в вопросе атрибуции явилось экспериментальное исследование, проведенное в 1973 – 1978 гг. в Институте языкознания АН СССР и Всесоюзном институте по изучению и разработке мер предупреждения преступности Прокуратуры СССР В. И. Батовым и Ю. А. Сорокиным [Батов 1980]. Выводы, полученные в результате работы указанных ученых отразились, например в статьях [Батов 1975; Батов 1977; Батов 1980].

Статья «Опыт построения методики для установления авторства текстов» [Батов 1977] В. И. Батова и Ю. А. Сорокина ориентирована на преодоление недостатка метода анализа «формальных характеристик» текста, которое заключается в том, что «с его помощью можно атрибутировать тексты объемом в несколько тысяч словоупотреблений, но не тексты гораздо меньшего объема (100–300 словоупотреблений)» [Батов 1977: 345]. Авторы статьи на материале текстов М. Е. Салтыкова-Щедрина объемом не более 333 слов провели эксперимент, заключающийся в том, что испытуемым было предложено оценить отрывки из текстов, неоднозначно относящихся к творчеству М. Е. Салтыкова-Щедрина, по предлагаемой шкале: энергичный – спокойный, характеризующий автора – не характеризующий автора, мужественный – женственный, холодный – теплый и т.д. [Батов, Сорокин 1977: 346]. Авторы статьи применили «метод, позволяющий ориентировать факторы семантического пространства на формальные характеристики текста» [Батов, Сорокин 1977: 346]: «концепция семантического пространства преодолевается введением формальных (объективных) характеристик» [Батов, Сорокин 1977: 347], к котором относятся средняя длина предложений текста в словоупотреблениях, отношение числа глаголов, личных местоимений, всех местоимений, предлогов, прилагательных к общему числу словоупотреблений в тексте, среднеквадратичное отклонение длины предложений текста. Статья «Субъективная модель текста и вопросы атрибуции» [Батов 1980] явилась итоговой, отражающей выводы эксперимента. Важным для настоящего диссертационного исследования является вывод, сделанный авторами в результате анализа формальных характеристик текста, который заключается в том, что синтез субъективных и объективных характеристик позволяет приблизить идентификационное исследование (в статье [Батов 1980] – атрибуцию) к объективному выводу в связи с однозначным построением идентификационных параметров (в статье [Батов 1980] в частности – семантического пространства) и их однозначной интерпретацией (в статье в частности – факторов как семантических импликатов объективных характеристик).

Сопоставление словников по текстам с «абсолютным» показателем распределения слов по частотности (второй этап идентификации)

В универсальном варианте идентификации текстов актуализируется частотно-ранговая закономерность и в частности лексико-ранговая, которая заключается в том, что слово, используемое в тексте наиболее часто, имеет наименьший ранг его частоты (второе по используемости слово встречается приблизительно в два раза реже, чем первое, третье — в три раза реже, чем первое). В связи с данной закономерностью в универсальном методе фундаментальной описательной характеристикой является ранг частоты слова (R) как параметр-идентификатор, который позволяет сопоставлять качественную наполненность словников (для специально-ориентированного подхода актуальным параметром идентификатором явилась частота словоупотребления). Материалом данного типа исследования явились фрагменты интернет-дневников, описанные в 1 главы 2.

Идентификационное моделирование текста в рамках универсального подхода включает несколько этапов анализа текста. Первый этап совпадает с этапом интерсемиотического перевода языковых параметров идентификации в неязыковые в специально-ориентированном подходе: лексический уровень текстов с помощью компьютерной программы SimWordSorter [SimWordSorter] переводится в формат словников, представляющих список слов по убывающей частоте с указанием ранга. Выбор для исследования лексического уровня языка связан с тем, что именно «данная языковая система при ее анализе с точки зрения частотности … позволяет говорить о наибольшей объективности полученного результата и возможности в перспективе делать идентификационное заключение без участия субъекта» [Напреенко 2011]. Таким образом, словники по текстам предстают как способ исследования проявлений языковых способностей в тексте. Второй этап – составление частотно-сопоставительных таблиц, которые позволяют сопоставлять ранг частоты слова в разных текстах, выявляя языковые предпочтения языковых личностей. Каждая частотно-сопоставительная таблица включает два словника с перечислением ста самых частотных слов1 и указанием ранга каждого. Таким образом, сгруппировано четыре частотно сопоставительных таблицы на основе идентификационных выводов, полученных при использовании специально-ориентированного метода, согласно: а) 1 То есть словоформ исходного текста, подвергшихся лемматизации, о которой сказано в п. 3.2.1. гипотетической принадлежности разных словников текстам разных языковых личностей, б) гипотетической принадлежности разных словников текстам одной языковой личности:

Как видно по частотно-сопоставительным таблицам (приложения А, Б, В, Г), на позициях самых частотных слов в большей степени расположены предлоги и местоимения. Этот факт является вполне закономерным, т. к. самыми частотными словами согласно любому частотному словарю русского языка являются предлоги и местоимения. Дальнейшее исследование в части сопоставления словников по текстам с Частотным словарем современного русского языка [Ляшевская] покажет, что большая их часть используется одинаково часто.

А. Ю. Хоменко [Хоменко 2014] в результате применения метода атрибуции, основанного на синтезе анализа языковой личности и стилометрического анализа, приходит к некоторым выводам, одним из которых является следующий: «отбор параметров должен происходить на основе глубокого анализа языковой личности автора текста-образца, причем в большем объеме именно на мотивационном уровне» [Хоменко 2014]. Исключая прием выделения отдельных слов для идентификационного моделирования, отметим: мы опускаем анализ конкретной языковой личности и подвергаем анализу все слова (в рамках ста высокочастотных слов) без спецификации с целью выявления в тексте и типичного, и индивидуализированного1. В данном способе отбора параметров идентификационного описания заключается формализм, характерный для универсального метода идентификации текстов и языковой личности.

В основе предлагаемого нами подхода лежит представление о том, что языковая личность проявляется в предпочтительном использования некоторых слов (любых частей речи) в большей степени, чем других. При сопоставлении текстов выявляется, насколько разнообразно ранжирование одного и того же слова в разных словниках. Таким образом, текст, построенный в ранговом

Осуществляется на примере сопоставления с частотным словарем русского языка ( 2 главы 3). отношении, отражает бессознательное распределение языковой личностью слов в тексте, а различное ранжирование позволяет установить тождество и различие объектов идентификации. Универсальный подход к моделированию текстов предполагает два этапа анализа полученных частотно-сопоставительных таблиц.

Первый этап моделирования представлен двумя способами1, базирующимися на разном определении ранга. Сто самых частотных слов в пределах каждого словника разделено на десять групп, таким образом, 1) слова сопоставляются в пределах групп, тогда Rг – это ранг группы (десяти) слов; 2) слова сопоставляются в пределах всей сотни слов, тогда R – это ранг каждого слова. «За основу метода принято идеальное условие, как, например, «материальная точка» (идеальная модель) или «вакуум» (идеальное условие) в физике. Заключается оно в следующем: существует некоторое идеальное распределение» [Напреенко 2014: 19], при котором