Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Язык русской и башкирской поэзии XX века в свете дистрибутивного подхода Гречачин Виталий Андреевич

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Гречачин Виталий Андреевич. Язык русской и башкирской поэзии XX века в свете дистрибутивного подхода: диссертация ... кандидата Филологических наук: 10.02.20 / Гречачин Виталий Андреевич;[Место защиты: ФГБОУ ВО «Башкирский государственный университет»], 2018

Содержание к диссертации

Введение

Глава 1. Актуальные вопросы изучения текстов при помощи компьютерных технологий 10

1.1. Основные понятия и задачи прикладной лингвистики 10

1.2. Корпусный анализ как основной метод современного изучения языка 25

1.3. Модели и алгоритмы автоматической обработки лингвистических данных 31

Выводы по главе 1 40

Глава 2. Формализация распределения языковых единиц при изучении языков 41

2.1. Дистрибутивные семантические модели естественных языков 41

2.2. Прикладные парсеры в корпусных исследованиях 71

2.3. Статистические модели при сопоставительном анализе языков 78

Выводы по главе 2 108

Глава 3. Сопоставительный анализ распределения языковых данных в текстах русской и башкирской поэзии XX в 110

3.1. Структурные особенности корпусов поэтических текстов XX века на русском и башкирском языках 110

3.2. Сопоставительный анализ ключевых слов в русской и башкирской поэзии XX века 122

3.3. Сопоставительный анализ дистрибутивных моделей русской и башкирской поэзии XX века 137

Выводы по главе 3 142

Заключение 144

Библиография 1 46

Приложения 162

Введение к работе

Актуальность диссертационного исследования

определяется, прежде всего, недостаточной изученностью
современных инструментов обработки естественных языков и
анализа данных применительно к сопоставительным

исследованиям. Разработка методики, основанной на

использовании таких инструментов, может упростить проведение сопоставительных исследований языковых единиц, что позволит исследователям сосредоточиться на решении других научных задач. В основе предлагаемого подхода лежит идея использования инструментов автоматической обработки естественных языков и статистики для проведения сопоставительного анализа двух

разноструктурных языков с целью определения национально-специфических черт языковых единиц, особенностей их функционирования в структуре поэтического текста, а также выявления их семантических параметров.

В рамках данного исследования разработана методика сопоставительного анализа разноструктурных языков на материале корпуса текстов с применением инструментов автоматической обработки языка, статистического анализа текстовых данных и дистрибутивных моделей, а также разработан набор программных инструментов для осуществления предобработки текстовых данных и дальнейшего анализа.

Научная новизна работы определяется тем, что впервые проведено сопоставительное исследование целого массива поэтических текстов в двух разноструктурных языках при помощи инструментов автоматической обработки текстовых данных. Новизна работы также определяется интегративным подходом к объекту исследования,

Объектом исследования выступили коллекции текстов
русской и башкирской поэзии XX века, анализируемые при
помощи предложенного подхода с целью выявления

результативности данной модели обработки языка.

Предметом исследования становится автоматическая

обработка языка, направленная на предобработку данных для
сопоставительного исследования, инструменты описательной
статистики для описания функционирования лингвистических
единиц, статистические подходы для извлечения ключевых слов и
коллокаций, которые смогут описать исследуемые тексты с точки
зрения частотного распределения лексики, а также

дистрибутивные семантические модели.

Цель диссертационного исследования связана с разработкой
программного инструмента для извлечения данных, необходимых
для описания особенностей национальной языковой картины мира,
отраженной в поэтических текстах, особенностей

функционирования лингвистических единиц в русском и башкирских языках; исследованием формальных моделей, наиболее подходящих для сопоставительного анализа.

Данная цель обусловила конкретные задачи исследования:

- выявить современные методы предобработки текстовых
данных, необходимых для квантитативного анализа;

- провести типологическое описание существующих
подходов автоматической обработки естественных языков и
выделить доминирующие;

разработать программу морфологического анализа и лемматизации для башкирского языка, необходимую для осуществления предобработки данных;

выявить основные способы извлечения необходимых данных для проведения сопоставительного исследования разноструктурных языков;

- выявить особенности использования дистрибутивных
сематических моделей;

- разработать программный инструмент для извлечения
необходимых данных из коллекций текстов русской и башкирской
поэзии XX века;

- апробировать использование анализа частного
распределения лингвистических единиц, использование способов
извлечения ключевых слов и коллокаций, использование
дистрибутивных семантических моделей для проведения
сопоставительного исследования;

Методологическими основами исследования послужили труды отечественных и зарубежных ученых в области:

компьютерной и корпусной лингвистики, таких, как Арапов А.Н., Байбер Д., Конрад С., Плунгян В. А,, Рэппен Р., Френсис У. Э., Захаров В.П., Богданова С.Ю., Журавски Д., Маннинг К. и другие;

дистрибутивной семантики: Ландауэр Т., Миколов Т., Фёрт Дж. Р, Харрис З., Шалгрен М., Шутс Х. и другие;

лингвистической семантики, прагматики и сопоставительной лингвистики: Вежбицкая А., Виноградов В.В., Костомаров В.Г., Кронгауз М.А., Кобозева И.М., Ибрагимова В.Л., Фаткуллина Ф.Г., и другие; а также научные разработки крупных IT-компаний: Google, Yandex, Facebook.

Цель и задачи, поставленные в настоящей работе, обусловили применение следующих методов исследования: для предобработки текстовых данных, анализа данных и разработки программы были использованы язык программирования Python

версии 3.6.5 и пакет nltk 3.3 (Natural Language Toolkit), пакет морфологического анализатора русского языка pymorphy 20.8, пакет машинного обучения scikit-learn 0.19.1 с открытым исходным кодом, метод сопоставительного анализа языковых единиц изучаемых разноструктурных языков, метод описательной статистики, метод количественного анализа, метод исследования семантики на основе дистрибутивной модели, метод корпусного анализа.

Материалом исследования послужили поэтические тексты на русском и башкирском языках, написанные и изданные в период 1900-2000 гг. Русский поэтический корпус содержит более 49000 текстов, а башкирский – более 16000 текстов.

Положения, выносимые на защиту:

  1. Лингвистические корпуса разноструктурных языков могут быть использованы для проведения сопоставительных исследований с целью выявления национально-специфических особенностей языковых единиц. Количественные признаки частотного распределения лексики могут быть использованы для извлечения ключевых слов из массивов текстов с целью содержательного описания исследуемых текстов.

  2. Ключевые слова, извлеченные из данных о частотном распределении лексики в текстах, написанных в один и тот же период времени, предоставляют полную характеристику социальной, политической, идеологической и культурной жизни в стране, относятся к одному и тому же концепту и репрезентируют языковую картину мира автора произведения и самого художественного текста в указанный период времени.

  3. Частотное распределение морфем и корреляционный анализ выявляет числовые данные, характеризующие структуру исследуемого языка, а сопоставительный анализ этих данных позволяет выявить основные различия в структуре исследуемых языков.

  4. Предложенная сетевая модель агглютинативной морфологии, нашедшая применение в программе морфологического парсинга текстов, написанных на башкирском языке, может быть использована для описания морфологии башкирского языка.

Теоретическая значимость исследования определяется
переложением методов и приложений компьютерной лингвистики
и статистики в контекст сопоставительных исследований
разноструктурных языков; предложенной методикой проведения
сопоставительного исследования; исследованием методов

автоматической обработки естественных языков и статистического
анализа данных и определении наиболее оптимального подхода.
Диссертационное исследование вносит определенный вклад в
развитие теоретических подходов к формализации

сопоставительных исследований. Предложенные методы

автоматической обработки языка, статистики, программирования могут быть использованы для сопоставительного анализа других разноструктурных языков.

Практическая значимость диссертации заключается в том,
что полученные результаты могут быть использованы для
дальнейшего изучения методов обработки и анализа текстовых
данных в контексте сопоставительных исследований языков; для
обогащения поискового функционала существующих

русскоязычных и башкироязычных корпусов. Результаты данной работы могут быть использованы в переводоведении и преподавании русского и башкирского языков в качестве иностранных.

Апробация работы. Основные положения

диссертационного исследования были представлены на форуме во
Второй Московско-Тартуской школе по цифровым гуманитарным
исследованиям «Тексты. Сети. Карты» (Москва, 2017); на Научном
форуме «Наука будущего – наука молодых» (Казань, 2016);
Международной научно-практической конференции «Интеграция
образования, науки и производства» (Актобе, 2016); XVI
Всероссийской конференции «Актуальные проблемы

диалектологии языков народов России» (Уфа, 2016);

Международной научно-методической конференции «Актуальные
проблемы русской и сопоставительной филологии: теория и
практика» (Уфа, 2016); IV международной научно-методической
конференции «Межкультурная интракультурная

коммуникация: теория и практика обучения и перевода» (Уфа, 2015).

Диссертационное исследование обсуждалось на заседании
кафедры русской и сопоставительной филологии факультета
башкирской филологии и журналистики Башкирского

государственного университета. По материалам настоящего
исследования опубликовано 11 печатных работ, из них 4 работы –
в журналах, рекомендованных ВАК, получены 2 свидетельства о
государственной регистрации программы ЭВМ, по материалам
диссертации опубликован интернет-ресурс

.

Структура работы определяется целями и задачами, поставленными в исследовании. Диссертация состоит из введения, трех глав, заключения и библиографии (160 наименований).

Корпусный анализ как основной метод современного изучения языка

Прежде чем рассматривать основные понятия корпусной лингвистики, нужно определить место этой науки среди других. В некоторых источниках ее определяют как «раздел языкознания» [Баранов 2001], «лингвистические исследования» [Новый словарь методических терминов и понятий 2009] или «раздел компьютерной лингвистики» [Корпусная лингвистика. (Электронный ресурс). URL: http://www.lomonosov-fund.ru/enc/ru/encyclopedia:01210:article (дата обращения: 24.12.2017)]. Попробуем разобраться, почему возникает такая путаница. Если рассматриваемая нами наука анализирует язык, используя корпусный метод, то она, вероятнее всего, относится к языкознанию. Если занимается разработкой корпусов, то относится к области математического и компьютерного моделирования, а также использует знания общей лингвистики. Корпусная лингвистика – это дисциплина, в основе которой лежит категориально-понятийный аппарат двух наук. Рассмотрим результат такого слияния на примере определения понятия «слово». Во-первых, в рамках корпусной лингвистики мы понимаем слово как языковое явление, как конкретную единицу языка. Во-вторых, слово предстает перед нами в ином свете, когда мы его рассматриваем как составную единицу электронного корпуса.

Корпусная лингвистика – это раздел компьютерной лингвистики, который занимается разработкой лингвистических корпусов (как текстовых, так и речевых) и унифицированием принципов их построения с применением компьютерных технологий.

Далее попытаемся описать текстовый корпус, представляющий собой определенным образом структурированный и размеченный массив текстов в машиночитаемом виде, который может быть использован для конкретного лингвистического анализа. Во-первых, корпус – это машиночитаемый текст. Обычно корпус представляет собой строковый тип данных или, можно сказать, является строкой. В программировании строка – это тип данных, значениями которого является произвольная последовательность символов алфавита [NLTK Book 2014 (Электронный ресурс). URL: http://www.nltk.org/book/ (дата обращения: 24.12.2017)].

Список – это абстрактный тип данных, представляющий собой упорядоченный набор значений, в котором какое-либо значение может встречаться более одного раза [NLTK Book 2014 (Электронный ресурс). URL: http://www.nltk.org/book/ (дата обращения: 24.12.2017)].

Во-вторых, размер корпуса, количество текстов и языковых единиц, которые он включает, зависит от конкретной задачи, поставленной лингвистом. Например, корпус инаугурационных речей с 1800-го по 2000-й год и корпус чатов созданы для различных целей.

В-третьих, для различных задач используются различные способы структурирования и разметки. Тексты в корпусе могут быть изолированными, классифицированными («приключенческие романы», «любовные романы», «фантастика», …), пересекающимися (под метками «экономика», «Россия», «Вести» может находиться одна и та же публицистическая статья), хронологическими (тексты расположены в хронологическом порядке). Также существуют корпусы, где представлены тексты на нескольких языках [Корпусная лингвистика 2008 (Электронный ресурс). URL: http:// corpora.iling.spb.ru/theory.htm (дата обращения: 24.12.2017)]. Различают сравниваемый корпус, где тексты, написанные на разных языках на одну и ту же тему, сравниваются между собой, и параллельный корпус, где тексты представлены на разных языках и выравнены по абзацам или предложениям. Тексты в корпусах, как правило, размечены. Разметка бывает семантической, синтаксической, морфологической, экстралингвистической, которая заключается в добавлении понятных для программы специальных символов в строку. Например, в корпусе инаугурационных речей тексты расположены в хронологическом порядке, каждая отдельная речь начинается со сведений о говорящем и пр. В примере со строкой можно наблюдать символ «n\» – это элемент разметки, или тэг (англ. tag), показывающий, что следующий символ должен начинаться с новой строки. Или, скажем, в строку « красивый » может быть добавлен тэг, который показывает, что здесь окончание «-ый». Мы можем представить текст в машиночитаемом виде, используя знания компьютерного и математического моделирования, но для того, чтобы структурировать и разметить текст, мы обращаемся к языкознанию. Хотя некоторые лингвистические задачи не требуют большого количества материалов, корпус должен стремиться к максимальной репрезентативности и охватывать как можно больше текстов. Идеальный корпус – это собрание всех текстов, написанных на данном языке.

Для работы с корпусом необходим доступ к машиночитаемому, структурированному и размеченному массиву текстов. Получить доступ к корпусу можно с помощью специально разработанного инструментария, который обычно создается в соответствии с поставленной лингвистической задачей. Таким инструментом могут быть веб-сервис (например, как у Национального корпуса русского языка [Плунгян 2005]), а также программы, позволяющие получить доступ к корпусу с жесткого диска компьютера.

В основе корпусной лингвистики лежат знания обработки естественных языков. Основные задачи, которые решает эта дисциплина: распознавание речи, понимание естественных языков, что включает поиск информации, извлечение информации и инференцию, генерация естественных языков, а также синтез речи [Jurafsky, Martin 2000]. Кроме того, стоит отметить и некоторые другие: машинный перевод, проверка грамматики, корректировка написания. Все эти задачи решаются при помощи программных средств. К значимым для корпусной лингвистики методам обработки языка относятся следующие процедуры: токенизация, лемматизация, стемминг, парсинг [Захаров, Богданова 2011].

Токенизация (англ. tokenization) – процесс обработки текста, который заключается в разбиении его на отдельно значимые единицы, токены (англ. tokens) [NLTK Book 2014. (Электронный ресурс). URL: http://www.nltk.org/book/ (дата обращения: 24.12.2017)]. Отдельно значимыми единицами обычно являются словоформы и знаки пунктуации. Стоит обратиться к приведенному выше примеру, где текст представлен в виде строковых данных и списка. Можно сказать, токенизация – это процесс преобразования строки в список. Данный процесс осуществляется на языках программирования обычно с помощью регулярных выражений. Регулярные выражения – это термин из программирования, который означает «формальный язык поиска и осуществления манипуляций с подстроками в тексте, основанный на использовании метасимволов» [Jurafsky, Martin 2000]. Когда текст разбит на отдельное значимые единицы: « Вот , и , лето , прошло , , , словно , и », мы можем оперировать с элементами списка, например для того, чтобы построить конкорданс. Конкорданс – это список всех употреблений заданного слова в тексте вместе с контекстом. Также в токенизированном тексте мы можем проанализировать коллокации на основе частотности употреблений в данном корпусе. Дальше текст может быть разбит на биграммы, триграммы и т.д. « Словно и » – это биграмм. Основная сложность процесса разбиения текста на отдельно значимые единицы заключается в том, что некоторые элементы не могут быть однозначно токенизированы. Например, речь о сокращении слов «и т.д.», «англ.» и пр.

Лемматизация (англ. lemmatization) – это процесс обработки и группировки флективных форм слова в тексте для дальнейшей их обработки как одного слова [Захаров, Богданова 2011]. Процесс лемматизации заключается в определении базового слова и всех его словоформ. Например, базовое слово спать может иметь следующие словоформы в заданном тексте: спал, поспал, проспала, спит. Слово спать в этом случае называется леммой. «Лемматизация позволяет исследователю выделять и изучать все варианты отдельной лексемы без необходимости введения всех возможных вариантов» [Захаров, Богданова 2011]. Лемматизация и стемминг используются для создания морфологических анализаторов.

Стемминг (англ. stemming) – это процесс обработки слов в тексте для нахождения их основ. Стеммеры – специально разработанные программы, предназначенные для решения этой задачи. Они могут выделять в словах флексии и обрабатывать их. В основе стемминга также лежат регулярные выражения. Каждая основа слова – это подстрока. Например, для обработки англоязычных текстов используется Porter stemmer. Стемминг также используется в поисковых системах для нахождения информации в Интернете.

Дистрибутивные семантические модели естественных языков

Все большее внимание компьютерных и когнитивных лингвистов привлекает гипотеза о том, что статистика совместной встречаемости слов, извлеченная из корпуса текстов, способна служить основой для репрезентации семантики слов. Термины «дистрибутивный», «контекстно теоретический», «корпусный», «статистический» могут быть использованы (практически как взаимозаменяемые) для определения различных подходов к рассмотрению семантики. Все эти подходы объединяет особый взгляд на значение слова, основанный на его использовании, или употребляемости, то есть ключевую роль в определении «семантического поведения» слов играет статистика распределения слов в контексте. За исключением общего взгляда, между подходами возникают отличия, зависящие от особенностей математических и компьютерных методов, от типа семантических характеристик, связанных с распределениями в тексте, от определения лингвистического контекста, задающего комбинаторные пространства лексических единиц, и т.д. При более тщательном рассмотрении мы обнаруживаем, что общего в этих подходах гораздо больше, нежели ожидалось: за отличиями может скрываться общая модель значения, которая приведет гипотезу к конкретной форме семантических репрезентаций, а также ответит на вопрос о том, как семантические представления возникают и обрабатываются в сознании.

Методы для компьютерного анализа распределения слов разрабатывались как в компьютерной лингвистике, так и в психологии. Но поскольку у каждой области науки свои цели, исследования проводились, как правило, параллельно, не пересекаясь, и зачастую достижения коллег, представляющих иное направление, игнорировались. Недостатки такой ситуации абсолютно ясны: потенциал синергизма утерян вместе с возможностью тщательного анализа воздействия, которое может иметь дистрибутивный метод в исследованиях семантики для лучшего понимания методологии и ее ограничений.

Основная цель этого раздела – способствовать необходимому обсуждению дистрибутивной семантики благодаря описанию основных аспектов методологии, предложенных лингвистами, психологами и когнитивистами. Основная задача заключается в изучении значения компьютерных методов. Дистрибутивные подходы поднимают два основных вопроса: о степени того, как лексические свойства слов могут быть сведены к их комбинаторному поведению (синтагматическому распределению в тексте), и о роли контекстов, в которых образуются слова, в определении структуры и организации семантических репрезентаций на когнитивном уровне.

Важным вопросом для изучения значения слова является разработка точных критериев для определения его семантического содержания. Конечно, известное правило «Нет сущности вне понятия тождества» [Quine 1986: 124] рушит все надежды на то, что мы можем спокойно исследовать лексическое значение до тех пор, пока не будем способны точно определить, при каких условиях два слова имеют схожее значение или, если мы опираемся на понятие синонимии, являются семантически схожими. Явно или неявно, но семантическая близость имеет решающее значение в любом лингвистическом или психологическом исследовании значения слов. Богатые эмпирические данные были накоплены при изучении того, как семантическая близость слов влияет на процессы их хранения или обработки в ментальном лексиконе. Более того, когда мы основываем наше лингвистическое обобщение на семантических парадигматических классах выражений, таких как, например, класс глаголов движения или абстрактных существительных, мы опираемся на семантическую близость, чтобы определить слова одного класса.

Характеристикой любой модели дистрибутивной семантики является предположение о том, что понятие семантической близости (наряду с другими обобщениями, которые строятся на этом предположении) может быть описано в терминах лингвистической дистрибуции. Это предположение более известно как дистрибутивная гипотеза (далее – ДГ), которая формулируется так: «Степень семантической близости между двумя лингвистическими единицами А и В есть функция схожести лингвистических контекстов, в которых могут употребляться А и В».

Таким образом, согласно ДГ, как минимум некоторые аспекты значения лексических единиц зависят от дистрибутивных свойств таких единиц, то есть от лингвистических контекстов, в которых они возникают. Если это так, то, изучая значительное количество лингвистических контекстов, отражающих дистрибутивное и комбинаторное поведение данного слова, мы можем найти данные о некоторых семантических характеристиках. Ключевой вопрос заключается в том, насколько точна и обоснованна такая функциональная зависимость между распределением слов и семантическим составом, то есть рассматриваем ли мы лишь корреляционное отношение вместо причинного. Возможные ответы на этот вопрос порождают существенные разногласия в области дистрибутивной семантики и кардинально изменяют выводы, которые мы можем сделать касательно проблемы происхождения и формы семантических представлений в сознании человека. Действительно, могут возникать более сильные или слабые варианты ДГ, которые частично можно объяснить с учетом их исторических корней.

Сегодня дистрибутивная семантика становится все популярнее, особенно в области компьютерной лингвистики и – в меньшей степени – в психологии. Зачастую мы забываем, что корни ДС восходят к лингвистической традиции. M.Шалгрен в своей работе по этому вопросу [Sahlgren 2008] четко объединяет ДГ с процедурой анализа, отстаиваемой пост-блумфильдианскими американскими структуралистами, такими как Ч. Хоккет, М. Джус, Дж. Трейгер и особенно З.Харрис. На самом деле история ДГ берет начало за пределами области семантики, а именно в предложении последнего сделать дистрибутивный анализ краеугольным камнем лингвистических исследований: «Как в фонологическом, так и в морфологическом анализе перед лингвистом возникает проблема определения значимых элементов. Чтобы быть значимыми, эти элементы должны стоять на дистрибутивном основании: x и y входят в один и тот же элемент А, если распределение x относительно остальных элементов B, C и т.д. в какой-либо степени схоже с распределением y. Поскольку при этом предполагается, что остальные элементы B, C определены в тот момент, когда определен элемент А, подобная операция может быть проведена без какой-либо произвольной отправной точки, только если операция проводится для всех элементов одновременно. Таким образом, элементы определены относительно друг друга и на основании дистрибутивных отношений между ними» [Harris 1951].

Дистрибутивная процедура Харриса первоначально была представлена для фонологического анализа и только потом переросла в общую методологию, применяемую ко всем лингвистическим уровням.

Дистрибутивная процедура понималась им как способ установить прочный методологический базис для любого лингвистического анализа – и прежде всего как способ избежать аргументации, основанной на значении как критерии определения лингвистических элементов. Например, в сноске к приведенной выше цитате Харрис заявляет, что «здесь могут возникнуть возражения по поводу того, что изучение смысла тоже необходимо для определения элементов» [Там же]. Он отвечает, что сущность, а не смысл может быть объяснена с точки зрения дистрибутивной процедуры: «Можно предположить, что любые две морфемы А и В имеют различные значения и так же различаются в дистрибуции: существуют некоторые окружения, в которых одна возникает, а другая нет» [Там же].

Согласно Харрису, семантическая близость между двумя словами есть функция степени близости их «лингвистических окружений». Поэтому синонимия между oculist и eye-doctor зависит от возможности использовать эти слова взаимозаменяемо в большинстве лингвистических контекстов. Харрис унаследовал от Блумфильда отказ от смысла как эксплананты в лингвистике. Однако в то же время он изменил направление методологии и заявил, что сходство в дистрибуциях слов должно быть использовано как эксплананта значения и способ построения парадигматических классов из дистрибутивно семантически близких лингвистических выражений. В то время как смысл слова по Блумфильду обречен оставаться за границами лингвистических исследований, Харрис, по-видимому, принимает возможность того, что семантический анализ может обрести твердую эмпирическую почву благодаря дистрибутивному подходу. Смысл слова может стать частью лингвистической науки, как минимум в тех аспектах, в которых его возможно определить через тот же метод, который определяет любую лингвистическую сущность. Этот метод – дистрибутивный анализ.

Генеративная лингвистика способствовала постепенному отказу от дистрибутивной методологии структуралистов и повлияла на снижение интереса к контекстному распределению как главному ключу к исследованию смысла. Дистрибутивные методы оказались зажаты между молотом «когнитивной революции» в лингвистике и наковальней, представленной формальной теоретико-модельной семантикой [Lenci 2008]. Возрастающее внимание генеративной грамматики к I-language как цели лингвистического исследования и внимание к внутренней способности идеального говорящего способствовали возникновению предположения о том, что эксплананты для лингвистических структур, включая и семантические, должны быть обнаружены в некоторых когнитивных принципах – в тех, которые регулируются универсальной грамматикой в языковой способности человека, а не в дистрибутивных рамках лингвистических конструкций. Более того, было полностью отклонено статистическое распределение, основанное на корпусах, как надежный источник лингвистических данных наряду с вероятностными моделями для описания грамматики.

Статистические модели при сопоставительном анализе языков

Количественные методы в науке возникли в начале XX в. Тогда к ним прибегали прежде всего в естественнонаучных и социологических исследованиях. Позже, в середине XX в., статистика стала преобладать над другими методами количественного подхода к исследовательским данным. С течением времени квантитативные методы смогли занять в инструментарии исследователей свое место и обозначились принципиальные отличия между ними и качественными методами.

Главной особенностью любых количественных исследований является тот факт, что сбор данных представляет собой отдельную задачу, стоящую перед исследователем. Прежде всего тот должен выделить параметры, или переменные, которые подлежат измерению. Но он не может предсказать степень важности той или иной выбранной переменной. Определение важности переменных относится к задаче отбора признаков (feature selection) в статистике и машинном обучении. Кроме того, важность переменных можно определить при помощи агрегирования данных. Количественные характеристики переменных, полученные в ходе сбора данных, оформляются в виде матрицы, которая, в свою очередь, является предметом исследования статистическими методами.

Следующий этап заключается в интерпретации полученных результатов.

Положение о том, что качественные характеристики исследуемого объекта имеют цифровое выражение как в единичном ряду, так и во взаимосвязи, находит свое отражение в работе Дёрнеи [Dornyei 2007], где автор называет квантитативные методы «meaning in numbers».

Особую роль квантитативные методы играют в современном мире. Благодаря сети Интернет количество данных, подлежащих подсчету, растет невероятными темпами. Размер Интернета можно выразить количеством вебстраниц (например, англоязычный сегмент оценивается в 4,58 млрд отдельных веб-страниц). Основная информация представлена в текстовом виде. Поэтому анализ текстовой информации – одно из важнейших направлений в современной науке.

Если в распоряжении исследователя имеется определенный набор текстов, которые он хочет проанализировать при помощи квантитативных методов, то ему нужно решить, что извлечь из текста в качестве переменных. Кроме того, стоит позаботиться о репрезентативности получаемых данных о количественных характеристиках переменных. Например, делать выводы о количественном распределении переменных в поэтических текстах на основании анализа выборки, состоящей из 5 стихотворений, невозможно. Конечно, такую попытку предпринять можно, но результаты анализа нерепрезентативной выборки не будут соответствовать характеристикам генеральной совокупности, которой являются все поэтические тексты.

В статистике выделяют несколько типов переменных. Прежде всего это количественные переменные. В текстах ими могут стать различные лингвистические единицы, которые можно посчитать: фонемы, морфемы, слова, словосочетания. Посчитав количество представителей этих языковых единиц в текстах, мы получим для них частотную характеристику, затем сможем описать структуру текстовых данных, имеющихся в нашем распоряжении.

В лингвистическом контексте в статистике применимо также понятие «категориальные переменные» Категориальная переменная – это переменная, принимающая одно из заданных значений. Например, категориальной переменной может выступать часть речи, так как мы заранее задаем значение для всех частей речи.

Основное допущение, на котором основывается наше исследование, заключается в следующем: «Текст есть последовательность независимых реализаций случайной величины X» [Арапов 1988]. Это предположение относится к любым лингвистическим единицам, но для определенности положим, что значениями случайной величины X являются слова (словоформы) x1, x2, x2, …, . Слова, в свою очередь, составляют словарь – множество V. Чтобы говорить о значимых различиях в частоте употребления той или иной переменной в различных выборках, приведем еще одно предположение, на котором основывается наше исследование: «Каждой языковой единице x может быть сопоставлена вероятность p ее употребления в корпусе текстов X» [Там же]. Таким образом, p1, p2, p3, …, – это вероятности, с которыми х принимает значения x1, x2, x3, …, . Попробуем интуитивно разобраться в описанном выше. Важной для нашего исследования величиной, на основании которой мы можем сделать вывод о существенности или несущественности различия в частоте употреблении того или иного слова в нескольких корпусах текстов, является вероятность p, которая может быть вычислена для любого слова x, входящего в корпус X и которая отражает вероятность употребления этого слова x в корпусе X.

Таким образом, для каждого x в корпусе X мы можем получить различные характеристики, основываясь на описательной статистике. Абсолютная частота словоформы в корпусе X – это целочисленное значение, отражающее общее количество употреблений . Приведем таблицу абсолютных частот наиболее употребительных слов в русском и башкирском корпусах поэтических текстов XX в.

Средняя частота характеризует обобщенное значение переменной [Васнев 2001] и прежде всего используется для сравнения нескольких совокупностей признаков. Пусть корпус Хсостоит из N текстов tl, t2, t3, ..., in. Тогда средняя арифметическая частота словоформы хп рассчитывается по формуле: где Гхп - сумма частот словоформы w в п текстах, N - количество текстов, где наблюдается употребление словоформы.

Ниже приведена таблица средних частот наиболее употребительных слов в русском и башкирском поэтических корпусах XX в.

Кроме средней арифметической величины, которая используется чаще всего, существуют также средняя квадратическая, средняя гармоническая, средняя геометрическая, средняя кубическая.

Важной величиной для статистики лингвистических единиц является и относительная частота. В статистике относительные показатели используют для проведения сравнительного анализа, а также обобщения и синтеза. Относительная частота показывает отношение количества словоупотреблений определенной словоформы в наблюдаемом тексте или наблюдаемых текстах к общему количеству словоформ в этом тексте или этих текстах. Относительная частота рассчитывается по формуле: где nw - это количество словоупотреблений w, а N - общее количество слов в тексте или текстах.

Сравним график абсолютных частот частей речи в текстах нескольких русских поэтов XX в. (рис. 2) и график относительных частот частей речи в тестах этих же поэтов (рис. 3).

Сопоставительный анализ дистрибутивных моделей русской и башкирской поэзии XX века

Наиболее интересным для изучения в векторных моделях слов является тот факт, что с помощью таких моделей можно вычислить слова с наиболее близкими контекстами. Они образуют группу слов, включающую лексически сочетаемые слова, синонимы, антонимы, гиперонимы, гопонимы. Таким образом, найдя для определенного слова группу слов, схожих по контексту, мы можем раскрыть различные аспекты значения этого слова. То есть схожие по контексту слова образуют ассоциативный ряд, который может быть использован для раскрытия понятия, которое содержится в анализируемом слове.

Проанализируем векторные модели для русской и башкирской поэзии XX в. Для разработки этих моделей был использован алгоритм Word2Vec, тренировочными данными послужили предложения из корпуса русской и башкирской поэзии XX в. В качестве меры контекстной схожести мы использовали косинусное расстояние между векторами, которыми представлены слова в дистрибутивной модели.

Раскроем понятия счастие в русской поэзии XX в. и бэхет в башкирской, вычислив слова, наиболее схожие с ними по контекст. Получаем следующие группы слов. Для слова счастие: радость, надежда, утрата, счастливый, молодость, суждено, блаженство, беспеременный, вечно. Для бэхет: юра (предсказывать, толковать), бэхетле (счастливый), юлдаш (спутник), влэш (раздавать, выделять долю), телэп (желать), кыуаныс (радость), ышаныс (надежда, вера), омет (надежда).

Поскольку слова, схожие по контексту с понятием «счастье», в русской и башкирской поэзии различаются, значит, различаются и контексты употребления счастие и бэхет, а соответственно, и семантика этих слов. Сопоставляя полученные данные, мы можем делать выводы о схожести и различии национально-специфических черт семантики одного и того же понятия.

Счастье русские и башкирские поэты связывают прежде всего с радостью. Счастье - это то, что приносит радость. Счастье - это то, на что надеются. В этом заключается основное сходство. Отличие же в том, что русские поэты связывают счастье с молодостью, а башкирские поэты в одном контексте используют слова бэхет и влэш, влвш. То есть для башкирских поэтов счастье - это непременно то, чем делятся. А вот русские поэты в одном контексте употребляют счастие и утрата, что говорит о боязни потерять счастье.

Кроме того, в башкирской поэзии общим контекстом связаны такие слова, как кайгьі и уртакла.

Теперь попытаемся определить сходства и различия в представлении понятия «поэт» в языковой картине мира русской и башкирской поэзии XX в. Для это вычислим векторы, которыми представлены слова, схожие по контексту со словом поэт в русской модели и словом шагир - в башкирской. В русской поэзии получаем группу слов: проза, поэзия, пушкин, автор, сочинять, повесть, пример, гадатель, стих, написать, роман, художник, тема, лирический, поэма, читатель, пьеса, называть, талант, прочитать. В башкирской: тукай, хаклы (заслуженный), пушкин, улмэд (бессмертный), данла (почитать), ысын (истинный), исем (имя), твардовский, бабич, ихлас (чистосердечный), лайык (достойный), ябай (простой), герой, тогро (преданный, верный), куцелдэн (душа, чувства), талант, революционер.

Данные результаты позволяют сделать некоторые выводы об особенностях представления русскими и башкирскими поэтами понятия «поэт». Как в русской, так и в башкирской поэзии схожими контекстами обладают слова поэт / шагир и пушкин. Таким образом, мы можем отметить значение творчества Пушкина как для русских, так и для башкирских поэтов. Но в текстах башкирской поэзии Тукай все же обладает более высоким показателем косинусной близости, а значит, для башкирских поэтов того времени понятие шагир было неразрывно связано с татарским поэтом Габдуллой Тукаем.

Анализируя ассоциативный ряд в башкирской поэзии, мы можем определить признаки понятия «поэт», используя прилагательные: данное понятие обладает признаками заслуженности, бессмертности, истинности, чистосердечности, достойности, простоты, преданности. А вот в ассоциативном ряду русской поэзии мы этого сделать не можем, поскольку прилагательных нам не встретилось. Но мы можем использовать существительные, которые способны выступать контекстными синонимами, антонимами, гиперонимами, гопонимами: поэт - гадатель, поэт - художник, поэт - автор, поэт - читатель. Таким образом, использование существительных также может предоставить некоторые характеристики понятия «поэт».

Теперь попытаемся определить сходства и различия в представлении понятия «борьба» в языковых картинах мира русской и башкирской поэзии XX века. Для это вычислим векторы, которыми представлены слова, схожие по контексту со словом борьба в корпусе русской поэзии и корэш в корпусе башкирской поэзии. После произведения вычислений мы получаем следующие списки слов, в которых слова упорядочены по близости векторов к борьба и кврэш, которыми представлены эти слова, к вектору слова борьба: месть, подвиг, победить, поражение, година, битва, окова, вражда, беспощадный, испытание, гибель - для русской поэзии и к вектору слова кврэш: ец, партия, кврэ, бурые, берзэм, тупла, хезмэт, данлы, эшее, синыф, корбан - для башкирской поэзии. Становится очевидной разница в семантической наполненности этого понятия у русских и башкирских поэтов. Если для русских поэтов борьба, ассоциируется прежде всего с местью, то для башкирских поэтов - бурые (долг). Стоит также отметить, что в башкирской поэзии понятие борьба сильно связано с советской идеологией, поскольку среди схожих по лингвистическому контексту слов обнаруживается большое количество идеологизированной лексики: партия (партия), эшее (рабочий), синыф (класс), комсомол (комсомол). В то время как в русской поэзии среди схожих по контексту с борьба подобная лексика отсутствует. Кроме того, стоит отметить, что семантика слова борьба имеет негативную окраску, поскольку среди схожих по лингвистическому контексту обнаруживаются такие слова, как жестокий, мучение, насилие, ненависть. В башкирской поэзии подобной негативной окраски у слова кврэш нет. Таким образом мы можем заключить, что в языковой картине мира башкирских поэтов XX века понятие борьба связано прежде всего с революционной тематикой, а также с понятием бурые (двлг).

В нашем исследовании мы попытались исследовать то, как в языковых картинах мира русских и башкирских поэтов отражены понятия, связанные со словами башкир и рус соответственно. При помощи тех же дистрибутивных моделей мы вычислили векторы, которыми представлены слова, схожие по контексту со словом башкир в корпусе русской поэзии и рус в корпусе башкирской поэзии. Результатом вычисление послужили следующие списки слов: нехристь, душегуб, энтвта, трисмегист, кврмилец, пвмазатъ, слухать, пввалъный, трехлетний, февктист, тверёзый, батрацкий - в корпусе русской поэзии; татар, башкорт, товарищ, тройка, сыуаш, яуги, якла, урыд, сэсэн, халк, дэулэт, зурла - в корпусе башкирской поэзии. Таким образом, мы можем строить предположения о том, как русские поэты отражали башкир в своих произведениях и как башкирские поэты - русских.

Прежде всего мы обратили внимание на наличие лексики с негативной окраской в списке слов со схожими контекстами со соловом башкир в русской поэзии. Стоит отметить эти слова: нехристь, душегуб. Также стоит отметить наличие большого количества разговорной лексики, которая возникала в общих со словом башкир контекстах: энтота, слухать, тверёзый. Интересно, что наличие в этом списке слова тверёзый согласуется с сопоставительным анализом схожих по контексту рядов слов со словами пить и эс. В русской поэзии слово пить тесно связано контекстом со словами выпить, вино, пьяный, хмельной. Эти данные мы получили таким же образом, то есть вычислили вектора слов, наиболее близких к вектору слова пить. В то время, как башкирское эс в меньшей степени связано со словами, означающими алкогольные напитки, процессы употребления алкоголя и нетрезвые состояния.

Если говорить о том, как башкирские поэты XX века отражали русский народ в своих произведениях, то очевидным становится тот факт, что башкирские поэты не стремились каким-то образом оценить русских. Мы видим, что такие слова как татар, башкорт, сыуаш, халк наиболее близки по контексту со словом рус. Далее мы можем сделать вывод, что если контексты у этих слов схожи, но нет никакой специфики в отражении этих нации в текстах башкирской поэзии XX века. То есть башкирские поэты в большей степени одинаково нейтрально описывают любые нации.

Таким образом, мы пришли к выводу, что основное отличие в языковых картинах мира русских и башкирских поэтов заключается в оценке тех или иных явлений. Русская поэзия отличается богатством оценок, в то время как в башкирской поэзии преобладает нейтральность, но заметна сильная идеологизированность.