Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Твиттер как новая дискурсивная практика Атягина Анна Петровна

Твиттер как новая дискурсивная практика
<
Твиттер как новая дискурсивная практика Твиттер как новая дискурсивная практика Твиттер как новая дискурсивная практика Твиттер как новая дискурсивная практика Твиттер как новая дискурсивная практика Твиттер как новая дискурсивная практика Твиттер как новая дискурсивная практика Твиттер как новая дискурсивная практика Твиттер как новая дискурсивная практика Твиттер как новая дискурсивная практика Твиттер как новая дискурсивная практика Твиттер как новая дискурсивная практика Твиттер как новая дискурсивная практика Твиттер как новая дискурсивная практика Твиттер как новая дискурсивная практика
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Атягина Анна Петровна. Твиттер как новая дискурсивная практика: диссертация ... кандидата филологических наук: 10.02.01 / Атягина Анна Петровна;[Место защиты: Омский государственный университет им.Ф.М.Достоевского].- Омск, 2014.- 154 с.

Содержание к диссертации

Введение

ГЛАВА 1. Микроблогингтвиттер в ряду современных интернет-коммуникаций 9

1.1 Интернет-коммуникации и Интернет-жанроведение 9

1.2 Характеристики Твиттера как социального сервиса: типы пользователей, интерфейс 16

1.3 Основные направления исследований Твиттера в России и за рубежом 23

ГЛАВА 2. Характеристики твиттера как дискурсивной практики 35

2.1. Параметры описания дискурсивных практик 35

2.2 Компрессия как дискурсобразующая категория Твиттер-коммуникации 39

2.2.1 Графемный уровень 44

2.2.2 Лексический уровень 48

2.2.3 Синтаксический уровень 51

2.2.4 Семантический уровень 55

2.3 Хэштеги как специфический способ семантической компрессии в Твиттере 59

2.3.1 Функции хэштегов 60

2.3.2 Формы хэштегов 82

2.4 Типы многослойности текста в Твиттере 86

2.4.1 Твиттер как гипертекст. Интертекстуальность в Твиттере 86

2.4.2 Креолизация в Твиттер-коммуникации 94

2.5 Диалог в Твиттере 100

2.6 Перспективы изучения дискурсивных практик Твиттера методами компьютерной лингвистики 112

Заключение 124

Источники

Введение к работе

Реферируемая диссертационная работа посвящена исследованию Твиттера как новой дискурсивной практики.

Новые возможности взаимодействия в Интернете задают новые стандарты
сетевого общения. Становится повсеместно распространенной модель

коммуникации «все для всех», которая теперь позволяет практически каждому пользователю всемирной сети начать коммуникацию или стать участником уже сложившихся контактов. Потребность в практически мгновенном обмене информацией оказывает мощное влияние на существующие дискурсивные практики и вызывает к жизни новые, не похожие на прежние. К их числу относится и социальная сеть Твиттер.

За последние три года популярность Твиттера в целом росла стремительными темпами. Весной 2013 года активная аудитория сервиса микроблогов достигла 200 миллионов пользователей. По данным сайта к началу 2014 года количество активных пользователей достигло уже 230 миллионов человек, а количество ежедневно публикуемых сообщений – 500 миллионов твитов в день.

Актуальность данного исследования определяется, с одной стороны, противоречием между возрастающей ролью Твиттера в общественно-политической и других сферах социальной жизни и малой изученностью специфики этой дискурсивной практики – с другой. Ввиду незначительного количества работ российских исследователей, изучение дискурса русскоязычного сектора Твиттера в особенности значимо для русистики.

Не в последнюю очередь актуальность работы обусловлена запросами практических областей: в сфере информационных технологий сохраняется высокая потребность в повышении эффективности массовых коммуникаций, в медиасреде усиливается спрос на навыки создания семантически емких и в то же время кратких сообщений.

Объектом исследования является микроблог Твиттер как новая
дискурсивная практика. Предмет исследования – коммуникативные и собственно
лингвистические особенности Твиттера как разновидности современного

русскоязычного дискурса.

Цель диссертационной работы - выявить и описать особенности сообщений Твиттера как новой дискурсивной практики.

Поставленная цель реализуется посредством решения следующих задач:

охарактеризовать Твиттер как социальный сервис;

определить жанровые характеристики Твиттера с позиций современного Интернет-жанроведения;

выявить и описать основные дискурсообразующие свойства Твиттера (компрессию на всех уровнях, интердискурсивность, диалогичность, креолизованность);

исследовать основные функции хэштегов в Твиттере и создать их классификацию;

верифицировать основную функцию хэштегов как средства обозначения модели ситуации методами компьютерной лингвистики. Методологическую базу исследования составляют общие методы

описания, обобщения, классификации и моделирования, а также частные методы коммуникативно-дискурсивного и структурно-семантического анализа; также использовались методики направленной выборки, элементы статистического анализа и компьютерная обработка данных.

Материалом для исследования послужили сообщения русскоязычного Твиттера с 2010 по 2013 год, в частности сообщения в микроблогах российских СМИ (Лента.ру, Газета.ру, Омскпресс, Омскинформ), в Твиттер-аккаунтах государственных и коммерческих организаций (Администрация города Омска, фотостудия «2Д», сеть кофеен «ТинТо-Кофе» и другие). Также проводилась выборка сообщений по ряду популярных хэштегов. Всего собрано и проанализировано более 10 000 сообщений Твиттера за указанный период.

Научная новизна работы заключается в том, что впервые на материале русскоязычного Твиттера выявлены и описаны его основные дискурсообразующие признаки - компрессия на всех уровнях, интердискурсивность, креолизованность. Выявлены разнообразные функции «операторов компрессии» - хэштегов - и

предложена их классификация. Представлен подробный обзор новой иностранной литературы по Твиттер-коммуникации, по большей части не переведенной на русский язык и недостаточно известной отечественным исследователям дискурса.

На защиту выносятся следующие положения:

  1. Твиттер как технически новый канал коммуникации оказал существенное влияние на дискурсивные характеристики этого типа речевой коммуникации, что нашло свое отражение на всех уровнях: когнитивном, коммуникативном, лингвистическом.

  2. Языковая компрессия в Твиттере проявляется на графическом, лексическом, синтаксическом и семантическом уровнях, причем наблюдаются как свойства, сходные с аналогичными процессами в разговорной речи, так и специфические для данной дискурсивной практики.

  3. Хэштеги являются одним из наиболее характерных средств семантической компрессии в Твиттере. Среди основных функций хэштегов можно выделить обозначение модели ситуации в целях компрессии; включение в общий контекст/тренды; актуализацию и экспрессию; самопрезентацию; продвижение (товаров, услуг, идей).

  4. Функцию хэштега как обозначения модели ситуации в целях компрессии возможно доказать методами компьютерной лингвистики.

  5. Твиттер представляет собой классический гипертекст и проявляет различные признаки многослойности.

Теоретическая значимость полученных результатов обусловлена тем, что выявлены основные дискурсивные характеристики Твиттер-коммуникации; в научный оборот русистики вводится описание новой дискурсивной практики, во многом отличной от других типов коммуникации в Интернет-среде, что расширяет лингвистические знания о современной русской речи в социальном контексте.

Практическая значимость исследования связана с востребованностью его результатов в практике современных Интернет-медиа, активно использующих информационные возможности Твиттера. Немаловажными представляются

возможности анализа (в т.ч. и компьютерного) Твиттер-сообщений для информационно-аналитической и прогностической деятельности различных государственных и коммерческих структур. Результаты работы могут также найти применение в вузовских курсах, посвященных проблемам дискурс-анализа и Интернет-коммуникации.

Апробация работы. Основные положения диссертационного исследования
были изложены в докладах и сообщениях на аспирантских семинарах, заседаниях
кафедры теоретической и прикладной лингвистики Омского государственного
университета им. Ф.М. Достоевского, на Круглом столе «Твиттер как новый
коммуникационный канал и дискурсивная практика» в рамках научной
студенческой конференции «Молодежь III тысячелетия» (Омск, 2012), на
конференции Congreso de Estudios en Lenguas 2013 (Mexico, 2013), на III
Международной конференции «Речевая коммуникация в современной России»
(Омск, 2013), на III Международной научной конференции «Стилистика сегодня и
завтра» (Москва, 2014). Основное содержание диссертации отражено в 4
публикациях, в том числе 3-х изданиях, рекомендованных ВАК («Вестник
Омского университета», «Вестник Ленинградского государственного

университета им. А.С. Пушкина», электронный журнал МГУ «Медиаскоп»).

Структура работы. Диссертация состоит из введения, двух глав, заключения и списка литературы, включающего 206 наименований. Общий объем диссертационного исследования составляет 157 страниц печатного текста.

Характеристики Твиттера как социального сервиса: типы пользователей, интерфейс

Интернет-коммуникации стали одной из основных форм общения и получения новой информации - а в некоторых случаях и единственной такой формой. За последние пятнадцать лет было опубликовано значительное количество исследований, посвященных Интернет-коммуникациям, однако развитие этой сферы опережает темпы публикаций посвященных ей исследований.

Особенности Интернет-коммуникации, в том числе ее речежанровая структура, активно изучаются в современной «лингвистике Интернета» (термин Е.И. Горошко [Горошко 2007]). По сути, на протяжении последнего десятилетия мы наблюдаем процесс зарождения и оформления как научного направления новой исследовательской области - Интернет-жанрологии, чему свидетельство - работы таких ученых, как В.В. Дементьев, Е.И. Горошко, Н.Б. Рогачева, Г.Н. Трофимовой, Е.А.Штифель, И.Е. Дубчак и др. [Трофимова 2009; Дементьев 2011; Горошко 2011; Рогачева 2011; Коммуникация в Интернете 2012 и др.]. Однако если относительно устоявшиеся формы виртуальной коммуникации - такие как веб-сайты, блоги и Интернет-форумы - всё более глубоко и детально исследуются специалистами [Кравцов 2011; Наумова 2011; Селютин 2008; Свиридов 2008; Меньшикова 2009; Елькина 2010; Баженова, Иванова 2012; Гетманский 2013; Гусева 2013], то новые - микроблоги и, в частности, Твиттер - только начинают изучать. Ориентиром здесь могут быть статьи Е.И. Горошко, а также многочисленных зарубежных исследователей (см. раздел 1.3 данной главы).

Среди основных особенностей общения в сети Интернет исследователи называют анонимность, добровольность и желательность контактов, затрудненность эмоционального компонента общения, стремление к нетипичному, ненормативному поведению, сильное влияние механизмов стереотипизации и идентификации [Виноградова 2004].

В имеющихся на данный момент исследованиях Интернет-жанров классификации основываются как на признаках, аналогичных для жанров традиционных сфер общения, так и на специфических. Существующие обзоры, а точнее, разнообразие используемых в них терминов, показывают, что терминологическому аппарату Интернет-жанроведения еще предстоит сформироваться. Е.И. Горошко указывает также на то, что «остаются до конца нерешенными вопросы о построении системы классификационных критериев для описания всего жанрового разнообразия Сети, отсутствует четкое и непротиворечивое определение того, что, собственно, являет собой дигитальный жанр» [Горошко 2011, с. 12]. Среди работ, посвященных анализу и систематизации Интернет-жанров, можно отметить статью Н.А. Ахреновой, где представлен достаточно полный обзор и анализ имеющихся на момент исследования классификаций Интернет-жанров [Ахренова 2009]. Кроме того, интересный обзор современного состояния виртуального жанроведения представлен в работе [Горошко, Жигалина 2011]. В статье новое лингвистическое направление рассматривается в различных аспектах и обсуждаются его перспективы. Здесь также отмечается отсутствие единства мнений среди ученых-лингвистов по вопросам типологии виртуальных жанров, выделении их классификационных критериев и т.п.

О.Ю. Усачева считает, что «одним из экстралингвистических условий жанропорождения в среде Интернет выступают форматы Интернет-коммуникации, каждый из которых представляет собой специфическую технологическую организацию информационного и коммуникативного контента: веб-сайты, электронная почта (e-mail), Интернет-конференции, чаты, электронные СМИ, библиотеки и др. Каждый из форматов обладает определенным набором жанров (жанровым репертуаром). Полижанровый набор в рамках одного формата предлагается назвать гипержанром Интернета» [Усачева 2010, с. 790].

В.В. Дементьев считает, что многих противоречий, связанных с формированием виртуального жанроведения, удастся избежать, если воспользоваться концепцией М.М. Бахтина и использовать введенное им понятие вторичного речевого жанра, который хорошо вписывается в парадигму современных «техногенных» сфер коммуникации, где непосредственный собеседник заменяется виртуальным партнером [Дементьев 2011].

Опираясь на теорию речевых жанров, предложенную М.М. Бахтиным, можно отметить, что традиционные жанры получают новое содержание в связи с развитием Интернет-технологий. На сегодняшний день можно говорить о развитии в сети целого ряда производных жанров, о чем говорят все исследователи в данной области. Например, А.А. Селютин предлагает условно разделить все жанры виртуальной коммуникации на канонические и неканонические: «Под каноническими мы подразумеваем такие жанры, которые уже нашли свое применение в литературе, лингвистике или культуре. ... Неканоническими жанрами являются такие жанры, которые зародились в рамках Интернет-пространства и не могут существовать вне него» [Селютин 2009, с. 122]. К таким жанрам автор предлагает отнести электронную почту, ICQ, чат, форум, социальные сети и игровые порталы.

Исследование неканонических жанров, зародившихся в Интернете на основе существовавших ранее вне Интернета, в сущности продолжает Н.Б. Рогачева. В своей статье она приводит три основных подхода к пониманию рече-жанровой вторичности: 1) вторичные РЖ онтологически производны от первичных и отличаются от них сферой функционирования или стилистической обработкой (Н.В. Орлова, P.M. Байрамуков); 2) первичные и вторичные РЖ представляют собой разные уровни абстракции текстовой деятельности (А.Г. Баранов, М.Ю. Федосюк); 3) вторичные РЖ являются типами диалогических текстов, а первичные - их структурными элементами (И.Н. Борисова, С. Гайда) [цит. по: Рогачева 2011, с. 7].

По мнению Н.Б. Рогачевой, Интернет-коммуникации противопоставлена диахроническая речежанровая вторичность, предполагающая отношения хронологической первичности-вторичности, то есть последовательности во времени, между первичными и вторичными жанрами, и синхроническая вторичность, предполагающая различия между первичными и вторичными жанрами не в историческом, а в структурном аспекте.

Диахроническая вторичность представлена противопоставлением речевых и риторических, выучиваемых и невыучиваемых жанров, жанров верхнего и нижнего уровней текстовой деятельности, а также прямых и косвенных жанров. Синхроническая вторичность представлена противопоставлением монологической и диалогической форм речи, жанров и жанровых явлений разных уровней абстракции текстовой деятельности (речевой жанр, субжанр, гипержанр, речевой акт, (внутрижанровая) речевая стратегия, текстотип и т.д.).

Вторичные речевые жанры интернет-коммуникации (блог, форум, чат) противопоставлены первичным речевым жанрам непосредственной и любой другой неинтернет-коммуникации по структурным параметрам: наличие элементов диалогичности; репертуар используемых речевых ходов / субжанров; использование сокращенного или развернутого кода; тематическое разнообразие и характер связей между темами; степень креативности или стереотипности текста, морфологические (частеречные) показатели [Рогачева 2009, с. 5].

Таким образом, при изучении Интернет-коммуникации представляется оправданным использование понятия вторичного РЖ как синтетического производного явления, природа которого обусловлена сложными связями с традиционными жанрами.

Основные направления исследований Твиттера в России и за рубежом

Учитывая, что основные концептуальные положения относительно условий функционирования и характеристик разговорной речи как особой языковой системы, противопоставленной кодифицированному литературному языку (КЛЯ), сложились в «докомпьютерную» эпоху, интересно сопоставить их с теми образцами, которые наблюдаются в Твиттер-коммуникации.

По мнению Е.А. Земской, которое разделяют многие современные русисты, три особенности внеязыковой ситуации ведут к использованию разговорной речи, а не КЛЯ: неподготовленность акта коммуникации, непринужденность акта коммуникации, а также непосредственное участие говорящих в акте коммуникации [Земская 1981]. На наш взгляд, эти особенности проявляются и в виртуальном общении, в частности в Твиттере (наиболее ярко это обнаруживается в диалогах и полилогах - см. ниже п. 2.5). И если сообщения (твиты) официальных организаций могут быть построены в рамках КЛЯ, то межличностное общение в социальном сервисе всегда складывается в рамках разговорной речи.

Следует отметить, что в Твиттере, как и в разговорной речи в целом, обнаруживаются две противонаправленные тенденции, обусловленные экстралингвистическими особенностями разговорной речи (ее неофициальностью, неподготовленностью и непринужденностью): «стремление к свободному построению единиц и стремление к шаблону, к использованию готовых речевых формул» [там же, с. 7]. То есть говорящий (или пишущий в сети) одновременно может создавать новые слова, экспериментировать со сленгом и при этом «стремится упростить и облегчить свое «речевое поведение», поэтому он легко и часто прибегает к готовым языковым формулам, в том числе всякого рода клише, шаблонам и стереотипам» [там же, с. 6]. В Твиттере такими готовыми языковыми шаблонами нередко становятся мемы и хэштеги (см. п. 2.2.2 данной работы).

Стремление упростить и облегчить «речевое поведение» приводит к использованию различных типов языковой компрессии в виртуальном дискурсе. А.В. Леонтьева отмечает, что это обусловлено и подходящими форматными особенностями компрессированных единиц, и активным распространением механизма языковой игры в ситуации разножанрового общения с использованием современных средств связи. «Компрессия как вербальное манипулирование в эпоху довлеющего информационного воздействия в условиях виртуального дискурса и СМИ выступает, с одной стороны, как фактор, обеспечивающий экономию форматной площади, а с другой - реализует заложенный в ней механизм вербального манипулирования» [Леонтьева 2009, с.44]. По словам исследователя, такое воздействие обеспечивается стереотипами речевого поведения: «...психологическая обусловленность лучшего восприятия кратких сообщений и ярких компрессивов в условиях сообщений; краткие побудительные реплики вызывают к жизни укоренившиеся предметные ситуации..., наконец, налицо широкое распространение механизма языковой игры, в ситуации которого проявляются богатые возможности языковой компрессии» [там же].

Таким образом, скорость и лаконичность - базовые дискурсивные характеристики Твиттера - оказывают несомненное влияние на современную коммуникацию в целом, а в перспективе могут привести (и в определенной степени уже приводят) к существенным изменениям и в языке. Однако необходимо иметь в виду, что компрессия не является чем-то принципиально новым в речевой коммуникации, поскольку механизмы сжатия информации «работали» до открытия данного сервиса (телеграфный стиль, бегущая строка на телевидении) и продолжают функционировать - прежде всего, в разговорной речи.

Приемы построения семантически и структурно сжатого текста не однажды привлекали внимание исследователей, в том числе и на русскоязычном материале: примером могут быть работы, посвященные т.н. «телеграфному стилю». Несмотря на совершенствование средств передачи информации, его «фамильные черты» не утратились безвозвратно. Суть его заключается в максимальной лаконичности: «в одном предложении - один факт» [Сидорова, Савельев 2002, с. 71]. Еще в докомпьютерную эпоху в работе Е.И. Панченко «Русская телеграфная речь и ее специфика» компрессия рассматривалась как характерное явление текста вообще и телеграфных сообщений в частности [Панченко 1983]. Интересно, что в 2013 году Е.И. Панченко опубликовала исследование, в котором сравнивает механизмы компрессии текста телеграммы и SMS: автор делает вывод о том, что собственно телеграфный стиль отличается более жесткими стандартами построения, в то время как компрессия текста в SMS производится более индивидуально и даже творчески (иногда вплоть до создания собственной системы транслитерации) [Панченко 2013].

Компрессия - явление, при котором «в одном означающем слито несколько означаемых» [ЛЭС 1990, с. 606]. Она способствует лаконичности, динамичности текста, обогащению его неявно выраженными подтекстовыми смыслами, избавляет текст от ненужного повторения информации, поскольку опускается, редуцируется именно то, что менее информативно значимо [Мурзин 1984, с. 40]. В 60-х гг. компрессию и ее проявления на языковых уровнях исследовали А.П. Василевский и Ю.М. Эмдина, которые продемонстрировали проявление компрессии на шести уровнях: фонологическом, или графемном (опущение фонем или графем; редукция гласных и т.д.), морфологическом (образование аббревиатур, сложносокращенных слов; бедность в употреблении глагольных времен и наклонений), синтаксическом (использование менее развернутых конструкций), лексическом (опущение слов в тексте), синтактико-лексическом (опущение служебных и вспомогательных слов), семантическом (опущение менее существенной части информации) [Василевский, Эмдина 1967, с. 37-38].

По мнению Умеровой М.В., языковая компрессия «традиционно рассматривается как обусловленное законом речевой экономии, требованиями жанра, особенностями информационного носителя упрощение поверхностной структуры текста за счет повышения информативности языковых единиц и элиминирования тех компонентов, которые могут быть восстановлены из невербальной части текста, без изменения его информационной стороны по сравнению с исходным текстом или нейтральной стилистической нормой» [Умерова 2011, с. 272—282]. Пропуск логически необходимых элементов высказывания может принимать разные формы и иметь разные стилистические функции. Например, В.П. Кобков выделяет три способа сжатия текста без потери информации: замещение, опущение, совмещение [Кобков 1964, с. 12].

Хэштеги как специфический способ семантической компрессии в Твиттере

Группировать сообщения в Твиттере можно не только по месту действия, но и по любым другим признакам. Например, 5 апреля 2013 года среди самых популярных хэштегов были такие, как #BestTextMessage (пользователям Твиттера предлагалось написать с этим хэштегом лучшее смс-сообщение, которое они когда-либо писали или получали) или #Gaga FollowallMonsters (о поклонниках певицы Леди Гага). Интересно, что такие популярные хэштеги часто дублируются и распространяются в Твиттере одновременно на нескольких языках: например, русскоязычный хэштег #ночъоткровений, англоязычный #confessionsnight, испаноязычный #NocheDeConfesiones предлагают пользователям публиковать личные признания на своем родном языке.

Создание сообщения с популярным хэштегом позволяет привлечь внимание к своей странице (ведь увидеть ее смогут даже те люди, которые иначе никогда бы не заглянули на нее), поэтому использование хэштегов является мощным средством продвижения. Это свойство хэштегов мы выделили в отдельную функцию, которая будет рассмотрена ниже.

В работах, посвященных Твиттеру, не встречается упоминаний данной функции хэштегов, однако, на наш взгляд, она ярко представлена в русскоязычном секторе этого Интернет-сервиса. Иногда слово или словосочетание, выделяемое автором в хэштег, не является частью информационной картины дня, трендов, не включает в себя «модель ситуации» и не является приемом коммуникативной игры (см. об этом далее).

Хэштег выполняет экспрессивную функцию или используется для того, чтобы сделать акцент на том или ином слове. Как, например, в сообщении Твиттер-аккаунта известного писателя-сатирика Михаила Задорнова о «Евровидении»: (127) Дима #Билан не понял главного - почему поехали бабушки? Да потому, что в шоу-бизнесе всё решают #бабки! Мы считаем, что если первый хэштег определенно поставлен с целью включить сообщение в общий контекст упоминаний исполнителя Димы Билана, второй хэштег становится не столько возможностью отметить тему сообщения, но и расставить в нем акценты, показать, что именно хотел сказать автор. Возможно, никто не будет искать сообщения по хэштегу #бабки, но автор уже не только использовал игру слов, основанную на полисемии, но и с помощью хэштега дополнительно выделил это слово и как эффектную концовку.

Исследователь Бенджамин Циммер говорит о таком термине, как «баштэг» (bashtag) - форма шуточного хэштега, чаще всего, когда изначальный смысл хэштега специально меняется пользователями на противоположный [Zimmer 2013].

В приведенных ниже примерах хэштег #такпобедим используется саркастически и, таким образом, несет экспрессивную функцию. В дальнейшем он может стать средством продвижения (как маркетингового, так и в качестве средства популяризации какой-либо идеи) - после того, как получает популярность и превращается в Интернет-игру. (128) Сегодня видели, как Нефидаф перебегал дорогу в неположенном месте ихихихих #нашкандидат #такпобедим; (129) Жители Подмосковья встречают "олимпийский огонь" зажигалками и бросают спички по пути эстафеты. #такпобедим; (130) Обама оказался крупнейшим твиттер-ботоводом в США, но у наших первых лиц все равно больше #такпобедим; (131) В обновлённом рейтинге ФИФА сборной России удалось доползти до 16-го места http://silver.ru/news/56298/ #такпобедим. В приведенном ниже примере (132) слово «запрета» становится хэштегом исключительно с экспрессивной целью, поскольку в качестве ключевого слова хэштеги традиционно используются только в именительном падеже.

В примере (135) пользователь выделяет каждое слово отдельным хэштегом. Это также делает текст сообщения более экспрессивным и воспринимается практически так же, как номинализация при компрессии на синтаксическом уровне.

Стоит обратить внимание на то, что экспрессивным может стать и синтагматика хэштегов: в примере (136) постановкой фамилий политиков Милонова и Мизулиной рядом с фамилией Гитлер автор выразительно обозначает свое отношение к ним.

В примере (137) хэштеги, по сути, заменяют обычный текст сообщения Твиттера. Мы считаем, что пользователь принял решение соединить фразы «Буду с Варечкой смотреть» и «пусть все думаю, что я ребенок» в единый хэштег для того, чтобы сделать на них акцент, выразить свое отношение к событию более экспрессивно и, кроме того, обозначить контекст. Нередко такие хэштеги являются авторскими и используются только одним пользователем, но неоднократно. Можно предположить, что, помимо функции экспрессии и акцентуации, данные хэштеги используются в определенной степени и как средство самопрезентации.

Хэштег может быть просто необычным, иметь интересную форму, сам представлять собой проявление творческой мысли автора. При этом он не обязательно напрямую соотносится со смыслом или содержанием остального сообщения, а имеет более сложные ассоциативные связи. Например:

Подобные хэштеги в статье Бенджамина Циммера названы риторическими хэштегами [Zimmer 2013]. Мы считаем, что такое определение хэштегов с данной функцией вполне оправдывает себя, поскольку они не создаются для включения в определенный контекст и не требуют отклика со стороны аудитории. Разумеется, данный тип хэштегов принимает на себя значительную долю внимания читателей, однако мы относим их к отдельному типу, поскольку он по сути самодостаточен.

Твиттер как гипертекст. Интертекстуальность в Твиттере

Как уже было описано в пункте 1.3 данной работы, методы компьютерной лингвистики активно используются современными учеными для извлечения и анализа данных социальных сетей, в том числе Твиттера. Мониторинг и информационно-аналитические исследования социальных сетей актуальны для изучения взаимодействий между участниками сети, прогнозирования их поведения, классификации, моделирования информационных потоков в сетях. По сообщениям микроблогов можно исследовать отношения пользователей к тому или иному продукту [Abdel-Hafez, Xu, Tjondronegoro 2012], политические настроения перед выборами [Chrzanowski, Levick 2012], предсказывать рост или падение на рынке ценных бумаг [Bollen, Мао, Zeng 2011; Brown 2012] или составлять графики распространения эпидемий гриппа [Paul, Dredze 2012]. Все это так или иначе связано с методиками интеллектуального анализа данных (data mining).

Совместно с учеными из Автономного университета штата Мехико (Universidad Autonoma del Estado de Mexico) доктором Ю. H. Леденевой и доктором P. Г. Эрнандесом мы начали работу над исследованием корпусов сообщений русскоязычного и испаноязычного Твиттера методами компьютерной лингвистики, в частности - методами определения максимальных частотных последовательностей (Maximal Frequent Sequences) и автоматического резюмирования текста (Automatic Text Summarization). На момент написания настоящей диссертации исследование находилось в процессе реализации. В данном подразделе представлены методика, содержание и первые результаты проводимого исследования.

Интеллектуальный анализ данных (data mining) имеет большую историю и включает в себя извлечение информации из разного рода данных -в частности, текстов (text mining) и веб-страниц (web mining).

Интеллектуальный анализ веб-данных, в свою очередь, представляет собой частный случай анализа данных, адаптированных к виртуальной сети: обнаружение и извлечение необходимой информации из документов и веб-служб на основе анализа содержания веб-документов. Такое исследование можно разделить на три типа - анализ веб-структуры, анализ ее наполнения и анализ использования сети [Bing 2007]. Это позволяет структурировать и группировать веб-страницы в соответствии с их содержимым, изучать отношения между веб-документами на основе предыдущих запросов, поиска и доступа пользователей к их содержанию и т.д. Интеллектуальный анализ веб-данных находит широкое применение в исследовании социальных сетей.

Не менее актуальным направлением в компьютерной лингвистике и изучении искусственного интеллекта являются исследования максимальных частотных последовательностей (Maximal Frequent Sequences, или MFS) -последовательностей слов, которые в заданном количестве должны содержаться в исследуемых документах и при этом не должны содержаться в других, более крупных последовательностях. То есть если в качестве объекта для анализа мы выбираем некую группу документов или набор текстов (каждый из которых может состоять как из одного, так и из множества предложений), то элементами этих документов/текстов становятся именно последовательности слов (которые при этом также могут состоять из нескольких или одного слов) [Ahonen 2002].

На данный момент уже существует несколько исследований, сосредоточенных на автоматическом резюмировании тематических корпусов данных на базе сообщений Твиттера, однако встреченные нами работы обращены к англоязычному сектору данного сервиса [Sharifi 2010; Zhang 2013]. При этом следует учитывать сложность работы с испаноязычными и, в особенности, русскоязычными текстами: в связи с обилием словоформ и вариаций лексических единиц нам предстоит выработать специфический подход к обработке имеющихся данных и созданию актуальных и эффективных резюме.

Кроме того, при работе с русским языком возникает еще одна сложность: существующие программы для интеллектуального анализа данных и выделения максимальных частотных последовательностей не могут одновременно работать с двумя разными системами алфавита. К сожалению, в русскоязычном сегменте Твиттера неизбежно одновременное использование и кириллического, и латинского алфавита. Так, например, все имена пользователей по-прежнему указываются с помощью латинских символов и неизбежно воспроизводятся в сообщении во время диалога. Кроме того, русскоязычные пользователи часто указывают хэштеги с помощью латинских символов и используют отдельные слова при общении. Это приводит к необходимости унификации данных для последующей обработки. На данный момент нами принято решение о транслитировании всех кириллических символов, однако работа над проблемой продолжается.

В данном исследовании перед нами поставлены две задачи:

Изучение функции хэштега как модели ситуации методами компьютерной лингвистики. Наша задача - убедиться в том, что данные хэштеги являются моделями конкретных ситуаций (например, хэштег #10dec относится именно к Всероссийскому митингу «За честные выборы» 10 декабря 2011 года) и для большинства пользователей Твиттера, использующих данные хэштеги, обозначают одно и то же. Сделать это возможно с помощью извлечения и анализа максимальных частотных последовательностей: в случае, если одни и те же группы слов (корней слов) будут наиболее частотны в сообщениях с указанным хэштегом у большого количества пользователей, можно прийти к выводу о том, что данная гипотеза подтверждена.

Похожие диссертации на Твиттер как новая дискурсивная практика