Содержание к диссертации
Введение
Глава 1. Корпус текстов - новый тип источника лингвистического исследования 16
1.1. Электронный текст как основа корпуса 16
1.1.1. Свойства электронного текста и его создание 16
1.1.2. Информационный поиск и количественный анализ 18
1.2. Корпусы текстов: принципы построения и репрезентативность 20
1.2.1. Определение понятия «корпус» 20
1.2.2. Типы корпусов и их назначение 29
Выводы к главе 1 32
Глава 2. Разработка и построение электронного корпуса текстов «DER»... 35
2.1. Проблемы составления и использования параллельных корпусов текстов и их субкорпусов 35
2.2. Репрезентативность параллельных корпусов текстов 38
2.3. Подбор текстов для ПКТ «DER» 40
2.4. Членение текстов ПКТ «DER» и определение границ их структурных элементов 42
2.4.1. Единицы текста и их определение 42
2.4.2. Автоматическое распознавание границ предложения при стыковке текстов 46
2.5. Подготовка текстов ПКТ «DER» 49
2.5.1. Общие требования к формату текстов 49
2.5.2. Применение языка разметки XML и рекомендаций TEI для разметки текстов 50
2.6. Стыковка параллельных текстов ПКТ «DER» 51
2.6.1. Автоматическая стыковка параллельных текстов 51
2.6.2. Лингвистический подход к стыковке параллельных текстов 53
2.6.3. Статистическо-вероятностный подход к стыковке параллельных текстов 54
2.6.4. Стыковка параллельных текстов ПКТ «DER» 55
2.7. Программная оболочка ПКТ «DER» и её возможности 66
Выводы к главе 2 77
Глава 3. Использование ПКТ «DER» для исследования особенностей официально-деловых текстов (на материале документов ООН) 81
3.1. Использование квантитативных методов в современной стилистике ... 81
3.2. Актуальные проблемы исследования текстов официально-делового стиля 85
3.3. Документы ООН как особый тип текстов официально-делового стиля 91
3.4. Модальность и основные способы её выражения в текстах официально-делового стиля 96
3.5. Особенности частотно-распределительных характеристик модальных глаголов 106
3.5.1. Особенности употребления глаголов sollen и mussen 116
3.5.2. Особенности употребления глаголов konnen и diirfen 127
3.5.3. Особенности употребление глаголов wollen и mogen 132
Выводы к главе 3 135
Заключение 138
Библиография 145
Начальный список текстов ПКТ «DER» 156
Словари 158
Список принятых сокращений и глоссарий 159
- Электронный текст как основа корпуса
- Корпусы текстов: принципы построения и репрезентативность
- Проблемы составления и использования параллельных корпусов текстов и их субкорпусов
- Использование квантитативных методов в современной стилистике
Введение к работе
В последние годы особое внимание лингвистов, и германистов в частности, уделяется исследованию характеристик устойчивых текстовых форм. Это обусловлено, с одной стороны, развитием стилистических изысканий, направленных на решение проблем разграничения стилей, на выделение стилеобразую-щих признаков, с другой стороны, задачами практической стилистики, современной риторики и культуру речи [Домашнев 1989: 148-149].
Немецкие лингвисты для характеристики устойчивых текстовых форм и их конкретной реализации применяют термины тип текста (Textsorte) и экземпляр текста (Textexemplar). Под типом текста (далее ТТ) при этом понимается форма текста, в которой реализуется коммуникативное намерение говорящего/пишущего и которая строится по определенным правилам и нормам. Каждый конкретный текст (Textexemplar) обладает определенным набором лингвистических и экстралингвистических признаков, по которым его можно отнести к определенному типу текста (Textsorte) [Eisenberg, Gelhaus и др. 1998: 842-845; Steger, Deutrich и др. 1974: 95].
В немецкой стилистике при классификации ТТ принято выделять группу политических текстов [Brinker 1983; Rolf 1993], большинство из которых является текстами официально-делового стиля. В последнее время наблюдается особый интерес германистов именно к изучению политических ТТ. Это обусловлено политизацией и ростом влияния СМИ, а также значительными изменениями характеристик данной группы ТТ, вызванными существенными преобразованиями структуры политических учреждений и политической системы в ФРГ в конце XX века [Klein 2000; Straufi 1986]. Но большинство подобных исследований построено на материале внутриполитических типов текстов (конституция, парламентские документы, законы и т.п.) и мало затрагивают ТТ, относящиеся к внешнеполитической деятельности (международные договоры, документы Европейского союза или ООН).
До настоящего времени не проводилось развернутых исследований, рассматривающих стилистические особенности подобных текстов, где на основе их репрезентативной подборки осуществлялся бы не только квалитативный анализ отдельных, типичных для данного ТТ явлений, но и комплексная квантитативная оценка их частотности. Только такой подход может обеспечить достоверное выявление функционально-коммуникативных особенностей данного ТТ и его актуальных характеристик в немецком литературном языке последних десятилетий.
Для сравнения квантифицируемых признаков текстов (например, для выявления их принадлежности к функциональному стилю или к типу текстов), а также для определения и сравнения лексического многообразия текстов в современной стилистике активно используются квантитативные методы. Их применение для стилистического анализа текстов имеет уже долгую традицию [Schmitz 2000: 196-198]. Как правило, в качестве основы для таких исследований служит корпус, репрезентативная выборка текстов, составленная с учетом таких факторов, как функционально-стилистические особенности, письменная или устная форма существования, содержание. Объем выборки должен быть достаточно большим для того, чтобы достоверно определить стилистические закономерности, отделив их от случайных или нетипичных случаев употребления. Количественные данные, полученные на основе такой выборки, служат в качестве «симптомов» квалитативных характеристик и представляют собой основу для последующей интерпретации [Ризель, Шендельс 1975: 49]. Использование квантитативных методов предполагает исследование обширных массивов текстов, поэтому для их применения большое значение приобретает подготовка репрезентативных выборок текстовых данных и разработка средств доступа к ним на основе новых электронных технологий.
Для лингвистических исследований всё чаще используются именно электронные {машинные) корпусы текстов. Они позволяют более эффективно и широко применять квантитативные методы, в частности для выявления стилистических особенностей входящих в их состав текстов. Особое внимание уде-
ляется выявлению тенденций частотности и дистрибуции отдельных ЯЗЫКОВЫХ единиц и их групп, стохастических зависимостей между ними, а также соотношений между внутренними характеристиками текста и внешними по отношению к нему факторами [Bergenholtz, Schaeder 1979; Pieper 1979; Schmitz2000].
В рамках данной работы был разработан оригинальный двуязычный электронный корпус текстов «DER» (Deutsch-Russisches Parallelkorpus), послуживший текстовой и инструментальной базой для выявления особенностей функционирования модальных глаголов в текстах официально-делового стиля. Корпус «DER» представляет собой параллельный корпус текстов (далее ПКТ), включающий в себя немецко- и русскоязычные варианты документов ООН общим объёмом в 300 000 словоупотреблений. Использование ПКТ, помимо преимуществ одноязычного корпуса при изучении отдельного языка (на основе одного из субкорпусов), дает реальные возможности для проведения контра-стивных исследований, исследования проблем передачи различных языковых явлений в разных языках, поиска использующихся в переводческой практике эквивалентов, для составления и пополнения переводных словарей и обучения иностранному языку.
Итогом данной работы являются два практически и теоретически значимых результата, первый из которых состоит в обосновании необходимости использования ПКТ «DER» и разработке принципов его создания, а второй — в выявлении модальной специфики немецких официально-деловых текстов и особенностей функционирования в них модальных глаголов.
Актуальность данного диссертационного исследования определяется, с одной стороны, необходимостью дальнейшего изучения и выявления закономерностей функционирования модальных глаголов в текстах различных функциональных стилей, а, с другой стороны, ограниченным количеством параллельных корпусов текстов вообще и для пары языков немецкий и русский в частности, а также недостаточной разработкой концепции их составления и технологии обработки.
Научная новизна предлагаемой диссертации состоит в том, что в ней впервые детально описана лингвистическая концепция и на её основе разработана технология построения немецко-русского параллельного корпуса текстов, а также наглядно представлены возможности использования немецкоязычного субкорпуса ПКТ для исследований в области стилистики. В рамках работы детально представлена методика автоматической стыковки параллельных текстов на немецком и русском языках, что не служило ранее предметом рассмотрения в лингвистических исследованиях, а также осуществлено практическое приложение немецкого субкорпуса ПКТ «DER» для выявления специфики употребления модальных глаголов в текстах официально-делового стиля современного немецкого языка, относящихся к внешнеполитической сфере (деятельность ООН).
Теоретическая значимость исследования состоит в обосновании зависимости между частотностью средств реализации категории модальности (на примере модальных глаголов немецкого языка) и основной коммуникативной функции текстов официально-делового стиля (на примере документов ООН). Кроме того, в диссертации подробно разрабатывается теоретическая база для моделирования ПКТ, а также обосновываются возможности применения ПКТ «DER» для комплексного анализа стилистических характеристик конкретных типов текстов. В данной работе рассматривается также широкий круг проблем, касающихся определения особенностей официально-делового стиля в современном немецком языке, места документов ООН как самостоятельного типа текстов в динамичной системе функциональных стилей современного немецкого литературного языка. Несмотря на то, что официально-деловой стиль является многоплановым феноменом, а в спектре политических ТТ проявляет в последние десятилетия значительную динамику, связанную в частности с расши-
рением международной функции немецкого языка [Домашнев 1989: 129-130], за последнее время появилось не так много работ, посвященных этой тематике1.
Материалом исследования послужила выборка электронных документов ООН () на немецком и русском языках. Основу корпуса составляют шесть докладов о работе ООН за 1997-2001 гг., с которыми ежегодно выступает её Генеральный Секретарь перед Генеральной Ассамблеей. Общий объём текстов корпуса составил около 900 страниц и включает примерно 300 тыс. словоупотреблений (на каждый из языков корпуса приходится примерно 150 тыс. словоупотреблений).
Цель данного исследования заключается в выявлении модальной специфики немецких текстов официально-делового стиля и особенностей функционирования в них модальных глаголов на примере репрезентативного корпуса текстов. Для решения поставленной задачи на основании лингвистических принципов была разработана технология составления немецко-русского ПКТ и определены возможности и параметры его применения для выявления базисных стилистических особенностей текстов официально-делового стиля.
На первом этапе работы ставилась задача разработать технологию автоматической обработки текстов для ПКТ, а также средств их представления и анализа. На втором этапе планировалось выявить на основе данных квантитативного и квалитативного стилистического анализа немецкого субкорпуса ПКТ «DER» закономерности частотно-распределительных характеристик немецких модальных глаголов и их зависимость от общей коммуникативно-функциональной направленности представленного в ПКТ «DER» типа текстов (ежегодные доклады Генсекретаря о работе ООН).
См., в частности, диссертационные исследования: Комлева Е.В. Лингвистические особенности выражения побудительности в текстах официально-деловой прозы (на материале современного немецкого языка), АКД. -СПб.: РГПУ им. Герцена, 2003; Исакова Л.Д. Соотношение типологических тенденций и особенностей проявления функционального стиля в современных германских языках, АДД. — М.: МГЛУ, 2001.
Для реализации поставленных целей необходимо было решить следующие общие задачи:
изучить существующие подходы к составлению параллельных корпусов текстов и сформулировать оптимальные принципы составления ПКТ «DER»;
оценить объем существующих параллельных текстов для немецкого и русского языков, возможности их использования и выработать стратегию дальнейшего отбора текстов для ПКТ «DER»;
на основе существующих определений «абзаца» и «предложения» разработать концепцию автоматического определения границ данных структурных элементов для последующей стыковки;
на основе существующих теоретических концепций и методов разработать методику автоматического выявления параллельных сегментов для текстов ПКТ;
разработать программную оболочку для наглядного представления текстов ПКТ и осуществления эффективного поиска в них изучаемых языковых явлений.
После выполнения перечисленных общих технологических задач была сделана попытка найти пути решения следующих лингвистических проблем:
раскрытие основных возможностей использования квантитативных методов для стилистического анализа репрезентативного корпуса официально-деловых текстов',
обоснование зависимости между общей коммуникативно-функциональной направленностью типа текста и основными средствами выражения модальности (на примере модальных глаголов в текстах официально-делового стиля на немецком языке);
выявление особенностей частотно-распределительных характеристик немецких модальных глаголов в текстах официально-делового стиля (на примере текстов ООН, входящих в ПКТ «DER»);
определение значений модальных глаголов, наиболее частотных в текстах официально-делового стиля (на примере текстов ООН, входящих в ПКТ «DER») и выявления преобладающего речевого фона их употребления;
сравнение полученных на основе немецкого субкорпуса ПКТ «DER» (специализированный корпус, где представлен один тип текстов) данных о частотности употребления модальных глаголов с данными одноязычного корпуса «Der deutsche Wortschatz» (общий корпус, где представлены разнообразные типы текстов) для выявления закономерностей употребления модальных глаголов в текстах с различной функционально-стилевой принадлежностью.
Практическая ценность исследования: ПКТ «DER» может служить в качестве основы и инструментария для дальнейших стилистических, лексикологических, грамматических и контрастивных исследований, в частности, он позволяет:
проводить сравнительный анализ особенностей немецкого и русского языков, относящихся к лексическому составу, морфологии и синтаксису (статистический анализ и сравнительный анализ лексических структур и синтаксических конструкций в параллельных текстах);
осуществлять поиск эквивалентов для слов и коллокаций, а также примеров употребления лексических единиц и их перевода на другой язык в зависимости от контекста употребления;
проводить исследования в области стилистики (рассмотрение способов передачи стилистических особенностей в текстах на разных языках, а также определение приемов и стилистических средств, при помощи кото-
рых переводчик передает в языке перевода содержание оригинального текста);
разрабатывать и совершенствовать программные средства для проведения стыковки текстов, автоматического поиска и извлечения эквивалентов для отдельных лексем и коллокаций.
Кроме того, ПКТ «DER» может служить не только в качестве источника статистических данных или для поиска эквивалентов, но и в качестве базиса для дальнейших исследований разнообразных явлений одного из языков корпуса. Например, немецкие тексты ПКТ «DER» по разнообразным параметрам могут служить в качестве самостоятельного объекта исследования, что наглядно продемонстрировано в рамках данной работы.
На основе ПКТ «DER» нами было проведено исследование функционирования модальных глаголов в текстах официально-делового стиля в современном немецком языке, при этом квантитативные методы исследования сочетались с квалитативным анализом полученных на их основе данных. Такой подход обеспечивает достоверное выявление зависимостей между основной коммуникативной функцией представленного в корпусе типа текстов и частотно-распределительными характеристиками модальных глаголов, являющихся в немецком языке одним из основных средств выражения модальности.
В качестве инструментария исследовательской работы были избраны следующие методы исследования: квантитативный метод для выявления на основе ПКТ «DER» тенденций частотности и дистрибуции квантифицируемых языковых единиц и соотношений между внутренними характеристиками текста и внешними по отношению к нему факторами; квалитативный метод для интерпретации полученных статистических данных, для семантического и грамматического анализа употреблений исследуемых языковых единиц в текстах ПКТ; методы и технологии корпусной лингвистики для реализации и обработки ПКТ «DER».
Положения, выносимые на защиту:
Важнейшим лингвистическим принципом построения корпуса текстов, является обеспечение его репрезентативности. Значительное увеличение объема исследуемого корпуса не означает пропорционального роста количества уникальных лексем в нём (т.е. автоматического повышения репрезентативности). Динамика роста количества словоформ уменьшается вместе с ростом количества словоупотреблений в корпусе, поэтому репрезентативность корпуса должна обеспечиваться не столько за счет увеличения его объёма, сколько за счет более тщательной выборки текстов.
Статистические данные о структурных элементах текста могут служить надежной основой для выявления параллельных сегментов в текстах на немецком и русском языках и использоваться при разработке параллельных корпусов текстов.
Документы ООН занимают особое место среди политических типов текстов в составе официально-делового стиля современного немецкого литературного языка, что обусловлено их внешнеполитическим характером, особым статусом их эмитента, усиливающейся интернационализацией немецкого языка.
Между общей коммуникативно-функциональной направленностью текста и основными средствами выражения модальности существует непосредственная зависимость, выражающаяся для модальных глаголов немецкого языка в изменении их частотно-распределительных характеристик в зависимости от функционально-стилевой принадлежности текста.
Речевой фон употребления отдельных модальных глаголов немецкого языка, частотность и выбор синтаксических конструкций для их употребления тесно связаны с общей коммуникативно-функциональной направленностью текстов.
Апробация результатов исследования: основные положения работы были представлены в виде докладов на Международных научных конференциях
«Korpuslinguistik deutsch: synchron — diachron - kontrastiv» (2003 г.) и «Europa-tag» (2004 г.) в университете г. Вюрцбург (ФРГ), «Компаративистика: современная теория и практика» (2004 г.) в Самарском государственном педагогическом университете и на конференции «Русско-немецкие культурно-исторические контакты» в Тольяттинском государственном университете (2004 г.), а также обсуждались на заседаниях кафедры немецкой филологии СамГУ.
Структура и объем диссертации: диссертация состоит из введения, трех глав, заключения, списка использованной научной литературы и словарей, списка входящих в ПКТ «DER» текстов, глоссария терминов и приложения (CD-ROM с электронной версией ПКТ «DER» для Windows).
Во введении обосновывается актуальность исследования, определяется цель работы, её теоретическая значимость и практическая ценность, указываются методы исследования и материал, а также формулируются положения, выносимые на защиту.
В первой главе даётся подробное определение понятия «корпус текстов», теоретически обосновывается использование корпусов текстов в современной лингвистике (германистике), проводится критический анализ существующего опыта в области составления корпусов текстов и рассматриваются основные их типы.
Во второй главе формулируются основные принципы составления параллельных корпусов, применявшиеся при работе над данным проектом, а также описывается исходный массив текстов. В главе рассматриваются проблемы автоматического определения границ структурных единиц текста (абзацев и предложений) и различные подходы к автоматической стыковке параллельных текстов. Кроме того, здесь приводится краткое описание программной оболочки, разработанной для представления текстов ПКТ «DER» и осуществления поиска в них.
В третьей главе даётся обзор использования квантитативных методов в стилистике, определяются актуальные проблемы исследования текстов официально-делового стиля, описываются основные характеристики входящих в ПКТ «DER» текстов. На основе представленных в корпусе текстов рассматривается зависимость между общей коммуникативной функцией текста и частотно-распределительными характеристиками немецких модальных глаголов.
В заключении обобщены основные результаты проведенного исследования: представлены выводы относительно критериев составления немецко-русского параллельного корпуса текстов и возможностей его применения в лингвистических исследованиях, а также намечены возможные перспективы дальнейшего развития и использования ПКТ «DER».
Электронный текст как основа корпуса
Прежде чем перейти к рассмотрению понятия «корпус», необходимо остановиться на свойствах так называемого «электронного текста», составляющего основу машинного корпуса текстов. Электронный текст обладает по сравнению с печатным принципиально новыми свойствами, что обусловлено новым подходом к его хранению, передаче и распространению. Использование электронного текста предоставляет лингвистам широкие возможности по автоматической обработке больших текстовых массивов, требуя от них дополнительной квалификации и нового подхода к привычным проблемам.
Использование компьютерных технологий в лингвистике имеет давнюю традицию (особенно, если учесть, что история самих компьютеров насчитывает несколько десятилетий) [Jannidis 1999: 39-60]. Еще в 1949 году Р. Буса начал работу над автоматическим составлением конкорданса произведений Фомы Аквинского, которая была окончена лишь спустя несколько десятилетий [Busa 1980]. В настоящее время существует большое число проектов в различных областях лингвистики, в которых используется ЭВМ: автоматическая подготовка к печати и генерирование индексов, электронные издания, стилистический и содержательный анализ текста с помощью компьютера, распознавание и генерирование речи и многое другое. Данную область исследований собирательно обозначают как «Humanities Computing» («гуманитарная информатика»).
Электронный текст является основой для любой деятельности, связанной с компьютерной филологией и лингвистикой. Первоначально он был одной из ступеней создания печатного текста, постепенно превратившись в конечный продукт: электронное издание, специализированную информационную систему или лексическую базу данных. Для дигитализации текста (его превращения в электронную форму) необходимо перенести информацию о каждом отдельном знаке текста, а также всю метаинформацию на электронный носитель. Мета-информацией в электронных текстах являются дополнительные сведения, содержащиеся в тексте, начиная от подчеркиваний, жирного шрифта, разделения текста на главы, акты, стихи, строфы, вплоть до указания имени автора, названия произведения, дополнительных данных лингвистического характера. Как правило, процесс (ре)дигитализации печатного текста состоит из следующих шагов: оцифровки печатного оригинала и снабжения его дополнительной мета-информацией.
Разметка текста (markup), добавление в текст метаинформации, может частично осуществляться при вводе текста (напрямую или опосредованно) или автоматически, основываясь на особенностях имеющегося текста. Для большинства текстов с более или менее сложной структурой требуется дополнительная обработка квалифицированным филологом, который вносит дополнения и замечания, связывает гиперссылками отдельные части текста или составляет критический аппарат к нему. Для публикации электронный текст адаптируется под программную оболочку, при помощи которой осуществляется его репрезентация, а также поиск и навигация.
Существенную проблему для лингвистов, работающих с электронным текстом, представляет его долгосрочное сохранение. Большинство доступных в настоящее время коммерческих электронных изданий по причине своего про-приоретарного формата тесно связаны с программами, предназначенными для их репрезентации и поиска в них, а, следовательно, зависят от срока службы программ. Добиться кодировки, большей частью независимой от программной оболочки и операционной системы и сопоставимой по своей долговечности с печатным текстом, позволяет разработанная независимой группой лингвистов Text Encoding Initiative (TEI, wvyw.tei-c.org) система филологической разметки текстов. Разметка TEI базируется на XML (Extensible Markup Language) — универсальном языке разметки текстов, являющемся международным стандартом.
Она обладает необходимыми возможностями для выделения в тексте особенностей, специфичных для прозы, лирики, драмы, а также для разметки транскрипции речи, словарей и терминологических баз данных. Кроме того, в разметке TEI реализованы механизмы для построения сложных гипертекстовых ссылок, а также для кодирования любого символа. XML и TEI базируются на концепции семантической разметки, которая отделена от любой типографической информации, описывающей её представление. Для репрезентации текста (например, для создания печатного варианта) используются данные, представленные с помощью собственного языка для описания форматирования и учитывающие особенности носителя, на который осуществляется вывод информации.
Преимущество TEI состоит в том, что филологи, которые хотят на долгое время сохранить электронную публикацию, могут применять для этого единый стандарт, созданный совместными усилиями независимой группы лингвистов разных стран и находящийся более десяти лет в развитии и тестировании.
Корпусы текстов: принципы построения и репрезентативность
Термин «корпус» является неоднозначным, обозначая в лингвистике самые разнообразные объекты. Став в какой-то мере «модным» в современной лингвистике, он нередко утрачивает однозначность и строгость в употреблении (ср., «корпус высказываний/примеров употребления»). Общим является то, что во всех случаях речь идет о некой подборке языкового материала и, как правило, имеется в виду подборка полных текстов или их достаточно крупных фрагментов [Андрющенко 1990: 14-15]. Нет единства мнений по поводу того, является ли корпусом выборка изолированных предложений или отдельных слов. Для наглядности рекомендуется использовать термин корпус текстов, который употребляется наравне с термином корпус и служит для обозначения подборки текстов или отдельных их частей. Под текстом в данном случае понимается относительно самостоятельная, содержательно связанная последовательность ее тественных языковых высказываний, а под частью текста - его связанный, сплошной фрагмент. На наш взгляд, следует отличать корпус текстов от подборки примеров, поскольку в данном случае из используемых текстов более или менее произвольно извлекаются отдельные цитаты, а условие содержательной когерентности не выполняется.
Нет единства мнений и по поводу того, должен ли корпус содержать только тексты, которые являются результатом спонтанных, естественных ситуаций коммуникации, или данный термин также применим к текстам, искусственно возникшим вне акта языковой коммуникации. Поскольку в дискуссии об эмпирических данных, собираемых для описания языка, центральную роль играет противопоставление корпуса и интуиции, неуместно обозначать термином «корпус» набор выдуманных (возникших вне акта коммуникации) примеров. Высказывания, возникшие в результате коммуникативного намерения, по многим причинам нельзя приравнивать к примерам, которые искусственно создает в рамках лингвистической дискуссии считающий себя «компетентным» носитель языка. Неоднозначными являются также данные, полученные в результате неспонтанного акта коммуникации. Поскольку качественный показатель подобных языковых высказываний широко варьируется, более уместно использовать для подобных «подборок примеров» предложенный К. Баушем [Bausch 1975: 132] термин «манипулируемый корпус» и отличать его от корпуса, состоящего из аутентичных текстов (т.е. являющихся результатом естественной, не подготовленной заранее коммуникативной ситуации). Под корпусом текстов в широком смысле понимается «сформированная по определенным правилам выборка данных из проблемной области», он представляет собой «вид корпуса данных, единицами которого являются тексты или их достаточно значительные фрагменты» [Баранов 2001: 115].
Опираясь на определения К. Бауша [Bausch 1979: 78] и Т. Бунгартена [Bungarten 1979: 34], мы придерживаемся следующей трактовки понятия корпус: корпусом является ограниченное количество языкового материала, состоящего исключительно из (письменных или устных) текстов или их частей.
Под текстом в данном случае понимается относительно самостоятельная, содержательно связанная последовательность естественных языковых высказываний, а под частью текста - его связанный, сплошной фрагмент.
В рамках компьютерной лингвистики особое внимание уделяется корпусам, представленным в электронной форме и предназначенным для машинной обработки. Помимо самой подборки текстов, важную роль для лингвистического исследования играют получаемые на его основе статистические данные, списки слов по частям речи, а также подборки примеров и конкордансы. Подобные дополнительные материалы должны планироваться уже на стадии разработки корпуса, поскольку это влияет на дальнейший процесс обработки данных, а также на возможности автоматического составления выборок, конкордансов и удобство использования корпуса в целом.
Лишь с появлением компьютеров появилась возможность быстро собирать и обрабатывать большие массивы данных. Согласно Т. МакЭнери и Э. Уилсону [McEnery, Wilson 1996: 69], мнение о том, что корпуса текстов появились в 1960-х гг. и получили широкое распространение в 1980-х, является заблуждением. До появления порождающей грамматики в лингвистике доминировало именно изучение массивов эмпирических данных (корпусов), но их анализ выполнялся вручную, вследствие чего объем данных был ограничен. Однако еще в конце XIX века некоторые исследователи без помощи компьютера обрабатывали огромные массивы данных. Например, Ф.В. Кэдинг в 1897 г. исследовал частотность букв и буквосочетаний в немецком языке на материале корпуса объемом 11 млн. словоупотреблений. Для этого ему потребовалась помощь 5000 человек, занимавшихся поиском и подсчетом слов в текстах корпуса [McEnery, Wilson 1996: 17].
Проблемы составления и использования параллельных корпусов текстов и их субкорпусов
Одной из интенсивно развивающихся областей современной корпусной лингвистики является разработка многоязычных ресурсов. Однако, несмотря на активную работу по созданию многоязычных корпусов текстов, их доля по сравнению с одноязычными корпусами остается малой. Отставание многоязычных ресурсов тормозит развитие контрастивной лингвистики, многоязычной лексикографии, исследований по типологии, теории перевода и других направлений.
Наиболее важными типами корпусов для теории и практики перевода, для контрастивных исследований и других смежных областей являются многоязычные корпусы текстов (multilingual corpora), параллельные корпусы текстов (parallel corpora, далее ПКТ) и сопоставительные корпусы текстов (comparable corpora). Многоязычный корпус текстов представляет собой несколько аналогичных по структуре одноязычных корпусов текстов. Сопоставительный корпус, как упоминалось выше, является многоязычным корпусом текстов, включающим одноязычные субкорпусы, имеющие сходную структуру и составленные по одинаковым принципам.
Параллельные корпуса текстов составляются из оригинальных текстов на языке А и их переводов на язык В. Для ПКТ выделяется ряд подтипов: тексты на языке А и их переводы на язык В; тексты на языках А и В и их переводы соответственно на языки В и А; только переводные тексты на языках А, В, С, ..., X, если оригинальные тексты были написаны на языке D [Teubert 1996: 238-264]. Кроме того, к ПКТ можно отнести диахронические корпуса, которые составляются из текстов на более ранней форме языка и их переводов на современный язык, транскрипционные корпуса текстов, включающие тексты на ли тературном языке, прочитанные носителями разных его диалектов. В качестве подтипов можно выделить «шумные» ПКТ (noisy parallel corpora; с пропусками в переводе, без точного соответствия между оригиналом и переводом), «зеркальные» ПКТ (reciprocal corpora), состоящие из текстов на языках А и В и переводов этих текстов соответственно на языки В и A [Borin 2002: 1-43].
Важность ПКТ обусловлена тем, что «прескриптивный пафос исследований постепенно сменяется дескриптивным. ПКТ позволяют объективно установить, как переводчики на практике преодолевают трудности, и использовать эти данные для разработки соответствующих реальности моделей для начинающих переводчиков. Они также играют важную роль в исследовании переводческой нормы в специфических социокультурных и исторических контекстах» (перевод здесь и далее наш. - СВ.) [Baker 1995: 231]. Это делает многоязычные корпуса текстов во многих отношениях привлекательными для переводчиков-практиков. ПКТ остаются незаменимым источником данных как для проведения исследований в области прикладной лингвистики (апробация систем автоматизированного перевода, заполнение систем «переводческой памяти» - translation memory, разработка систем автоматического поиска переводных эквивалентов и т. п.), так и для контрастивных и переводоведческих исследований (сравнение структуры исходного текста и перевода, определение степени информационных потерь при переводе, изучение различных переводческих стратегий и т. п.). ПКТ могут быть использованы при обучении иностранному языку.
Применение ПКТ, в частности, дает реальные возможности изучения использующихся в переводческой практике эквивалентов, что может поднять на новый уровень переводные словари и обучение переводу. Другое важное их применение - это сравнение исходных текстов и переводов. Таким образом, исследователь получает возможность подробного рассмотрения стратегий, которыми пользуется переводчик для разрешения различных грамматических и стилистических несоответствий языка оригинала и языка перевода. ПКТ представляют интерес и как материал для исследования языка переводных текстов и их отли
чий от языка текстов, изначально написанных на данном языке. Не следует забывать и об их важности для компьютерной лингвистики: они могут использоваться в качестве основы для разработки и тестирования различных программ обработки естественного языка, в первую очередь - систем автоматизированного перевода. Параллельные корпуса художественных текстов могут использоваться и в смежных областях (литературоведение, культурология и др.). Так, например, Д.О. Добровольский [Добровольский 2004; Добровольский 2003: 13-18] использует русско-немецкий корпус параллельных текстов, создаваемый Австрийской академией наук в рамках проекта «Корпус Австрийской Академии» (ААС), для исследования динамики лексической сочетаемости и рассмотрения зависимости «между сочетаемостными свойствами слова и его семантической структурой» [Добровольский 2004: 1]. По его мнению, сопоставление слова с его переводными эквивалентами, встречающимися в корпусе, «помогает вскрыть нетривиальные семантические и сочетаемостные особенности соответствующих лексем обоих языков» [там же].
ПКТ является универсальным средством не только для сопоставительных исследований нескольких языков или для поиска эквивалентов, но для исследований каждого из языков корпуса в отдельности. В этом случае одноязычный субкорпус ПКТ может выступать в качестве самостоятельного корпуса и служить основой для проведения исследований одного из языков ПКТ.
При составлении ПКТ, в отличие от одноязычных и сопоставительных корпусов текстов, следует учитывать фактор межкультурных связей. Множество текстов исходного языка (ИЯ) составляют лишь те тексты, которые были переведены на второй язык (ПЯ), и, если межкультурные связи полностью отсутствуют, получение ПКТ невозможно. Чем слабее межнациональные и культурные связи, тем меньше переводов выполняется и тем более проблематично составление полноценного ПКТ.
Параллельный корпус, таким образом, является «точкой пересечения» двух языковых культур, состоя из двух (иногда более) субкорпусов - текстов на ИЯ (субкорпус ИЯ) и их переводов на один или несколько ПЯ (далее - субкор-пус(ы) ПЯ). Тексты на ИЯ, хотя и являются первичными, отбираются с учетом ПЯ. Структура субкорпуса ИЯ определяется наличием или отсутствием переводов на ПЯ, а также тем, какого рода тексты переводятся. При составлении ПКТ могут использоваться разнообразные языковые ресурсы: специальные тексты, тексты СМИ, научные тексты, художественные тексты.
Использование квантитативных методов в современной стилистике
ПКТ «DER» позволяет, помимо прочих возможностей, более эффективно и широко использовать квантитативные (количественные) методы, в частности для выявления стилистических особенностей/параметров входящих в его состав текстов. Применение этих методов традиционно является неотъемлемой частью при составлении крупных корпусов текстов, а также при их последующем анализе. Их целью является исследование всех квантифицируемых (поддающихся количественной оценке) свойств текста для их последующего описания, сравнения друг с другом, классификации по различным параметрам и т.д. На основе полученных данных возможно выявление закономерностей, определяющих стилистические особенности текстов, разграничение стилей.
Основной предпосылкой для применения статистических методов является четкое определение квантифицируемых единиц и их подсчёт, в результате чего исследователь составляет таблицы частотности для исследуемых единиц, выявляет такие статистические показатели, как средние значения и индексы частотности употребления. Полученные данные подвергаются детальному анализу, на основе которого выявляются модели и закономерности употребления отдельных языковых единиц. При этом особое внимание уделяется выявлению тенденций частотности и дистрибуции отдельных языковых единиц или их групп, стохастических зависимостей между ними, соотношений между внутренними характеристиками текста и внешними по отношению к нему факторами.
Для современной стилистики характерна определенная тенденция к дескрип-тивизации, а количественные показатели служат важным источником данных о текстах. На том факте, что различия между языковыми стилями и жанрами носят преимущественно статистический характер, основана статистическая стилистика. Так, возможность количественно отражать через лексику тематическую отнесенность текстов находит широкое применение для их описания и классификации. С другой стороны, квантитативные методы, примененные к текстам, «открывают путь к изучению самого языка, поскольку сегменты текстов, являющиеся объектами подсчетов, соотнесены с единицами языка» [Шайкевич 1990: 231]. Они позволяют количественно описывать «поведение» различных языковых единиц (фонем, графем, морфем, слов) в тексте: частоту употребления, их распределение в текстах разного жанра, сочетаемость с другими единицами и т.п. Таким образом, накапливается обобщенная количественная информация о классах единиц, о языковых конструкциях (напр., данные о средней длине слова или предложения, о частоте употребления отдельных грамматических форм в тех или иных синтаксических функциях и т.п.) Подобная информация углубляет описание единиц языка и служит для построения структурно-вероятностной модели языка, в которой единицы языка обладают «весом», а противопоставления и связи оказываются измеряемыми.
При помощи дескриптивных статистических методов определяются квантитативные характеристики типов текстов. Аналитические методы оперируют полученными таким образом количественными и статистическими данными и служат для описания взаимодействия факторов и признаков, влияющих на организацию текста.
В современной стилистике статистические методы используются для решения в основном следующих задач [Schmitz 2000: 196-198]: подсчет отдельных элементов текстов и вычисление их статистических значений; определение синтаксической и лексической однородности отдельных текстов или их групп; сравнение квалифицируемых признаков текстов (например, для выявления их принадлежности к функциональному стилю, типу текстов, эпохе или автору); описание вероятностных характеристик стилистических норм и отклонений от них; определение и сравнение лексического многообразия текстов (например, за счет выявления соотношения количества словоформ к количеству словоупотреблений (typeoken ratio)); представление процесса постепенного развертывания новой информации в тексте; поиск сходств и различий отдельных классов языковых единиц в разных типах текстов.
Если языковой феномен поддаётся количественной оценке, то квантитативные методы могут представлять надежный эмпирический базис для его описания или анализа. Данные, полученные с помощью статистических методов, позволяют ставить перед исследователем в области стилистики новые вопросы и служить источником новых теоретических предположений.
Квантитативные методы оперируют исключительно квантифицируемыми характеристиками текстов, но не дают возможности определить смысл высказывания или отдельной языковой единицы. Несмотря на то, что традиционная стилистика зачастую опирается на субъективную оценку, количественный анализ квантифицируемых стилистических признаков играет в ней важную роль: квантитативный и квалитативный подходы взаимно дополняют друг друга и повышают общую достоверность результатов исследования.