Содержание к диссертации
Введение
Глава 1. Обзор исследований вариативности структурных единиц в различных языковых системах 12
1.1. Исследование вариативности в лингвистике 12
1.1.1. Варьирование в «узком» и «широком» смысле 12
1.1.2. Вариативность на разных уровнях языковой системы 17
1.2. Вариативность и меры близости символьных последовательностей .. 19
1.2.1. Метрика Левенштейна (редакционное, эволюционное расстояние) 19
1.2.2. Теоретико-множественные меры сходства 20
1.2.3. Корреляционные и ранговые меры близости 22
1.3. Описание вариативности на языке «образцов» (шаблонов) 23
1.4. Исследование вариативности в других языковых системах 26
1.5. Актуальность количественных подходов к анализу проявлений вариативности 30
1.6. Выводы по первой главе 31
Глава 2. Методика количественного исследования вариативности языковых единиц 34
2.1. Формирование обучающих подборок. Предобработка текста 34
2.2. Анализ редакционных операций. Выбор мер сходства 38
2.3. Представление обучающих подборок: «Z-граммы на словах» 41
2.4. Выделение структурных единиц из текста 44
2.4.1. Алгоритм выделения устойчивых цепочек слов 44
2.4.2. Выявление аспектных маркеров 48
2.4.3. Выделение сверхфразовых единств 51
2.5. Способы описания вариантов ЯЕ 55
2.5.1. Формирование ближайших окрестностей ЯЕ 56
2.5.2. Представление вариантов в виде образцов 57
2.6. Алгоритмы получения количественных оценок вариативности ЯЕ...59
2.7. Программная реализация методики 64
2.8. Выводы по второй главе 66
Глава 3. Исследование вариативности корней и слов в русском языке ..69
3.1. Количественные характеристики 1-окрестностей корней и слов 69
3.1.1. Зависимость числа соседей от длины ЯЕ, редакционной операции и номера позиции 70
3.1.2. Количественная и качественная характеристика векторов замен...74
3.1.3. Количественная и качественная характеристика векторов вставок 78
3.2. Создание тестовых словарей для систем распознавания речи на основе словаря паронимов 81
3.2.1. Сравнение количественных характеристик графической и фонетической версий словаря паронимов 82
3.2.2. Выбор «трудных» подсловарей из словаря квазиомонимов 84
3.3. Количественные характеристики слов с несколькими искажениями 87
3.3.1. 2-окрестности слов для разных типов редакционных операций 88
3.3.2. Кластеризуемость множественных искажений 92
3.3.3. Перестановки и переносы символов в словах 96
3.3.4. Случай трех искажений в слове 98
3.4. Вариативность морфемных моделей слов 99
3.4.1. Интегральные характеристики типовых морфемных структур 100
3.4.2. Характеристики 1-окрестностей морфемных моделей 104
3.5. Выводы по главе 3 108
Глава 4. Анализ вариативности словосочетаний 112
4.1. Количественный анализ и варьирование индикаторных словарей... 112
4.1.1. Количественные характеристики и оценка эффективности индикаторных словарей 114
4.1.2. Пополнение индикаторных словарей путем варьирования маркерных словосочетаний 117
4.2. Анализ вариативности заголовки, построенные на «игре слов» 122
4.2.1. Описание исходных данных 122
4.2.2. Классификация прототипов и их источников 125
4.2.3. Качественная и количественная характеристика схем варьирования 129
4.2.4. О возможности автоматизации моделирования заголовков из прототипов 140
4.3. Выводы по главе 4 142
Глава 5 Анализ вариативности на уровне текстов 144
5.1. Сравнение разных переводов одного текста 144
5.1.1. Анализ совместного частотного спектра двух переводов 145
5.1.2. Анализ расхождений переводов с оригиналом и друг другом 150
5.2. Формирование и сравнение различных квазирефератов текста 153
5.2.1. Профиль кластеризуемое языковых единиц в тексте 154
5.2.2. Построение квазирефератов текста с использованием профиля кластеризуемое, веса фраз и аспектных маркеров 157
5.2.3. Экспериментальная проверка и сравнение методов 158
5.3. Выводы по главе 5 162
Заключение 165
Список использованных источников 170
- Вариативность и меры близости символьных последовательностей
- Анализ редакционных операций. Выбор мер сходства
- Создание тестовых словарей для систем распознавания речи на основе словаря паронимов
- Анализ вариативности заголовки, построенные на «игре слов»
Введение к работе
Известно, что объемы текстовой информации в электронных хранилищах данных удваиваются каждые три года. В связи с этим возникает потребность в разработке человеко-машинных интерфейсов, а также систем автоматического извлечения фактов и знаний из текстов различной языковой природы. Серьезные трудности при этом создает вариативность языковых единиц (ЯЕ), проявляющаяся в разных формах на всех уровнях иерархии. Проблема вариативности структурных единиц является одной из центральных для различных языковых систем [4, 14, 22, 35, 36]. В частности, вариативность лежит в основе эволюционного процесса, определяющего наиболее вероятные пути трансформации структурных единиц. Всестороннее изучение вариативности способствует углублению понимания организации, функционирования и эволюции языковой системы.
Для автоматического обнаружения и отолсдествления вариантов ЯЕ в тексте необходимо разрабатывать специальные программные средства с опорой на алгоритмы, формализующие понятие ЯЕ и ее ближайшей окрестности. В основе таких алгоритмов лежит изучение закономерностей варьирования ЯЕ, в частности, выявление допустимых преобразований (редакционных операций), а также получение количественных характеристик вариативности ЯЕ. Они включают в себя формальные оценки близости двух ЯЕ, доминирующие типы редакционных операций, оценки устойчивости различных позиций внутри ЯЕ, характеризующие возможности ее членения на более мелкие единицы и др.
Отождествление вариантов языковых единиц (ЯЕ) производится программными средствами самых разных пользовательских систем - от информационно-поисковых до автоматических корректоров ошибок. Например, все интерфейсы, имеющие дело с текстами на естественном языке, сталкиваются с ошибками в написании слов в виде пропущенных, лишних или замененных букв, их перестановок и т.п. Существующие корректоры не всегда обнаруживают такие ошибки, поскольку написанное слово может совпасть с другим,
также содержащимся в словаре системы: («подробно осуждается при-, мер...», «рассматриваются классификационные рублики и рубрики предметного каталога...»). Обнаружение и исправление ошибок такого типа и других, требующих привлечения семантики и использования контекста, является актуальной задачей компьютерной лингвистики.
Трудности информационного поиска во многом обусловлены высокой вариативностью представления поисковых объектов в текстовой форме. Например, если нас интересует такой аспект содержания научной работы как «цель исследования», то его поисковыми маркерами могут служить такие комбинации слов как «в настоящей работе», «в данной работе», «в данной статье», «в работе рассматривается», «целью работы является», «в статье описывается», «данная работа посвящена» и многие другие. Исследование закономерностей варьирования помогает расширить поисковый запрос, повысить полноту и точность поиска.
Объектом исследования в данной работе являются ЯЕ разных иерархических уровней: корни, канонические формы слов, устойчивые словосочетания, фразы, построенные на «игре» слов, сверхфразовые единства, авторские аннотации и формально построенные квазирефераты текста. Традиционные лингвистические исследования вариативности языковых систем носят преимущественно качественный характер. Отличительной чертой данного исследования является получение количественных характеристик вариативности ЯЕ и ориентация на единицы разных иерархических уровней, в том числе высоких - слабо формализованных. Эти особенности определяют широкую сферу применимости программно-алгоритмического комплекса, созданного для анализа вариативности ЯЕ. Он может быть использован для обнаружения дубликатов, заимствований (в том числе в текстах программ), оптимизации информационного поиска (обогащение запроса путем варьирования, формирование шаблонов), сегментации длинных неструктурированных текстов, обнаружения ошибок и стилеметрии (формализация понятий «норма», «отклонение от нормы»).
Сложность исследования вариативности ЯЕ проявляется также и в том, что программный комплекс должен включать широкий набор средств автоматической обработки текстов (АОТ). Отнюдь не все ЯЕ фиксируются в тексте в явном виде с помощью формальных разделителей, относящихся к разным иерархическим уровням (пробелы, запятые, точки и т.п.). Некоторые типы ЯЕ, активно изучаемые в последнее время (например, устойчивые словосочетания, максимально длинные внутри- и межтекстовые повторы, сверхфразовые единства), требуют разработки специальных алгоритмов для своей идентификации, что также нашло отражение в данной работе. Поскольку многие из интересующих нас ЯЕ имеют значительную длину, для их выделения из текста использовался аппарат L-граммного анализа, где под L-граммой понимается цепочка из L подряд следующих слов текста* (возможно, нормализованных). В [29] показано, что по параметру L спектр L-грамм целесообразно ограничивать длиной максимального повтора в тексте {Lmax). Информация о частоте и местах вхождения различных Z-грамм в текст, является основой для выделения ЯЕ более высоких, чем слово, уровней. Кроме того, необходимы программы для фильтрации не представляющих интереса вариантов, возникающих, в частности, при словоизменении.
В соответствии с вышеизложенным целями исследования являются: - разработка и программное обеспечение методики выделения и количественного анализа вариативности ЯЕ;
- исследование закономерностей варьирования ЯЕ на разных уровнях ие
рархии и использование этих закономерностей в приложениях.
Это достигается путем:
- формирования достаточно представительных обучающих подборок по каж
дому изучаемому классу ЯЕ, в которых наряду с самими ЯЕ представлены их
различные варианты. В общем случае эта процедура может включать в себя
* Термин /,-грамма был, по-видимому, впервые употреблен Шенноном [75] применительно к цепочке из L подряд следующих символов, но позднее его стали использовать и применительно к более крупным ЯЕ, хотя это и не совсем корректно.
8 работу непосредственно с текстом (вычисление полного спектра L-грамм, Z, = 1, 2, ... Lmax,) с последующей целенаправленной их фильтрацией);
фиксации допустимых редакционных операций, используемых при варьировании каждой ЯЕ;
введения формальных мер близости между ЯЕ, учитывающих спектр допустимых редакционных операций и позволяющих для каждой ЯЕ определить ее ближайшую окрестность',
количественной характеризации окрестности каждой ЯЕ (статистика использования допустимых редакционных операций и др.). В частности, окрестности ЯЕ могут быть представлены в виде шаблонов («образцов с переменными»), в которых зафиксированы неизменяемые ядра и варьируемые компоненты.
В качестве материала для получения количественных оценок вариативности использовались: деривационный словарь русского языка объемом свыше 100 тыс. канонических форм при исследовании низких уровней языковой иерархии (морфемы и лексемы); подборка из более чем 2500 заголовков, построенных путем варьирования известных (находящихся на слуху) прототипов (словосочетания и короткие фразы); индикаторы отдельных аспектов содержания научного текста (словосочетания и образцы, полученные в полуавтоматическом режиме с привлечением человека эксперта на заключительном этапе), а также тексты разных жанров для рассмотрения ЯЕ более высоких уровней (максимально длинные повторы, сверхфразовые единства, авторские аннотации и программно построенные квазирефераты, параллельные тексты).
На защиту выносятся следующие основные результаты: 1. Предложена методика количественного исследования проявлений вариативности ЯЕ разных уровней иерархии, реализованная в виде совокупности методов и программ предобработки текста (фонетический, морфологический, Х-граммный и позиционный анализ), выделения ЯЕ из текста, формирования обучающих подборок по изучаемым классам ЯЕ, определения
9 ближайших окрестностей (в смысле редакционного расстояния) каждой ЯЕ и получения числовых оценок вариативности, таких как частота использования при варьировании различных типов редакционных операций, степень устойчивости каждой позиции в исследуемой ЯЕ, степень позиционной класт-ризуемости искажений, когда их число превышает 1, и др.
Впервые с помощью разработанных программных средств получены количественные оценки вариативности ЯЕ разных уровней: корней, слов, морфемных моделей, аспектных словосочетаний, крылатых фраз и выражений, параллельных текстов. Отмечено расширение спектра редакционных операций при переходе от нижних уровней иерархии к верхним, а также их усложнение от простейших универсальных (вставка, замена, устранение элемента структуры) до сугубо специфичных (например, контаминации1).
На базе 100-тысячного словаря русского языка построен уникальный электронный словарь паронимов «в широком смысле», где каждое слово представлено своими 1-, 2-окрестностями, содержащими слова из исходного словаря, отличающиеся от заданного, соответственно, одним или двумя искажениями типа «вставка», «замена» или «устранение» символа в любой их комбинации. Словарь предназначен для изучения процессов словообразования, поиска и моделирования ошибок паронимического типа, генерации комбинаторных лингвистических задач, моделирования заголовков, построенных на «игре слов».
Сформирован словарь квазиомонимов — фонетическая версия словаря паронимов - для случая однократного (допустимого) искажения слова заменой, вставкой или удалением символа. На его основе предложена и реализована методика автоматического формирования трудных тестовых словарей для систем распознавания и синтеза речи с возможностью их многократного обновления. Словари содержат последовательности слов, мало разли-
1В данном случае имеется в виду возникновение новой ЯЕ путем специфического объединения элементов двух известных ЯЕ.
10 чающихся по артикуляционно-акустическим характеристикам несовпадающих в них звуков.
5. Предложен новый алгоритм выделения в тексте сверхфразовых
единств, основанный на использовании сканирующих статистик. Введено
понятие профиля кластеризуемости текста, аккумулирующее информацию
обо всех выявленных в нем сверхфразовых единствах и дающее представле
ние о макроструктуре текста. Профиль кластеризуемости отражает динамику
развертывания текста с опорой на автоматически выделяемые слова и слово
сочетания, значимость которых определяется исходя из совместного учета
частотной и позиционной информации. На его основе программно строятся
квазирефераты неструктурированного (в общем случае) текста.
6. Разработана и реализована методика автоматизированного создания и
обогащения (путем варьирования) индикаторных словарей, предназначенных
для выявления отдельных аспектов содержания научных текстов. Она позво
ляет экспертам отбирать аспектные маркеры без прочтения полных текстов и
обеспечивает приемлемые результаты по полноте и точности поиска.
Все процедуры: а) предобработка текстов (фонетическая транскрипция, морфологический анализ, Z-граммное представление (L = 1, 2, ..., Lmax), позиционный анализ), б) выделение ЯЕ промежуточных иерархических уровней (устойчивые словосочетания, сверхфразовые единства и др.), в) получение количественных характеристик вариативности ЯЕ - оформлены в виде программных модулей, схема сборки которых для получения конкретного результата представлена на рис. 1 (см. гл. 2). Все прикладные продукты, включая электронный словарь паронимов, словари для тестирования систем распознавания и синтеза речи, индикаторные словари для извлечения информации об отдельных аспектах содержания научных текстов, получены с помощью этих программных средств.
Работа состоит из пяти глав, введения, заключения. Во введении сформулирована цель исследования, обоснована его актуальность, указаны подходы и методы достижения цели, изложены основные результаты.
В главе 1 приведены обзорные сведения, дающие представление об исследовании вариативности в лингвистике и в других языковых системах, о возможностях формального определения и описания вариантов.
В главе 2 изложена методика проведения количественных исследований. Сформулированы принципы формирования обучающих подборок, обоснован выбор метрик, описаны алгоритмы предобработки текстов, методы выделения структурных ЯЕ, а также способы получения количественных оценок их вариативности.
В главе 3 исследуется вариативность ЯЕ нижних уровней иерархии — корней и слов, рассмотренных на фонемном, графемном и морфемном уровне, в зависимости от их длины, а также типа и локализации искажений. Описана методика формирования тестовых словарей для систем распознавания и синтеза речи.
В главе 4 систематизированы схемы варьирования ЯЕ высоких уровней иерархии: фраз и словосочетаний из подъязыка заголовков, основанных на «игре слов», и аспектных маркеров. Рассмотрена специфика образования вариантов «маркерных» словосочетаний, предложена схема автоматизированного формирования и обогащения индикаторных словарей, описаны эксперименты по использованию этих словарей для поиска информации об отдельных аспектах содержания текста.
В пятой главе исследуются закономерности варьирования на уровне текстов. Описаны схемы варьирования, встречающиеся при переводе одного текста разными людьми, а также проведено сравнение вариантов смыслового сжатия текста (в виде квазирефератов), полученных на основе профилей кластеризуемое, отражающих макроструктуру текста и других подходов.
В заключении представлены развернутые выводы по работе.
Вариативность и меры близости символьных последовательностей
Для сравнения строк произвольной длины обычно используют метрики, оценивающие минимальную стоимость преобразования одной строки в другую. Как правило, в качестве элементарных операций редактирования выбирают замену символа, вставку и удаление, им можно назначать разные стоимости.
Простейшей мерой различия двух строк одинаковой длины является расстояние Хемминга. Оно определяется как число позиций, в которых символы не совпадают. Это эквивалентно минимальной цене преобразования первой строки во вторую в случае, когда разрешена только операция замены с единичным весом.
Если допускается сравнение строк разной длины, то вводятся также операции вставки и удаления символа. Пусть а и Ъ — две последовательности длины \а\ и \Ь\ соответственно, X — пустой символ, тогда стоимости редакционных операций удобно представлять в виде: у(а — Л), у(Я —»/5), и у{а —»/5), соответственно, для удаления символа а, вставки символа /?и замены сена /?. Если 5= (sі, 2,...) - последовательность элементарных редакционных операций, то ее стоимость - y(S) =2 0,) Метрика Левенштейна [54] определяет расстояние между строками а и Ь в виде і(я, 6) = min /(S), где стоимости всех преобразований одинаковы (] ($,) = 1). В лингвистических приложениях эту метрику часто называют редакционным расстоянием [110], при анализе ДНК-последовательностей иногда используют термин «эволюционное расстояние» [107]. Вычисляется это расстояние с помощью процедуры динамического программирования (трудоемкость 0(\а\ \Ь\)).
Кроме указанных базовых операций существуют и более сложные преобразования: перестановка соседних или разнесенных символов, перенос символа в другую позицию, вставка или устранение группы символов, замена символа группой или наоборот, повторение символов в обратном порядке. Для некоторых прикладных областей такие преобразования являются неделимыми, замена их базовыми операциями может вызвать трудности в оценке стоимости преобразования, т.к. стоимость групповой операции меньше суммы стоимостей заменяющих ее базовых операций [59].
Расстояние Левенштейна наиболее точно соответствует интуитивному понятию похожести строк. К достоинствам редакционного расстояния следует отнести и то, что оно учитывает порядок следования элементов в строках. Недостаток - квадратичная по времени трудоемкость его вычисления. Поэтому это расстояние используют для сравнения не слишком длинных текстов.
Другой подход к определению расстояния (или меры близости) — это использование теоретико-множественных мер сходства в виде отношения числа элементов в пересечении двух множеств к числу элементов в объединении. Они предполагают вычисление каких-либо признаков для каждой из сравниваемых строк и вычисление расстояния в пространстве этих признаков. Простейшими признаками являются частоты встречаемости в тексте отдельных элементов алфавита (частоты «однограмм»). Количество признаков легко увеличить, перейдя от однограмм к биграммам — цепочкам из двух подряд следующих букв. Частоты биграмм уже отражают зависимость между соседними элементами текста. В общем случае можно использовать Z-граммы - цепочки из L подряд следующих символов (L = 1, 2, 3, ...). L-граммные описания удобно применять для неструктурированных текстов (ДНК- и аминокислотные последовательности, музыкальные тексты, иероглифическое письмо). Применительно к структурированным текстам (естественный язык) термин L-грамма часто используется для обозначения цепочки из L подряд следующих слов текста («L-граммы на словах»). Например, одна из мер сходства, используемая для выявления плагиатов в текстах [96], - это величина R = \S(A)C\S(B)\ I \S(A)D S(B)\, где S(A) и S(B) -множества триграмм (цепочек из трех подряд следующих слов) текстов А и В.
Анализ редакционных операций. Выбор мер сходства
Связь варианта с инвариантом предполагает существование определенной близости между ними. Чтобы формально выявить вариантно-инвариантные отношения между ЯЕ, необходимо оценить эту близость количественно. Для адекватности оценки полезно иметь преставление о механизмах порождения вариантов ЯЕ. В данном разделе анализируются способы образования вариантов ЯЕ разных уровней иерархии, полученные на реальных обучающих подборках, рассматриваются вопросы выбора подходящей уровню метрики.
Отличие варианта ЯЕ от инварианта может быть описано совокупностью операций, преобразующих инвариант в вариант. Такой подход оправдан, т.к. наглядно демонстрирует роль комбинаторных процессов в образовании вариантов ЯЕ и позволяет построить алгоритмы обнаружения и порождения вариантов в автоматическом режиме. Выявление набора допустимых операций, переводящих инвариант в варианты, обычно производится вручную на основе анализа обучающих подборок. Кроме указанных в п. 2.1, использовалась также подборка паронимических ошибок [121], которые можно трактовать как неосознанное варьирование.
Ошибки паронимического типа - это крупный класс ошибок, следующий по частоте встречаемости после орфографических ошибок и ошибок согласования и управления. В широком смысле слова под паронимами можно понимать «слова близкие друг другу по звучанию, частичное совпадение внешней формы которых является случайным, т.е. не обусловлено ни семантикой, ни словообразовательными процессами» [15]. Примеры паронимических ошибок: 1. Предварительно проконсультировавшись с баллистиками из КБ Королева и астрономами, сотрудники нашего института, участвовавшие в подготовке полетного здания, пришли к Келдышу. Он долго изучал полетное задание». 2. «Предложим, что требуется оценить S параметров из данных, имеющих S степеней свободы» (здесь комбинация «предложим, что» является маловероятной, тогда как «предположим, что» — наиболее вероятной). 3. «SIT — символ ситуации (поверхностное выражение - любая предикатная конструкция, как-то: глагольная группа, предложенная группа ...)».
Каждая ошибка в подборке сопровождается контекстом (одно, два предложения), в котором часто содержится кроме ошибочного еще и правильное написание слова. Качественный анализ ошибок был ориентирован на их классификацию, количественный - на упорядочение отдельных классов ошибок по частоте встречаемости. Современные корректоры нередко наращивают свою мощность путем последовательного добавления новых классов обнаруживаемых ошибок [3], знание частот ошибок задает необходимые ориентиры в этом процессе.
Существенный вклад в обнаружение паронимических ошибок может внести формирование словаря наиболее «ошибкоопасных» слов. Таковыми являются слова с максимальным числом «допустимых» ближайших (в смысле заданной метрики) соседей, а также паронимические связки, наиболее часто фигурирующие в подборке ошибок {статический — статистический, текст — тест, предложит — предположим и т.п.). Чаще всего ошибочные варианты слов образуются за счет замены, вставки, удаления или перестановки символов. Эти простейшие схемы варьирования охватывают 97 % ошибок и задают допустимые редакционные операции при исследовании вариативности слов.
На уровне слов возможно и осознанное варьирование, приводящее к целенаправленному искажению слов: «апофигей», «нетеллигентный», «ДОВСЕ-дания» (о выходе России из договора об обычных вооружениях ДОВСЕ). Варьирование такого типа часто встречается в заголовках газет. Схемы, реализующие «паронимическое» варьирование, вполне пригодны для описания намеренного искажения слов.
Указанные редакционные операции характерны и для более высоких уровней (словосочетания, фразы), но выполняются уже на ЯЕ исследуемого уровня: вставка, удаление, замена слова (группы слов) в словосочетании или во фразе. Кроме них появляются и другие, невозможные на символьном уровне, например, антонимическое варьирование, контаминации и др. (см. подробности в гл. 4).
Варьирование текстов может быть проведено большим числом способов. Примерами вариантов могут служить разные переводы одного произведения, которое выступает в роли инварианта. Известно, что варианты оригинала возникают и при переписывании одного и того же текста (древние манускрипты, современные цепные письма). Рефераты одного и того же текста, составленные разными людьми, также являются образцами варьирования этого текста. При исследовании вариантов единиц столь высокого уровня, каким является текстовый, необходимо исходить из задачи, в рамках которой проводится их построение. Установление инварианта, формирование вариантов, и оценка соответствия варианта инварианту определяется условиями решаемой задачи. Некоторые примеры будут рассмотрены в главе 5.
ЯЕ низких уровней иерархии, таких как морфемный, лексемный, характеризуются не слишком большой длиной и сложностью структуры. Оценки их близости могут быть получены исходя из их представления непосредственно в символьном или фонемном виде. Для слов возможно рассмотрение на ближайшем к ним уровне иерархии - морфемном. Естественной мерой для оценки сходства между ЯЕ уровня морфем и слов является редакционное расстояние [ПО]. Эта метрика учитывает порядок следования символов в словах/корнях, т.е. позволяет различать слова, совпадающие по буквенному составу (например, докер — декор — кредо, влиять — вилять — вялить и т.п.). Квадратичная трудоемкость вычисления редакционного расстояния для слов и корней вполне допустима, т.к. их длины не слишком велики.
Создание тестовых словарей для систем распознавания речи на основе словаря паронимов
Проведение испытаний речевых систем на надежность распознавания требует довольно частого обновления используемых для этой цели тестовых словарей, чтобы невозможно было настроить распознающую систему на конкретный словарь. Таким образом обеспечивается объективная оценка тестируемых алгоритмов. Необходимость постоянного обновления тестовых словарей обусловливает актуальность автоматизации этого процесса. Тестовые словари необходимы также не только для проверки надежности распознавания, но и для контроля разборчивости синтетической речи на выходе синтезаторов формантного типа (см. [53]). Из экспериментальных исследований [77] известно, что при восприятии синтезированной речи хуже различаются словари, содержащие квазиомонимы.
Одно из возможных решений задачи построения тестовых словарей может быть основано на использовании электронного словаря паронимов [124]. Он значительно объемнее известных словарей паронимов, составленных вручную, что создает определенную свободу выбора тестовых подсловарей. Последние должны содержать не просто близкие в смысле редакционного расстояния слова-соседи из некоторой «і-окрестности (например, d — 1), но слова, которые к тому же мало различаются по артикуляционно-акустическим характеристикам несовпадающих в них звуков. Для формирования таких подсловарей создана фонетическая версия электронного словаря паронимов (словарь квазиомонимов О). Степень различия звуков по артикуляционно-акустическим характеристикам задается с точностью до принадлежности соответствующих фонем к некоторому классу. Разбиение фонем на классы осуществляется, исходя из наличия или отсутствия у них определенных признаков (например, звонкости/глухости, твердости/мягкости и/или др.).
Очевидно, что слова близкие по написанию, в основном, будут близки и по звучанию. Встречающиеся в словаре омографы часто имеют существенное различие в звучании за счет разных ударных гласных (за мок — замо к или в транскрипции: с/(ЗаМЪК, 3ЛМоК) = 2); на данном этапе они в тестовые словари не включены. Паронимы из окрестности d — 1, полученные на графическом материале, не всегда остаются в ней при переходе к фонетической записи. Например, в графическом варианте у слова явить в случае d = 1 по операции S есть сосед - свить. В фонетическом варианте редакционное расстояние между этими словами равно двум (в транскрипции эти слова преобразуются к JAB HT И С В ИТ ). Возможна и обратная ситуация: редакционное расстояние между явить и ловить в «графике» равно двум, а в «фонетике»
Словарь квазиомонимов имеет несколько меньший объем, чем словарь паронимов (примерно 96% в символах соответствующих алфавитов - буквенного и транскрипционного). Количественные характеристики графической и фонетической версий словарей паронимов для d=\ представлены в таблице 4.
В фонетической версии электронного словаря паронимов содержится 33804 слова с непустой 1-окрестностью для операции S и 9455 - для операции /. Следует отметить, что в «звуковой» форме слова в среднем становятся короче, причем уменьшается и количество слов, имеющих соседей. В то же время у квазиомонимов рекордные показатели по суммарному числу соседей у слова выше.
Аналогично, число соседей (длина паронимического ряда) у слов в фонетической версии в среднем по отдельной позиции больше, чем в графической,что вполне объяснимо в силу того, что размер фонетического алфавита превосходит размер графического в 1,8 раза.
Использованы следующие обозначения: j - длина слова в символах, К - доля слов длины j (в % от объема словаря), N — доля слов, имеющих соседей (в % от числа всех слов соответствующей длины), М — максимальное (для всех слов длины у) число соседей у слова в сумме по всем позициям. Символом « » обозначены значения параметров, не превышающие 0.1 %. В последней строке таблицы указаны объемы словарей паронимов (доля слов (в %) с непустой 1 -окрестностью).
Среди слов, допускающих замены в фонетической версии, почти половина (47 %) имеет одного соседа, 21,5 % - двух, 12,6 % - трех, 7,3 % - четырех, 4,3 % - пять соседей. Слова, допускающие вставки, имеют одного соседа в 69 % случаев, двух - в 19 %, трех - 6,5 %, четырех в — 2,8 % и т.д. Все основные закономерности, полученные на графическом материале, остаются в силе.
Объем полученного в процессе построения словаря канонических форм полных омонимов (омонимов, не являющихся в то же время омографами) невелик, около 360 слов. В него входят, например, такие последовательности как баз — бас, стог - сток, порог — порок - парок, транскрипция всех слов в каждой из которых одинакова: БаС, СТоК, ПЛРоК). Этот словарь не включен в О.
Анализ вариативности заголовки, построенные на «игре слов»
Объектом исследования в этом разделе являются газетные заголовки (словосочетания, фразы), построенные по принципу варьирования хорошо известных, находящихся «на слуху», прототипов. Для обозначения подобных вкраплений используются термины: текст в тексте, словесные формулы, прецедентные тексты, интертексты и т.п. [26, 41, 45]. В качестве прототипов могут выступать пословицы, фразеологизмы, строки популярных песен, цитаты из литературных произведений, названия кинофильмов, высказывания (и даже фамилии) известных политиков, общественных деятелей и т.п.
Трансформация прототипов, взятых для заголовка, по нашим данным имеет место примерно в 80 % случаев. Варьирование здесь используется как специальный прием, элемент языковой игры, в отличие от варьирования терминологических словосочетаний в научной литературе [27], где появление варианта обусловлено другими обстоятельствами (неустоявшаяся терминология, соображения компактности и т.д.).
Схемы варьирования, используемые при переходе от прототипа к заголовку, весьма разнообразны, но обозримы. Некоторые из них на качественном уровне описаны в [41, 45]. Количественная характеризация прототипов означает ранжирование потенциально возможных источников для заголовков по частоте обращения к ним. Применительно к схемам варьирования термин «количественная характеризация» используется в двояком смысле. Первый связан с упорядочением схем варьирования по частоте использования, что позволяет, с одной стороны, избежать чрезмерного дробления при классификации схем, с другой - обосновать целесообразность выделения новых схем, не рассматривавшихся ранее. Второй смысл подразумевает численную оценку различия между прототипом и заголовком. В этом плане данная работа продолжает исследования, связанные с количественной оценкой вариативности языковых единиц более низкого уровня (корни и канонические формы слов). Представляет интерес сопоставить типы и частоты использования различных редакционных операций на разных иерархических уровнях.
Основой для исследования послужила созданная нами электронная база из нескольких тысяч газетных заголовков, построенных по принципу варьирования известного прототипа. Степень использования варьированного цитирования в заголовках газет сильно отличается у разных изданий. Исследуемая под борка получена на материале газет «Известия» (И), «Труд» (Т), «Аргументы и факты» (АиФ), «Поиск» (П), в которых цитирование, построенное на «игре слов», носит достаточно систематический характер.
Для каждого заголовка в базе указывается: (1) соответствующий ему прототип; (2) источник, откуда взят прототип; (3) подзаголовок (если он присутствует); (4) координаты издания (название газеты, год, номер выпуска, номер страницы); (5) фамилия, имя, отчество автора статьи. Прототипов может быть несколько (обычно не более двух) в случае составных заголовков типа «Продажные шкуры неубитых медведей» (И, 2000 г., № 53, с. 5).
Велика роль подзаголовка. Именно в нем часто содержится ключевое слово, которое в той или иной форме (например, паронимической) используется в заголовке. Иногда в подзаголовок выносится то, что «не уместилось» в заголовке, и тогда он является непосредственным его продолжением: «По морозу босиком» (заголовок из Т, 2002, № 11); /Могут бегать только моржи, остальным лучше не рисковать/ (подзаголовок); «По морозу босиком к милому ходила» — строка из песни, послужившая прототипом для заголовка.
Подзаголовков может быть два. Второй вводился в ситуациях, когда первый (авторский) не объяснял выбор прототипа для названия статьи и характер его варьирования. Такие случаи не так уж редки, что отмечено в [50]. При отсутствии авторского подзаголовка составители подборки предлагали свой вариант, чтобы элементы своеобразной словесной игры, демонстрируемые автором, не оказались незамеченными (или непонятыми) читателем.
Объективные трудности возникают и при идентификации источника, откуда взят прототип. Случаи неоднозначной идентификации возникают, когда какой-нибудь прототип, например, «Вся королевская рать», может трактоваться и как строка из английской народной песенки про Шалтая-Болтая, известной нам в переводе С. Я. Маршака, и как название романа Роберта П. Уоррена или название поставленного по нему кинофильма.