Содержание к диссертации
Введение
Глава I Основные задачи и методы компилятивного синтеза речи 10
1.1 Синтез речи по тексту как одна из задач прикладной фонетики 10
1.2 Технологии автоматического синтеза 17
1.3 Компилятивный синтез речи и его виды 20
1.4 Особенности аллофонной модели 27
1.5 Принципы формирования аллофонной базы данных 30
1.6 Выводы по главе 1 32
Глава II Основные этапы формирования инвентаря аллофонной базы данных английского языка 34
2.1 Описание системы английских фонем 34
2.1.1 Артикуляторная классификация гласных 35
2.1.2 Описание системы английских согласных фонем 40
2.2 Выделение классов контекстов 42
2.2.1 Выделение классов контекстов для аллофонов гласных фонем 42
2.2.2 Выделение классов контекстов для аллофонов согласных фонем 52
2.3 Подготовка звукового материала для аллофонной базы данных 58
2.3.1 Описание словника 58
2.3.2 Запись исходного речевого материала 70
2.4 Сегментация звукового материала 71
2.5 Выводы по главе II 76
Глава III Оптимизация и тестирование аллофоной базы данных 78
3.1 Проблемы экономии исходного звукового материала для аллофонного синтеза речи 78
3.2 Методика экспериментов по оптимизации 80
3.3 Сокращение контекстов комбинаторных аллофонов гласных 82
3.3.1 Сокращение комбинаторных аллофонов гласных в окружении согласных 82
3.3.2 Сокращение комбинаторных аллофонов гласных в окружении гласных 86
3.4 Сокращение контекстов комбинаторных аллофонов согласных 96
3.5 Результаты экспериментов по оптимизации инвентаря аллофонной базы 98
3.6 Тестирование аллофонной базы данных 104
3.6.1 Материал и методика экспериментов 106
3.6.2 Аудиторы 106
3.6.3 Процедура перцептивных экспериментов 107
3.6.4 Результаты перцептивных экспериментов 107
3.7 Выводы по главе III 116
Заключение 118
Список использованной литературы 122
Приложение 139
- Синтез речи по тексту как одна из задач прикладной фонетики
- Технологии автоматического синтеза
- Описание системы английских фонем
- Проблемы экономии исходного звукового материала для аллофонного синтеза речи
Введение к работе
Современный этап развития лингвистики в целом и фонетики в частности характеризуется поворотом от структурного подхода к моделированию реальных процессов говорения. Ценность лингвистического исследования на современном этапе все больше определяется возможностью синтезировать на основе языковой модели материальные элементы языка [Бондарко 1981].
Создание действующих моделей, имитирующих естественные звуковые процессы, и в частности, исследования, ведущиеся над созданием систем синтеза речи, позволяют рассмотреть теоретические проблемы фонетики и фонологии в новом аспекте.
При проведении экспериментов по моделированию естественных процессов порождения и восприятия речи появляется возможность проверить действительную ценность и полноту существующих лингвистических знаний о принципах организации и функционирования звуковой формы естественных языков.
В ходе таких экспериментов становится возможным применить на практике знания о звуковых средствах языка, полученных в результате преимущественно теоретических и экспериментально-фонетических исследований, и выяснить, какие из этих знаний являются достаточно полными, а каких данных на данный момент недостаточно для их адекватного отражения в искусственных моделях.
Таким образом, применение уже имеющихся лингвистических знаний для решения прикладных задач - это эффективный способ получить новые сведения о свойствах звуковых единиц естественной человеческой речи, которые могут существенно изменить оценку
общефонологических моделей и тем самым повлиять на представления о свойствах системы языка вообще.
В связи с этим особое значение приобретает прикладная лингвистика, занимающаяся разработкой компьютерных систем, функционирующих на базе естественного языка: систем автоматического синтеза и распознавания речи.
Актуальность настоящего исследования определяется
необходимостью получения данных об особенностях аллофонического варьирования в английском языке путем экспериментов по созданию и оптимизации инвентаря аллофонной базы данных для синтеза речи и последующего сопоставления результатов исследования с традиционными представлениями о фонетической системе английского языка - вокализме и консонантизме.
Целью данной научной работы является создание библиотеки аллофонов фонем английского языка для синтеза речи по тексту.
Основным принципом для решения задачи построения аллофонного синтеза является создание акустико-фонетической базы данных, базовыми элементами которой выступают аллофоны присутствующих в конкретном языке фонем.
Таким образом, для достижения поставленной цели было необходимо решить ряд как теоретических, так и практических задач:
анализ научных публикаций как отечественных, так и зарубежных авторов, в которых рассматриваются проблемы аллофонического варьирования фонем английского языка;
рассмотрение реализации каждой из фонем английского языка во всех возможных окружениях и выделение на основе теоретических предпосылок, описанных в литературе, всех возможных
комбинаторных и позиционных аллофонов, необходимых для синтеза любых речевых последовательностей;
- составление специального словника, содержащего слова или словосочетания, в которые входят все рассматриваемые аллофоны;
- запись и сегментация звукового материала для акустической базы данных;
проведение экспериментов по оптимизации инвентаря аллофонной базы, в ходе которых определялась существенность/несущественность аллофонных различий и возможность сокращения числа используемых в базе аллофонов;
выделение оптимального набора комбинаторных и позиционных аллофонов, различающихся не с артикуляторной, а перцептивной точки зрения, и достаточного для синтеза любых звуковых последовательностей;
проведение перцептивных экспериментов с целью оценки качества полученного инвентаря акустической базы данных;
обобщение и теоретическая интерпретация полученных в ходе исследования результатов.
Объектом данного исследования послужили аллофоны гласных и согласных фонем британского варианта английского языка.
Научная новизна исследования состоит в комплексном рассмотрении особенностей акустических свойств аллофонов фонем английского языка путем экспериментов по синтезу речи.
Теоретическая ценность проведенного исследования состоит в лингвистической интерпретации данных об особенностях аллофонического варьирования фонем английского языка, полученных в
результате экспериментов по формированию и оптимизации инвентаря аллофонной базы данных для английского компилятивного синтеза, и выделении набора аллофонов, различающихся не с артикуляторной, а перцептивной точки зрения.
Практическая значимость работы заключается в том, что сформированная аллофонная база данных может служить основой для создания законченной системы синтеза речи по тексту для английского языка и использоваться во всех сферах применения автоматического синтеза речи, диапазон которых необычайно широк.
Одной из таких сфер применения, например, может быть создание компьютерных программ, обучающих английскому произношению (автоматических фонетических тренажеров, электронных словарей, а также любых других учебных пособий, содержащих звуковые примеры).
Благодаря своей компактности (размер базы не превышает 1 Мб), она может быть инкорпорирована в любое устройство с ограниченной памятью (мобильный телефон, карманный компьютер, электронный словарь и т.д.) и использоваться для озвучивания неограниченного числа звуковых последовательностей. Это могут быть слова из упражнений на постановку английского произношения, вокабуляр из англо-русского разговорника и т.д.
Такие обучающие программы нового поколения, несомненно, могут быть эффективно использованы для освоения английского произношения студентами языковых ВУЗов, а также людьми, изучающими английский язык самостоятельно.
В ходе исследования применялись следующие методы: слуховой и экспертный виды анализа, аудиторский эксперимент, инструментальный анализ звукового материала.
Изложение процедуры и результатов исследования сопровождается таблицами и рисунками.
Апробация исследования. Результаты исследования были
представлены в докладах на заседаниях кафедры фонетики и методики
преподавания иностранных языков Санкт-Петербургского
государственного университета, на Межвузовских конференциях преподавателей и аспирантов СПбГУ (2005, 2006), международной конференции "Текст, речь, диалог" (Карловы Вары, Чехия, 2005), Всероссийской объединенной конференции "Гуманитарная информатика. Электронное правительство в информационном обществе" (Санкт-Петербург, 2005).
По теме диссертации опубликованы работы.
Евграфова К.В. Принципы формирования аллофонной базы данных английского языка для компилятивного синтеза // Фонетический лицей, СПб, 2004.
Евграфова К.В. Формирование аллофонной базы данных английского языка // Интегральное моделирование звуковой формы естественных языков, СПб., 2005.
Evgrafova K.V. The Sound Database Formation for the Allophone-based Model for English Concatenative Speech Synthesis II Proc. of TSD'2005. Karlovy Vary, (2005) P. 219-225.
Евграфова К.В. Применение технологии компилятивного синтеза в целях обучения иностранному языку // Технологии информационного общества - Интернет и современное общество: Труды VIII Всероссийской объединенной конференции. СПб, 2005.
Евграфова К.В. Тестирование аллофонной базы данных // Труды Межвузовской конференции преподавателей и аспирантов, СПб, 2006 (в печати).
Evgrafova K.V. The Quality Evaluation of Allophone Database for English Concatenative Speech Synthesis II Proc. of Specom'06, Saint-Petersburg, 2006 (в печати).
Объем и структура работы. Данное диссертационное исследование содержит 182 страницы и состоит из введения, трех глав, заключения, списка использованной литературы и приложения.
В главе I излагаются основные задачи и методы компилятивного синтеза речи, дается общая характеристика существующих на данный момент технологий автоматического синтеза, описываются основные принципы создания аллофонной базы данных.
Синтез речи по тексту как одна из задач прикладной фонетики
За последние десятилетия, благодаря компьютерной революции, которая дала принципиально новые возможности для анализа акустических и артикуляционных параметров звуков, накопления и обработки данных, а также моделирования сложных процессов производства и восприятия речи, кардинально изменилась технологическая и концептуальная среда исследований звучащей речи.
Появление компьютеров и их проникновение в разнообразные сферы человеческой жизни привели к созданию и развитию особых направлений в компьютерных технологиях, которые связаны с речью.
Эти направления получили название речевых технологий. В рамках речевых технологий решаются проблемы общения человека с компьютером на основе использования естественного языка в его звуковой форме. Разработки в этой области позволяют применить на практике теоретические знания о звуковых средствах языка, накопленные лингвистикой к настоящему времени.
Следовательно, участвуя в таких исследованиях, ученые-лингвисты получают возможность проверки теоретических представлений о принципах организации и функционирования звуковой формы естественных языков, а также получения новых сведений, важных для развития фонетики и фонологии.
Большое значение развитие речевых технологий имеет и с практической точки зрения. Диапазон областей их практического применения необычайно широк.
В качестве основных направлений можно выделить следующие: - создание диалоговых интерфейсов с устным вводом/выводом информации; - речевое управление компьютером и другими техническими устройствами; - организация информационно-справочной службы, позволяющей получать и выдавать различную информацию из базы данных в условиях, когда вопрос задается голосом; - создание устройств для приема и озвучивания различных сообщений, например, писем электронной почты по телефону; - многоязычный устный ввод/вывод информации с автоматическим переводом; - разработка приспособлений и компьютерных систем для помощи инвалидам; - озвучивание корректур и исправление орфографических ошибок; - помощь в обучении иностранному языку (автоматические фонетические тренажеры) [Gaver 1986; Skrelin, Volskaya 1998; Witt, Young 1998; Olaszy et al. 2000; Nemec et al. 2004; Евграфова 2005; Slaviketal.2005].
В состав речевых технологий наряду с другими направлениями (разработка систем автоматического распознавания речи, формирование корпусов речевых данных, автоматическая обработка речевого сигнала, идентификация и верификация человека по голосу, разработка методов сжатия речевого сигнала для передачи по каналам связи и т.д.) входит автоматический синтез речи. Уже в течение нескольких десятилетий автоматический синтез речи или синтез речи по тексту (Texto-Speech или сокращенно TTS) остается одной из важных задач прикладной фонетики [Кодзасов 1989; Зиновьева и др., 1993; Зиновьева и др., 1994; Скрелин 1999; Galunov 1999; Кодзасов, Кривнова 2001].
Задачей синтезатора типа "Текст-Речь" является озвучивание любого сообщения, вводимого в компьютер в текстовом виде и неизвестного заранее системе звукового синтеза. В идеале такие устройства должны имитировать деятельность человека, который читает письменное сообщение или текст любой степени сложности. Эта задача достигается при помощи различных технологий автоматического синтеза, которые в настоящее время достигли достаточно высокого уровня. История их развития, основные проблемы, достижения и перспективы получили описание в учебных пособиях и специальных исследованиях, а также не раз являлись темой докладов конференций, посвященных речевым технологиям [Schroeter 1980; Кейтер 1985; Сорокин 1992; Keller 1994; Edgington 1996; Dutoit 1997; Santen 1997; Бабкин 1998, 1999; Furui 1998; Русанова 2005].
Ниже будут рассмотрены лишь основные проблемы и методы автоматического синтеза, без учета и понимания которых решение задач данного диссертационного исследования было бы невозможно.
Технологии автоматического синтеза
В естественной речи, как известно, акустические свойства речевого сигнала определяются артикуляцией. Следовательно, на акустическом этапе должны быть в том или ином виде воспроизведены важнейшие акустические следствия артикуляционной организации речи, в частности все коартикуляционные явления. Это может быть решено двумя способами: - с помощью правил, которые описывают изменения акустических параметров, вызванные коартикуляцией; - с использованием таких акустических образцов (фрагментов реальных речевых сигналов), которые в совокупности покрывают все акустически значимые типы коартикуляционного взаимодействия звуковых единиц.
Указанные способы лежат в основе двух упомянутых выше подходов в автоматическом синтезе речи: синтезе по правилам и синтезе на основе конкатенации (или компилятивном синтезе). Оба подхода имеют свои особенности.
При компилятивном синтезе, в основе которого лежит конкатенация ("сборка") записанных образцов отдельных звуков, произнесенных диктором, требуется очень кропотливая работа по созданию звуковой базы данных. А при синтезе "по правилам" речевой сигнал образуется только по хранящимся в памяти устройства правилам формирования физических характеристик звуков речи по их математическим описаниям [Klatt 1979; Klatt 1982; Allen 1987; Stevens 1990]. При этом создание формантного синтезатора по правилам требует большей подготовительной работы, связанной с акустическим анализом значительных речевых массивов и формулировкой нужных правил. Эта работа усложняется также тем, что необходимые акустические данные не всегда удается извлечь из естественной речи с помощью автоматических методов спектрального анализа. Синтезированная речь, получаемая с помощью современных формантных синтезаторов, часто сопровождается гудением или жужжанием, что снижает её естественность.
Формантный синтез описанного типа используется в целом ряде TTS-систем, из которых наиболее известны MITALK, DECTalk для английского языка и многоязычная система синтеза INFOVOX [Allen 1987], [93], [94 ]. DECTalk до сих пор остается своего рода стандартом качества для синтеза речи американского варианта английского языка. На системе DECTalk базируется формантный синтезатор TextAssist, который, являясь многоязычной системой синтеза, поддерживает английский, немецкий, испанский и французский языки. Большее количество языков (американский английский, латиноамериканский испанский, немецкий, французский, итальянский) поддерживает формантный синтезатор TruVoice фирмы Centigram Communications Corporation (США).
Несмотря на то, что реализованная в ряде систем модель формантного синтеза позволяет преобразовать произвольный орфографический текст в соответствующий речевой сигнал по схеме: текст-аллофон-речь, при практически неограниченном словаре такое преобразование пока не обеспечивает хорошего качества синтезированной речи с точки зрения ее естественности.
Что касается задачи создания высококачественного синтезатора компилятивного типа, то при наличии вспомогательных технологий, связанных с построением акустической базы синтеза, она вполне осуществима. Этим определяется широкая популярность данного направления среди разработчиков, особенно в Западной Европе, где почти все коммерческие синтезаторы построены на основе метода компиляции.
Описание системы английских фонем
Первый этап построения инвентаря аллофонной базы может быть назван теоретическим. Как было указано в разделе 1.6 данной работы, на этом этапе возникает задача составления полного списка элементов компиляции. Поэтому для установления такого максимально полного, теоретически обоснованного набора аллофонов, выделяемого на основе комбинаторных и позиционных влияний, необходимо рассмотреть каждую из английских фонем во всех возможных фонетических позициях и решить, какие из этих позиций являются значимыми для различения аллофонов этой фонемы. Как известно, фонетическими позициями, которые способны вызывать качественную или количественную модификацию собственного, независимого качества и количества звука являются: - начало и конец слова (абсолютное начало и перед паузой); - порядковое положение в слоге (начальное, срединное, конечное); - звуковое соседство (предшествующие, последующие звуки, характерные особенности которых для данного языка определяют артикуляторные связи звуков); - положение в акцентно-ритмической структуре слова (в ударном или безударном положении). В зависимости от особенностей системы фонемных единиц в каждом конкретном языке влияние перечисленных фонетических позиций может быть различным. Для выполнения прикладных задач важно знание об инвентарном составе фонологической системы, а также о законах фонотактики конкретного языка. Поэтому при рассмотрении позиций английских фонем и фонетической характеристики их аллофонов были учтены основные характеристики системы фонем английского языка, описание которой приводится ниже. Инвентарь гласных современного английского языка составляет 20 фонем. Традиционно гласные английского языка противопоставляются по ряду (гласные переднего, заднего, смешанного ряда); по подъёму (гласные высокого, среднего, низкого подъема); по степени участия губ в артикуляции (огубленные - неогубленные), стабильности артикуляции (монофтонги - дифтонги). Помимо традиционных для системы английского вокализма трех рядов выделяют передний отодвинутый назад ряд и задний продвинутый вперед ряд [Lewis 1972]. К гласным переднего ряда в британском варианте английского языка относятся: /і:/, /е/, /ге/. Передний отодвинутый ряд представляет гласная фонема /і/. К гласным заднего продвинутого ряда относят: /и/; а к гласным глубокого заднего ряда - /и:/, /о:/, /о/, /а:/. Что касается фонемы /л/, то её консервативный вариант, представленный в традиционных описаниях [Jones 1960], относится к гласным заднего продвинутого ряда, а в более поздних описаниях /л/ классифицируется как центральный продвинутый вперед гласный [Vasiliev et al., 1980; Jones 2003]. Смешанный ряд представлен фонемой /з:/ и нейтральным гласным /э/. По степени подъема языка по вертикали гласные принято делить на гласные высокого, среднего и низкого подъема, причем каждый из этих подъемов имеет две разновидности: широкую и узкую. Ниже представлена система гласных фонем британского варианта английского языка (составлена по [Lewis 1972]). В данной таблице для изображения напряженных гласных i:, и:, з:, а:, э: не используется знак: (по замыслу автора, это позволяет подчеркнуть из качественное отличие от ненапряженных). По степени участия губ в артикуляции английские гласные подразделяются на огубленные и неогубленные. Огубленными являются: /о/, /о:/, /и/, /и:/ ядро дифтонга /DI/, неогубленными - /і:/, /і/, /є/, /ге/, /а:/, /л/, /э/, /з:/ и ядра всех дифтонгов, кроме дифтонга hi/. Все описания вокалической системы английского языка включают членение гласных на две группы, которые в зависимости от подхода и терминологического аппарата лингвиста, определяются как долгие-краткие, свободные-усеченные, напряженные - ненапряженные.
Проблемы экономии исходного звукового материала для аллофонного синтеза речи
Одним из необходимых факторов при создании базы для аллофонного синтеза является экономия исходного звукового материала.
Аллофонный синтез (как и любой другой вид компиляционного синтеза) служит для решения практических задач, связанных с разработкой системы автоматического синтеза, поэтому одним из требований к акустической базе данных является компактность системы.
Таким образом, система автоматического синтеза речи должна включать в себя акустическую базу, содержащую минимальное количество звуковых единиц (аллофонов), необходимых для синтеза любых звуковых последовательностей.
Небольшое количество базовых звуковых единиц, во-первых, позволяет обеспечить быструю работу системы, и, во-вторых, не занимает большой объем памяти, благодаря чему система автоматического синтеза речи может быть инкорпорирована в любое устройство с ограниченной памятью (мобильный телефон, карманный компьютер, электронный словарь и т.д.).
Кроме того, создание акустического инвентаря, содержащего набольшее число единиц, экономит время при записи звукового материала и позволяет сократить объем ручной работы при его сегментации, тем самым облегчая задачу создания новых голосов для системы синтеза.
Таким образом, при создании базы для аллофонного синтеза важно не только принимать во внимание всевозможные модификации звуков в зависимости от влияния контекста, которые были изложены выше в главе II, но также учитывать те случаи, когда различие в спектральной картине нескольких комбинаторных аллофонов одной фонемы либо минимальное, либо вообще отсутствует. При этом допустимо пренебрежение небольшими акустическими различиями, если перцептивно они никак не проявляются.
Решение проблемы экономии исходного звукового материала для системы аллофонного синтеза речи тесно связано с пониманием роли чисто акустической характеристики произношения, исследование которой представляет для фонетиста интерес, как в теоретическом, так и в практическом планах.
Как отмечает Г.П. Торсуев, то, что отражается в спектральной картине звука, может оказаться недоступным для слуха в силу чисто физических и психофизиологических причин - крайней краткости и неотчетливости звучания, неспособности слухового аппарата дифференцировать и качественно определять предельно краткие сегменты звуков речи. Поэтому для фонетиста важно отчетливо различать аллофоны практически чисто артикуляторные и аллофоны артикуляторно-слуховые [Торсуев 1977: 26].
Таким образом, исследовательская задача этапа оптимизации акустического инвентаря аллофонной базы заключалась в выделении из теоретически возможных аллофонов английских фонем набор базовых аллофонов, который являлся бы достаточным для построения любых звуковых последовательностей.
Этот набор должен был включать в себя аллофоны, имеющие не только артикуляторные различия, но в первую очередь отличающиеся друг от друга акустически и перцептивно.
В ходе решения этой задачи осуществляется поиск "взаимозаменяемых" аллофонов с целью укрупнения некоторых классов контекстов и, как следствие, сокращения количества единиц инвентаря аллофонной базы данных.