Содержание к диссертации
Введение
Глава 1. О многообразии слогов таджикского языка 20
1.1. Краткие сведения о таджикском языке 20
1.2. Случайная выборка текстовой информации 27
1.3. Слоговая структура слов 28
1.4. Статистические закономерности текстовой информации 29
1.5. Многообразие структур слогов 34
1.6. Алгоритм разбиения слова на слоги 35
1.7. Многообразие слогов таджикского языка 37
1.8. О распознавании ударного слога в таджикском слове 40
1.9. Алгоритм морфоанализа таджикских слов 42
1.10. О слоговой структуре русских слов 46
Глава 2. Компьютерные основы синтеза таджикской речи 49
2.1. Формирование базы "слог-звук" 49
2.2. Описание базы "слог-звук" 51
2.3. Алгоритм озвучивания слова 53
2.4. Алгоритм озвучивания чисел. Озвучивание символов 54
2.5. Алгоритм безударного озвучивания текста 58
2.6. Алгоритм ударного озвучивания текста 61
2.7. Алгоритм морфемного озвучивания слова 65
2.8. Об алгоритме озвучивания таджикского текста с русизмами 67
Глава 3. Программный комплекс Tajik Text-to-Speech 68
3.1. Структурная схема программного комплекса 68
3.2. Интерфейс программного комплекса 70
3.3. Технические средства озвучивания 72
3.4. Настройка качества озвучивания слогов и слов 73
3.5. Вычислительные эксперименты. Оценка полноты множества слогов для формирования синтетической речи 74
3.6. Вычислительные эксперименты. Реализация просодического облика таджикского слова 77
3.7. Вычислительные эксперименты. Морфемное озвучивание 79
3.8. Вычислительные эксперименты. Озвучивание таджикского текста с русизмами 80
Заключение 82
Литература 83
Приложение
- Статистические закономерности текстовой информации
- О распознавании ударного слога в таджикском слове
- Алгоритм озвучивания чисел. Озвучивание символов
- Вычислительные эксперименты. Оценка полноты множества слогов для формирования синтетической речи
Введение к работе
Настоящая диссертация посвящена разработке и созданию прототипа компьютерного синтезатора таджикской речи по тексту. Потребность в таком синтезаторе обуславливается тем, что его аналоги для других языков не только оказывают помощь людям с дефектами зрения и речи, но также находят все большее применение в технике связи, в информационно-справочных системах, а в обозримом будущем займут надлежащее место в широком акустическом диалоге человека с автоматами и робототехникой в разнообразных сферах человеческой деятельности.
1. Обзор исследований. Синтезируемая речь ныне воспроизводится различными методами, обладающими как определенными достоинствами, так и недостатками. Всякий речевой синтезатор оценивается по двум основным характеристикам - естественности звучания и разборчивости воспроизводимой им речи. При проектировании синтезаторов пытаются учесть именно эти две характеристики. Одни синтезаторы речи лучше передают естественность звучания, другие - понятность. В зависимости от того, для каких целей они предназначаются, в основу их проектирования закладываются различные методы синтеза речи. Методы эти обычно разделяются на три группы, называемыми
артикуляционным синтезом,
форматным синтезом,
конкатенативным синтезом.
Артикуляционный синтез считается одним из самых трудных методов. Его представители [1-11] в Европе и США пытаются численно смоделировать работу человеческой гортани и происходящих в ней артикуляторных процессов настолько точно, насколько это возможно с тем, чтобы воспроизвести высококачественную синтетическую речь. До не давнего времени артикуляционный синтез развивался в основном для научных целей и не привлекал особого внимания коммерческих организаций. И лишь недавно
некоторые из разработанных моделей начали появляться в речевых синтезированных системах. Определенное представление о ранних и более поздних моделях артикуляционного синтеза можно получить из [12-16].
Формантный синтез, не используя никаких образцов человеческой речи, подражает ей, производя искусственные спектрограммы. Речевое сообщение синтезированной речи создается им при помощи акустической модели. Параметры такие, как собственная частота, озвончение и уровни шума варьируются со временем и создают форму сигнала искусственной речи. Многие системы, в основе которых лежат технологии формантного синтеза, генерируют искусственную речь с "роботоподобным" звучанием, так что синтезированное речевое сообщение никак нельзя спутать с естественной человеческой речью. Системы формантного синтеза имеют некоторые преимущества перед конкатенативными системами, поскольку в них, во-первых, формантно-синтезированная речь может быть очень понятной по причине того, что в ней нет акустических шумов, присущих конкатенативным системам. Во-вторых, формантные синтезаторы - это часто программы, меньшие по размеру, чем конкатенативные системы, так как у них нет базы речевых образцов. Они могут использоваться во встроенных компьютерных системах, требующих минимальную память и мощность процессора. И, наконец, так как формантный синтез осуществляет общий контроль всех аспектов создаваемого речевого сообщения, то его достижением может стать широкое разнообразие просодии (систем произношения ударных и неударных, долгих и кратких слогов в речи) или интонации, передающей не только вопросы и утверждения, но и спектр эмоций и тонов голоса.
Самые известные из formant-синтезаторов связаны с именем Клатта (D. H.Klatt), [17-23], определенные представления о более ранних forraant-синтезаторах можно получить из работ [24-26].
В основе конкатенативного синтеза лежит соединение (или же конкатенация) заранее записанных сегментов естественной речи. Такой синтез является, вероятно, самым простым способом воспроизведения понятной и
естественно звучащей синтетической речи. В нем одним из самых важных моментов является выбор звуковых фрагментов подходящей длины. Такой выбор производится между короткими и длительно звучащими единицами. С более длинными единицами достигается хорошая артикуляция и высокая степень естественности речи, уменьшается число потребных соединений в пунктах стыковки звуковых единиц. Вместе с тем проявляется и недостаток -неизбежное увеличение изначально резервируемой памяти компьютера. Работа с более короткими звуковыми единицами (фрагментами) требует меньше памяти, однако процесс автоматического синтезирования их становится более трудным и сложным. В существующих конкатенативных синтезаторах в качестве звуковых единиц используются фонемы, дифоны, слоги, морфемы, слова, фразы и даже предложения. На первый взгляд может показаться, что в сравнении с другими именно слову следует отдать преимущество, однако, из-за наличия в каждом языке необозримого множества различных слов и имен собственных, а также из-за неодинакового звучания слова в непрерывной речи и изолированно, нельзя признать такой выбор приемлемым.
Идеи, положенные в основу конкатенативного синтеза, по-видимому, впервые были высказаны Харрисом (СМ. Harris ) в его статье о строительных блоках разговорной речи, см. [27]. Современное состояние вопроса можно получить из работ [28-39].
Наиболее распространенными вариантами конкатенативного синтеза являются параметрический синтез и синтез по правилам. Первый из них является более гибким в силу параметризации на основе мелких фонетических единиц (аллофонов, дифонов, слогов...). Он позволяет манипулировать параметрами, которые отвечают за качество речи (значение формант, ширина полос, частота основного тона, амплитуда сигнала). Это дает возможность склеивать сигналы, так что переходы на границах становятся незаметными. Варьирования такого параметров как частота основного тона на протяжении всего сообщения дают возможность существенно изменять интонацию и временные характеристики сообщения. Для синтеза используются единицы
речи различной длины: параграфы, предложения, фразы, слова, слоги, полуслоги, дифоны. Чем меньше единица синтеза, тем меньшее их количество требуется1 для синтеза. При этом требуется больше вычислений, и возникают трудности коартикуляции на стыках. Преимущества этого метода: гибкость, немного памяти для хранения исходного материала, сохранение индивидуальных характеристик диктора.
Синтез по правилам работает с так называемым "неограниченным словарем". Его элементами являются фонемы или слоги, которые соединяются по вполне определенным правилам. Обнаружено, что для синтеза речи .высокого качества необходимо иметь несколько различных произношений единицы синтеза (например, слога), что ведет к увеличению словаря исходных единиц без каких бы то ни было сведений о контекстной ситуации. По этой причине процесс синтеза приобретает абстрактный характер и переходит от параметрического представления к разработке набора правил, по которым вычисляются необходимые параметры на основе вводного фонетического-описания. Это вводное представление содержит само по себе мало информации. Это обычно имена фонетических сегментов (например, гласные и-согласные) со знаками ударения, обозначениями тона и временных характеристик. Этот метод предоставляет свободу моделирования параметров, хотя сами правила моделирования остаются несовершенными. Синтезированная речь хуже натуральной, тем не менее, она удовлетворяет тестам по разборчивости и понятности.
Следует отметить, что среди упомянутых синтезов формантный и конкатенативный нашли себе широкое применение, причем первый из них доминировал в течение долгого времени в прошлом, однако сегодня более популярным становится синтез конкатенативный. На их фоне артикуляционный синтез представляется слишком сложным для высококачественного воспроизведения, но не исключено, что он может оказаться особо перспективным методом в недалеком будущем.
Другими менее популярными синтезами речи являются гибридный и синтез на основе НММ (Hidden Markov Models - НММ). Гибридный синтез объединил в себе черты формантного и конкатенативного синтеза с целью максимального уменьшения акустических шумов в процессе звучания речевых сегментов. В системе синтеза на основе НММ речевой частотный спектр (речевой тракт), собственная частота (синтезатор речи) и длительность (просодия) моделируются одновременно при помощи скрытых марковских моделей. Речевые формы сигнала генерируются из скрытых марковских моделей, которые в свою очередь базируются на критерии максимального правдоподобия.
В России наиболее заметные достижения в области автоматического синтезирования речи связаны с Вычислительным центром РАН (Ю. И. Журавлев, В. Я. Чучупал); Институтом проблем передачи информации РАН (В. Н. Сорокин), Институтом математики СО РАН и Новосибирским государственным университетом (Н. Г. Загоруйко и В. М. Величко), МГУ им. М. В. Ломоносова (О. Ф. Кривнова), МГТУ им. Н. Э. Баумана (Ю. Н. Жигулевцев), МЭИ (А. И. Евсеев), Московским государственным лингвистическим университетом (Р. К. Потапова), Московским техническим университетом связи и информатики (Ю. Н. Прохоров) и Санкт-Петербургским государственным университетом (В. И. Галунов), [40-70]. Из стран СНГ определенные достижения представлены в Белоруссии, [71-76].
Различные методы синтеза речи положены в основу компьютерных программ - синтезаторов речи. Относящиеся к разряду "text-to-speech" такие программы по желанию пользователя могут читать мужским или женским голосом тексты, записанные в электронную память, делать при этом интонационные паузы, изменять тон и тембр речи в ходе прослушивания, передавать озвученные тексты через сеть. Далее приводится список наиболее известных компьютерных синтезаторов речи: Reader TTS, Govorilka, ТоМ Reader, Sakrament, Talk-To-Me, Text Aloud MP3 , SNAT, Book Reader, Speech2, Фонемафон, MP3book2005, Sakrament Talker, Infovox, DECTalk, Bell Labs Text-
to-Speech, Laureate, SoftVoice, CNET PSOLA, ORATOR, Eurovocs, Lernout & Hauspies, Apple Plain Talk, Acu Voice, CyberTalk, ЁТ1 Eloquence, Festival TTS System, ModelTalker, MBROLA, Whistler, NeuroTalker, Listen2, SPRUCE, HADIFIX, SVOX Pfister 1995. SYNTE2 and SYNTE3, Timehouse Mikropuhe, Sanosse, Speaking Mouse, ARGUS, АГАФОН, [77-104].
О некоторых программах, например, таких как Sakrament Talker, Govorilka, Talk-To-Me, Text Aloud, Speech2, сообщается, что они приспособлены читать вслух тексты на любом языке. Однако1 при непосредственной работе с ними обнаруживается, что приписываемое им умение на самом-то деле не подтверждается, так как высокое качество синтезируемой речи напрямую связано с учетом специфики озвучиваемого языка, вследствие чего программная система, разработанная для конкретного языка, не может столь же успешно выполнять свои функции по отношению ю любому другому языку. Однако не только это, но также и существенные недостатки, определяемые либо неестественностью звучания, либо недостаточной разборчивостью сообщений, обуславливает актуальность дальнейших исследований по проектированию синтезаторов речи для естественных языков.
2. Обзор диссертации. В настоящей диссертации дается описание разработанного автором прототипа компьютерного синтезатора таджикской речи по тексту. Он построен по принципу конкатенативного синтезатора, в котором в качестве речевой единицы выбран слог, что, в свою очередь, указывает на необходимость наиболее полного описания многообразия слогов таджикского языка. Решение этой проблемы приводится* в первой главе диссертации и основывается на статистическом исследовании случайной выборки из таджикских текстов объемом в 3800 страниц, содержавших 1 724 472 слов.
Для изучения закономерностей таджикского языка, связанных с понятием слога, введено понятие слоговой структуры слова. Суть его состоит в следующем. Пусть W какое-либо слово, представляющее собой определенную последовательность букв. Замещая в ней гласные буквы цифрой 1, а согласные
цифрой 0 (букву "й" считается согласной), мы, тем самым, преобразуем слово W в упорядоченную совокупность W*ux нулей и единиц. Такое преобразование
названо кодированием слова W, а получаемый результат, т.е. запись й^*,, -
слоговой структурой слова W<.
Размерностью структуры W^ названо число букв, составляющих- слово
W, или число символов (двоичных знаков), которые используются в записи й7^,.
Установлено, что- на множестве {й7^,} обнаружено 2978 различных
слоговых структур таджикских слов, при этом Г и 14 - размерности минимальной и максимальной структур слов, соответственно.
Получено статистическое распределение структур, т.е. установлено соответствие между слоговыми структурами слов и частотами их встречаемости в текстах на таджикском языке. Обнаружено, что 17 наиболее часто встречающихся, структур осуществляют 50%-е, 34 структуры - 75%-е, а 89 структур 90%-е покрытия таджикских текстов. Кроме того, 170 структур встретились 429 843 раз и составили 95%-е покрытие текстов.
Далее каждая из 170 структур разделялась на слоги, "вручную" (в согласии с разделением на слоги тех слов, которые подпадали под те или иные структуры). Выявлено всего лишь шесть различных структур таджикских слогов-1, 10,01,010, 100 и 0100.
Частота встречаемости упомянутых структур среди 985 768 слогов, полученных при разбиении на слоги 429 843 слов, принадлежавших 170 различным слоговым структурам таджикских слов, указана в таблице.
Из представленных в таблице результатов следует, что 2 двухбуквенных слога 10 и 01 совместно с трехбуквенным слогом 010 составляют подавляющую часть слогов таджикского языка. Кроме того, 2,3 - средняя размерность слогов в таджикском слове.
На основе проведенных исследований в 1.6 предложен алгоритм для разбиения таджикских слов на слоги, реализованный в виде компьютерной программы. С помощью этой программы, путем обработки упомянутой ранее случайной выборки был получен главный результат главы 1 — исчерпывающее на сегодняшний день описание многообразия из 3259 различных таджикских слогов.
Среди дополнений к главе 1 отметим 1.10, в котором анализируется слоговая структура русских слов. Потребность в рассмотрении этого вопроса была связана с тем, что в таджикском языке появилось большое число заимствований русских слов, и потому возникла необходимость их озвучивания в рамках синтеза таджикской речи. Предварительными исследованиями в 1.10 установлено, что в русском языке имеется не менее 20 различных слоговых структур, которые, в частности, содержат в себе 6 таджикских слоговых структур. Из этого сделан вывод о возможности реализации таджикско-русского компьютерного синтезатора, основанного на конкатенативном синтезе речи.
Основным результатом главы 2 является описание того, каким образом в диссертации решена проблема синтеза таджикской речи по произвольному тексту. В 2.3 — 2.6 описываются компьютерно реализованные алгоритмы озвучивания слов, чисел, символов и текста. Алгоритмы 2.5 и 2.6 содержат в себе в качестве составных частей алгоритмы двух предыдущих параграфов. Они по существу и выражают принципиальную схему озвучивания текста, реализованную в диссертации, см. рис. 2 и 3 главы 2. В соответствии с ней очередное слово, подлежащее озвучиванию, разделяется на слоги. Для каждого слога из базы "слог-звук" извлекается соответствующая звуковая реализация, затем из извлеченных элементов синтезируется звучание
> і
\
\
слова. Вполне понятно, что между слогами и между словами устанавливаются паузы, величины которых подобраны экспериментально с учетом двух параметров - естественности звучания (получаемые звуки приближены к естественной речи человека) и разборчивости (легкости понимания искусственной) речи.
Начинается глава 2 с 2.1 и 2.2, в которых многообразие слогов таджикского языка используется для формирования базы слог-звук. Эта база занимает 263 Мб памяти на жестком диске, в среднем - 40 Кб на 1 слог. Интервал времени звучания одного слога варьируется в пределах - 250-400 мс. Длительности межслоговой и межсловной пауз могут составлять соответственно 20 - 200мс и 200 - 2000мс, для границ абзацев - 900 мс, для границ предложений - 600 мс, паузы-"запятые" внутри предложений - 400 мс. Ударный слог на фоне других слогов выделялся особыми значениями трех акустических параметров - длительностью звучания, частотой основного тона и амплитудой (силовой характеристикой звука). Для наилучшего звучания оказались подходящими следующие соотношения параметров ударных и безударных слогов:
та/ти=1.5, vJvu = \A Аа1Аи = Ъ.
База "слог-звук" составлена из звуковых файлов формата WAV, озвученных 3259 слогов мужским и женским голосом соответственно. Общие характеристики базы приведены в следующей таблице.
Среди дополнений к главе 2 отметим 2.7, в котором приведен алгоритм^ озвучивания слова на основе его предварительного морфоанализа. В-таджикском языке порядка 150 префиксов, (простых и составных)-, и 250' постфиксов. Кроме того, для целей озвучивания можно ограничиться словарем основ объемом в 50Ю00 слов-. Для реализации синтеза речи требуется создание баз данных - "префикс-звук", "корень-звук" и "постфикс-звук". Несложными' вычислениями устанавливается, что для.таких баз требуется зарезервировать около 15 Гб памяти. В том случае, когда слово не удается проанализировать,как последовательность морфов, применяется'правило послогового озвучивания.
Другое дополнение представлено в 2.8 алгоритмом озвучивания таджикского текста, содержащего слова, заимствованные из русского языка. В; основном это относится к именным словам. Осуществляя-фрагментирование их на слоги и дополняя последними таджикскую базу "слог-звук", мы получаем возможность синтезировать таджикские тексты с включениями.русских слов.
В главе 3 дается описание основного результата диссертации — программного комплекса Tajik Text-to-Speech - компьютерного синтезатора таджикских текстов с его структурной схемой, функциональными-возможностями, пользовательским интерфейсом, порядком его установки и настройки. Здесь же в 3.5 излагаютсярезультаты экспериментов, нацеленных на установление полноты- базы «слог-звук». Полученные данные показали вполне удовлетворительное качество работы комплекса программ Tajik Text-to-Speech по озвучиванию таджикского текста. В-отдельных случаях не удавалось получить 100% озвучивания, слов, что происходила по двум-причинам. Первая причина состояла в том, что слово таджикского происхождения могло' содержать в себе такой слог, структура которого хотя и принадлежала одной из шести выявленных структур, тем не менее его конкретная буквенная-реализация не содержалась в базе «слог-звук». Следовательно, такой слог не имел своего звукового образа. Другая причина состояла в том, что слово из текста оказывалось заимствованным из другого языка и при фрагментировании
на слоги могло выдавать такой слог, структура которого была; не свойственна таджикскому языку.
Другие эксперименты носили публичный; характер. Они проводились, на научных семинарах Института, математики* АН РТ. Его участники по собственному усмотрению: вводили в; компьютер таджикские тексты и затем оценивали: естественность, и разборчивость, звучания-; синтетической? речи; Общее мнение семинара - компьютерный: синтезатор; построенный по принципу конкатенации; 3259'таджикских слогов;, вполне успешно выполняет функции;озвучивания-таджикских текстов;.
Вї 3.6 главы» 3-; основной; результат состоит в учете ударного г- слога; при: озвучивании, что приводит к заметному повышению: естественности и разборчивости звучания синтетической речи. В этом- параграфе приводятся* количественные характеристики акустических параметров; выделяющих ударный слог на фоне.безударных..
В'і 3.7 излагаются г результаты^ экспериментов по озвучиванию текста путем конкатенации морфем - минимальных синтаксических единиц языка, извлекаемых, из базы "морфема-звук"..Здесь.удалось установить, что»качество-звучания синтетической речи-выше, чем в случае конкатенации таких звуковых единиц как слоги: Из; этого сделан вывод; что компьютерный синтезатор;, построенный.! на морфемном лексиконе; следует принять в качестве альтернативы синтезатору; осуществляющему послоговую конкатенацию: Конечно, надо иметь в виду, что такой; синтезатор нуждается;в резервировании достаточно большой памяти, порядка 15 Тб.
Другая особенность такого синтезатора заключается в том, что ему не удается вполном объеме справиться с решением задачи озвучивания всех слов, ибо он не может содержать в себе исчерпывающий словарь морфов и потому не может представить некоторые слова как последовательность, морфов; Выход. из положения видится, в использовании гибридного "морфемно-послогового" синтезатора, который каждое слово поначалу пытается проанализировать с помощью морфемного лексикона, а если это не получается,, осуществить его
озвучивание путем послогового синтеза. Последнее не применяется, если морфемный анализ удается выполнить.
В 3.8 дано описание экспериментов с озвучиванием таджикского текста с русскими заимствованиями. Установлено, что компьютерный синтезатор, основанный на послоговой конкатенации и содержащий в базе "слог-звук" необходимые русские слоги, вполне успешно справляется с озвучиванием смешанного текста.
Теоретическая значимость работы состоит в том, что разработанные в ней подходы и алгоритмы эффективно приспосабливаются к решению проблемы синтеза речи по тексту, прежде всего, для индоевропейских, а также для других языков, в которых просодия слова»строится по принципу словесного ударения.
Кроме того, в работе создана основа для проведения дальнейших исследований по совершенствованию компьютерного синтезатора таджикской речи.
Практическая значимость программного комплекса Tajik Text-to-Speech подтверждается
его использованием людьми с дефектами зрения в НПО ПК «Сигма» при Центральном правлении Таджикского общества слепых (после 3-х месяцев предварительного испытания);
его внедрением в учебный процесс на кафедре гуманитарных наук, Худжандского филиала Технологического университета Таджикистана, для углубленного изучения основ грамматики и фонетики таджикского языка.
Практическая значимость работы состоит также в том, что в ней установлена перспективность дальнейшего развития программного комплекса Tajik Text-to-Speech
в синтезатор таджикской речи с русизмами,
в синтезатор таджикской речи на основе морфемного лексикона. Комплекс зарегистрирован Национальным патентно-информационным
центром Министерства экономического развития и торговли Республики
Таджикистан в качестве интеллектуального продукта 041TJ 04.09.2007 и передан посредническим фирмам для распространения.
Апробация работы. Основные результаты диссертации обсуждались на научно-исследовательских семинарах Института математики АН РТ, а также на научных конференциях Худжандского филиала Технологического университета Таджикистана.
Публикации. Основные результаты диссертации опубликованы в 4-х статьях [142-145], из них 2 - в соавторстве с научным руководителем З.Д.Усмановым, которому принадлежат постановки задач и обсуждение результатов. Решения задач выполнены диссертантом.
Статистические закономерности текстовой информации
В этом параграфе приводятся статистические закономерности текстовой информации, представленной репрезентативной выборкой 1.2 объемом в 1724472 слов, каждое из которых предварительно кодируется в форму W , показывающую его слоговую структуру. Из этой таблицы видно, что 1 и 14 — размерности минимальной и максимальной структур слов, соответственно. Слова с числом букв более 14 в обработанных текстах не встретились, хотя таковые и имеются в таджикском языке. Другие данные статистической обработки выборочных текстов таковы: На множестве {W0jl} обнаружено 274 различных слоговых структур таджикских слов. Получено статистическое распределение структур, т.е. установлено соответствие между слоговыми структурами слов и частотами их встречаемости в текстах на таджикском языке. Обнаружено, что 8 структур осуществляют 50%-е, а 23 структуры -75%-е покрытия таджикских текстов см. таблицу 4, часть 1. Эти данные представлены следующим образом, в первой колонке дается номер структуры в порядке убывания частоты её встречаемости, во второй -запись самой структуры и в третьей — процент её встречаемости в текстах. / Каждая из 274 обнаруженных слоговых структур таджикских слов разделялась на слоги "вручную" (в согласии с разделением на слоги тех таджикских слов, которые подпадали под те или иные структуры).
В результате обнаружено всего лишь 9 различных структур слогов Из них первые шесть свойственны природе таджикского языка, а три последние заимствованы из других языков. Частота встречаемости (в процентах) упомянутых структур в обработанной текстовой информации указана в таблице 5. Из таблицы видно, что двухбуквенные слоги типа да, ба, ро, на, ни, та, ме, ва ки (в символьной записи - 01) и т.п. являются наиболее часто встречающимися, а трехбуквенные слоги типа абр, илм, ишк, умр, орд (в символьной записи - 100) и т.п. — особо редкими. Кроме того, слоги 001, 0010 и 00100, заимствованные из других языков, эпизодически появляются в таджикских текстах (в сумме — 0.12%). Отметим также, что 2 двухбуквенных слога 10 и 01 совместно с трехбуквенным слогом 010 составляют подавляющую часть слогов таджикского языка (88.05%). Кроме того, 2 и 3 — средняя размерность слогов в таджикском слове. I В этом параграфе дается концептуальное описание последовательности процедур, реализация которых в виде компьютерной программы позволяет осуществлять автоматическое разделение произвольного таджикского слова на слоги.
Процесс разделения основывается на понятии слоговой структуры слова и существенно использует б структур слогов, выявленных в 1.5. Пусть W- какое-либо таджикское слово, представляющее собой определенную последовательность букв таджикского алфавита, и И , слоговая структура слова W, т.е. закодированная запись W в виде совокупности нулей и единиц. Напомним, что W получается из W путем замещения в W согласных букв цифрой 0 и гласных букв - цифрой 1. Предлагаемый алгоритм состоит из двух частей: в первой части осуществляется разделение W x на слоговые структуры, во второй части полученный результат используется непосредственно для представления исходного слова W в виде упорядоченной совокупности слогов. Часть 1. Итак, в таджикском языке имеются 6 слоговых структур — 1; 10; 01; 010; 100; 0100. В первой части алгоритма, осуществляющей разделение W x на слоговые структуры, выполняются следующие процедуры.
О распознавании ударного слога в таджикском слове
В любом естественном языке ударение - это усиленное озвучивание одного из слогов слова. С другой стороны ударение - это акцент, выделение тех или иных единиц в речи с помощью фонетических средств. Обычно выделяются слоги, а также слова и словосочетания. Различаются словесное ударение, тактовое (синтагматическое) и фразовое ударение. Эти виды ударение связаны с линейной структурой высказывания, членимого на определённые фрагменты. Особый вид ударения - логическое, связанное со смысловым подчёркиванием важнейшего слова предложения. Фонетически ударение может реализоваться путём повышения интенсивности ударного слога, достигаемого увеличением мускульного напряжения и усилением выдоха, [126]. В каждом языке ударение выполняет различные функции: смыслоразличительную (сигнификативную), разграничительную (делимитативную) - особое фиксированное ударение, указывающее границу (начало или конец) слова; и объединительную (кумулятивную), соединяющую элементы слова в одно целое, [126]. Особенности постановки ударения в таджикском языке подробно описаны в [105].
Ударение в таджикском языке — силовое связанное. Силовым или динамическим называется такое ударение, при котором тот или иной слог в слове выделяется силой произношения. Об ударении связанном говорят в том случае, когда оно закреплено в языке на каком-нибудь, определенном месте в слове, например, когда во всех словах оно падает на последний или предпоследний слог. Утверждение 1.8.1. В таджикском языке ударение в основном падает на последний слог слова. Пример: охан — железо , охангар — кузнец , охангарон — кузнецы . Здесь независимо от присоединения к корню охан простого постфикса гар и составного постфикса гарон, ударение падает на последний слог. Утверждение 1.8.2. Исключения, то есть слова, в которых ударение падает не на последний слог, весьма немногочисленны. Исключение 1. Сюда относятся в основном наречия: бале — да , вале — однако , балки - но , аммо — но , яъне - то есть , албатта - конечно . Описываемые далее два других типа исключений грамматически четко оконтурены и могут обнаруживаться по письму алгоритмическими процедурами. Исключение 2. Из числа морфологических показателей, стоящих в конце слова, не принимает на себя ударение только лишь изафетный показатель —и, связывающий определение с определяемым, и показатель единичности и неопределенности -е: духтари ман — моя дочь , духтаре - одна какая-то девушка . Исключение 3. Не принимают на себя ударения также все, так называемые, энклитики (слова, примыкающие к предшествующему слову и не принимающие на себя самостоятельного ударения), к числу которых относятся: 1) послелог -ро, являющийся показателем прямого объекта: ин китобро овардам - я принес эту книгу ; 2) местоименные энклитики, указывающие на принадлежность предмета какому-нибудь лицу (-ам, -am, -аш, -амон, -атон, -ашон): дафтарам — моя тетрадь , мактабамон — наша школа ; 3) глагольные связки (-ам, -й, -аст, -ем, -ед, -анд): талабагонем — мы студенты , дарахт баланд аст — дерево высокое ; 4) соединительный союз —у (после гласных -ю): китобу дафтар — книга и тетрадь ; 5) соединительный союз хам: ман хам надидам — я тоже не видел ; 6) подчинительный союз ки: гуфт ки меояд - он сказал придет ; 7) вопросительная частица -мй: омадед-мй - вы пришли? .
Отметим, что слова, подпадающие под исключение 1, следует запомнить. В то же время, ударение в словах, подпадающих под исключения 2 и 3, могут быть установлены грамматико-алгоритмическим процедурами. Замечание 1. В положительных формах глагола при наличии приставки ме- или би- главное ударение падает на конец слова, добавочное на приставку: мегирам — я беру , бигиред — возьмите . Замечание 2. В отрицательных формах глагола основное ударение переходит на частицу отрицания на-, добавочное падает на окончание слова: намегирам — я не возьму . Замечание 3. Составные слова, состоящие из двух основ, также имеют двойное ударение: основное — на конце слова и добавочное - на последнем слоге первой основы: мактаббача - школьник , камбагал — бедняк , китобхона— библиотека . Эти замечания показывают специфику таджикского языка в части положения ударного слога, однако мы не будем относить их к исключениям.
Алгоритм озвучивания чисел. Озвучивание символов
Тембр используется как важное средство звуковой выразительности. Частичными параметрами звучания являются тембральное равновесие, амплитудно-частотная и фазо-частотная характеристики, различные виды искажений, нелинейные искажения, переходные процессы, впечатление присутствия. Примерами источников искажений тембра являются микрофоны, звуковой тракт, контрольные агрегаты, головные телефоны. Скорость звука - скорость распространения звуковой волны в пространстве.
Тон звука - одна из единиц измерения высоты звука. Высота звука -субъективное качество слухового ощущения, наряду с громкостью и тембром, позволяющее располагать все звуки по шкале от низких к высоким. Для чистого тона высота звука зависит главным образом от частоты (с ростом частоты высота звука повышается), а также и от его интенсивности. Высота звука со сложным спектральным составом зависит от распределения энергии по шкале частот. Высоту звука измеряют в мелах. Тону с частотой 1 кГц и звуковым давлением 2 10 3 Па приписывают высоту 1000 мел. В диапазоне от 20 Гц - 9000 Гц укладывается около 3000 мел. Измерение высоты произвольного звука основано на способности человека устанавливать равенство высот двух звуков или их отношение (во сколько раз один звук выше или ниже другого).
База "слог-звук" занимает 263 Мб памяти на жестком,диске, в среднем -40 Кб на 1 слог. Интервал времени звучания одного слога варьируется в пределах - 250-400 мс. Длительности межслоговой и межсловной пауз могут составлять соответственно 20 - 200мс и 200 - 2000мс.
База "слог-звук" состоит из звуковых файлов формата WAV, озвученных 3259 слогов, мужским и женским голосом соответственно. Описание базы приведено в следующей таблице 9. Например, слоги «а», «о» озвученные мужским голосом составили всего 13 Кб, а слоги «шахе», «рахш» - 60 Кб. Озвучивание женским голосом слогов «а», «и» потребовало по отдельности 16 Кб памяти, а слогов «заъф» и «нашр» - 65 Кб памяти на каждый слог. Среднее время произношения 1 слога из базы "слог-звук" составило -250 -400 мсек.
Структура WAV файла. Рассмотрим самый обычный WAV файл (Windows PCM). Он представляет собой две четко делящиеся области. Одна из них - заголовок файла, другая - область данных. В заголовке файла хранится информация о: размере файла; количестве каналов; частоте дискретизации; количестве бит в сэмпле.
Но для большего понимания смысла характеристик заголовка файла следует рассказать об области данных и об оцифровке звука.
Звук состоит из колебаний, которые при оцифровке приобретают ступенчатый вид. Этот вид обусловлен тем, что компьютер может воспроизводить в любой короткий промежуток времени звук определенной амплитуды (громкости), и этот краткий момент далеко не бесконечно короткий.
Продолжительность этого промежутка и определяет частоту дискретизации. Например, у нас - файл с частотой дискретизации 44.1 кГц. Это значит, что тот короткий промежуток времени равен 1/44100 секунды (следует из размерности величины Гц = 1/с). Современные звуковые карты поддерживают частоту дискретизации до 192 кГц.
Теперь, что касается амплитуды (громкости звука в коротком промежутке времени), то от нее зависит точность звука. Амплитуда выражается числом, занимаемым в памяти (файле) 8, 16, 24, 32 бит (теоретически можно и больше). Поскольку 8 бит = 1 байту, то амплитуда в какой-то короткий промежуток времени в памяти (файле) может занимать 1, 2, 3, 4 байта соответственно. Таким образом, чем больше число занимает места в памяти (файле), тем больше диапазон значений для этого числа, а значит и для амплитуды.
В моно варианте значения амплитуды расположены последовательно. В стерео же, например, сначала идет значение амплитуды для левого канала, затем для правого, затем снова для левого и так далее.
Совокупность амплитуды и короткого промежутка времени носит название сэмпл (отрезок или часть аудио данных в цифровом виде).
Поначалу исходное слово с помощью алгоритма 1.6 сегментируется на слоги. Затем для каждого слога из базы «слог-звук» выделяется соответствующий звуковой файл и затем с их помощью синтезируется звучание слова с расстановкой межслоговых пауз.
Вычислительные эксперименты. Оценка полноты множества слогов для формирования синтетической речи
Для оценки эффективности работы программного комплекса Tajik Texto-Speech были организованы эксперименты по озвучиванию разнообразной текстовой информации (фрагменты из повестей, романов, научных статьей, учебников, газет, журналов, Интернет - сайтов). Озвучивание текста проводилось с использованием как мужского голоса, так и женского. Оба случая оказались вполне приемлемы. Из этого сделано заключение, что выбор голоса - дело вкуса пользователя.
Оценка полноты множества слогов, использованных для формирования синтетической речи, связывалась с процентом озвученных слов по отношению к общему количеству слов в пределах выбранных фрагментов текста. Результаты эксперимента показаны в следующей таблице.
В этой таблице во 2-м столбце приводятся названия файлов, в 3-м столбце источник, из которого взята информация, в 4-м количество слов, поступивших для озвучивания, в 5-ом столбце количество озвученных слов и в 6-ом доля озвученных слов в процентах по отношению к общему числу слов.
Полученные результаты показали вполне удовлетворительное качество работы комплекса программ Tajik Texto-Speech по озвучиванию таджикского текста. В отдельных случаях не удавалось получить 100% озвучивания слов, что происходило по двум причинам.
Первая причина состояла в том, что слово таджикского происхождения могло содержать в себе такой слог, структура которого хотя и принадлежала одной из шести выявленных структур, см. 1.5 главы 1, однако его конкретная буквенная реализация оказывалась за пределами базы данных «слог-звук», содержащей 3259 таджикских слогов. Следовательно, такой слог не имел своего звукового образа.
Другая причина состояла в том, что слово из текста оказывалось заимствованным из другого языка и при фрагментировании на слоги могло выдавать такой слог, структура которого не свойственна таджикскому языку. Например, русское слова «школьник» и «Москва» имеют слоговые структуры -00100010 и 010001 и при разделении на слоги выдают соответственно структуры 00100010 и 010001. Очевидно, что первая структура в слове «школьник» не принадлежит таджикскому языку, и потому само слово не может быт прочитано. Что касается слова «Москва», то и его не удается прочитать, поскольку в нем второй слог, также не принадлежит таджикскому языку. Интересно отметить, что именно по этой причине таджики произносят это слово как «Маскав», слоговая структура которого есть 010010 и разделяется на слоги 010 010, оба из которых свойственны таджикскому языку.
Специальные эксперименты были проведены с целью сравнения качества озвучивания таджикских текстов посредством разработанного нами комплекса программ Tajik Texto-Speech и широко рекламируемой программой синтеза речи «Govorilka», которая на сегодняшний день объявляется одной из самых удобных в настройке и использовании программ воспроизведения текста, якобы настаиваемого на чтения вслух любого текста, который предлагается ей на любом языке, любым установленным голосом.
Для осуществления сравнения программа «Govorilka» была извлечена из Интернета и загружена в компьютер. Далее был введен текстовый файл на таджикском языке. После нажатия кнопки «Старт», с целью осуществления озвучивания, программа выдала сообщение «Добавьте голосовой движок», т.е: набора файлов с описанием- голоса, который: позволяет синтезировать речь из текста. Голосовые движки отличаются- друг от друга, прежде всего, языком; Поскольку голосового движка ДЛЯІ таджикского языка; не существует, то. этот путь для озвучивания;таджикского текста оказался недоступным:
В этой связи была предпринята попытка озвучиванияітаджикского;текста через голосовой движок русского языка. Результаты, этой; попытки оказались неудовлетворительными. Таджикский алфавит содержит 29? русских буквь и 6 собственных специфических. Именно по причине присутствия? последних, процент озвучивания» слов оказался невысоким. Что касается качества озвучивания;.то и оноюказалось неудовлетворительным.
Таким образом; разработанный нами комплекс программ; Tajik Texto-Speech; хотя? и не решает полностью поставленной проблемы, все же в настоящее время оказывается первым программным продуктом более или менее удовлетворительно осуществляющим компьютерное озвучивание таджикских текстов. На данном- уровне разработки- рассматриваемый комплекс уже сейчас может быть использован людьмис ослабленным зрением.
Другие эксперименты носили: публичный характер. Они проводились на научных семинарах Института математики АН РТ. Его участники по собственному усмотрению вводили в компьютер таджикские тексты и затем оценивали: естественность, и разборчивость, звучания синтетической речи. Общее мнение семинара - компьютерный синтезатор, построенный по; принципу конкатенации 3259 таджикских слогов; вполне успешно выполняет функцию; озвучиваниятаджикских текстов;