Содержание к диссертации
Введение
Глава 1. Современное состояние обеспечения защищенности смыслового контента при передаче речевого сигнала с помощью зашумлений различных типов и уровней 17
1.1. Речевой сигнал и особенности его передачи 17
1.1.1. Понятие речевого сигнала 17
1.1.2. Характеристики речевого сигнала 18
1.1.3. Теория коммуникации: эволюция и основные модели 22
1.2. Проблемы обеспечения защиты конфиденциальной речевой информации 24
1.2.1. Необходимость обеспечения защиты конфиденциальной речевой информации 24
1.2.2. Технические каналы утечки речевой информации 26
1.2.3. Методы защиты речевой информации 28
1.2.4. Маскировка речевого сигнала с помощью зашумления 30
1.2.5. Типы шума, их влияние на маскировку речевого сигнала 31
1.2.6. Оценка разборчивости речевого сигнала 35
1.3. Избыточность естественных языков 37
1.3.1. Определение избыточности естественного языка 37
1.3.2. Проявление избыточности на различных языковых уровнях 39
1.4. Особенности восприятия речи в нормальных и зашумленных условиях 51
1.4.1. Восприятие звука органами слуха человека 51
1.4.2. Особенности восприятия речи в шуме 54
1.5. Выводы 60
Глава 2. Экспериментальное исследование слухового восприятия речевого сообщения в условиях различных видов и уровней зашумления (на материале русского и немецкого языков) 62
2.1. Подготовка экспериментального материала 62
2.2. Аудиозапись тестовых фонограмм 65
2.3. Акустический анализ фонограмм речевых сигналов 67
2.4. Подготовка экспериментального материала для проведения перцептивно-слухового анализа 72
2.5. Описание методики проведения перцептивно-слухового анализа зашумленных фонограмм 74
2.6. Результаты экспериментальных исследований 75
2.6.1. Количество прослушанных фонограмм и расчет ошибки выборки для данного объема выборки 75
2.6.2. Сравнение основных результатов перцептивно-слухового анализа аудиторов-мужчин и аудиторов-женщин 76
2.6.3. Влияние разных типов шума на защищенность речевого сообщения 84
2.6.4. Лингвистические и экстралингвистические факторы, влияющие на защищенность речевого сообщения от обнаружения на фоне шума 87
2.6.5. Правильное распознавание языка речевого сообщения 100
2.6.6. Восприятие смыслового контента сообщения на русском языке на фоне разных типов шума с разным соотношением «сигнал/шум» 112
2.6.7. Сравнительный анализ распознавания разных типов согласных и гласных в ударной позиции в первом слоге (на экспериментальном корпусе слов на русском языке в условиях зашумленности) 181
2.7. Выводы 188
Заключение 191
Список использованной литературы 195
- Теория коммуникации: эволюция и основные модели
- Акустический анализ фонограмм речевых сигналов
- Количество прослушанных фонограмм и расчет ошибки выборки для данного объема выборки
- Сравнительный анализ распознавания разных типов согласных и гласных в ударной позиции в первом слоге (на экспериментальном корпусе слов на русском языке в условиях зашумленности)
Введение к работе
Актуальность данного исследования определяется необходимостью
получения более надежных данных о влиянии разных типов шума (розового и
белого) на распознавание речи в условиях зашумленности, а также некоторых
лингвистических и экстралингвистических факторов, которые могли бы быть
использованы для повышения эффективности современных систем
зашумления.
Объектом настоящего исследования является звучащая речь на русском и немецком языках в условиях зашумленности.
Предметом исследования являются речевые реализации тестовых фраз на русском и немецком языках на фоне разных типов шума (белого и розового) при разном соотношении «сигнал/шум» (0 дБ, -3 дБ, -6 дБ, -9 дБ, -12 дБ) и их перцептивно-слуховой анализ.
Целью работы является проведение перцептивно-слухового анализа речевых сообщений на русском и немецком языках в сравнительном противопоставлении их друг другу в идентичных условиях зашумления (разные
типы шума (розовый и белый) с разным соотношением «сигнал/шум») на разных языковых уровнях, а также определение влияния лингвистических и экстралингвистических факторов на восприятие речи на фоне шума. Достижению данной цели служит решение следующих задач:
-
Проведение анализа современного состояния подходов к методике защиты речевого сообщения при его передаче по каналам связи.
-
Определение лингвистических и экстралингвистических факторов, которые могут влиять на распознавание речи в условиях зашумленности.
-
Разработка и составление корпуса слов и фраз на русском и немецком языках для проведения экспериментального исследования.
-
Проведение аудиозаписи разработанного корпуса слов и фраз в реализации носителей русского и немецкого языков в специально оборудованном помещении, предотвращающем проникновение посторонних помех и шумов.
-
Проведение акустического анализа полученных фонограмм применительно к частоте основного тона дикторов.
-
Зашумление полученных фонограмм с помощью разных типов шума (розовый и белый) с разным соотношением «сигнал/шум» (0 дБ, -3 дБ, -6 дБ, -9 дБ, -12 дБ) и последующая проверка корректности степени зашумления с использованием программ, написанных на языке программирования MatLAB.
-
Проведение перцептивно-слухового анализа зашумленных фонограмм и определение степени влияния различных факторов на распознавание (обнаружение речевого сигнала в шуме и определение языка речевого сообщения) и восприятие смыслового контента речевого сообщения:
типа шума, позволяющего обеспечить лучшую маскировку речевого сообщения: розовый или белый при сравнении русского и немецкого языков;
максимального уровня соотношения «сигнал/шум» (минимальный уровень превышения шума над полезным сигналом), позволяющего обеспечить достаточную маскировку речевого сообщения: 0 дБ, -3 дБ, -6 дБ, -9 дБ, -12 дБ при сравнении русского и немецкого языков;
языка, на котором было произнесено сообщение (русский язык, немецкий язык);
уровня владения дикторами и аудиторами языком, на котором было произнесено сообщение (испытуемые - носители языка и испытуемые, не являющиеся носителями языка применительно к русскому и немецкому языкам);
частоты основного тона диктора (женский голос по сравнению с мужским) при сравнении русского и немецкого языков;
отсутствия или наличия контекстного окружения (изолированное слово или в слово составе фразы на русском языке);
частоты встречаемости слов в русском языке;
звукового состава речевого сообщения на русском языке (разборчивость специально отобранных согласных и гласных в первом ударном слоге).
Рабочая гипотеза формулируется следующим образом: на распознавание (обнаружение речевого сигнала в шуме и определение языка речевого сообщения) и восприятие смыслового контента в вариативных условиях зашумленности тракта связи оказывают влияние как вид шума и уровень соотношения «сигнал/шум», так и ряд лингвистических и экстралингвистических факторов: существующая избыточность конкретного языка на разных языковых уровнях, акустические характеристики голоса диктора (в частности частота основного тона), уровень владения дикторами и аудиторами анализируемыми языками.
Экспериментальным материалом настоящего исследования послужил специально составленный (по методике Р. К. Потаповой [Потапова Р. К. 1986: 108; Потапова Р. К. 2010: 141-142]) ad hoc материал, образующий корпус фонограмм слов и фраз на русском и немецком языках в реализации носителей русского и немецкого языков, зашумленных с помощью разных типов шума (розового и белого) с различным соотношением «сигнал/шум»: 0 дБ, -3 дБ, -6 дБ, -9 дБ, -12 дБ, и позволяющий провести анализ степени разборчивости (а следовательно, и защищенности) на разных уровнях языка.
При проведении данного поискового исследования количество дикторов (в
возрасте от 21 года до 26 лет) составило n=4: мужчина и женщина - носители
литературного русского языка без заметных диалектальных произносительных
особенностей, владеющие немецким языком; мужчина и женщина - носители
литературного немецкого языка без заметных диалектальных
произносительных особенностей, владеющие русским языком. Уровень владения иностранным языком у всех дикторов был одинаковый: B2-C1, что было протестировано по системе, разработанной Советом Европы [Common European Framework of Reference for Languages: Learning, Teaching, Assessment (CEFR): 24].
Каждый диктор в условиях безэховой камеры Института прикладной и математической лингвистики МГЛУ прочитал трижды 40 тестовых слов и фраз (20 на русском языке и 20 на немецком языке). Общее количество фонограмм для одного диктора составило n=120 (60 на русском языке и 60 на немецком языке). Общее количество фонограмм для всех дикторов составило n=480, суммарное количество зашумленных фонограмм с учетом всех типов шума и уровней соотношения «сигнал/шум» – n=4950, из них n=150 – шум без речевого сигнала, n=4800 – совмещение речевого сигнала с шумом различного типа и уровня.
Количество аудиторов составило n=21: мужчины (n=6) и женщины (n=15) в возрасте от 19 лет до 21 года, носители литературного русского языка без заметных диалектальных произносительных особенностей, обладающие нормальным слухом, владеющие английским языком на уровне B2-C1, что было протестировано по системе, разработанной Советом Европы [Common European Framework of Reference for Languages: Learning, Teaching, Assessment (CEFR): 24]. Часть аудиторов (n=12) владеет немецким языком на уровне B1-B2, часть (n=9) не владеет совсем.
Общее количество прослушанных аудиторами фонограмм составило n=23085.
Методология исследования определяется научным вкладом в
исследуемую проблему следующих авторов: В. А. Котельникова, К. Шеннона
(теория информации); Г. Фанта (теория речеобразования); Г. Лассуэла,
В. Г. Михайлова, Т. Ньюкомба, К. Осгуда, Р. К. Потаповой, К. Шеннона,
В. Шрамма (теория коммуникации); Л. В. Златоустовой, С. В. Кодзасова,
О. Ф. Кривновой, В. Г. Михайлова, Дж. Мэйдмента, А. А. Пирогова,
Р. К. Потаповой, В. В. Потапова, В. Н. Трунина-Донского, М. А. Сапожкова,
Дж. Л. Фланагана, М. Эшби (параметрическое описание, теория передачи и
восприятия звучащей речи); Л. Беранека, Ю. С. Быкова, А. В. Гавриленко,
В. С. Дидковского, Дж. Колларда, К. Д. Критера, Л. В. Златоустовой,
В. К. Иофе, В. Г. Королькова, В. Г. Михайлова, Н. Б. Покровского,
Р. К. Потаповой, А. Н. Продеуса, М. А. Сапожкова, Дж. Стейнберга,
Г. Флетчера, Н. Френча (разборчивость речи); К. Р. Бадуэна, Ф. Бауэра,
Г. Глисона, Е. В. Грудевой, Ж. Дюбуа, Л. Н. Засориной, Ж.-М. Клинкенберга,
Л. Леннгрена, О. Н. Ляшевской, Т. Н. Никитиной, М. И. Откупщиковой,
В. С. Пилиди, Р. Г. Пиотровского, Р. Томлина, С. А. Шарова, К. Шеннона,
Э. А. Штейнфельд, Ф. Эделина (избыточность речи, математическая
лингвистика, статистический анализ языков и криптография); Г. Линднера,
Л. Р. Зиндера, Р. К. Потаповой, О. Д. Черепановой (фонетика и
произносительные особенности языков); Г. А. Бузова, В. А. Герасименко,
А. П. Зайцева, С. В. Калинина, А. В. Кондратьева, А. А. Малюка,
Ю. К. Меньшакова, Р. В. Мещерякова, А. А. Торокина, А. А. Шелупанова
(информационная безопасность и защита информации); Д. Джоунза,
Д. Бродбента, М. Краузе, К. Лам, И. М. Лущихиной, А. Паберли-Кларк,
Р. К. Потаповой, В. В. Потапова, Э. Ское, М. В. Хитиной (восприятие речи в
затрудненных условиях); Л. П. Блохиной, А. С. Лежневой, Р. К. Потаповой,
Т. С. Платоновой, О. Н. Стаценко (переключение языкового кода);
Т. В. Агибаловой, Н. Н. Лебедевой, Р. К. Потаповой, В. В. Потапова (область междисциплинарных исследований).
Основными методами исследования были методы экспериментальной фонетики по составлению экспериментального материала (корпуса слов и фраз на русском и немецком языках), методы перцептивно-слухового анализа, методы акустического анализа (с использованием программы Praat [официальный сайт программы ]), статистические методы анализа результатов проведенного эксперимента, метод анализа частоты встречаемости слов при распознавании смыслового контента сообщения в условиях зашумленности с использованием современной технологии «облако слов» (с использованием онлайн-программы Wordle [официальный сайт программы ]).
В соответствии с вышеуказанными методами исследования применялась поэтапно следующая методика:
-
Составление специально разработанного ad hoc корпуса слов и фраз (по методике Р. К. Потаповой [Потапова Р. К. 1986: 108; Потапова Р. К. 2010: 141-142]) на русском и немецком языках.
-
Подбор и анкетирование дикторов.
-
Запись экспериментального материала в реализации носителей русского и немецкого языков в специально оборудованном помещении, предотвращающем проникновение посторонних помех и шумов: безэховой камере Института прикладной и математической лингвистики МГЛУ.
-
Акустический анализ полученных фонограмм применительно к частоте основного тона дикторов (с использованием программы Praat [официальный сайт программы ]).
-
Зашумление полученных фонограмм с помощью разных типов шума (розовый и белый) с разным соотношением «сигнал/шум» (0 дБ, -3 дБ, -6 дБ, -9 дБ, -12 дБ) и последующая проверка корректности степени зашумления с использованием программ, написанных на языке программирования MatLAB.
-
Подбор и анкетирование аудиторов.
-
Проведение перцептивно-слухового анализа.
8. Обработка и анализ полученных данных: прикладные методы обработки данных, статистический анализ результатов эксперимента, метод анализа частоты встречаемости слов при распознавании смыслового контента сообщения в условиях зашумленности с использованием современной технологии «облако слов» (с использованием онлайн-программы Wordle [официальный сайт программы ]).
Научная новизна работы заключается в том, что в ней впервые:
-
Предложен перечень различных типов избыточности на всех языковых уровнях, влияющих на распознавание речевого сигнала.
-
Проводится сравнительный анализ слухового восприятия сообщений (на материале специально составленного ad hoc материала, образующего корпус слов и фраз) на русском и немецком языках в зашумленных условиях.
-
Проводится сравнительный анализ влияния двух типов шума (розового и белого) с разным соотношением «сигнал/шум» (0 дБ, -3 дБ, -6 дБ, -9 дБ, -12 дБ) на защищенность речевого сообщения с использованием таких параметров оценки защищенности, как обнаружение речевого сигнала в шуме, определение языка речевого сообщения и восприятие смыслового контента.
-
Проводится сравнение звуковых сегментов экспериментальных фраз на русском языке (ряда согласных и гласных звуков в первом ударном слоге), наименее и наиболее подверженных маскировке, с целью формирования специальных рекомендаций по повышению эффективности сокрытия смыслового контента при маскировке речевого сообщения с помощью шума.
-
Применяется метод анализа частоты встречаемости слов при распознавании смыслового контента сообщения в условиях зашумленности с использованием технологии «облако слов».
Теоретическая значимость исследования заключается в дальнейшей разработке теории восприятия родной и иноязычной речи как в обычных условиях, так и при наличии различного вида помех и шума. Кроме того, результаты данного исследования являются вкладом в теорию передачи
речевого сигнала по различным каналам связи с учетом требований информационной безопасности.
Практическая ценность исследования состоит в том, что был сформулирован ряд рекомендаций, необходимых для сокрытия вербальной информации с учетом типов и уровней анализируемого шума. Полученные результаты могут быть также использованы:
1. В ходе проведения дальнейших теоретических и практических
разработок в области информационной безопасности и защиты
конфиденциальной информации от несанкционированного доступа.
-
Для повышения эффективности систем маскировки речевого сигнала с помощью акустического шума и защищенности речевой информации от утечки в каналах связи.
-
При разработке нормативных документов о методах и способах зашиты конфиденциальной информации от утечки.
4. Для подготовки лекционных курсов по направлению «Теоретическая,
прикладная и математическая лингвистика», а также специалистов в области
защиты информации.
На защиту выносятся следующие основные положения:
-
Розовый шум обеспечивает бльшую степень защищенности речевого сообщения при несанкционированном прослушивании при равных интегральных уровнях по сравнению с белым шумом при всех протестированных соотношениях «сигнал/шум» по следующим показателям: обнаружение речевого сигнала в шуме, правильное распознавание языка и смыслового контента сообщения.
-
Защищенность речевого сообщения на фоне шума (обнаружение речевого сообщения, правильное распознавание языка и смыслового контента сообщения) зависит от языка сообщения и от уровня владения данным языком дикторами и аудиторами.
-
Частота основного тона диктора оказывает влияние на обнаружение речевого сообщения на фоне шума: на материале экспериментального корпуса
слов и фраз на русском и немецком языках речевые сообщения в реализации дикторов-мужчин обнаруживались аудиторами на фоне шума реже, чем речевые сообщения в реализации дикторов-женщин (на фоне обоих типов шума при всех протестированных уровнях соотношения «сигнал/шум»).
-
Отсутствие или наличие контекстного окружения (изолированное слово или в составе фразы) влияет на правильное распознавание смыслового контента: на материале экспериментального корпуса слов и фраз на русском языке разборчивость на фоне обоих типов шума при всех протестированных соотношениях «сигнал/шум» была выше для слов в составе фразы по сравнению со словами в изолированной позиции.
-
На правильное распознавание слов на русском языке на фоне шума влияет частота их встречаемости в языке: слова с более высокой частотой встречаемости в русском языке, чаще, согласно результатам проведенного эксперимента, распознавались аудиторами.
-
В силу своей акустической природы разные звуки речи обладают разной степенью разборчивости: так, среди протестированных на материале экспериментального корпуса слов на русском языке самыми часто распознаваемыми (то есть наименее маскируемыми с помощью шума всех протестированных типов и уровней) в ударном первом слоге являлись среди согласных глухой щелевой альвеолярный [s] и сонорный губно-губной [m], среди гласных – гласный среднего ряда низкого подъема [a]; реже всего в рамках эксперимента распознавались (то есть являлись наиболее маскируемыми с помощью шума всех протестированных типов и уровней) среди согласных смычные взрывные губно-губные согласные: звонкий [b] и глухой [p], среди гласных – гласный переднего ряда высокого подъема [i].
Достоверность и обоснованность результатов исследования
обеспечивается междисциплинарной методологической базой исследования, репрезентативным объемом выборки (n=23085 прослушанных в ходе перцептивно-слухового анализа фонограмм) и применением новых технологий
в процессе статистической обработки и анализа данных, полученных в ходе эксперимента.
Апробация работы. Основные положения и результаты исследования
были представлены в форме докладов на заседаниях кафедры прикладной и
экспериментальной лингвистики Института прикладной и математической
лингвистики МГЛУ в 2010–2015 гг. в ходе работы над данным материалом, а
также были использованы в ходе итоговых обсуждений работы в рамках
проектов № 2.1.3/13821 «Фундаментальное исследование лингвоакустических
методов защиты речевой информации» в рамках базовой части
государственного задания Министерства образования и науки Российской Федерации по аналитической ведомственной целевой программе «Развитие научного потенциала высшей школы (2009–2011 гг.) (научный руководитель: др филол. наук, проф. Р. К. Потапова) и № 34.1254.2014К "Разработка распределенной интегрированной мобильной системы для удаленной работы с интегрированной лингвистической базой данных на основе применения облачных вычислений и облачных хранилищ данных" проектной части государственного задания Министерства образования и науки Российской Федерации на 2014–2016 гг.
Структура диссертации. Диссертация включает введение, две главы, заключение, список использованной литературы и приложения. Работа проиллюстрирована 127 рисунками и 21 таблицей.
Теория коммуникации: эволюция и основные модели
К основным физическим характеристикам речевого сигнала относятся длительность, интенсивность и частота основного тона. Их также называют просодическими характеристиками речи [Златоустова Л. В., Потапова Р. К., Потапов В. В., Трунин-Донской В. Н.1997: 58, 72].
Длительность отрезков речи определяется скоростью артикуляторных движений речевого тракта, так, средняя длительность гласных звуков составляет 0,15 с, согласных - 0,08 с [Сапожков М. А. 1978: 49; Потапова Р. К. 2010: 222; Потапова Р. К., Михайлов В. Г. 2012: 94]. Сочетание различных по длительности отрезков речи и пауз определяет восприятие темпа речи [Потапова Р. К., Михайлов В. Г. 2012: 94].
Интенсивность (сила) звука (амплитуда звукового давления) определяет восприятие громкости речевого сигнала [Кодзасов С. В., Кривнова О. Ф. 2001: 563] и влияет на ясность передачи и восприятия речи [Зиндер Л. Р. 1979: 101]. Так, если абсолютный порог слышимости принять за 0 дБ, то тихий разговор, шепот будет иметь уровень 35–40 дБ, разговор средней громкости, шум в магазине – 55–60 дБ, выступление в аудитории без средств звукоусиления, шумное собрание – 65–70 дБ, громкая речь – 70 дБ, звук реактивного двигателя – 120–140 дБ [Тэйлор Р. 1978: 59; Иофе В. К., Корольков В. Г., Сапожков М. А. 1979: 34; Радзишевский А. Ю. 2006: 113; Бузов Г. А. 2013: 12; Бузов Г. А. 2014: с. 37], а порог болевого ощущения составит 130 дБ [Зиндер Л. Р 1979: 107].
Речевой сигнал занимает, по некоторым оценкам, полосу звуковых частот 50–10000 Гц [Михайлов В. Г., Златоустова Л. В. 1987: 17; Потапова Р. К., Михайлов В. Г. 2012: 72], по другим оценкам – 70–7000 Гц [Потапова Р. К. 2010: 222; Бузов Г. А. 2013: 12; Бузов Г. А. 2014: с. 37], в пределах которой энергия акустических колебаний распределяется неравномерно: 95% энергии приходится на диапазон 175-5600 Гц [Бузов Г. А. 2013: 12; Бузов Г. А. 2014: 37].
При разложении речевого сигнала в ряд Фурье он представляется в виде суммы простых синусоидальных колебаний – гармоник с кратными периодами, первая из которых называется основным тоном [Кодзасов С. В., Кривнова О. Ф. 2001: 107, 560]. Период основного тона равен периоду колебания голосовых складок, а величина, обратная периоду, называется частотой основного тона (ЧОТ) [Кодзасов С. В., Кривнова О. Ф. 2001: 107; Потапова Р. К., Потапов В. В. 2012: 96]. ЧОТ определяет воспринимаемую высоту голоса [Кодзасов С. В., Кривнова О. Ф. 2001: 109; Алдошина И.А. 2002, № 1; Ashby M., Maidment J. 2005: 154], однако некоторые ограничения на данный процесс накладывает длительность самого сигнала: высота звука начинает восприниматься человеческим ухом при длительности более 60 мс для частот ниже 500 Гц, более 15 мс – для частот 1–2 кГц [Алдошина И.А. 1999, № 6].
Исследователи по-разному описывают средний диапазон ЧОТ для разных типов голосов. Так, по некоторым оценкам, ЧОТ взрослого мужского голоса лежит в диапазоне 80–200 Гц, взрослого женского – 150–400 Гц, детского – 200–500 Гц [Кодзасов С. В., Кривнова О. Ф. 2001: 110]; по другим оценкам, ЧОТ взрослого мужского голоса лежит в диапазоне 56–240 Гц, взрослого женского – 140–450 Гц [Михайлов В. Г., Златоустова Л. В. 1987: 17], согласно данным [Ashby M., Maidment J. 2005: 154], ЧОТ взрослого мужского голоса лежит в диапазоне 80–210 Гц, взрослого женского – 150–320 Гц. Л. Р. Зиндер оценивает средний диапазон мужского голоса как 100–250 Гц, средний диапазон женского голоса – 200–400 Гц [Зиндер Л. Р. 1979: 106].
ЧОТ непостоянна в различные моменты времени (в силу нестационарности речевого сигнала), поэтому уместно говорить о ее квазипериодичности [Златоустова Л. В., Потапова Р. К., Потапов В. В., Трунин-Донской В. Н.1997: 58–60]: изменение ЧОТ называется интонацией [Сапожков М. А. 1978: 47]. Диапазон данных изменений для взрослого человека составляет полторы - две октавы [Зиндер Л. Р. 1979: 106; Кодзасов С. В., Кривнова О. Ф. 2001: 109–110], у профессиональных певцов этот показатель может достигать четырех октав [Зиндер Л. Р. 1979: 106; Алдошина И.А. 2002, № 1]. Октавой называется диапазон, за который частота удваивается [Сапожков М. А. 1978: 21], причем данное соотношение верно до частоты 5000 Гц, свыше частоты 5000 Гц для увеличения высоты звука на октаву нужно увеличить частоту в 10 раз [Алдошина И.А. 1999, № 6].
Амплитудно-частотный спектр звукового сигнала в технической литературе часто называют FFT (Fast Fourier Transform) или БПФ (быстрое преобразование Фурье) [Радзишевский А. Ю. 2006: 72–73]. Линия, соединяющая амплитудные значения гармоник на этом спектре, называется спектральной огибающей. Она позволяет оценить вклад каждой гармоники в общую энергию сигнала и является индивидуальной особенностью говорящего, определяющей тембр его голоса [Зиндер Л. Р. 1979: 101; Кодзасов С. В., Кривнова О. Ф. 2001: 561–563]. Наклон спектральной огибающей отражает скорость уменьшения амплитуды гармоник при увеличении частоты: в среднем (при нейтральной фонации и нормальном голосовом усилии) падение составляет порядка 12 дБ на октаву [Кодзасов С. В., Кривнова О. Ф. 2001: 108], согласно другим источникам -6 дБ на октаву [Фланаган Д. Л. 1968: 26; Сапожков М. А. 1978: 47].
Пики спектральной огибающей – максимумов концентрации энергии в некоторых областях частот - называются формантами [Златоустова Л. В., Потапова Р. К., Потапов В. В., Трунин-Донской В. Н.1997: 58–59; Потапова Р. К., Потапов В. В. 2012: 28–29]. Данное определение считается наиболее распространенным, хотя существуют также такие определения данного понятия, как резонансный максимум [Кодзасов С. В., Кривнова О. Ф. 2001: 119] или полюс передаточной функции речевого тракта [Златоустова Л. В., Потапова Р. К., Потапов В. В., Трунин-Донской В. Н. 1997: 58–60].
Акустический анализ фонограмм речевых сигналов
Для участия в записи тестового материала были приглашены четыре диктора: мужчины (n=2) и женщины (n=2) в возрасте от 21 года до 26 лет. Два диктора (мужчина и женщина) – носители литературного русского языка без заметных диалектальных произносительных особенностей, владеющие немецким языком; два диктора (мужчина и женщина) – носители литературного немецкого языка без заметных диалектальных произносительных особенностей, владеющие русским языком. Уровень владения иностранным языком у всех дикторов был одинаковый – B2-C1, что было протестировано по системе, разработанной Советом Европы [Co on European Framework of Reference for Languages: Learning, Teaching, Assessment (CEFR): 24]. До проведения записи экспериментального материала дикторы должны были заполнить специальные анкеты, содержащие вопросы для оценки различных параметров социального, лингвистического и профессионального характера. Анкета для дикторов представлена в Приложении 2.
Каждый диктор произносил тестовые фразы и отдельные слова из фраз (общее количество n=20 (n=5 фраз и n=15 отдельных слов из фраз) для русского языка и n=20 (n=5 фраз и n=15 отдельных слов из фраз) для немецкого языка) троекратно. Таким образом, общее число полученных реализаций тестовых слов и фраз для одного диктора составило n=120 (n=60 для русского языка и n=60 для немецкого языка), для всех дикторов – n=480.
Все тестовые материалы были скомбинированы в 2 таблицы – для русского и немецкого языков. При этом порядок слов и фраз был случайный и отличался для разных дикторов. Таблицы тестового материала, предъявленные дикторам, представлены в Приложении 3.
Все тестовые слова и фразы начитывались с интонацией завершенного повествования и последующей паузой.
Аудиозапись тестового материала проводилась в специально оборудованном помещении, предотвращающем проникновение посторонних помех и шумов: безэховой камере Института прикладной и математической лингвистики МГЛУ. Для записи были использованы звуковая карта с кодеком SigmaTel High Definition Audio CODEC и программа Sony Sound Forge 7.0 (Build 214). Для записи были выбраны следующие характеристики: 1. Частота дискретизации 48 000 Гц. 2. Разрядность АЦП: 16 bit. 3. Канал: mono. 4. Аудиоформат: WAV. 2.3. Акустический анализ фонограмм речевых сигналов Для всех речевых реализаций тестовых фраз и слов дикторами была измерена частота основного тона с помощью программы Praat [официальный сайт программы http://praatpfanne.lingphon.net/] с применением автокорреляционного метода анализа в диапазоне частот от 75 до 500 Гц. После чего все результаты были проверены и скорректированы вручную. В рамках проведенного анализа были измерены минимальная, максимальная и средняя частота основного тона, а также диапазон изменений частоты основного тона.
Результаты сравнительного анализа частота основного тона дикторов (далее и в таблицах обозначена как F0) представлены в таблицах 8–11.
Как показали измерения, дикторы-мужчины обладают достаточно похожей средней ЧОТ (далее и в таблицах обозначена как F0(mean)): 101 Гц у носителя немецкого языка и 94 Гц у носителя русского языка для всего набора тестовых слов и фраз (см. табл. 8), при этом для русского языка разница F0(mean) минимальна: 97 Гц и 95 Гц соответственно (см. табл. 9), в то время как для немецкого языка она возрастает: 106 Гц и 94 Гц соответственно (см. табл. 10).
F0(mean) дикторов-женщин отличается значительно: 266 Гц у носителя немецкого языка и 200 Гц у носителя русского языка для всего набора тестовых слов и фраз (см. табл. 8). Однако при сравнении F0(mean) для двух языков наблюдается обратная (по сравнению с мужчинами) тенденция: разница между результатами двух дикторов максимальна для русского языка: 267 Гц и 192 Гц (соответственно), в то время как для немецкого языка она снижается: 265 Гц и 209 Гц (соответственно).
Таким образом, у мужчин F0(mean) была ниже для неродного языка (что соответствует результатам ранее проводимых исследований [Potapova R. K., Statsenko O. N. 2005; Платонова Т. С. 2013; 98; Потапова Р. К., Потапов В. В. 2013]), в то время как у женщин – для родного. Разница F0(mean) при переключении с родного языка на неродной составила -9 Гц (у носителя немецкого языка) и -1 Гц (у носителя русского языка) для мужчин и 3 Гц (у носителя немецкого языка) и 17 Гц (у носителя русского языка) для женщин (см. табл. 11).
В целом в данном эксперименте дикторы-носители русского языка обладают более высокой F0(mean) по сравнению с дикторами-носителями немецкого языка.
Диапазон изменения ЧОТ (далее и в таблицах обозначен как F0) на материале всего набора тестовых слов и фраз в 2-3 раза больше для дикторов-женщин, чем для дикторов-мужчин: 219 Гц (у носителя немецкого языка) и 202 Гц (у носителя русского языка) для женщин и 126 Гц (у носителя немецкого языка) и 61 Гц (у носителя русского языка) для мужчин (см. табл. 8). При переключении с родного языка на неродной F0 уменьшался как для носителей немецкого языка, так и для носителей русского языка (что соответствует результатам ранее проводимых исследований [Блохина Л. П., Лежнева А. С. 2000] (см. табл. 11).
Количество прослушанных фонограмм и расчет ошибки выборки для данного объема выборки
Как демонстрируют результаты ранее проведенных исследований [Краузе М. 2002], правильное распознавание языка речевого сообщения зависит, в том числе и от уровня владения конкретным языком аудитором. На материале экспериментального корпуса фонограмм (для тех фонограмм, в которых аудиторы обнаружили наличие речевого сигнала – здесь и далее для данного показателя) всего 8% фонограмм на русском языке были опознаны как немецкие (как на фоне розового, так и на фоне белого шума), при этом 22% фонограмм на немецком языке были опознаны как русские (также на фоне обоих типов шума), что является статистически значимо более высоким результатом на уровне 95%: при похожем звучании речевого сигнала русскоязычные аудиторы были склонны идентифицировать язык сигнала как русский (см. рис. 29–30).
Кроме того, количество ситуаций, когда аудиторы не могли четко расслышать текст сообщения и затруднялись определить язык, выше для немецкого языка (см. рис. рис. 29–30): 16% на фоне розового шума против 13% для сообщений на русском языке на фоне розового шума и 12% на фоне белого шума против 8% для сообщений на русском языке на фоне белого шума.
В целом для фонограмм на фоне белого шума процент правильного распознавания языка статистически значимо выше на уровне 95%, а количество ситуаций, в которых аудиторы затруднились определить язык, – статистически значимо ниже на уровне 95% для обоих языков (см. рис. 29–30 - статистически значимо более высокие значения на уровне 95% отмечены рамкой), при этом для русского языка количество ответов «затрудняюсь ответить» и «немецкий язык» одинаково для фонограмм на фоне белого шума, в то время как для фонограмм на фоне розового шума процент ответов «затрудняюсь ответить» в 1,6 раз превышает процент ответов «немецкий язык» (что является статистически значимым отличием на уровне 95%).
В целом показатель правильного распознавания языка выше сообщений на русском языке при всех уровнях соотношения «сигнал/шум» (на фоне обоих типов шума) по сравнению с аналогичным показателем для сообщений на немецком языке, за исключением лишь одного значения на уровне -12 дБ на фоне розового шума (см. рис. 31).
С понижением соотношения «сигнал/шум» для обоих типов шума процент правильного распознавания языка (как русского, так и немецкого) падает, однако при этом уровень соотношения «сигнал/шум», на котором начинается резкое падение данного показателя, отличается для разных языков и разных типов шума. Так, при соотношении «сигнал/шум» -3 дБ показатель правильного распознавания языка одинаков для обоих типов шума: 88%–89% – для русского языка и 69%–70% – для немецкого языка. Данный факт является следствием того, что на фоне розового шума правильное распознавание обоих языков отличается незначительно при сравнении результатов на уровнях соотношения «сигнал/шум» 0 дБ и -3 дБ, в то время как для белого шума при аналогичном изменении соотношения «сигнал/шум» происходит падение показателя правильного распознавания (для немецкого языка – статистически значимое на уровне 95%) (см. рис. 31 – статистически значимое на уровне 95% падение показателя по отношению к результату на предыдущем уровне соотношения «сигнал/шум» отмечено рамкой).
Для розового шума резкое (статистически значимое на уровне 95%) падение показателя правильного распознавания языка (как русского, так и немецкого) начинается с соотношения «сигнал/шум» -6 дБ и продолжается на каждом последующем протестированном уровне, достигая значения 48% для обоих языков на уровне -12 дБ (см. рис. 31 – статистически значимое на уровне 95% падение показателя по отношению к результату на предыдущем уровне соотношения «сигнал/шум» отмечено рамкой).
Для белого шума тенденции для русского и немецкого языков отличаются: для русского языка статистически значимое на уровне 95% падение показателя происходит на уровне -9 дБ (по сравнению с уровнем -6 дБ), в то время как для немецкого языка показатель правильного распознавания падает статистически значимо на уровне 95%, начиная с уровня -3 дБ, на каждом последующем протестированном соотношении «сигнал/шум» (см. рис. 31 – статистически значимое на уровне 95% падение показателя по отношению к результату на предыдущем уровне соотношения «сигнал/шум» отмечено рамкой).
Сравнительный анализ распознавания разных типов согласных и гласных в ударной позиции в первом слоге (на экспериментальном корпусе слов на русском языке в условиях зашумленности)
Эксперимент продемонстрировал, что слова в контекстном окружении (в составе фразы) в целом распознаются лучше, чем в изолированной позиции на фоне обоих типов шума (см. табл. 15, таблица отсортирована и отформатирована средствами MS Excel по убыванию значения от зеленого к красному).
Для фонограмм на фоне розового шума показатель правильного распознавания слов в составе фразы падает ниже 50% при соотношении «сигнал/шум» -6 дБ, причем только для одного слова («Зинин»), при соотношении «сигнал/шум» -9 дБ – для двух слов («Зинин» и «Поле»), при соотношении «сигнал/шум» -12 дБ – уже для десяти слов (см. табл.16–17, таблица 16 отсортирована и отформатирована средствами MS Excel по убыванию значения от зеленого к красному).
Для фонограмм на фоне белого шума показатель правильного распознавания слов в составе фразы падает ниже 50% лишь при соотношении «сигнал/шум» -12 дБ (причем всего для двух слов – «Зинин» и «Поле») (см. табл. 16–17).
Для фонограмм на фоне розового шума в изолированной позиции показатель правильного распознавания слов падает ниже 50% уже при соотношении «сигнал/шум» 0 дБ (хотя и только для одного слова «Поле»), при соотношении «сигнал/шум» -3 дБ количество слов с показателем правильного распознавания менее 50% составило уже три слова («била», «Милу» и «Поле»), при соотношении «сигнал/шум» -6 дБ – пять слов («Милу», «Зинин», «Борю», «била» и «Поле»), при соотношении «сигнал/шум» -9 дБ – девять слов, а при соотношении «сигнал/шум» -12 дБ – четырнадцать слов из пятнадцати протестированных (см. табл.16-17).
Для фонограмм на фоне белого шума в изолированной позиции показатель правильного распознавания слов падает ниже 50% также уже при соотношении «сигнал/шум» 0 дБ (также только для одного слова «Поле»), при соотношении «сигнал/шум» -3 дБ – также для одного слова («Поле»), при соотношении «сигнал/шум» -6 дБ – для трех слов «Зинин», «Поле» и «Борю»), при соотношении «сигнал/шум» -9 дБ – для четырех слов («Зинин», «Милу», «Борю» и «Поле»), а при соотношении «сигнал/шум» -12 дБ – для восьми слов из пятнадцати протестированных (см. табл.16-17).
Количество протестированных слов на русском языке, показатель распознавания которых не превысил 50% при каждом протестированном соотношении «сигнал/шум» N Соотношение "сигнал/шум" Белый шум Розовый шум Изолированно В составе фразы Изолированно В составе фразы
Стоит отметить, что в составе фразы в большинстве случаев лучше всего распознавалось подлежащее (которое всегда стояло на первом месте в экспериментальном корпусе фонограмм), на втором месте по степени распознаваемости – сказуемое.
Слова «мама», «Саша» и «папа» показали наивысшие показатели правильного распознавания среди всех протестированных слов. Хуже всего аудиторы распознавали слова «Поле», «Зинин», «Борю» и «Милу», которые являются именами собственными (причем более редкими в отличие от имени Саша). Данный результат свидетельствует о влиянии частоты встречаемости слов в языке на показатель правильного распознавания: так, слово «мама» является наиболее частотным среди всех протестированных слов (322,6 ipm – количество употреблений леммы на миллион слов корпуса: здесь и далее показатель ipm представлен по данным «Частотного словаря современного русского языка (на материалах Национального корпуса русского языка)» [электронная версия издания http://dict.ruslang.ru/freq.php]), слово «папа» - на втором месте по частотности среди протестированных слов (143,4 ipm), «Саша» - на третьем (93,6 ipm). Частотность слов «Поле», «Зинин», «Борю» и «Милу» значительно ниже: 8,1 ipm, 20,8 ipm, 19,6 ipm и 10 ipm, соответственно [электронная версия издания http://dict.ruslang.ru/freq.php] (см. табл. 18).
Частота встречаемости в русском языке слов с самыми высокими и самыми низкими показателями распознавания по результатам эксперимента
Сравнительный анализ распознавания разных типов согласных и гласных в ударной позиции в первом слоге (на экспериментальном корпусе слов на русском языке в условиях зашумленности)
Анализ распознавания разных типов согласных и гласных проводился для слогов, стоящих на первом месте в слове в ударной позиции (см. табл. 19) для фонограмм слов, находящихся в изолированной позиции, на русском языке на фоне обоих типов шума со всеми протестированными соотношениями «сигнал/шум». Таким образом, для анализа было представлено 15 типов сочетаний: 5 согласных ([ ], [p], [ ], [s], [ ]) и 3 гласных ([a], [i], [o] / [u]: в рамках анализа гласный [u] в слоге [su] был включен в группу слогов с гласным [ o]).