Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Устойчивость лингвистических признаков преобразованного речевого сигнала Голощапова Татьяна Ивановна

Устойчивость лингвистических признаков преобразованного речевого сигнала
<
Устойчивость лингвистических признаков преобразованного речевого сигнала Устойчивость лингвистических признаков преобразованного речевого сигнала Устойчивость лингвистических признаков преобразованного речевого сигнала Устойчивость лингвистических признаков преобразованного речевого сигнала Устойчивость лингвистических признаков преобразованного речевого сигнала Устойчивость лингвистических признаков преобразованного речевого сигнала Устойчивость лингвистических признаков преобразованного речевого сигнала Устойчивость лингвистических признаков преобразованного речевого сигнала Устойчивость лингвистических признаков преобразованного речевого сигнала Устойчивость лингвистических признаков преобразованного речевого сигнала Устойчивость лингвистических признаков преобразованного речевого сигнала Устойчивость лингвистических признаков преобразованного речевого сигнала
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Голощапова Татьяна Ивановна. Устойчивость лингвистических признаков преобразованного речевого сигнала : диссертация ... кандидата филологических наук : 10.02.21.- Москва, 2000.- 171 с.: ил. РГБ ОД, 61 00-10/232-0

Содержание к диссертации

Введение

Глава 1. Теоретические предпосылки для выделения и анализа идентификационно значимых признаков речевых сигналов, преобразованных с помощью средств фильтрации шумов и помех 17

1.1. Современное состояние проблемы идентификации личности по голосу и речи 17

1.2. Акустическая природа звукового состава русского языка 27

1.3. Структура и особенности помеховых сигналов, встречающихся в практике фоно-скопических экспертиз 41

1.4. Современные методы устранения шумов и помех 4 9

1.5. Влияние фильтрации на акустические характеристики сигнала 57

1.5.1. Влияние фильтров на значение основного тона 58

1.5.2. Влияние ФНЧ на функцию пересечения нуля 61

1.5.3. Влияние фильтрации на энергию сигнала 62

1.5.4. Последствия фильтрации, отражающиеся на спектрограммах 63

1.5.5. Влияние фильтрации на кепстральные характеристики 64

Глава 2. Экспериментальная проверка возможности проведения фоноскопических экспертиз по фоно граммам, преобразованным с помощью средств фильтрации шумов и помех 67

2.1. Подготовка экспериментального материала. 67

2.2. Описание средств фильтрации речевого сигнала, используемых при подготовке экспериментального материала 7 0

2.3. Описание методики проведения идентификационных исследований 75

2.4. Результаты экспериментальных исследований 90

2.4.1. Экспериментальное исследование фонограмм, прошедших через одноканальные средства фильтрации 92

2.4.2. Экспериментальное исследование фонограмм, прошедших через двухканальные средства фильтрации 99

2.4.3. Экспериментальное исследование ударных гласных 106

Заключение 115

Библиография 119

Список принятых сокращений 132

Приложение 1. Лингвистически представительный сбалансированный текст 134

Приложение 2. Инструкция аудитору по определению стимулов 136

Приложение 3. Протоколы интегрального анализа... 138

Приложение 4. Протоколы лингвистического анализа. 156

Введение к работе

Проблема идентификации личности по голосу стала особенно актуальной в последнее время в связи с обострением криминогенной обстановки, ростом таких видов преступлений, как "телефонный терроризм", вымогательство, похищение людей, шантаж и необходимостью повышения эффективности борьбы с ними со стороны правоохранительных органов.

Расследование и раскрытие любых преступлений требуют установления лиц и предметов, связанных с преступлением. Одним из наиболее распространенных и эффективных способов решения этой задачи является идентификация объекта по имеющимся следам. Анализируя деятельность криминальных структур за последние несколько лет ("Щит и меч", 11.03.99 г., 4-6), можно с уверенностью отметить, что уровень подготовки и совершения преступлений вырос. Нередко при осмотре мест происшествий с трудом можно найти "традиционные" следы преступления: отпечатки пальцев, гильзы, биологические объекты и т.д., что существенно усложняет процесс доказательства вины подозреваемых. При совершении "бесконтактных" преступлений (шантаж, вымогательство по телефону, "телефонный терроризм") нахождение таких следов невозможно. В этих случаях фонограммы с записью разговоров бывают единственными вещественными доказательствами в уголовных делах.

Использование материалов звукозаписи в качестве источников доказательственной информации вызывает необходимость их криминалистического, исследования. Исследование магнитных звукозаписей (фонограмм) как вещественных доказательств при расследовании уголовных дел называется криминалистической фоноскопиче-ской экспертизой (от греч. "fone"- «голос, звук, шум, речь, слово» и "scopio" - "смотрю, рассматриваю, наблюдаю"), в ходе которой могут решаться различные вопросы, имеющие отношение к конкретной звукозаписи. Эксперты устанавливают дословное содержание разговора, количество участников разговора, проводят дифференциацию реплик, идентификацию звукозаписывающей аппаратуры, определяют аутентичность фонограммы, наличие или отсутствие признаков монтажа, иногда решаются диагностические задачи: определение пола, возраста, эмоционального состояния говорящего, места формирования речевого навыка, образования и т.д. Однако основная задача фоноскопиче-ской экспертизы заключается в идентификации говорящего по фонограмме его речи. При решении этого вопроса выделяют следующие объекты: идентифицируемые (те, которые необходимо отождествить) - человек, фонограммы речи которого исследуются, и идентифицирующие (те, которые помогают отождествить) - спорная фонограмма и фонограмма образцов устной речи лица. Термин "спорная фонограмма" определен в работе (Ложкевич А.А. и др., 1977): "Спорная - это фоно-

грамма, из-за которой назначается экспертиза. Она отражает фактические обстоятельства, существенные для дела и которые необходимо проверить экспертным исследованием. Применительно к идентификации человека по его устной речи, это магнитная лента с записью речи человека, личность которого необходимо установить. При этом термин "спорная" носит условный характер". Образцы устной речи - это речь человека, зафиксированная на фонограмме и представленная для сравнительного исследования при проведении фоноско-пической экспертизы. Образцы устной речи могут быть записаны в ходе следственных действий (допрос, очная ставка, следственный эксперимент и т.д.) или изъяты с соблюдением процессуальных норм из домашних, радио, TV фонотек (видеотек).

Фонограммы разговоров стали приниматься судами в России в качестве вещественных доказательств в начале 90-х годов (Закон о советской милиции, 1991; Закон о внесении изменений, 1990). Уголовно- процессуальным кодексом Российской Федерации допускается проведение звукозаписей при допросе обвиняемого, подозреваемого, свидетеля или потерпевшего (ст. 141), при проведении очных ставок (ст.163) и во время судебного разбирательства (ст. 264). Статьей 35-й Основ уголовного судопроизводства допускается прослушивание и. звукозапись переговоров с телефонов и других переговорных устройств подозреваемого, обвиняемого или иных причастных к преступлению лиц. Об-

щим условием такого прослушивания , представляющего собой вторжение в охраняемую законом тайну телефонных переговоров, является обязательное наличие возбужденного уголовного дела и санкции прокурора либо определения суда. История появления фонограмм в судебном процессе в качестве вещественного доказательства неоднозначна. В США в 60-е годы фонограммы стали рассматриваться в судах, но после одного из процессов, в ходе которого было доказано стопроцентное алиби подозреваемого и невозможность его присутствия на месте совершения преступления (соответственно, его голоса на спорной фонограмме) фоноскопическая экспертиза была дискредитирована и изъята из судопроизводства. До настоящего времени не удалось восстановить авторитет данной экспертизы, и в американском судопроизводстве она рассматривается лишь в качестве косвенного доказательства. В России результаты фоноскопической экспертизы активно принимаются судами и до сегодняшнего дня ни разу не были опровергнуты. Для предотвращения повторения американского пути постоянно велись поиски по разработке и созданию системы, которая позволила бы, используя программно-математические методы, надежно идентифицировать человека по голосу и речи.

Сегодня фоноскопические исследования в России проводятся в экспертных подразделениях ФСБ, Минюста, МВД. В фоноскопических лабораториях ФСБ и МВД экспертизы выполняются в соответствии с методическими

рекомендациями "Идентификация лиц по фонограммам русской речи на автоматизированной системе "Диалект"" (Попов Н.Ф. и др, 1996),которые разработаны в криминалистической лаборатории ФСБ России и обобщают результаты 30-летней работы ведущих коллективов ученых и практиков СССР и России. Разработчикам системы удалось интегрировать две различных ветви фоноскопического исследования: акустическую и лингвистическую. Два сотрудника, специалист в области речевой акустики и специалист в области лингвистики, совершенно автономно выполняют эти виды анализа. Общий вывод делается по результатам, полученным в ходе сравнения акустических и лингвистических признаков. На сегодняшний день это наиболее рациональный подход, который позволяет получать объективные и достоверные результаты.

Не только проблема создания и совершенствования аппаратно- программных средств стоит перед экспертами- фоноскопистами. Практика получения оперативных материалов сегодня такова, что большая часть фонограмм не отвечает требованиям, предъявляемым к типовым фонограммам (Попов Н.Ф. и др., 1996, 32). Это происходит по разным причинам: несовершенство каналов связи "(основная функция телефонных трактов - передача информации, при этом сам сигнал подвергается различным искажениям); объективные условия (запись производится на улицах, в общественном транспорте, в помещениях, в которых работают электробытовые прибо-

ры и т.д.); оперативные работники обеспечены технически несовершенной аппаратурой - все это сказывается на качестве фонограмм. Так как до недавнего времени основной целью использования фонограмм было установление дословного содержания разговора, то о «качестве» речи никто не заботился. С введением фонограмм в уголовный процесс в качестве вещественного доказательства вопрос о "качестве" речи и возможности проведения идентификации личности по имеющимся материалам встал особенно остро. Известно, что посторонние помехи существенно влияют на структуру сигнала, затрудняют выделение частотных составляющих, т.к. в основном спектральные составляющие помех накладываются на спектральные составляющие речи. На сегодняшний день созданы аппаратные средства, которые помогают восстановить содержание разговора, записанного в условиях шумов и помех. Но для судебных органов важно не только то, что говорили, но и кто говорил. В большинстве случаев необходима именно идентификация дикторов, атрибуция реплик. Для проведения достоверной идентификации нужно иметь сигнал хорошего качества. Каково качество сигнала, прошедшего через средства шумоочистки? Этот вопрос до последнего времени не исследовался и при создании указанных средств шумоочистки не учитывался, так как основной проблемой разработчиков этих аппаратов было увеличениеразборчивости речи. В результате созданы аппараты, которые позволяют существенно улучшать

разборчивость речи, но в большинстве случаев речь, прошедшая через средства шумоочистки, оказывалась ограниченно пригодна для идентификационных исследований (появление «музыкальных» шумов, ограничение частотного-диапазона и пр.).

Предметом данного исследования являются речевые реализации, прошедшие через специальные средства удаления шумов и помех, и идентификационная значимость признаков, имеющихся в этих речевых отрезках. Основной объект нашего исследования - фонетически представительный сбалансированный текст, в котором представлены все гласные и согласные фонемы русского языка в своем основном виде и их позиционно-комбинаторных разновидностях (аллофонах). В нем учитываются все позиции, обусловливающие эти разновидности, частота употребления фонем, равномерность их распределения в разных позициях в тексте. Особое значение имеет реализация фонем именно в тексте, а не изолированно, так как объектом фоноскопической экспертизы является звучащая речь, имеющая свойственные только этой форме представления речевого материала специфические характеристики.

Актуальность данного исследования определяется необходимостью выявления индивидуальных идентификационно значимых признаков, не изменяющихся в результате использования средств шумоочистки, на основании которых возможно проведение отождествления личности по голосу и речи. Значимость работы в том, что выде-

ленные индивидуальные идентификационно значимые признаки позволят проводить фоноскопические экспертизы на материале, который сегодня считается непригодным для идентификации. Научная новизна работы состоит в том, что впервые изучено влияние средств фильтрации на «качество» речи и на возможность проведения идентификационных исследований по «обработанной» речи, впервые на материале русского языка экспериментально исследован фонетически представительный сбалансированный текст, прошедший обработку с помощью аппаратуры шумоочистки, впервые предложена методика исследования речевых признаков, сохраняющихся после их обработки с помощью специальной аппаратуры, впервые разработаны рекомендации по работе с зашумленным сигналом с целью его использования для дальнейшей идентификации.

Цель работы- исследование возможности использования фонограмм с низким качеством записи для решения задачи идентификации личности при условии обработки их аппаратно-программными средствами фильтрации шумов и помех, выявление идентификационных признаков, не изменяющихся в результате воздействия средств шумоочистки, а также значимости данных признаков в процессе идентификации.

Достижению поставленной цели служит решение следующих задач:

- подобрать фонетически представительный сбалансированный текст, в котором функционировали бы по

возможности все гласные и согласные фонемы русского языка и их позиционно-комбинаторные фонетические разновидности (аллофоны);

- составить фонотеку (базу данных) наиболее рас
пространенных шумов, встречающихся в практике фоно-
скопической экспертизы;

отфильтровать речевые фрагменты фонетически представительного сбалансированного текста с помощью специальных средств фильтрации шумов и помех и получить материал для идентификационного исследования;

провести идентификационные исследования полученных речевых фрагментов методами аудитивного, акустического и лингвистического видов анализа;

выявить индивидуальные фонетические идентификационно значимые признаки, сохраняющиеся после обработки речевого сигнала с помощью специальных аппаратно-программных средств.

Основная гипотеза формулируется следующим образом: в речевом сигнале, прошедшем специальную акустическую обработку с помощью средств фильтрации шумов и помех, могут быть средуцированы, искажены либо утрачены индивидуальные фонетические идентификационно значимые признаки, которые позволяют проводить идентификацию личности по голосу. Необходимо вычленить из речевого контекста признаки, которые сохраняются стабильными, и строить лингвистический анализ фоноскопической экспертизы, основываясь на их детальном исследовании.

Теоретическая значимость работы заключается в дальнейшем развитии теории языка применительно к звуковому строю последнего, теории сегментных и суп-расегментных признаков звучащей речи в специальных условиях, теории экспериментальной и прикладной лингвистики, а также теории судебной фоноскопической экспертологии.

Теоретическая значимость работы определяется также совокупностью следующих основных положений, выносимых на защиту.

На защиту выносятся следующие основные положения:

  1. Существующие аппаратно-программные средства фильтрации"шумов и помех влияют на разборчивость речи, записанной в неблагоприятных условиях.

  2. Методы фильтрации, применяемые в средствах шумоочистки, ведут к тому, что наряду с шумами удаляются из речи некоторые признаки, позволяющие достаточно точно идентифицировать речь определенного человека, что ведет к "сглаживанию" индивидуальных черт речи.

  3. Наибольшему изменению под влиянием специальной обработки подвергаются признаки голоса, выполняющие, в основном, функцию "узнавания" при аудитив-ном восприятии речи.

  4. Анализируемые группы согласных в силу своей акустической природы (их основные спектральные составляющие находятся в области спектральных состав-

ляющих шумов) подвергаются существенным изменениям и теряют индивидуализирующие признаки.

  1. В речевом сигнале, подвергшемся специальной обработке с помощью средств фильтрации шумов и помех, остаются некоторые признаки, которые сохраняют индивидуальные особенности говорящего, что позволяет их использовать при проведении фоноскопической экспертизы и идентификации личности по речи.

  2. Темповые характеристики, особенности мелодики и паузации при воздействии средств шумоочистки остаются неизменными.

  3. Система вокализма подвержена изменениям в незначительной степени, что позволяет использовать эти признаки, наряду с лексическими и синтаксическими, при проведении лингвистического анализа идентификационного исследования.

Практическая ценность работы определяется целым рядом факторов. Во-первых, результаты исследования, представленные в диссертации, могут быть учтены разработчиками средств фильтрации шумов и помех для улучшения качества работы создаваемой аппаратуры. Во-вторых, могут быть использованы экспертами-фоноскопистами при проведении идентификационного исследования на звукозаписях низкого акустического качества. В-третьих, предлагаемая в работе методика исследования изменения фонетических особенностей речи диктора может быть применена для тестирования любой аппаратуры, связанной с фиксацией речи: регист-

раторов, магнитофонов и т.д. В-четвертых, результаты исследования могут использоваться при обучении экс-пертов-фоноскопистов, а также в вузовских курсах анализа и синтеза речи.

Достоверность и обоснованность полученных результатов обеспечивается методологической базой исследования. Теоретической основой работы являются лингвистические теории звукового состава естественного языка, теория речеобразования и артикуляции, положения теории фильтрации, положения и категории теории идентификации. Основными методами исследования являлись методы аудитивного анализа, интегрального анализа, парных сравнений, статистического принятия решения, математические методы цифровой обработки сигналов.

Достоверность выводов подкреплена объемностью исследованного материала - 10 исходных фонограмм и 100 фонограмм, прошедших через одноканальные и двух-канальные средства фильтрации.

Основные результаты и содержание диссертационного исследования нашли отражение в 4 публикациях автора.

Апробация работы. Основные положения работы нашли отражение в докладах на научных конференциях: Международная конференция «Информатизация правоохранительных систем» (Москва, Академия управления МВД, 1997) и Международная конференция «Математические методы в технике и технологии» (Великий Новгород,

1999), на курсах повышения квалификации экспертов-фоноскопистов, проводившихся на базе Академии управления МВД России (февраль, ноябрь, 1997; февраль, ноябрь, 1998; февраль, ноябрь, 1999, февраль, 2000), на стажировках зкспертов-фоноскопистов, проводившихся на базе ЭКЦ МВД России (1996-1999 гг.), в повседневной практике производства фоноскопических экспертиз и исследований экспертно-криминалистических подразделений МВД России.

Акустическая природа звукового состава русского языка

Как уже указывалось, в ходе проведения оперативно-розыскных и следственных мероприятий все чаще применяется запись речевой информации, используемая в дальнейшем в качестве вещественных доказательств в материалах уголовных дел и в качестве документов и приложений к протоколам следственных действий. В связи с этим значительно возросло количество фонограмм, направляемых в экспертно криминалистические подразделения для проведения фо-носкопической экспертизы.

Исследование представленных звукозаписей проводится методами акустического и лингвистического видов анализа. В экспертной практике чаще всего изучение объекта производится изолированно, лишь на заключительном этапе формирования выводов результаты этих двух направлений исследования обобщаются.

Основным методом лингвистического анализа является метод слухового анализа, то есть многократное прослушивание звучащей речи (Попов Н.Ф. и др., 1996, 64) . В связи с этим огромное значение имеют "слуховой опыт" эксперта, качество его слуховой памяти и даже эмоциональное состояние в момент проведения лингвистического анализа.

Для объективизации результатов исследования и во избежание случайных ошибок требуется определить взаимозависимость лингвистических признаков и их акустических коррелятов. Для решения этой сложной задачи необходимо иметь четкое представление об акустической природе звукового строя русского языка. Известно (Бондарко Л.В. и др., 1991, Зиндер Л.Р., 1919, Златоустова Л.В. и др. 1991, Реформатский А.А., 1996, Фант Г., 1967), что звуки речи делятся на гласные (вокализм) и согласные (консонантизм). С акустической точки зрения различение гласных и согласных может основываться на наличии формантнои структуры у первых и отсутствии ее у вторых (применительно к согласным принято говорить о частотных локусах), на том, что гласные обладают большей спектральной энергией, чем согласные, а также на том, что гласные характеризуются наличием квазипериодических колебаний, а согласные - иррегулярных колебаний. Кроме того, согласные отличаются тем, что для их характеристики важное значение имеют спектрально-временные соотношения на переходных участках в сочетании с гласными звуками.

При производстве гласных источником звука являются голосовые связки, колебания которых образуют основной тон голоса (далее F0) . Кроме основного тона, в звуке, возникающем в результате колебаний голосовых связок, содержится большое число гармоник (обертонов)(Зиндер Л.Р., 1979). Надгортанные полости - ротовая, носовая, полость глотки - являются резонаторами, собственные частоты которых меняются в зависимости от положения языка, губ, мягкого неба, то есть в зависимости от того, какой звук произносится. Источник звука вызывает в системе резонаторов (в надгортанных полостях) собственные колебания, в результате чего звук, возникающий в источнике, "обогащается" резонансной системой надгортанных полостей. Максимально выраженные резонансные частоты называют формантами звука (далее Fi, F2 и т.д.), которые отражают специфическую артикуляцию каждого гласного.

Формантная структура каждого гласного определяется характеристиками формант, она используется для правильного опознавания данного звука. Для опознавания звука достаточно первых двух формант, однако идентификационно значимыми являются третья и четвертая форманты (Рамишвили Г.С, 1981).

Как уже упоминалось, гласные с акустической точки зрения представляют собой квазипериодические колебания, вызванные действием голосовых связок и преобразованные в резонаторных полостях, создающих специфику звучания каждого гласного. Акустический "портрет" гласных включает частотные характеристики - составляющие, усиленные в спектре каждого гласного и создающие его собственное качество, отличающее его от других гласных.

Влияние фильтрации на энергию сигнала

Применение различного рода фильтров практически всегда приводит к изменению энергии сигнала. Это связано с тем, что по своей сути фильтр - это средство коррекции энергии сигнала в определенной спектральной области. Следовательно, на участках, где значительная доля энергии сигнала приходилась на спектральную область, которая была подвергнута подавлению с помощью какого-либо фильтра, значение функции энергии будет существенно ниже. Аналогичная картина будет наблюдаться при использовании любого фильтра. То есть подавление какой-то спектральной составляющей в сигнале приводит к заметному понижению функции энергии на участках сигнала, где доля энергии в этой области значительна, см. рис. 12 (ЦРТ, 1997) .

Спектрограмма - наиболее наглядный способ проиллюстрировать результат работы фильтра. Естественно, при использовании какого-либо фильтра спектрограмма отфильтрованного сигнала будет существенно отличаться от спектрограммы исходного. Более того,- сравнение двух спектрограмм и даже визуальный анализ спектрограммы отфильтрованного сигнала - это способ проверки правильности выбора типа фильтра и правильности настроек фильтра (оптимизация, положение полос подавления, глубина подавления в полосах). Поскольку коэффициенты любого из фильтров (РФ, ФНЧ, ФВЧ, ПФ) не зависят от значения сигнала в каждый момент времени, следовательно, можно точно предсказать, что на спектрограмме отфильтрованного сигнала будет иметь место равномерное снижение интенсивности в тех каналах, где было подавление, и увеличение интенсивности, где фильтр был настроен на поднятие. Естественно, каждый тип фильтра и тем более их произвольные комбинации будут оставлять свой отклик на спектрограмме, поэтому для иллюстрации изменения спектрограммы предлагается влияние произвольно настроенного эквалайзера, см. рис. 13 (ЦРТ, 1997).

Кепстр, как и другие характеристики сигнала, также претерпевает изменения при применении различных видов фильтров. Однако при этом имеются особенности, которые характерны только для кепстра. В случае, когда предполагается вычисление кепстра отфильтрованного сигнала, лучше использовать оптимизацию фильтра по коэффициенту подавления. Это необходимо делать для того, чтобы у реально вычисленного фильтра не было слишком крутых перепадов АЧХ. Если у АЧХ фильтра есть один или тем более несколько крутых фронтов, то происходит следующее: при фильтрации на спектре сигнала появляются крутые перепады в АЧХ мгновенного спектра, следовательно, при вычислении спектра от логарифма такого спектра, то есть кепст pa, у последнего на высоких частотах наблюдается повышение энергии. Этот факт является свойством преобразования Фурье и должен учитываться при настройке фильтра. Эффект проиллюстрирован на рис. 14 (ЦРТ, 1997).

Вторым эффектом изменения кепстра является частичное или полное исчезновение последовательности максимумов, соответствующих основному тону (или его кратным гармоникам). Это может происходить в том случае, если подавлению с помощью фильтра подвергаются области спектра, содержащие гармоники основного тона. Пример такого исчезновения см. на рис. 15. Таким образом, влияние фильтрации на вычисление кепстра таково, что при некоторых вариантах настройки фильтра возникают искусственные особенности ( подня тие на высоких вследствие крутых фронтов), либо те ряется полезная информация (при подавлении фильтром гармоник основного тона)(ЦРТ, 1997).

Таким образом, все рассмотренные искажения, вносимые в характеристики речевого сигнала различными средствами фильтрации, требуют детального исследования и оценки, а также решения вопроса, о возможности использования отфильтрованных речевых сигналов в процессе идентификации. Решению этого вопроса посвящается экспериментальная часть данной диссертации.

Описание средств фильтрации речевого сигнала, используемых при подготовке экспериментального материала

Далее сигналы, условно названные «речь/шум», подвергались обработке с помощью одноканальных средств шумоочистки "ПАКОРС", "Вензель-СП" и с помощью устройства двухканальной цифровой адаптивной фильтрации "Золушка-31".

Программно-аппаратный комплекс "ПАКОРС" (верхняя граничная частота обрабатываемого сигнала - 6000 Гц, динамический диапазон - не менее 50 дБ, неравномерность АЧХ в рабочей полосе частот - +-1 дБ, коэффициент гармоник в рабочей полосе частот - не более 0,5%, число КЛП -196, разрядность АЦП/ЦАП - 12) предназначен для многофункциональной цифровой и аналоговой обработки магнитных записей (фонограмм) искаженных и зашумленных речевых сигналов, полученных оперативным путем, с целью повышения их разборчивости, качества звучания и комфортности прослушивания.

Шумоочистка в устройстве осуществляется следующим образом. Непрерывный входной сигнал преобразуется в цифровую форму, затем подается на два конвейерных процессора, в одном из которых вычисляется оценка шума и результат компенсации. Во втором процессоре вычисляется вектор КЛП в соответствии с запрограммированным адаптивным алгоритмом. Первый процессор представляет собой трансверсальныи цифровой фильтр 196-го порядка, а второй - адаптивный процессор. В адаптивном процессоре значения вычисляются таким образом, чтобы предсказанное на момент времени значение компенсировало шумовую составляющую с минимальным остатком. Настройка на полную компенсацию шумовой составляющей осуществляется не мгновенно, а за определенное время (время адаптации), которое регулируется с помощью коэффициента адаптации. Конвейерная организация вычислений позволяет осуществить компенсацию шума в речевом сигнале в реальном времени.

Аппаратно-программный комплекс "Вензель-СП" (аппаратное и программное обеспечение рассчитано на работу на IBM-совместимом компьютере класса не ниже AT 38 6 с математическим сопроцессором 80387 ОЗУ не менее 2 Мбайт, манипулятором типа "мышь" тактовая частота не ниже 16 МГц, видеоадаптер и монитор VGA, операционная система MS DOS не ниже версии 3.3) является универсальным средством для проведения работ, связанных с повышением разборчивости, улучшением качества и шумоочисткой звукозаписей речи. Предложенные алгоритмы широкополосной шумоочистки основаны на применении различных вариантов метода спектрального вычитания (МСВ). Сущность МСВ состоит в распознавании шумовых и речевых фрагментов сигнала и использовании информации о спектре шума для коррекции спектра сигнала. Таким образом, определяющим моментом МСВ является сегментация речи и шума. В МСВ фазовая информация не учитывается и ее влияние считается несущественным. Кроме того, предполагается сохранение модуля спектра помехи неизменным от момента его замера до момента фильтрации. В остальном различные реализации МСВ отличаются.

Устройство двухканальной цифровой адаптивной фильтрации "Золушка-31" предназначено для шумоочи-стки речевого сигнала в каналах связи и при воспроизведении фонограмм. Устройство позволяет в реальном масштабе времени автоматически устранять из обрабатываемого зашумленного сигнала разнообразные периодические и медленно меняющиеся узкополосные многокомпонентные помехи (при наличии соответствующего опорного сигнала помехи).

В базовой конфигурации устройство содержит следующие узлы: блок питания, плату передней панели с органами управления и индикации, матричный жидкокристаллический индикатор с подсветкой Hitachi LMG64 0 (с разрешением 240x128 точек), базовую плату, содержащую разъемы для подключения внешней аппаратуры (выходящие на заднюю панель), входные и выходные усилители, 16-разрядный АЦП-ЦАП (AD18 45), процессор обработки сигналов TMS320C31-4 0, ПЗУ программ процессора, ОЗУ цифрового накопителя емкостью 256К отсчетов, схемы для связи с платой передней панели, разъемы расширения конфигурации для восьми модулей процессоров.

Экспериментальное исследование фонограмм, прошедших через двухканальные средства фильтрации

В результате анализа экспериментальных данных удалось показать, что обработка речевого сигнала с помощью двухканального фильтра приводит к некоторым искажениям в его структуре. Субъективное восприятие речи, прошедшей двухка-нальную шумоочистку, улучшается. Разборчивость речевого сигнала, по предварительным оценкам, увеличивается приблизительно на 15-20%. Однако, наблюдается устойчивая зависимость между качеством звучания очищенной речи и такими параметрами фильтра, как время задержки и коэффициент адаптации. При этом при больших значениях коэффициента адаптации увеличивается эффективность фильтрации, но ухудшается естественность звучания речи. Этот факт обусловлен уменьшением скорости адаптации фильтра, что позволяет ему более адекватно настроиться на помеховую составляющую в основном канале. Однако, при этом наблюдается увеличение искажений в тонкой структуре речи, что и приводит к неестественности ее звучания. Тщательным подбором данных параметров адаптивного фильтра можно добиться достаточно полной фильтрации шумовой составляющей.

Экспериментальные исследования по идентификации исходных и отфильтрованных фонограмм, проведенные на базе автоматизированной системы "Диалект", подтверждают то, что акустическая структура речи в результате обработки на аппаратуре шумоочистки "ЗолушкаЗІ" изменяется. Полученные значения искажений в акустических характеристиках сигнала, прошедшего двухка-нальную шумоочистку, не позволяют должным образом проводить идентификацию говорящего. Протоколы идентификационных исследований фонограмм трех дикторов по группе интегральных акустических признаков представлены в приложении 3. Как видно из приведенных результатов, во всех случаях сравнения информативность совокупности совпавших признаков I оказалась меньше порога информативности совокупности использованных признаков Р, что свидетельствует в свою очередь о несовпадении речи дикторов на исходных и очищенных фонограммах по группе акустических признаков и невозможности их идентификации .

При анализе лингвистических характеристик также наблюдаются изменения признаков. На аудитивном уровне восприятия признаки голоса подвергаются существенным изменениям. При сравнении с исходной фоно граммой на отфильтрованной фонограмме наблюдается снижение высоты голоса. Причем в наибольшей степени этот признак проявляется при очистке от шума холодильника . Изменения силы голоса после очистки речевого сигнала независимо от вида помехи не наблюдается.

При анализе тембральных характеристик голоса прослеживается четкая зависимость изменения тембра от вида шумовой помехи. Шум кондиционера, шум улицы и шум падающей воды изменяют тембр голоса: он становится несколько глуше. Остальные виды исследуемых шумов не меняют тембральные характеристики.

Анализ исходных и отфильтрованных фонограмм показал, что артикуляционные признаки также подвержены изменениям. После шумоочистки наблюдается эффект снижения уровня речевого сигнала (иногда близко к нулю звука). При этом разборчивость речи по сравнению с исходным сигналом снижается; отдельные слоги в заударных позициях не дифференцируются, речь близка к "бормотанию".

При анализе темповых характеристик увеличения или снижения темпа речи не наблюдается.

Соотношение длительности пауз и их расстановка на исследуемых фонограммах не изменялись. Неизменным оставалось и лексическое заполнение пауз. Нелексические элементы (например, причмокивание и т.д.), характерные для речи диктора на исходной фонограмме, сохраняются на отфильтрованных сигналах.

Параметры ритмико- мелодических характеристик речи, в основном, изменялись. Стабильным оставался лишь ритм речи, то есть чередование ударных и безударных, долгих и кратких слогов.

Фразовое и логическое ударения, служащие средством выделения речевых отрезков или отдельных слов во фразе, на исследуемых фонограммах не изменялись.

При анализе отфильтрованных фонограмм учитывался также такой параметр, как удобство прослушивания для аудитора. После очистки от всех видов шумов наблюдается существенное снижение комфортности восприятия (по сравнению с исходной фонограммой), вызванное появлением музыкального шума. Это явление аудитивно воспринимается как случайно распределенные кратковременные чистые тона (0,1 - 0,7 с), обусловленные алгоритмом работы аппаратуры шумоочистки (наложение спектров, комбинационные помехи). В процессе очистки фонограммы от шумов улицы полностью отфильтровать помеховый сигнал не удалось, что также влияло на комфортность восприятия.

В фонетической группе признаков анализировались гласные и согласные звуки. Наименьшему изменению подвержены гласные. При анализе аудитивного восприятия ударных гласных не наблюдается каких-либо изменений ни в длительности звуков, ни в артикуляции. Индивидуальные признаки, характерные для речи конкретного диктора, не изменяются.

Похожие диссертации на Устойчивость лингвистических признаков преобразованного речевого сигнала