Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Моделирование процессов управления речевой разборчивостью в многоканальных системах конфиденциальной голосовой связи Мишуков, Андрей Андреевич

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Мишуков, Андрей Андреевич. Моделирование процессов управления речевой разборчивостью в многоканальных системах конфиденциальной голосовой связи : диссертация ... кандидата технических наук : 05.13.18, 05.13.19 / Мишуков Андрей Андреевич; [Место защиты: Воронеж. ин-т МВД России].- Воронеж, 2012.- 152 с.: ил. РГБ ОД, 61 12-5/3774

Содержание к диссертации

Введение

Глава І. Анализ состояния проблемы обеспечения безопасности речевой информации в общедоступных каналах и сетях связи 12

1.1 Особенности современных систем защищенной голосовойсвязи 12

1.1.1. Виды современной голосовой связи, особенности и тенденции ее развития 12

1.1.2. Речевые технологии в системах информационного обмена и безопасности 19

1.1.3. Задачи безопасности речевой связи, решаемые посредством компьютерных технологий 23

1.2 Технологии защиты речевых сообщений от прослушивания в общедоступных каналах и сетях связи 25

1.2.1. Общая классификация методов и средств защиты речевых сообщений от несанкционированного перехвата 25

1.2.2. Аналоговое скремблирование речевой информации 27

1.2.3. Цифровые методы защиты речевых сообщений 30

1.2.4. Маскираторы речи 33

1.3. Речевая информация: способы оценивания и угрозы 38

1.3.1. Полиинформативность речевой информации и способы оценивания качества речевого сигнала 38

1.3.2. Модель нарушителя и угрозы речевой информации 41

1.3.3. Разборчивость как основной показатель защищенности речевой информации от утечки по техническим каналам 44

1.4. Подходы к управлению речевой разборчивости в многоканальных системах защиты конфиденциальных переговоров в каналах связи 49

1.4.1. Анализ существующих и поиск новых подходов к созданию многоканальных систем речевой защиты 49

1.4.2. Требования к перспективным маскираторам речи 53

1.5. Выводы по главе 1 54

Глава 2. Исследование методов и алгоритмов образного анализа синтеза акустических (речевых) сигналов 57

2.1. Исследование аналитических описаний речевого сигнала 57

2.1.1. Традиционные модели речевого сигнала на вокализованных участках 57

2.1.2. Уточненные описания речевых вокализмов 60

2.1.3. Акустический сигнал как суперпозиция узкополосных сигналов (вейвлетов) его составляющих 63

2.1.4. Графическое представление речевых сигналов в виде развертки узкополосных амплитудных спектрограмм

2.2. Алгоритмическая основа функционирования компьютерных систем защиты и обработки речевой информации 72

2.2.1. Интерпретации кратковременного анализа-синтеза Фурье и выбор функции взвешивающего окна 72

2.2.2. Методы восстановления аудио сигналов с использованием полных амплитудно-фазовых значений кратковременного спектра 81

2.2.3. Методы восстановления речевого сигнала по усеченным описаниям матриц динамических спектральных состояний

2.3. Методы синтеза речеподобных сигналов по изображениям узкополосных спектрограмм без учета фазы 87

2.4. Компьютерная система образного анализа-синтеза речеподобных сигналов по изображениям спектрограмм 92

2.5. Выводы по главе 2 97

Глава 3. Методы управления разборчивостью на основе образного анализа-синтеза речи 100

3.1. Управление разборчивостью через изменение и обработку фонетической функции 100

3.1.1. Исследование связи фонетической функции с огибающей спектра речи 100

3.1.2. Обработка фонетической функции с целью введения неразборчивости в маскируемый речевой сигнал 106

3.2. Управление речевой разборчивостью через внешнее маскирование речевой информации (суммирование с помехой) 110

3.2.1. Генерация мешающих акустических квазигармонических сигналов с заданными свойствами 110

3.2.2. Маскиратор с аддитивной помехой 115

3.3. Управление речевой разборчивостью через рассечение разнесение речевой информации 121

3.3.1. Сепарация речевого сигнала на речеподобные составляющие во временной области 121

3.3.2. Сепарация речевого сигнала на речеподобные составляющие в частотно-временной области 123

3.4. Выводы по главе 3 126

Глава 4. Экспериментальные исследования по управлению речевой разборчивости в системах голосовой связи 128

4.1. Описание состава программно-технических средств используемых в экспериментальном стенде по управлению речевой разборчивостью 128

4.2. Описание экспериментального стенда и условий проведения эксперимента по управлению речевой разборчивостью 132

4.3. Результаты и выводы проведенного эксперимента по управлению речевой разборчивостью 133

4.4. Направления дальнейших исследований в задачах по управлению речевой разборчивостью 138

Заключение 139

Литература 143

Введение к работе

Актуальность темы. В настоящее время проблема защиты информации от несанкционированного доступа является одной из основных проблем современной человеческой деятельности.

По оценкам отечественных и зарубежных специалистов значительная часть передаваемой по общедоступным каналам электросвязи информации приходится на долю аудиовизуальной информации, важную часть которой составляют речевые сообщения. Задачи защиты и обработки речевой информации (РИ) занимают одно из ведущих мест в решении общей проблемы информационной безопасности.

Современное состояние проблемы защиты речевой информации (ЗРИ) характеризуется постоянным расширением арсенала средств негласного съема и перехвата акустических (речевых) сигналов, технические характеристики и способы применения которых, неуклонно совершенствуются. В связи с этим особый интерес представляют исследования, направленные на выявление принципиально новых подходов к защите РИ, позволяющих существенно усложнить процесс негласного съема акустических (речевых) сигналов (РС) с каналов голосовой связи.

Разработке и исследованию различных методов обработки и защиты речевой информации, определения разборчивости речевых сообщений, как основного показателя их защищенности, посвящено множество работ зарубежных и отечественных исследователей: Фанта Г., Фланагана Дж., Рабинера Р., Шафера Р., Продеуса А.Н., Калинцева Ю.К., Сапожкова М.А., Макарова Ю. К., Хорева А.А., Каргашина В.Л., Кириллова С.Н., Малинина Ю.И, Голубинского А.Н. и др.

Все алгоритмы и устройства защиты речевой информации можно разделить на 3 основные группы:

шифраторы, в которых осуществляется преобразование речевого сигнала в цифровую форму с последующей защитой по сложному криптографическому алгоритму;

скремблеры, в которых используется сложные операции преобразования исходного речевого сигнала в неразборчивый речеподобный в частотной и временной областях, при этом осуществляется постоянное изменение ключа речевого преобразования (РП) в ходе сеанса связи;

маскираторы, в которых используются относительно несложные операции преобразования над речевым сигналом в частотной и временной областях с целью введения неразборчивости, причем алгоритм самого технического закрытия РС в ходе сеанса связи не изменяется.

Последние обладают рядом неоспоримых преимуществ, как-то: достаточно невысокая стоимость; относительно высокая стойкость; максимальная оперативность; повышенное качество восстановленного сигнала; устойчивая работа на каналах среднего и низкого качества (за счет асинхронного режима); возможность работы в многоканальных системах (данная возможность требует дополнительных исследований). Поэтому интерес исследователей к созданию новых типов эффективных маскираторов постоянно растет и это объясняется следующими причинами.

Во-первых, прогресс в вычислительной технике вызвал резкое уменьшение массогабаритных характеристик устройств компьютерной телефонии, и прежде всего смартфонов, с различными функциями речевой обработки при наращивании их вычислительной мощности. Сегодня особый интерес представляют быстрые алгоритмы маскирования, адаптированные под большинство мобильных устройств и приложений, способные в режиме реального времени преобразовывать РИ в защищенный формат.

Во-вторых, многоканальность современной голосовой связи предопределяет право абонентов на выбор наиболее приемлемого канала речевого общения, обуславливает новые требования к защите РИ от НСД, прежде всего, при организации многосторонних аудио-видеоконференций и вебинаров, на которых обсуждаются вопросы, связанные с коммерческой, врачебной, служебной и другими видами тайн, относящимися к разряду конфиденциальной информации.

Удовлетворить требованиям современных групповых пользователей по защите конфиденциальной РИ, передаваемой по различным общедоступным каналам связи, таких как: проводная телефония, сотовые и компьютерные сети связи, довольно трудно. Тем не менее, это возможно осуществить на основе разрабатываемых в работе методов управления речевой разборчивостью (РР), реализованных в маскираторах РС на основе стандартных средств вычислительной техники.

Таким образом, актуальность темы диссертационной работы обусловлена востребованной необходимостью разработки эффективных устройств маскирования речевых сообщений, обеспечивающих высокую степень защиты и скрытности передаваемой речевой информации от действий злоумышленника (ЗЛ).

Объектом исследования являются технологии моделирования систем защиты конфиденциальной речевой связи от умышленного несанкционированного доступа к защищаемой РИ.

Предметом исследования являются модели, методы и алгоритмы управления речевой разборчивостью с целью создания и применения новых типов эффективных речевых маскираторов для защиты конфиденциальной голосовой связи.

Целью диссертационного исследования является разработка и совершенствование математических моделей и методов управления речевой разборчивостью с последующим внедрением в создаваемых на их основе новых типах маскираторов речи, а также повышение эффективности защиты РИ от действий злоумышленника в многоканальных системах конфиденциальной голосовой связи.

Основные задачи исследования. В диссертации поставлены и решены следующие задачи:

1. Анализ существующих современных систем управления защитой речевой информации и особенностей их применения при конфиденциальной многосторонней речевой связи в общедоступных сетях и каналах голосовой связи (КГС).

Разработка модели угроз речевой информации при её передаче в общедоступных каналах и сетях голосовой связи.

Разработка математической модели преобразования РИ через изменение и обработку изображений амплитудных спектрограмм (графических образов - ГО) защищаемого РС с обратным переходом к его волновой реализации.

Разработка модели управления РР через рассечение - разнесение (сепарацию) речевой информации, изменение огибающей спектра и микширования РС с маскирующими квазигармоническими сигналами помехи, синхронизирующими процессы речевого маскирования.

Экспериментальное тестирование предложенных моделей и алгоритмов.

Методы исследования. Для решения задач исследования использованы методы математического моделирования, цифровой обработки сигналов и изображений, методы спектрального и корреляционного анализа, экспертного оценивания, теории информационной безопасности, теории управления. Общей методологической основой проведения исследования является системный подход.

Для проведения вычислительного эксперимента и получения первичных результатов оценки применялись существующие возможности программного продукта Matlab версии 7.8.0 и специализированного программного обеспечения «Лазурь» версии 2.0.

Научная новизна работы заключается в следующем:

Предложена модель модификации и обработки огибающей спектра РС и связанной с ней фонетической функцией (ФФ), отвечающей за РР, позволяющие моделировать работу известных, создавать и тестировать новые типы процедур речевого маскирования.

Предложен алгоритм защиты РИ посредством разделения ГО исходного РС с последующим синтезом на несколько речеподобных сигналов, имеющих заранее заданную разборчивость ниже определенной нормы, с дальнейшей модификацией ФФ и передачей каждой части исходного сообщения по различным независимым КГС, обратными преобразованиями и сборкой на приемном конце.

Сформулированы новые направления прикладных исследований в сфере защиты речевой информации, основанные на различных аспектах управления речевой разборчивостью в многоканальных системах и КГС.

Практическая ценность работы. Разработанные методы и подходы к речевому маскированию - управлению РР, через изменение и обработку графических образов РС, позволят создать бюджетные устройства по защите конфиденциальной РИ в многопользовательских системах голосовой связи, сравнимые по стойкости к НСД с дорогими устройствами, использующими

сертифицированные средства криптографической защиты.

Разработанное в процессе работы ПО речевого маскирования пригодно для массового применения в телефонных смартфонах на базе ОС «Андроид».

Кроме того, предложенные в работе подходы, за счет избыточности используемых КГС, позволят создавать системы голосовой связи с повышенной помехозащищенностью для использования в чрезвычайных ситуациях и охраны правопорядка.

Основные положения, выносимые на защиту:

математическая модель управления РР, за счет изменения ФФ через обработку спектральных огибающих, в процессе внутреннего и/или внешнего речевого маскирования на основе технологии образного анализа- синтеза речи («звук - изображение - звук»), позволяющая моделировать работу традиционных и перспективных речевых маскираторов;

математическая модель управления РР через рассечение - разнесение (сепарацию) РИ путем рассечения-разнесения и обработки ГО РС (изображений узкополосных сонограмм), позволяющая реализовать совместно с методами изменения ФФ новые процедуры речевого маскирования с заданным уровнем остаточной разборчивости;

алгоритм зашиты речевой информации с обоснованием возможности его функционирования в многопользовательских системах голосовой связи посредством разделения образа исходного голосового сообщения, с последующим синтезом нескольких речеподобных сигналов, имеющих заранее заданную разборчивость ниже определенной нормы, с дальнейшей модификацией ФФ и передачей каждой части голосового сообщения по различным независимым каналам связи, обратными преобразованиями и сборкой на приемном конце;

Внедрение результатов работы. Основные результаты работы были использованы в Департаменте информационных технологий, связи и защиты информации МВД России. Теоретические и практические результаты, полученные в ходе выполнения диссертационного исследования, использованы в учебном процессе НИЯУ МИФИ, МГТУ им. Н.Э. Баумана и РосНОУ, о чем имеются соответствующие акты внедрения.

Результаты исследований использовались в целевой НИР по теме: «Образный анализ-синтез акустических (речевых) сигналов и его приложения к задачам обработки и защиты аудиовизуальной информации», шифр заявки «2010-1.1-214-032-079», Государственный контракт от 29 марта 2010 г. № 02.740.11.0655 в рамках ФЦП «Научные и научно- педагогические кадры инновационной России» на 2009-2013 годы.

Результаты работы внедрены в виде ПО речевого маскирования для создания защищенных смартфонов на базе ОС «Андроид» в ООО «Новилаб Мобайл».

Апробация работы. Основные результаты диссертационной работы докладывались на следующих конференциях: третьем Евразийском форуме: Международные аспекты информационной безопасности - «Инфофорум-

Евразия», 2007 г.; конгрессе по интеллектуальным системам и информационным технологиям «ais-it'09», Москва, 2009 г.; шестом Евразийском форуме: Международные проблемы информационного взаимодействия и информационной безопасности - «Инфофорум-Евразия», г. Москва, 2010 г.

Обоснованность и достоверность результатов диссертации

определяется корректным применением использованных методов исследования. Достоверность основных положений диссертационной работы обеспечивается корректностью применения математического аппарата, доказанностью выводов, совпадением теоритических результатов с экспериментальными данными, успешной практической реализацией результатов в образовательной деятельности, апробацией на научно- технических конференциях и семинарах, а также внедрением результатов в практическую деятельность ряда организаций.

Публикации. По основным положениям диссертационной работы опубликовано 10 печатных работ: 4 статьи в изданиях, рекомендованных ВАК; 3 тезиса докладов; отчет о научно-исследовательской работе; 2 статьи в профильных журналах.

Структура и объем работы. Диссертация содержит 152 страницы машинописного текста и состоит из введения, четырех глав, заключения, списка использованных источников. Основная часть диссертации содержит 142 страницы текста, 38 рисунков и 7 таблиц. Список источников включает 144 наименования.

Технологии защиты речевых сообщений от прослушивания в общедоступных каналах и сетях связи

Совершенствование технологий обеспечения безопасности различных сторон человеческой деятельности сегодня невозможно без внедрения и широкого применения процедур обработки и защиты аудиовизуальной информации на основе последних достижений современных информационных технологий. Среди увеличивающего объема передаваемых различных видов данных основную долю сегодня занимают аудиовизуальные, в т.ч. и речевые, данные, как наиболее естественные средства коммуникации, общения людей.

Всё виды речевого общения можно разделить на непосредственный разговор и голосовое общение по какому-либо каналу связи (например, телефон, сети передачи данных - Frame Relay, Voice Net, Asynchronous Transfer Mod, SDH, PDH, ІР-телефонию).

В первом случае для обеспечения безопасности речевой информации, передаваемой при личном общении, обычно используются выделенные помещения (ВП) проведения конфиденциальных переговоров с системами постановки активных помех или без оных, с различного рода организационными мерами, направленными на ограничение доступа посторонним к местам проведения такого рода бесед.

Во втором случае для обеспечения конфиденциальности сообщения РИ в канале голосовой связи защищается методами маскирования, скремблирования, шифрования, речи. Эти технологии более подробно будут рассмотрены ниже.

Основными подходами к защите речевой информации (РИ), как впрочем и к любой другой защищаемой от информационных угроз, являются следующие традиционные типы подходов. [5]. Первый - это снижение уровня информационного сигнала. Второй подход - это повышение уровня шумов и помех. Оба подхода стремятся сделать информационный сигнал малозаметным для злоумышленника или нарушителя информационной безопасности.

До настоящего времени методы и средства реализации каждого подхода в отношении РИ развивались самостоятельно, не учитывая особенностей распространения самих информационных сигналов и возрастающих технических возможностей нарушителей.

Особенно это стало заметным для речевой информации, где совмещение указанных подходов, реализуемых пока отдельно как для выделенных помещений, так и для каналов голосовой связи, тесно взаимодействует с базой новых речевых описаний, моделей речеобразования и слухового восприятия, может дать новый ощутимый эффект. Это тем более верно, поскольку основной целью защиты речевой информации от злоумышленника, как правило, является защита семантики (смыслового содержания) речевого сообщения, определяемого таким показателем как разборчивость речи [22]. А защита самого факта проведения переговоров или защита индивидуальных признаков диктора и т.п. часто выходят на второй план.

В этой связи в настоящее время особый интерес вызывает разработка новой методологии проектирования методов речевой обработки и защиты, которые в совокупности с развитыми стандартными техническими средствами мультимедиа, компьютерной телефонии и др., обеспечивающими совмещение компьютера или смартфона с каналами речевой связи, позволят создавать новые виды технических средств для защиты РИ, нацеленные на решение конкретной задачи в области обеспечения безопасности речевой связи в открытых каналах голосовых телекоммуникаций и выделенных помещений.

Помимо обозначенных, существует множество других задач цифровой обработки акустических (речевых) сигналов, также требующих своего эффективного и экономичного решения как в системах безопасности, так и информационных системах, базирующихся на оригинальных описаниях акустических (речевых) сигналов, которые можно поиспользовать в технологиях речевой защиты от НСД в многоканальных системах конфиденциальной голосовой связи.

На Рис. 1.5 показано место указанных речевых технологий в системах безопасности и специализированных информационных системах [4].

Отметим, что данные защитные технологии могут быть реализованы на стандартной вычислительной технике, компьютеризированных гаджетах или смартфонах. В некоторых случаях применения такого рода компьютерных технологий, может быть использовано как наступательное (атакующее), а в других как оборонительное (защитное) звено создаваемых специализированных систем обеспечения безопасности аудиоданных [3].

Как видно из Рис. 1.5 методы защиты речевой информации от несанкционированного доступа играют одну из важнейших ролей среди задач цифровой обработки речевых сообщений в системах безопасности.

Тем не менее наработки в других смежных областях могут подсказать правильный выбор описаний и моделей речевых сигналов, которые могут быть использованы в комплексе задач речевой обработки, в процессе решения основной задачи: защиты от прослушивания ЗЛ каналов голосовой связи.

В качестве такого примера можно привести задачу маскирования аудиосоставляющей многоточечной видеоконференции с одновременным удалением присутствующих канальных помех и эхо-подавлением.

Уточненные описания речевых вокализмов

Современное состояние проблемы защиты речевой информации (ЗРИ) характеризуется постоянным расширением арсенала средств негласного съема акустических (речевых) сигналов, технические характеристики и способы применения которых, неуклонно совершенствуются злоумышленниками (ЗЛ) [1,26]. Одним из эффективных направлений совершенствования процесса защиты речевой информации по техническим каналам утечки речевой информации (ТКУРИ) является управление речевой разборчивостью, заключающееся в инструментальном методе ее оценки, сравнении с заданным показателем и при необходимости реализации комплекса мер по нейтрализации ТКУРИ, путем уменьшения РР до нормированного значения [26]. Как было показано выше, этот подход может быть применим сегодня не только к защите конфиденциальных переговоров в выделенных помещениях (ВП), но и к защите голосовой связи, современные системы которой характеризуются многозвенностью, мультимодальностью, многоканальностью и большим числом абонентов, участвующих в аудиоконференциях.

К сожалению, традиционные технологии обеспечения безопасности речевых сообщений (ОБРС) - аналоговое скремблирование и дискретизация речи с последующим шифрованием [2,7], - не в полной мере соответствуют особенностям современной многоточечной голосовой связи. Прежде всего, из-за наличия процессов синхронизации в процедурах речевой обработки на концах каналов связи, а также из-за чувствительности алгоритмов закрытия речи к потерям и запаздываниям пакетов аудиоданных. Указанные технологии применимы только для одного защищенного режима работы только двух абонентов, работающих только в одном канале связи, с учетом наличия у обоих (или у оператора связи) сложного и достаточно дорогостоящего оборудования защиты РИ.

Тем не менее, удовлетворить требованиям современных групповых пользователей по защите конфиденциальной РИ, передаваемой по различным общедоступным каналам связи, как-то: проводная телефония, сотовые и компьютерные сети - можно уже сегодня на основе методов и ПО управления речевой разборчивостью (РР), реализованных, в том числе и на стандартных средствах вычислительной техники.

В этой связи речевой сигнал (PC) каждого из абонентов конфиденциальных переговоров можно описать совокупностью, а иногда и как сумму нескольких речеподобных сигналов, каждый из которых имеет свою РР со значением менее заданного уровня (нормы) и может быть передан другому собеседнику по своему отдельному голосовому каналу. Кроме того, дополнительно возможна трансформация формы этого сигнала, приводящая к тому, что потенциальная разборчивость будет близка к нулю.

Такой отдельный речеподобный сигнал, будучи возможно перехваченным в одном из контролируемых каналов связи, уже не будет понятен нарушителю. У легального же пользователя на приемном конце все полученные по разным маршрутам элементарные сигналы снова сшиваются по определенным правилам в один, теперь уже разборчивый сигнал.

Организационно-техническая модель такой защищенной голосовой связи для одновременно используемых 4-х каналов (три сотовых оператора «большой тройки» плюс канал VoIP) показана для 2-х абонентов на Рис. 1.9 и может быть расширена на большее число абонентов.

Для сохранения конфиденциальности переговоров в ВП считается, что если уровень расчетной словесной разборчивости не превышает 20% (исходя из полос равной разборчивости полученных опытным путем [26]), то данный ТКУРИ не требует проведения защитных мероприятий [26]. Те же выводы можно отнести и к телекоммуникационным каналам речевой связи. S(t) = (J 5,(0 5(0 = X ( ) wsk wn, Wh - 0 (1.5) При необходимости в целях еще большего уровня защиты РИ в каждом из используемых каналов можно дополнительно использовать известные и новые алгоритмы маскирования речи [7].

Также от сеанса к сеансу можно организационно изменять набор участвующих в модели каналов, добавляя каналы новых операторов связи (например фиксированную телефонную связь, другие сервисы VoIP и сотовой связи) и исключая старых. (WiMAX) (WiMAX)

Класс методов деконволюции (разложения) исходного PC на неразборчивые речеподобные составляющие также весьма широк: от полосовой фильтрации по группам равноартикуляционных полос до спектрально-временной обработки фонетической функции (динамической огибающей спектра), определяющей PP.

Для организации эффективной работы специализированных компьютерных систем защиты и обработки аудиовизуальной информации необходимо использовать особенности механизмов человеческого речеобразования и слухового восприятия, некоторые из которых пока до конца не исследованы. Знание этих особенностей позволит строить функциональные модели анализа-синтеза речевой информации, в том числе и образного при реализации предложенной схемы многоканальной системы маскированной речевой связи [46, 57].

Ожидается, что методы основанные на технологии образного анализа, заключающейся в переходе от волнового представления PC к изображению динамических узкополосных спектрограмм - графических образов (ГО, их обработке методами цифровой обработки изображений для решения прикладных задач и обратном переходе (синтезе) от нового изображения к новой волновой форме, - лучше всего могут подойти для организации многоканального асинхронного маскирования PC.

Кроме того, в них, одновременно с преобразованиями фонетической функции, отвечающей за семантику, речевого сообщения, могут реализовываться процедуры цифровой «шумоочистки» амплитудных, фазовых и других канальных помех, возникающих в процессе финальной «склейки» элементарных составляющих.

Процесс управления РР здесь можно представить в виде расслоения или «слайдирования» исходного ГО на ряд мало или совсем непохожих на исходный других ГО, по которым синтезируются неразборчивые речеподобные сигналы, передаваемые в каналы связи, принимающая сторона проводит сшивку и объединение ГО с последующим синтезом в новый разборчивый сигнал на выходе.

С помощью методов образного анализа-синтеза динамических узкополосных спектрограмм можно также повышать помехозащищенность речевых сигналов передаваемых по различным каналам связи. Помехозащищенность может быть реализована за счет внесения избыточности в различные части речевого сигнала, передающиеся по разным каналам связи. Тем самым в процессе сшивки результирующего сигнала появляется возможность выбора той части спектра речевого сигнала, которая претерпела наименьшее искажение в процессе передачи по каналам связи. Также за счет увеличенной избыточности можно восстанавливать речевой сигнал, переданный по каналам связи с существенным зашумлением и возможными временными «просечками» или задержками.

Исходя из сегодняшних потребностей пользователей можно выделить общие требования к маскираторам, предполагаемых к использованию в многоканальных системах конфиденциальной голосовой связи.

Для использования маскираторов в многоканальных системах голосовой связи необходимо выполнение условия маштабируемости исходного речевого сигнала на конечное число каналов, определяемое в начале сеанса связи.

Для использования маскираторов в каналах с различной пропускной способностью необходимо учесть возможность адаптации передаваемых сигналов под различные условия работы каналов связи.

Для реализации подобных программных средств на существующих общедоступных универсальных устройствах, таких как ноутбуки и нетбуки, необходимо, что бы реализуемые алгоритмы были менее ресурсоемкими, чем существующие на данные момент. Также необходимо иметь ввиду, чтобы формат речевых сообщений мог быть передан с использованием стандартных протоколов передачи данных и стандартов по передаче аналоговых голосовых сообщений, то есть осуществлять передачу голосовых сообщений с использованием средств связи с коммутацией каналов и с коммутацией пакетов данных.

Для определения речевой разборчивости в отдельном канале связи из всего массива каналов связи используемых при организации сеанса связи целесообразно использовать показатели речевой разборчивости определенные для защиты речевых переговоров в выделенных помещениях (см. Табл. 1.5).

Методы восстановления речевого сигнала по усеченным описаниям матриц динамических спектральных состояний

Как уже отмечалось формулы (2.17) и (2.18) достаточно часто используются для описания вокализованных участков речи и весьма пригодны для решения многих задач речевой обработки, в основном носящих фоноскопическую, криминалистическую направленность. Например, идентификация и верификация дикторов, распознавание речи и др. Остальные выражения (2.19) и (2.20) наиболее пригодны для других видов речевой обработки, в том числе и для реализации технологий речевой подписи, для защиты бумажных документов от фальсификации и подделок, и шумоочистки искаженных фонограмм. Для ряда прикладных задач необходимо совместное использование всех приведенных выражений, описывающих сложный акустический сигнал, или создание новых моделей на основе использования указанных свойств узкополосности элементарных звуковых составляющих.

Подчеркнем, что число элементарных фонообъектов - KrR в (2.17)-(2.20) при движении окна наблюдения по временной оси может сильно отличаться даже на соседних интервалах анализа, т.е. KrR K{r+l)R, где R шаг наблюдения.

Заметим также, что конкретное значение числа значимых узкополосных составляющих (К в (2.17) - (2.20)) исходного AC (PC) как на каждом сегменте обработки, так и для всей его протяженности выбирается в зависимости от условий решения каждой конкретной задачи аудиообработки и заданной точности вычислений.

В частности, в тех приложениях, когда сразу бывает необходимым даже сложный аудиосигнал изначально представлять как узкополосный процесс, можно принимать К=1, и тогда его представление по формулам (2.17) - (2.20) существенно упрощает решение и вычисления.

Можно показать, что и множество других распространенных видов описаний, моделей AC (PC) часто приводятся к предложенному параметрическому описанию по формуле (2.16) и ее частным случаям (2.17) - (2.20), поскольку большинство из них первоначально можно отобразить через преобразование Фурье.

Несмотря на то, что частные описания (2.17) - (2.20), от общего представления исходного звукового сигнала по формуле (2.16), -используются в практических приложениях довольно часто [52, 59, 66], тем не менее, в решении некоторых задач речепреобразования возможно применение и других вытекающих из (2.16) самостоятельных описаний. В частности, возможно использование произвольных комбинаций уже известных по (2.17) - (2.20) представлений, а также других их подвидов.

Возможны и другие частные модели, главное, чтобы они удовлетворяли свойствам узкополосных по Гильберту элементарных сигналов, составляющих исследуемый сложный аудиосигнал. То есть, их спектр частот должен быть сосредоточен вокруг одной центральной, относительно медленно меняющейся со временем частоты, а во временной области они должны быть представлены в виде произведения неотрицательной медленно меняющейся со временем амплитудной огибающей на косинус зависящей от времени фазы.

Как видно из выражений (2.17) - (2.20), произведение положительных значений амплитуды элементарных составляющих на гармоническую функцию косинуса, взвешенных затем на коротких интервалах времени оконной функцией при реализации кратковременного спектрального анализа, в самом общем случае будет приводить к сдвигу Фурье - образа (амплитудного спектра) взвешивающей функции окна в области отрицательных и положительных частот на частоту помноженной гармоники. И если взвешивающая функция изначально имела сосредоточенный (узкий) спектр, то после перемножения ее временной реализации на косинусоидальную временную функцию этот спектр сосредоточится уже вокруг частоты модулирующей гармоники. То есть свойство узкополосности будут выполняться.

Таким образом, в приведенных в формуле (2.16) и ее частных случаях (2.17) - (2.20) описаниях сложного звукового сигнала именно значения параметров узкополосных Гильбертовских огибающих: амплитуд, частот и фаз, как раз и являются теми следами элементарных фонообъектов сложного аудиосигнала (речи), с которыми в дальнейшем мы и будем оперировать при решении различных задач аудио обработки в системах безопасности речевой связи. Формулы (2.17) - (2.20) наиболее хорошо подходят для описания сложного аудиосигнала в различных задачах цифровой обработки звука, когда слагаемыми его звучания могут выступать одновременно и узкополосные сигналы, относящиеся к речи, например гармоники вокализованных участков, и узкополосные сигналы, относящиеся к помехам и/или шумам маскирования.

Результаты исследований [45, 52, 66] показали, что данные, необходимые для расчета параметров узкополосных сигналов, составляющих исследуемый звук, могут содержаться в динамических спектральных развертках аудиосигнала - амплитудно-фазовых, частотно-временных кратковременных спектрах аудиосигнала, рассчитанных с заданным шагом наблюдения (анализа) по времени и по частоте. Эти развертки кратковременных комплексных спектров, идущие друг за другом по временной оси, и будут составлять столбцы формируемых динамических изображений спектрограмм в соответствии с определенными в [5] принципами образного анализа при построении и использовании графических образов звуков и речи.

Для речевых сигналов это будут, прежде всего, изображения узкополосных сонограмм. Известно [4], что такие развертки, часто еще называемые матрицами динамических спектральных состояний (МДСС), можно получать в ходе динамического спектрального анализа-синтеза (ДСАС) речи, скользя по исходному сигналу выбранным окном анализа с переходом от взвешенных им выборок к их частотному образу на базе используемого ортогонального базиса. Примером реализации такого рода технологий может служить кратковременный Фурье анализ-синтез звуковых и речевых сигналов, часто применяемый в цифровых системах речепреобразования

Описание экспериментального стенда и условий проведения эксперимента по управлению речевой разборчивостью

В аддитивных маскираторах речи также имеет место быть изменение ФФ, но уже через сложение исходного образа PC с образом внешней помехи. Понятно, что на приемном конце для операции демаскирования необходимо вычитание помехи из защищенного неразборчивого сигнала. В виде такой помехи, для успешного прохождения нового маскируемого PC по существующим каналам голосовой связи, лучше всего использовать речеподобные квазигармонические сигналы или речь других дикторов. Как показано в исследованиях, связанных с защитой ВП, речеподобные помехи (РПП) весьма и весьма перспективны для акустозаграждения исходного PC [22].

Несмотря на то, что такие аддитивные маскираторы хорошо известны, просты в исполнении и широко используются, оценим пути их совершенствования и развития с использованием технологий образного анализа-синтеза речи. Для начала попытаемся освоить процесс генерация акустических квазигармонических сигналов с заданными свойствами, мешающих правильному слуховому восприятию защищаемого PC.

Для этого воспользуемся той же моделью, которую использовали для реализации технологий синтеза новых PC по образам исходной речи.

Как показано в главе 2, аналитически речевой сигнал на участках речевых вокализмов (РВ), и не только, можно описать в виде суммы элементарных, узкополосных по Гильберту сигналов. к (0= Zs ( )cos t(0 (3.8) где &k - Гильбертовская огибающая, а - полная фаза к-ой узкополосной составляющей анализируемого участка речи.

Более детализированными описаниями таких элементарных составляющих PC являются вейвлеты Морле [13]. Они наиболее хорошо подходят для описания именно вокализованных участков PC в приложениях ЗРИ. Тогда речевой вокализм можно описать как: (0 = 2 Г / т" cos (o0kt + (p0k) + sn(t) (3.9) где Ак - соответствующая амплитуда к-ой гармоники; " » - коэффициент затухания амплитуды к-ои гармоники; (пОк, дЮк- соответственно центральная частота и начальная фаза Кг узкополосных сигналов составляющих звуковой сигнал на участке анализа rR.; sn(t) - функция ошибки представления или шума на шаге анализа-синтеза rR.

Согласно модели (3.9), на коротких временных интервалах в рамках каждого R - шага временного анализа, в качестве первичных описаний PC, представленного в виде суперпозиции элементарных узкополосных процессов могут выступать вектора параметров: {Ак, соОк, (р Ок}, при t=rR.

Как показали результаты исследований [13, 27], эти основные параметры узкополосных составляющих PC: амплитуды, частоты и фазы, далее называемые «следами РВ», - содержатся в динамических спектральных развертках PC. Их можно получать двумя способами. Либо напрямую, решая систему уравнений (3.9), для каждого шага анализа-синтеза rR, либо косвенно, через обработку результатов пошаговых процедур кратковременного Фурье- анализа (КФА). То есть, в последнем, более привычном случае, скользя по исходному сигналу выбранным окном анализа и с переходом через быстрое преобразование Фурье (БПФ) к текущему частотному спектру, с последующим выделением на нем «следов» узкополосных составляющих в точках локальных максимумов (ЛМ), совокупности которых на частотно-временной сетке будут составлять определенные контура или треки.

По полученным или заданным по алгоритму конкретного приложения ЗРИ «следам», можно осуществлять «вейвлет-синтез» - (3.9), и, таким образом, реализовать процесс восстановления или генерации речевых сигналов, с новыми заданными условиями приложений ЗРИ свойствами [26, 13, 27]. Такой спектрально-временной анализ-синтез будем называть трассовым или контурным, по аналогии с похожими процедурами цифровой обработки изображений.

Используя предложенную модель и технологию образного анализа-синтеза можно не только создавать квазигармонические речеподобные помехи, но и исключать их из полезной смеси (сигнал плюс помеха) в процессе операции демаскирования на приемном конце канала голосовой связи. Так, например, в таких задачах шумоочистки, предложенные компьютерные технологии анализа и обработки речевого сигнала позволяют не только на слух, но и визуально анализировать, реконструировать и модифицировать изображения узкополосных спектрограмм исходного и нового, восстановленного PC по параметрам («следам») вейвлетов его составляющих. Это позволяет на каждом очередном этапе обработки PC улучшать его собственные характеристики в выделенных частотных полосах ГО, что существенно повышает отношение сигнал/шум смеси речь-помеха.

Указанные обстоятельства послужили причиной выбора параметров группы тестовых сигналов, пригодных для моделирования в различных приложений ЗРИ, и прежде всего для реализации и тестирования процедур аддитивного маскирования. Основой формирования таких тестовых сигналов послужило разработанное аналитическое представление PC в виде суперпозиции узкополосных быстропротекающих узкополосных процессов (3.8) и (3.9) со средней спектральной плотностью, соответствующей усредненному спектру русской речи с учетом рекомендаций [14, 13].В качестве устройства генерации таких сигналов использовался программно-аппаратный комплекс СКС для исследования и проектирования систем цифровой обработки звуковых сигналов, подробно представленный в главе 2.

Синтез тестовых маскирующих речеподобных сигналов Для тестового маскирующего сигнала в качестве элементарной квазигармоники бралось колебание вида s{t) = А cos(2;r (A, s m(2xfst) + fc )t) т.е. сигнал с несущей fc амплитуды А, промодулированной по частоте гармоническим колебанием с частотой fs и с девиацией As.

Похожие диссертации на Моделирование процессов управления речевой разборчивостью в многоканальных системах конфиденциальной голосовой связи