Содержание к диссертации
Введение
ГЛАВА 1. Методы идентификации объектов музыкальных сигналов 19
1.1 Форматы и преобразования музыкальных сигналов 19
1.1.1 Амплитудно-временной формат 20
1.1.2 Объектный формат 21
1.1.3 Преобразования музыкальных сигналов 26
1.1.4 Преобразование объектного формата в амплитудно-временной 27
1.1.5 Преобразование амплитудно-временного формата в объектный 31
1.1.6 Задача идентификации музыкальных объектов 33.
1.1.7 Выбор структуры системы идентификации музыкальных объектов 34
1.1.8 Оценка качества работы системы идентификации 37
1.2 Музыкальный сигнал в задаче идентификации музыкальных объектов 40
1.2.1 Характеристики музыкальных звуков 40,
1.2.2 Структура звука музыкального инструмента 42
1.2.3 Классификации музыкальных сигналов 44
1.2.4 Характеристики музыкального произведения 51
1.2.5 Графические формы представления музыкальных сигналов 52
1.3 Методы идентификации музыкальных объектов 56
1.3.1 Обзор методов идентификации музыкальных объектов 56
1.3.2 Психоакустические методы анализа музыкального сигнала 63
1.4 Выводы ПО ГЛАВЕ 1 65
ГЛАВА 2. Непрерывное вейвлет-преобразование в задачах обработки сигналов 68
2.1 Введение в вейвлет-преобразования 68
2.1.1 Определение вейвлет-преобразования
2.1.2 Разложение по вейвлетам 69
2.1.3 Дискретное вейвлет-преобразование 70
2.1.4 Непрерывное вейвлет-преобразование 71
2.1.5 Обратное вейвлет-преобразование 72
2.1.6 Свойства базисных вейвлетов 73
2.1.7 Примеры базисных вейвлетов 75
2.1.8 Выбор базисного вейвлета 78
2.2 Интерпретация результатов непрерывного вейвлет преобразования 79
2.2.1 Представление результатов НВП на частотно-временной плоскости 80
2.3 Графическая интерпретация результатов вейвлет преобразований 82
2.3.1 Скалограммы 83
2.3.2 Карты проекций изолиний 85
2.3.3 Скелетоны 86
2.4 Примеры применения НВП в прикладных задачах 87
2.4.1 Модельные сигналы 87
2.4.2 Экспериментальные сигналы 92
2.5 Выводы по ГЛАВЕ 2 95
ГЛАВА 3. Адаптация математического аппарата к задачам идентификации музыкальных объектов .97
3.1 Исследования в области вейвлет-преобразования 97
3.1.1 Влияние формы материнского вейвлета на результат НВП 98
3.1.2 О необходимости формирования собственных материнских вейвлетов 101
3.1.3 Алгоритм формирования базисного вейвлета заданной
ИЗбиратеЛЬНОСТИ 102
3.1.4 Оценка избирательной способности сформированных вейвлетов 1 3.1.5 Выбор длины базисного вейвлета ПО
3.1.6 Формализация параметров НВП 119
3.2 Подготовка результатов нвп к автоматизированной обработке 123
3.2.1 Особенности корреляции сигнала и вейвлета 124
3.2.2 Формирование результатов НВП в полуплоскости положительных значений 126
3.2.3 Сглаживание результатов НВП методом секущих 127
3.2.4 Применение НВП к непериодическим сигналам 131
3.3 Применение искусственной нейронной сети в задаче идентификации музыкальных сигналов 132
3.3.1 Принцип работы ИНС MaxNet 133
3.3.2 Модификация сети MaxNet для решения задачи классификации звуковых сигналов 136
3.3.3 Реализация модифицированной сети поиска максимумов 139
3.4 ВЫВОДЫ ПО ГЛАВЕ 3 141
ГЛАВА 4. Реализация программно-технического комплекса идентификации музыкальных объектов 143
4.1 Преобразования музыкального сигнала 143
4.2 Программно-технический комплекс
4.2.1 Модуль формирования музыкального сигнала 145
4.2.2 Модуль математических преобразований 148
4.2.3 Модуль идентификации и распознавания 151
4.2.4 Контур обратной связи 156
4.3 Практическое применение программно-технического комплекса в задачах идентификации музыкальных объектов 156
4.3.1 Идентификация нот одноголосной мелодии 156
4.3.2 Идентификация нот многоголосной мелодий 160
4.3.3 Идентификация объектов отдельных инструментов 1 4.3.4 Идентификация объектов аудиозаписи одного инструмента 170
4.3.5 Идентификация объектов аудиозаписи двух инструментов 172
4.4 Выводы по главе 4 174
Заключение 177
Список литературы 179
Приложение 193
- Форматы и преобразования музыкальных сигналов
- Определение вейвлет-преобразования
- Исследования в области вейвлет-преобразования
- Преобразования музыкального сигнала
Введение к работе
Мир человека наполнен звуками различного происхождения. Среди них голоса людей и животных, звуки технологических приборов и агрегатов, звуки природных явлений, бытовой шум и т.д. Большую часть звуков человек производит сам или при помощи специальных устройств, к которым относятся и музыкальные инструменты. Музыка, создаваемая музыкальными инструментами, сопровождает человека с древних времен. В современном мире музыка составляет часть быта человека. Музыку можно услышать не только на концертах оркестров и ансамблей, но и по радио, телевидению, при помощи мультимедийных компьютеров и мобильных устройств.
Большинство людей, как правило, используют музыкальные произведения, сохраненные в виде фонограмм на цифровых или аналоговых носителях. Однако композиторы и музыканты используют различные формы объектного представления музыкальных произведений. Одной из форм представления музыкального произведения в объектном виде является нотная запись. Первые записи нот в виде объектов использовались в Древнем Китай, Египте и Древней Греции. В привычном виде нотная запись существует и используется с XVII в. [1, 2]. В современном мире цифровых технологий существуют несколько объектных форматов, но наибольшую популярность имеет формат MIDI {Musical Instrument Digital Interface — цифровой интерфейс музыкальных синтезаторов) [1]. Формат MIDI, так же как и нотная запись позволяет описать ноты, как объекты музыкального произведения с определенным набором свойств и отношения между ними.
Объектные представления музыкальных произведений, как нотная запись и Л//)/-формат, обладают большим количеством достоинств, о чем свидетельствует их высокая популярность (например, практически все современные мобильные телефоны позволяют воспроизводить полифонические мелодии MIDI-формата). Объектные форматы позволяют выполнять редактирование отдель ных партий музыкальных инструментов. Например, в объектном виде возможно изменение свойств отдельной, ошибочной, ноты; замена звучания одного инструмента другим и т.д. Объектные форматы музыкальных сигналов используется большинством систем «караоке», музыкальными синтезаторами, мультимедийными ЭВМ и программными музыкальными редакторами [1 ].
Музыкальные произведения в объектных форматах востребованы в современной индустрии разработки программно-аппаратных средств, требующих графического и аудио-оформления событий пользовательского интерфейса. Малый объем файлов МЮІ-формата позволяет включать элементы музыкального оформления без существенного увеличения физического объема разрабатываемых программных продуктов и требований к аппаратной части ЭВМ. Музыкальное оформление отдельных событий позволяет значительно повысить информативность и привлекательность выпускаемых программных продуктов в целом.
Широкое применение объектных форматов музыкальных сигналов оставляет актуальной задачу создания музыкальной партитуры в объектном формате по имеющейся звукозаписи музыкального произведения (на аналоговом или цифровом носителе). Этот процесс связан с рядом особенностей [3]:
• Нотное письмо является достаточно сложным объектным аппаратом и требует высокой квалификации знаний от человека его использующего, что является большой проблемой для начинающих музыкантов.
• Время, затрачиваемое на формирование нотной записи, достаточно велико и требует от музыканта запоминания больших объемов информации, что может быть неприемлемым для композитора, впервые исполняющего произведение, особенно если произведение продолжительное и темп исполнения высокий.
• Даже если музыкальное произведение записано на каком-либо носителе, для его представлении в нотном или объектном цифровом виде музыкант-аранжировщик вынужден на слух подбирать партии каждого музыкального инструмента, а затем воспроизводить их при помощи клавишного синтезатора или записывать нотным письмом. Например, каждая композиция системы караоке подбирается музыкантом на слух и имеет в своем составе в среднем 6 — 9 партий разных музыкальных инструментов со средней продолжительностью звучания 3 — 5 минут. • В объектном формате возможна реставрация аудиозаписей плохого качества тех музыкальных произведений, нотные партитуры которых были утрачены. По полученному объектному формату, музыкальное произведение может быть исполнено заново и записано на современные цифровые носители. Но процесс создания объектного формата реставрируемого произведения требует тех же человеческих ресурсов, что и процесс создания караоке-произведения.
Обоснование актуальности работы
Задача получения нотной записи многоголосной мелодии по звукозаписи музыкального произведения является высоко актуальной. Далее в работе такая задача носит название идентификации музыкальных объектов.
Кроме того, актуальной является и задача реализации системы, позволяющей в автоматизированном режиме идентифицировать одно- и многоголосные мелодии отдельных музыкальных инструментов, формируя нотную запись, а также идентифицировать партии определенных музыкальных инструментов на фоне звучания остальных.
К настоящему моменту было произведено большое количество ПОПЫТОК автоматизировать процесс идентификации нот мелодий музыкальных произведений и формирования по ним объектных форматов. Среди таких систем стоит отметить системы Мартинса Л. [55], Серафина С. [57], Фуджишима Т. [58] Ле-вью П. [59] Эмия В. [60] и др. Не смотря на высокие показатели работы систем в отдельных режимах, системы обладают существенными ограничениями в применении к реальным сигналам. Стоит отметить, что на современной мировой музыкальной эстраде автоматизированные системы идентификации музы кальных сигналов не получили применения из-за низких качественных и количественных показателей [3,4].
Большинство существующих систем идентификации раскладывают фрагменты музыкальных произведений в частотный ряд различными методами, а затем группируют локальные частотные экстремумы в наборы гармоник, на основании которых осуществляется установление соответствия тембральным образам музыкальных инструментов [55 — 72]. Однако такой подход показывает высокие результаты только при анализе музыкальных произведений, в каждый момент которых звучит только одна нота. При анализе фрагментов мелодий, в которых звучит больше одной ноты (созвучия, аккорды), частотные диапазоны гармоник отдельных нот пересекаются, и качественные характеристики систем значительно снижаются.
Кроме того, существующие системы не позволяют идентифицировать партию отдельного инструмента на фоне звучания других [4]. А музыкант, с соответствующей квалификацией, справляется с этой задачей весьма удовлетворительно.
Анализ работы музыкантов [3, 16] позволяет сделать вывод, что человек, при идентификации музыкального произведения, содержит в памяти образ (образец) звучания нот каждого инструмента. Наличие таких образов (образцов) позволяет с малой долей ошибок классифицировать партии каждого инструмента на фоне общей фонограммы и идентифицировать объекты-ноты каждой партии. А наличие отдельных обертонов (тонов по частоте выше основного тона звучащей ноты) человек, как правило, не слышит.
Такое наблюдение потребовало для реализации автоматизированной системы использования математического аппарата, позволяющего оперировать заранее заданными образами (образцами) нот музыкальных инструментов. Основным требованием к математическому аппарату было наличие способности выявлять схожие (с высокой степенью корреляции) с образцом фрагменты му зыкального произведения на этапе формирования амплитудно-частотно-временной характеристики.
В качестве перспективного аппарата, позволяющего сформировать амплитудно-частотно-временное представление сигнала с использованием изменяемого базиса был выбран аппарат непрерывного вейвлет-преобразования (НВП).
Вейвлет-преобразования на сегодняшний день являются достаточно мощным инструментом исследования структуры нестационарных данных [79 — 85]. Вейвлеты получили применение при решении широкого круга задач связанных с подавлением шумов, сжатием больших объемов информации, анализом изображений, синтезом сигналом и т.д. С ростом возможностей вычислительной техники вейвлет-преобразования приобрели широкое значение в различных областях науки. К возможностям вейвлет-преобразования можно отнести способность определять мгновенную амплитуду, фазу и частоту периодических компонент нестационарных широкополосных сигналов. Вейвлет-преобразование является инструментом многомасштабного анализа, позволяющим одновременно анализировать структуру сигналов в разных диапазонах масштабов наблюдения. Возможностям вейвлетов и НВП полностью посвящена вторая глава данной диссертационной работы.
НВП сигналаДґ) состоит в его разложении по некоторому базису, сконструированному из функции-вейвлета w{i), посредством ее масштабирования и сдвигов вдоль оси времени:
Здесь [Wy/\(r,s) — коэффициенты преобразования, s — масштаб вейвлета, т — параметр смещения вдоль оси времени, символом « » обозначена операция комплексного сопряжения. Базисная функция w(i) и формируемое на ее основе семейство вейвлетов определяется целями исследования..Выбором базисных вейвлет-функций можно добиться выявления требуемых свойств рассматриваемого сигнала.
Базисные вейвлеты обладают свойством автомодельное™. Это свойство используется при получении всех веивлетов одного семейства. Таким же свойством обладает сигнал одной ноты музыкального инструмента: применив механизм сжатия (растяжения) сигнала одной ноты вдоль временной составляющей, можно получить семейство нот всего диапазона этого же инструмента. Такое сходство веивлетов и сигналов музыкальных инструментов позволяет на основе сигналов музыкальных инструментов создавать базисные вейвлеты. Такие вейвлеты позволяют настраивать само НВП на идентификацию нот музыкальных инструментов с теми же частотными свойствами. Определение наличия таких возможностей потребовало дополнительных исследований в области НВП. Такие исследования приведены в третьей главе настоящей диссертационной работы.
Несмотря на широко развитые средства и методы графической интерпретации результатов НВП, непосредственно само НВП не решает задачи идентификации образов. В качестве выходных значений НВП формирует двумерный массив чисел \W,J\(r,s), содержащий информацию о степени корреляции каждого вейвлета семейства с сигналом — некий аналог амплитудно-частотно-временной характеристики сигнала. На основе анализа этой характеристики можно сделать выводы относительно наличия в сигнале нот музыкального инструмента и их амплитудно-частотно-временных отношений.
Для идентификации музыкальных объектов — нот в массиве результатов НВП [WV/](T,S) В работе предложено применение аппарата искусственных нейронных сетей (ИНС). Нейронные сети широко применяются при решении задач распознавания образов, прогнозирования, синтеза, принятия решений и управления [6, 7, 8, 9]. В третьей главе работы описана ИНС прямой передачи с возможностью изменения количества слоев сети. ИНС на основе коэффициентов вейвлет-преобразования формирует образы музыкальных объектов, вычисляя такие их свойства, как высота ноты, время начала, продолжительность звучания, громкость.
Цель и задачи исследования
Целью работы является идентификация объектов-нот одно- и многоголосных мелодий отдельных музыкальных инструментов, а также идентификация партий определенных музыкальных инструментов на фоне звучания остальных в звукозаписях музыкальных произведений с использованием модификаций аппарата непрерывного вейвлет-преобразования.
Для реализации цели работы были поставлены и решены следующие задачи исследования:
1. Провести анализ характеристик музыкальных сигналов, способов их описания, форм представления, форматов записи и возможных преобразований.
2. Провести обзор и анализ существующих систем идентификации музыкальной информации.
3. Оценить возможность применения НВП к идентификации музыкальных объектов, выявить технические границы возможностей его применения.
4. На основе проведенного анализа внести изменения и дополнения к аппарату НВП, позволяющие формировать базис НВП с заданными избирательными способностями. Разработать алгоритм повышения информативности результатов НВП, позволяющий выполнять дальнейшую автоматизированную обработку в среде ИНС.
5. Выполнить модификацию ИНС с прямой передачей типа «MaxNet» для решения задачи классификации музыкальных сигналов. Обеспечить возможность изменения степени полифонической идентификации сети за счет изменения числа скрытых слоев.
6. Реализовать разработанные подсистемы в виде программно-технического комплекса; провести отладку их взаимодействия. Разработать механизмы сопряжения форматов входных и выходных сигналов с применяющимися в настоящее время в мультимедийных системах.
7. Провести качественную и количественную оценку работы отдельных компонентов и системы в целом.
Методы исследования: методы статистической обработки результатов экспериментов; непараметрические методы идентификации; метод графоаналитического исследования интерпретаций сигналов; метод слухового анализа музыкальных сигналов; методологии разработки и тестирования программного обеспечения.
Научная новизна работы
1. Предложен метод формирования частных вейвлет-функций заданной избирательности и семейств вейвлетов на их основе, использующий фрагмент сигнала одной ноты различных музыкальных инструментов.
2. Обоснованы критерии формирования базисного вейвлета для задачи идентификации объектов в музыкальном произведении, заключающиеся в формировании вейвлета на основе 16 периодов основного тона ноты «Ля субконтроктавы» музыкального инструмента.
3. Предложен способ изменения масштабного коэффициента НВП, заключающийся в формировании значений частоты вейвлетов соответствующих частотам 96 тонов европейского равномерно темперированного строя музыки, что позволило создать систему автоматизированной идентификации музыкальных объектов с диапазоном распознаваемых нот, составляющим 8 октав.
4. Разработан алгоритм увеличения информативности результатов НВП, использующий наложение секущих на их частотные срезы с длиной обратно пропорциональной значению частоты вейвлета текущего масштаба.
5. Для ИНС прямой передачи «MaxNet» с прямыми связями предложено использовать число слоев сети в качестве настроечного параметра. Измене ниє числа слоев ИНС позволило изменять степень полифонической идентификации системы в целом. Практическая значимость работы
1. Разработан метод идентификации одноголосных и многоголосных мелодий с количеством одновременно звучащих двух и более нот.
2. Разработан пакет прикладных программ, реализующих алгоритм непрерывного вейвлет-преобразования для сигналов и вейвлетов, представленных решетчатыми функциями. Пакет позволяет в качестве варьируемых параметров использовать частотно-временное окно исследования сигнала, базисный вейвлет, методы изменения коэффициентов НВП.
3. Программно реализован алгоритм повышения информативности результатов НВП в системах автоматизированной обработки.
4. Разработана программа, имитирующая работу ИНС поиска максимумов с варьируемым числом слоев.
5. На базе персонального компьютера реализован программно-технический комплекс, включающий программные реализации НВП, ИНС, других алгоритмов и методов, описанных в работе, и ряда коммерческих программных продуктов.
6. Разработаны формальные показатели оценки качества систем идентификации музыкальных объектов.
Основные положения диссертации, выносимые на защиту:
1. Метод формирования материнских вейвлетов заданной избирательности.
2. Метод формализации и дискретизации НВП в задаче идентификации объектов музыкальных произведений с целью уменьшения вычислительной избыточности.
3. Способ изменения масштабного коэффициента при формировании семейства вейвлет-функций, позволяющий классифицировать музыкальные объекты в соответствии с 96 полутонами европейского равномерно темперированного строя музыки.
4. Метод повышения информативности результатов НВП путем использования секущей на интервалах, кратных периоду гармонических составляющих сигнала.
5. Метод изменения степени полифонической идентификации ИНС путем варьирования числа скрытых слоев сети.
6. Структура и элементы программно-технического комплекса идентификации музыкальных объектов.
Личный вклад соискателя заключается в проведении теоретических исследований, их практической реализации, получении основных результатов, изложенных в работе, их интерпретации, авторском сопровождении при внедрении.
Разработка общей структуры работы, программная реализация компонентов и подготовка публикаций к печати выполнены совместно с соавторами.
Сведения об апробации результатов диссертации
Основные результаты диссертации докладывались и обсуждались на XII международной научно-практической конференции студентов и молодых ученых «Современные техника и технологии» (Томск, 2006 г.); международной открытой научной конференции «Современные проблемы информатизации в моделировании и программировании» (Воронеж, 2006 г.); IV, V и VI Всероссийских научно-практических конференциях студентов, аспирантов и молодых ученых «Молодежь и современные информационные технологии» (Томск, 2006 — 2008 гг.).
Внедрения.
Результаты работы в виде программно-технического комплекса использованы при формировании музыкального оформления пользовательского интерфейса программного обеспечения, предназначенного для встраиваемых систем и сетевых устройств, разрабатываемых группой компаний «Интант» (г. Томск), при анализе и графической интерпретации численных значений защитного потенциала газопровода «Парабель-кузбасс» в ООО «Антикор - ЭХЗ», объемов ГСМ в ОАО «МК 44» и при формировании нотной партитуры по звукозаписи джазовых импровизаций в ООО «Тропикана» (г. Томск).
Результаты используются при выполнении научно-исследовательской работы и выпускных квалификационных работ студентов кафедры автоматики и компьютерных систем Томского политехнического университета.
Сведения о публикациях (по теме диссертации)
По теме диссертации опубликовано 9 работ [24 — 32]. Из них 4 статьи в журналах и 5 статей в сборниках трудов коиференций/3 статьи опубликованы в ведущих рецензируемых журналах [24 — 26], рекомендованных Высшей аттестационной комиссией Министерства образования и науки Российской Федерации.
Структура диссертации, ее объем.
Диссертация состоит из введения, четырех глав, заключения, приложения и списка цитируемой литературы. В работе содержится 180 страниц печатного текста, 93 рисунка, библиография из 118 наименований на 12 страницах. Общий объем диссертации составляет 191 страницу.
Во введении вводится обоснование актуальности работы, определяются цели исследования, ставятся основные задачи, раскрывается научная и техническая новизна полученных результатов, формулируются положения, выносимые на защиту, приводятся основные характеристики работы.
В первой главе работы вводятся основные понятия и термины, используемые в работе, формулируется задача идентификации музыкальных объектов.
Раздел 1.1 посвящен форматам музыкальных сигналов и преобразованиям между ними, соответственно. В разделе предложен аналитический подход к описанию задач прямого и обратного преобразования музыкальной информации. Сформирована задача идентификации музыкальных сигналов в общем виде и предложены некоторые характеристики, способные дать оценку качества выполнения задачи.
В разделе 1.2 вводятся понятия музыкальных звуков, музыкальных сигналов и произведений, приводятся классификации музыкальных инструментов.
В разделе 1.3. приводятся описания существующих систем идентификации и распознавания музыкальных объектов.
Вторая глава посвящена описанию непрерывного вейвлет-преобразования, его возможностям применения, интерпретации результатов и аналитическому описанию.
В разделе 2.1 вводятся понятия вейвлет-преобразований. Рассматриваются непрерывное, дискретное и обратное преобразования. Обсуждаются свойства базисных вейвлетов и примеры классических вейвлет-функций.
Раздел 2.2 описывает возможность интерпретировать результаты НВП как амплитудно-частотно временную характеристику сигнала, а само НВП как амплитудно-частотно-временное преобразование.
В разделе 2.3 приводятся популярные графические интерпретации результатов НВП и оценивается актуальность их применения в различных отраслях промышленности.
Рездел 2.4 содержит примеры применения НВП к модельным и реальным экспериментальным сигналам.
Третья глава представляет собой описание основных теоретических и практических исследований, на которых базируется работа.
В разделе 3.1 рассмотрены теоретические предпосылки применения НВП в задаче идентификации музыкального сигнала и дана оценка возможности их применения на практике. Описана методика формирования вейвлета заданной избирательности на основе звучания отдельной ноты различных музыкальных инструментов.
В разделе 3.2 рассматривается эвристический алгоритм увеличения информативности результатов НВП в системах автоматизированной обработки.
Раздел 3.3 содержит описание модифицированной ИНС прямой передачи в задаче идентификации музыкальных объектов — нот в результатах НВП. Ко личество слоев ИНС используется в качестве настроечного параметра, определяющего степень полифонической идентификации системы.
Четвертая глава содержит описание программно-технического комплекса и его практического применения к задачам идентификации музыкальных объектов. Основу комплекса представляет НВП и ряд алгоритмических решений предложенных в третьей главе работы.
Раздел 4.1 рассматривает варианты реализаций комплекса идентификации музыкальных объектов на основе НВП, приводятся оценки эффективности и трудоемкости реализации и эксплуатации каждого варианта.
Раздел 4.2 подробно описывает структуру комплекса, состоящего в общей сложности из 3 модулей, объединяющих 15 функциональных блоков.
В разделе 4.3 описано практическое применение комплекса к модельным и реальным музыкальным сигналам. В разделе дается оценка работы системы с каждым сигналом.
Форматы и преобразования музыкальных сигналов
Ежедневно человек сталкивается со звуками различной природы: щебет птиц, крики животных, звуки автомобилей и механических элементов оборудования, голоса людей, музыкальные композиции и собственное пение — все это звуки, воспринимаемые слуховым аппаратом человека. Большую часть звуков человек производит сам или при помощи специальных устройств, к которым относятся и музыкальных инструментов. Музыка, создаваемая музыкальными инструментами, сопровождает человека с древних времен. В современном мире музыка составляет часть быта человека. Музыку можно услышать не только на концертах оркестров и ансамблей, но и по радио, телевидению, при помощи мультимедийных компьютеров и мобильных устройств.
Музыкальное искусство использует только звуки, создаваемые искусственно при помощи созданных человеком музыкальных инструментов. Музыкальное произведение состоит из множества звуков различной амплитуды, частоты, и тембровой окраски. Звуки формируются различными музыкальными, шумовыми и ударными инструментами, голосом или природными явлениями. И только небольшую часть таких звуков можно назвать музыкальными.
Сигнал, полученный из звуков музыкальных инструментов путем аудиозаписи, воспроизведения ранее записанного сигнала, генерацией или иным способом будем называть музыкальным сигналом. В общем случае предполагается справедливость большинства теоретических изысканий применительно как к аналоговому, так и к цифровому представлению музыкальных сигналов. Далее в данной работе предполагается использование музыкального сигнала в дискретном виде (полученного при помощи импульсно-кодовой модуляции).
По аналогии с графическими цифровыми форматами любое музыкальное произведение можно представить в виде объектного и амплитудно-временного форматов [32].
Амплитудно-временной формат музыкальных сигналов представляет собой функцию времени ft). Каждое значение функции содержит информацию о мгновенной амплитуде сигнала в момент времени t. Высокая популярность формата объясняется невысокими требованиями к программно-аппаратному обеспечению, необходимому для воспроизведения звукозаписи музыкального сигнала, представленного в амплитудно-временном формате [1]. При отсутствии нелинейных искажений в системах воспроизведения амплитудно-временного формата все системы воспроизведут одно и то же музыкальное произведение идентично. Наибольшую популярность среди аналоговых носителей информации получили грампластинки и аудиокассеты с магнитной лентой. Среди цифровых носителей информации без сжатия наиболее популярны компакт-диски формата CD-DA (Compact Disk Digital Audio) и файлы Wave (Microsoft Waveform data). Музыкальная информация форматов Wave и CD-DA представлена в виде решетчатой функции стандарта PCM (Pulse Code Modulation — импульсно-кодовая модуляция). Наиболее часто цифровые музыкальные форматы используют частоту дискретизации сигнала 44100 Гц с количеством уровней квантования 216 [44]. Такие параметры позволяют передавать музыкальные записи без воспринимаемых на слух искажений [46]. На рисунке (рисунок 1-1) приведено амплитудно-временное представление фрагментов мелодии фортепианной полифонии В.А.Моцарта.
Одним из недостатков амплитудно-временных форматов является большой объем цифровых данных получаемых при хранении и обработке музыкальных произведений. Так, полифония В.А. Моцарта продолжительностью 11 минут в M/DT-формате занимает 43Кб, а в формате Wave — 116,4 Мб.
Элементарным фундаментальным понятием в музыкальной теории является нота. Ноты, образуя последовательные или одновременные интервалы, формируют соответственно мелодию или созвучия (мелодические и гармонические интервалы). Т.е. из нот формируются аккорды (звуковые объекты, выполняющие гармоническую функцию) и музыкальные фразы (звуковые объекты, выполняющие мелодическую функцию). При этом под нотой понимают и символ нотной записи и соответствующий этому символу звук [13].
Звуковой объект — минимальный по длительности звуковой сигнал, нота, воспринимаемый как самостоятельное единое целое.
Восприятие звукового объекта как самостоятельного единого целого означает, что объект имеет длительность, достаточную для определения всех необходимых для идентификации (человеком или автоматом) свойств: высоты тона, тембра, соответствующей фонемы и др.
Совокупность всех музыкальных звуковых объектов соответствует совокупности звуков, извлеченных различными музыкальными инструментами. Музыкальные звуковые объекты обладают следующими свойствами: 1) тон; 2) длительность; 3) время начала звучания; 4) тембр; 5) громкость.
Перечисленными свойствами обладают звуковые объекты, составляющие как акустические сигналы (т.е. акустические колебания в воздухе), так и соответствующие электрические сигналы (в аналоговой форме), полученные с помощью электромеханических преобразователей, а также, представленные в объектных форматах записи музыкальных произведений.
Определение вейвлет-преобразования
Термин "вейвлет" (дословный перевод: «маленькая волна») ввели Гроссман и Морле (Grossman и Мог let) в середине 80-х годов XX в. в связи с анализом свойств сейсмических и акустических сигналов [76]. В настоящее время семейство функций, названных вейвлетами, начинает широко применяться в задачах идентификации образов. Вейвлеты применяются также при обработке и синтезе различных сигналов, например, речевых; при анализе изображений самой различной природы (изображение радужной оболочки глаза, рентгенограмма почки, спутниковые изображения облаков, поверхности планеты, снимки минералов и т.п.); для изучения свойств турбулентных полей, солнечной активности [77]; для свертки (упаковки) больших объемов информации и т.д. [79, 80].
В задачах распознавания музыкального сигнала вейвлет-преобразование применяется относительно недавно [71, 72] и используется для перехода от ЛВП к АЧВП музыкального сигнала, представляя альтернативу другим методам (оконному преобразованию Фурье), сжатия и фильтрации сигналов [91]. В реализации вейвлет преобразования для решения таких задач применяются, как правило, стандартные вейвлет-функции Мейера, Добеши, Гауса, Хаара и др. [86, 90, 92].
В данном разделе приводится описание вейвлет-преобразования, его свойств, способов интерпретации и применения. Основное внимание уделено непрерывному вейвлет-преобразованию (НВП) в задаче обработки музыкального сигнала.
Вейвлет-преобразование одномерного сигнала состоит в его разложении по базису, сконструированному из обладающей определенными свойствами функции (вейвлета) посредством масштабных изменений и смещений. Каждая из функций этого базиса характеризует как определенную пространственную (временную) частоту, так и ее локализацию в физическом пространстве (времени).
В отличие от традиционно применяемого для анализа сигналов преобразования Фурье вейвлет-преобразовапие обеспечивает двумерную развертку исследуемого одномерного сигнала, при этом частота и координата рассматриваются как независимые переменные. В результате появляется возможность анализировать свойства сигнала одновременно в физическом (время, координата) и в частотном пространствах. Эти свойства легко обобщается на многомерные сигналы или функции.
В зарубежной литературе иногда спектр Фурье называют спектром одной величины (single spectrum) в отличие от спектра, полученного на основе коэффициентов вейвлет-преобразования, спектр с временной локализацией (time-scale spectrum), или вейвлет-спектр (wavelet spectrum) [81].
Область использования вейвлетов не ограничивается анализом свойств сигналов и полей различной природы, полученных численно, в эксперименте или при наблюдениях реальных процессов. Вейвлеты начинают применяться и для прямого численного моделирования как иерархический базис, хорошо приспособленный для описания динамики сложных нелинейных процессов, характеризующихся взаимодействием возмущений в широких диапазонах пространственных и временных частот [79].
Рассмотрим пространство L (R) функций f(t), определенных на всей действительной оси R(- o, оо) и обладающих конечной энергией Е/.
Локальное среднее значение каждой функции из L (R) должно стремиться к нулю на ±оо. Для конструирования базиса пространства L {К) подбираются достаточно простые локализованные функции, которые стремятся к нулю на ±оо. В качестве базисных функций пространства L (R) могут быть использованы вейвлеты.
С помощью одного вейвлета w(t) можно сконструировать функциональ-ное пространство L (R). w(t) может быть вейвлетом с одной частотой или с набором частот.
Чтобы с помощью быстро стремящейся к нулю локализованной функции покрыть всю ось i?(-oo, оо) молено предусмотреть систему сдвигов (переносов) вдоль оси t на значения к: w{t— к).
Дискретное вейвлет-преобразование
Для покрытия всего частотного диапазона необходимо ввести параметр масштабирования. Для простоты и определенности запишем его через степени двойки: w(2Jt— к), здесьу и к— целые числа (у, к є /).
Таким образом, с помощью дискретных масштабных преобразований (1/27) и сдвигов (k/2J) мы можем описать все частоты и покрыть всю ось, имея единственный базисный вейвлет w(t) [79].
Исследования в области вейвлет-преобразования
В настоящее время аппарат вейвлет-преобразования активно используется во многих сферах человеческой деятельности. Многие инженерные программные продукты позволяют производить некоторые виды вейвлет-преобразования, как дискретного, так и непрерывного. Однако практическое применение стандартных решений вейвлет-преобразования реализованного в большинстве программных продуктах (таких, как ПП Matcad и Mathlab [100 — 102]) показало существенные ограничения в применении НВП для музыкального сигнала. Одним из таких ограничений явилось отсутствие возможности обрабатывать музыкальные сигналы представленные файлами большого размера. Во многих приложениях существует возможность использовать в качестве базисных веивлетов стандартные вейвлеты из установленного набора. При этом, существенно ограничена возможность изменять параметры как веивлетов, так и преобразования в целом.
Кроме того, само НВП обладает рядом особенностей: Различны описания многих элементов НВП, отсутствует устоявшаяся трактовка результатов НВП и степени их достоверности [79 -91]. Вейвлет-преобразование обладает широким спектром варьируемых параметров, как базисных веивлетов, так и процедуры преобразования, что предает НВП определенную гибкость. Большое количество способов интерпретации результатов НВП позволяет выделять различную информационную составляющую об исследуемом сигнале с различной степенью информативности. - - - Механизм НВП, позволяет лишь выполнять переход от амплитудно-временного формата представления информации к амплитудно частотно-временному. При этом задачи оценки и обработки информативной составляющей сигнала не решаются. Отсутствуют количественные оценки эффективности применения аппарата НВП при решении прикладных задач, в том числе задач преобразования музыкальных сигналов. Наличие этих особенностей привело к необходимости дополнительных исследований механизма НВП и возможностей его применения в задачах обработки музыкального сигнала.
Наибольшее применение на практике получили стандартные функции материнских вейвлетов, хорошо изученных и описанных в литературе. Большинство из них описаны аналитическими выражениями. Однако применение различных базисных вейвлет-функций для вейвлет-преобразования одного и того же сигнала дает результаты, которые могут сильно отличаться один от другого. Рассмотрим данную особенность НВП на примере.
Для исследования влияния формы материнского вейвлета на результат НВП был использован модельный сигнал F(t), состоящий только из двух чистых, без обертонов, гармоник равной амплитуды с частотами /j =25 Гц и./2=120 Гц: F(t) = sin(2 -71-25-() + sin(2 к -120 /). Такая модель соответствует локальному фрагменту двухголосного произведения, исполняемого на одном музыкальном инструменте с идеальными частотными характеристиками. Амплитудно-частотная характеристика А(со) сигнала приведена на рисунке (рисунок 3-1).
В процессе проведения эксперимента визуальный анализ результатов НВП, АЧХ и АВХ сигналов выявил следующую закономерность: более четкий рисунок карт проекций изолиний, формируется при использовании вейвлетов с узким частотным спектром или с частотным спектром быстро затухающим при отдалении от основной гармоники. Это объясняет хорошее графическое отображение двух сигналов на разных частотах на протяжении всего временного интервала,
Для вейвлета с более широким частотным спектром (рисунок 3-5), изображение карты проекций изолиний более размытое.
Учитывая крайне малую ширину спектра сигналов синусоидальной формы (рисунок 3-1), входящих в состав исследуемого, можно сделать вывод: схожесть частотных спектров исследуемого сигнала и вейвлет-функции, дает наиболее четкие результаты. И, наоборот, для получения наилучших результатов при использовании непрерывного вейвлет-анализа, следует выбирать материнский вейвлет таким образом, чтобы его АЧХ была как можно ближе к АЧХ элементарных составляющих сигнала [31].
Процедура выбора функции материнского вейвлета остается эмпирической для каждой конкретной задачи и сводится к перебору функций материнских вейвлетов в НВП до достижения желаемого результата. Исследования свойств вейвлет-функций [31] показали, что наилучшие графические представления результатов НВП получены при схожести частотных спектров сигнала J{t) и вейвлета w(t). Можно сделать предположение, что повышение информативности результатов возможно при абсолютном совпадении вейвлет-функции и исследуемого сигнала в каждый момент времени.
Преобразования музыкального сигнала
Музыкальный сигнал в задачах автоматизированной обработки может быть представлен различными форматами данных. В Главе 1 данной работы подробно описаны два формата музыкального сигнала: объектный (О представленный сообщениями Ot формата MIDI); амплитудно-временной (представленный решетчатой функцией flt) стандарта РСМ). Согласно двум форматам, введены и два преобразования между ними: прямое — преобразование объектного формата О музыкального сигнала в амлитудно-временнойДґ); обратное — преобразование амлитудно-временного форматаflf) музыкального сигнала в объектный О.
Процесс формализации преобразований музыкальной информации позволил перейти к аналитической записи музыкального сигнала в различных форматах и преобразований между ними:
Прямое преобразование музыкального сигнала: № = T(N„O), где Т(Х) — аналог математического оператора, использующий МЮ/-сообщения 0(, 0={0], О2, ..-Oi, ... (9л/} — музыкальное произведение, представленное в объектном виде, Oi=0(Ah m» 0it 0, kj) — AfZDT-сообщение, содержащее информацию о /-ноте: АІ —амплитуда звучания ноты; тг — значение тона ноты (высотного положения); #,- — временной интервал смещения ноты, к, — номер музыкального инструмента, (9, — продолжительность звучания ноты. nQk(t) — временная функция базовой ноты -музыкального инструмента. В качестве входной информации используется набор M/DZ-образов Ot (команд MIDI) и базис — набор базовых нот Ио={щк(і)} для всех к-инструментов. Обратное преобразование музыкального сигнала: O = T\f(t),N0).
В результате обратного преобразования из музыкального сигнала f[t) на основе имеющихся объектов щ\і) получаются M/DZ-образы О І содержащие информацию об амплитуде (А,), времени начала звучания (0,-), продолжительности звучания ((9,) и тоне (ті) для каждой ноты (/) музыкального инструмента к.
В качестве входной информации используется сам сигнал f[t), а базовые объекты No и значение частоты основного тона сигналов базовых нот nQ\t) являются априорной информацией.
Программно-технический комплекс
На основании анализа двух предложенных структур был сделан выбор в пользу системы, представленной на рисунке (рисунок 1-7).
Однако, в процессе разработки, реализации и отладки системы, структура претерпела значительные изменения: функции преобразования объектного формата О в амплитудно-временную форму сигнала fit) целиком были реализованы в многокомпонентном модуле формирования музыкального сигнала; функции обратного преобразования сигнала f[t) в массив объектов О были разделены на два многокомпонентных модуля: математических преобразований и идентификации и распознавания; система оценки качества была включена в структуру модуля формирования музыкального сигнала; реализована возможность обработки музыкального сигнала f\t) в ам плитудно-временном формате непосредственно модулем математических преобразований (рисунок 4-1). передача результатов І-ШГІ WfXi.s) из модуля математических преобразований в модуль идентификации и распознавания реализована в явном виде, что позволяет производить дополнительный контроль компонентов системы.
Программно-технический комплекс реализован на базе персонального компьютера. Некоторые части комплекса имеют аппаратную реализацию, другие реализованы программно с использованием оригинальных программных модулей разработанных в средах Borland Delphi, C+ + Builder и MS" Visual Studio. Кроме самостоятельно разработанных программ, используется коммерческое программное обеспечение сторонних производителей. Стрелками обозначены возможные направления и пути передачи сигнала.
Ниже приводятся подробные описания работы и функций каждого модуля системы.
Модуль предназначен для создания экспериментального музыкального сигналаД/) на основе массива объектов О для дальнейшей автоматизированной обработки. Массив объектов представляет собой последовательность команд формата MIDI, а музыкальный сигнал Д/) — решетчатую функцию амплитуде временного формата музыкального сигнала (рисунок 4-2). Модуль включает в себя ряд технических и программных компонентов, обозначенных на рисунке (здесь и далее) отдельными блоками. Стрелками обозначены возможные направления и пути передачи сигнала. Каждый блок схемы снабжен подписью с названием программного пакета, дополняющего функции технического устройства либо подписью с наименованием аппаратного устройства, реализующего функции блока.