Содержание к диссертации
Введение
Глава 1. Описание проекционных методов 16
1.1. Определение одномерных функций Чебышёва-Эрмита 17
1.2. Определение двумерных функций Чебышёва-Эрмита 24
1.3. Одномерный и двумерный проекционные методы Чебышёва-Эрмита 26
1.4. Двумерный проекционный метод Чебышёва-Эрмита как суперпозиция одномерных проекционных методов Чебышёва-Эрмита..28
1.5. Выбор оптимального отрезка интегрирования 30
1.6. Оптимизированный алгоритм кодирования/декодирования информации 33
1.7. Иерархическое кодирование 47
1.8. Адаптация алгоритма для многопроцессорных вычислительных комплексов 57
1.9. Быстрый проекционный метод Чебышёва-Эрмита 68
1.10. Фовеация 78
Глава 2. Анализ и обработка изображений 87
2.1. Разделение высокочастотной и низкочастотной частей изображения 88
2.2. Фильтрация изображений 95
2.3. Увеличение/уменьшение изображений 99
2.4. Устойчивость коэффициентов Чебышёва-Эрмита при сжатии изображений форматом JPG 107
2.5. Параметризация информации для поиска картин в базе данных .116
2.6. Фовеация изображений 129
Глава 3. Индексация говорящих 135
3.1. Структура базы данных 136
3.2. Алгоритм 138
3.3. Пример индексации беседы 3-х человек 143
3.4. Полученные результаты 148
Глава 4. Структура и описание реализующей программы 151
4.1. Диаграммы последовательности 154
4.2. Диаграммы состояний 158
4.3. Описание интерфейса и внешний вид 160
Заключение 166
Список таблиц 169
Список иллюстраций 170
Библиографический список использованной литературы
- Определение двумерных функций Чебышёва-Эрмита
- Увеличение/уменьшение изображений
- Пример индексации беседы 3-х человек
- Диаграммы состояний
Введение к работе
В настоящее время одними из наиболее важных задач обработки мультимедиа информации являются фильтрация и сжатие изображений, в том числе с помощью динамического распределения точности аппроксимации сигнала (фовеации), а также анализ и распознавание информационного сигнала в области обработки изображений и речи, например - поиск изображений, индексация и распознавание речи. Наиболее распространённым методом обработки мультимедиа информации является использование Фурье анализа с последующей обработкой полученных коэффициентов. С другой стороны, использование спектральных методов, основанных на нестандартной параметризации изображений и речи, позволяет повысить качество обработки и анализа мультимедиа информации. Важным направлением исследований, использующим оба этих подхода, является проекционная фильтрация сигналов, использующая базисы функций, локализованных как в частотном, так и во временном пространствах.
В связи с этим, разработка быстрого проекционного метода, создание на его основе иерархических схем и схем динамического распределения точности аппроксимации сигнала (фовеационных схем) кодирования мультимедиа информации и решение на их основе задач фильтрации, увеличения / уменьшения и фовеации изображений представляет собой важную и актуальную задачу. В то же время, решение таких задач распознавания образов, как поиск изображений из класса картин по базе данных и задача индексации говорящих требуют разработки эффективных методов построения векторов свойств для исследуемых объектов небольшой размерности, что может быть осуществлено в рамках проекционного метода.
Целью диссертационной работы является создание быстрого проекционного метода Чебышёва-Эрмита обработки мультимедиа информации, построение численных методов его реализации и разработка на их основе программного обеспечения для решения задач фильтрации, увеличения / уменьшения и фовеации изображений, поиска картин по базе данных и индексации говорящих.
Научная новизна работы:
Разработан быстрый проекционный метод Чебышёва-Эрмита, основанный на ускорении проекционного метода Чебышёва-Эрмита с помощью квадратуры Гаусса-Эрмита.
Составлено ядро динамического распределения точности аппроксимации (фовеации) для проекционного метода Чебышёва-Эрмита, предложена иерархическая схема для программной реализации проекционной фовеации.
L Разработан проекционный метод для поиска картин по базе
данных, основанный на обработке запроса по цифровому фотоснимку.
Разработан проекционный метод индексации говорящих.
Теоретическая и практическая значимость работы:
Проведён сравнительный анализ эффективности предложенного быстрого проекционного метода, оптимизированного проекционного метода и ДПФ.
Разработанные в работе проекционные методы могут быть применены как составная часть комплексных алгоритмов обработки и анализа изображений и речи.
Создано программное обеспечение на базе быстрого
? проекционного метода для решения задач фильтрации,
?- увеличения / уменьшения и фовеации изображений, поиска
картин по базе данных и индексации говорящих.
Основные результаты диссертации докладывались на международных конференциях "Graphicon" в 2000, 2002, 2003 и 2004 годах, на конференции "Лазеры. Измерения. Информация" в 2003 году, на заседании кафедры математической физики факультета ВМиК МГУ им. М.В. Ломоносова в 2005 году.
По теме диссертации опубликовано девять научных работ.
В диссертационной работе рассматривается применение проекционных методов в обработке графической и аудио информации. В качестве основной схемы выступает проекционная схема локальной обработки данных, основанная на разложении по собственным функциям преобразования Фурье. В работе рассмотрены различные варианты данной проекционной схемы. На базе этих схем были построены методы фильтрации, фовеации, увеличения / уменьшения, распознавания графической информации и индексации аудио информации. Проведена сравнительная характеристика применения данных схем с другими широко используемыми схемами.
Разложение сигнала в ряд по функциям Чебышёва-Эрмита позволяет производить анализ сигнала и его преобразование Фурье одновременно, так как функции Чебышёва-Эрмита являются собственными функциями преобразования Фурье. Также необходимо подчеркнуть, что совместная локализация функций Чебышёва-Эрмита в частотном и временном пространствах [1] делает рассмотренные методы достаточно устойчивыми к информационным ошибкам. Более того, функции Чебышёва-Эрмита
образуют полную ортонормированную в систему функций.
Всё это делает применимость рассмотренных в диссертационной работе методов к обработке мультимедиа информации конкурентоспособной с наиболее популярными на сегодняшний момент методами обработки изображений и речи.
Функции Чебышёва-Эрмита широко используются в математике, где разложение по функциям Чебышёва-Эрмита также называют рядами Грамма-Шарлье [2], [3]. Эти разложения также используются в обработке изображений [4], [5], [6] и речи [7], [8], [9]. Однако, эти ряды часто "ограничены первыми несколькими членами". Та же ситуация типична для использования функций Чебышёва-Эрмита в физике [10]. В последнее время разложение по функциям Чебышёва-Эрмита находит применение в медицине как для сопоставления полученных результатов [11], [12], [13], так и для выявления скрытых особенностей [14], [15], а также в других областях науки.
Основная часть данной работы разделена на четыре главы: описание методов проекционной фильтрации (первая глава), анализ и обработка изображений (вторая глава), индексация говорящих (третья глава) и структура и описание реализующего программного комплекса (четвёртая глава).
В первой главе, наряду с рассмотрением оптимизированных и быстрых схем проекционной фильтрации, основанных на разложении по функциям Чебышёва-Эрмита, приведена адаптация некоторых алгоритмов для многопроцессорных комплексов.
Ещё в 70-х годах XX века функции Чебышёва-Эрмита казались потерянными среди полиномов Чебышёва-Эрмита и функций параболического Цилиндра [16]. Это было какое-то историческое злоключение, что дифференциальное уравнение, которому удовлетворяют функции параболического цилиндра, было стандартизовано Вебером (Weber) как
у" + (п + 1/2-х2/4)у = 0
а не в виде уравнения
у" + (2п + 1-х2 )у = 0,
соответствующего функциям Чебышёва-Эрмита. Разница может показаться тривиальной, но эффект такой стандартизации оставлял туманным свойство, что функции Чебышёва-Эрмита являются собственными функциями преобразования Фурье. Даже несмотря на важность этого факта, осознанного Винером (Wiener) в его книге [17] в 1933 году, Эберлейн (Eberlein) [16] не смог найти эту информацию в справочнике того времени.
Долгое время применение функций Чебышёва-Эрмита было ограничено всего несколькими членами как, например, в методе, основанном на преобразовании Эрмита [4], [5], и только в последнее время количество используемых функций возросло (алгоритмы, представленные в данной работе могут использовать до 750 функций Чебышёва-Эрмита, хотя при необходимости и это ограничение может быть снято). Стоит подчеркнуть, что предложенная в диссертационной работе методика ускорения проекционного метода может быть эффективно использована и для ускорения преобразования Эрмита.
Во второй главе рассмотрены задачи фильтрации, фовеации, увеличения и уменьшения изображений, параметризации графической информации для поиска картин по базе данных, которые были успешно решены на базе рассматриваемых проекционных схем. Суть постановки задачи параметризации информации для поиска картин по базе данных определяется поиском дополнительной информации об имеющейся картине только на основе цифровой фотографии. При этом следует отметить, что данная задача нетривиальна, так как, с одной стороны, при съемке всегда возникают такие эффекты, как поворот, сдвиг, перспектива, параллелограмм и дисторсия, а, с другой стороны, невозможно жёстко фиксировать параметры освещённости.
Идея сопоставления с образцами в той или иной форме широко применяется в различных коммерческих приложениях. Средства распознавания рукописного ввода позволяют пользователям карманных компьютеров Palm преобразовывать свои записи в текстовые документы. Почтовая служба США с их помощью производит автоматическую сортировку писем. Сегодня в мире разрабатывается очень много весьма интересных исследовательских проектов, цель которых заключается в повышении устойчивости и точности технологии распознавания образов. Эти методы планируется применять для идентификации человека по его фотографии, а в более общем случае - для осуществления распознавания, классификации и выборки образов на основании заложенной в компьютере информации. Такие решения, например, позволят отказаться от ненадежной методики cookie-файлов и идентифицировать посетителей сайтов при помощи размещенных повсюду Web-камер.
Технология распознавания образов базируется на сложных
математических уравнениях, с помощью которых из исходных данных
вычленяются некоторые блоки, которыми можно манипулировать. Эти
блоки классифицируются и сравниваются с эталонной моделью.
Сложность заключается в том, что процент ошибки пока весьма велик, а
практическое применение разработанных приложений в бизнесе возможно,
если вероятность ошибки не выходит за пределы 2-3%. В процессе
дальнейшего развития, несомненно, появятся более сложные и точные
алгоритмы, пересекающиеся с другими дисциплинами (в частности, с
обработкой изображений, распознаванием речи и робототехникой). Рост
процессорной мощи, подкрепленный совершенствованием
специализированных алгоритмов, должен обеспечить дальнейшее развитие технологии.
В третьей главе рассматривается адаптивная иерархическая обработка речевых сигналов, которая позволяет анализировать и индексировать входящий непрерывный контекстно-независимый речевой поток беседы нескольких человек. Контекстно-независимое распознавание диктора существенно сложнее распознавания с использованием либо известных слов, либо известных фонем. В этих случаях процент распознавания может быть существенно повышен (некоторые современные системы распознавания дикторов имеют вероятность успешного распознания около 99.5%).
Люди воспринимают пространство как "глубину" и изображения, формируемые мысленным взором, представляются им трехмерными. Однако в точных дисциплинах редко применяется обработка трехмерных изображений, что объясняется очевидными техническими трудностями работы с ними, а также недостаточным пониманием природы процесса восприятия изображений. В большинстве практических приложений исследователи имеют дело с квазитрехмерными изображениями, когда по двум известным параметрам, например частоте и времени, строится некая двумерная матрица, значения которой определяются значениями третьего известного параметра, например мощностью или амплитудой рассчитанного мгновенного спектра. Особенно это касается слухового восприятия, которое, как было показано в ряде исследований еще со времён X. Гельмгольца, может быть описано моделью спектрального анализатора.
Рассмотрим историю развития методов автоматического распознавания речи более подробно [18].
Первым устройством, предназначенным для распознавания речи, была электронная игрушка "Радио Рекс", выпушенная в 1920 году. Целью распознавания было реагирование на имя "Рекс". Критерием произнесения этого имени был энергетический всплеск звуковой волны, с частотой более 500 Гц.
В 1946 году профессором Л.Л. Мясниковым было предложено в процессе исследований и распознавания речи использовать визуальный анализ динамических спектрограмм.
В 40-е - 50-е года большое внимание исследователей уделялось анализу структур, полученных в процессе обработки выходных сигналов линейки аналоговых фильтров.
Следующим исторически значимым событием было создание изобретателями из Bell Labs в 1952 году первой системы, ориентированной на диктор-зависимое распознавание цифр. В основе устройства было заложено измерение двух формант, полученных из спектра.
В 1958 году Дадлей создал классификатор, который локально во времени исследовал части спектра, улучшив механизм отыскания формант. Подобное представление речи в виде локального изменения спектра можно считать рождением понятия акустической модели.
В 1959 году Денес ввёл вероятностную грамматическую модель, идея которой заключается в зависимости вероятности появления того или иного слова от предыдущих слов.
В 60-х в ряде физиологических исследований была подтверждена целесообразность "скользящего" спектрального анализа речевых сигналов. В работах Д. Розе отмечено, что каждые 60 - 100 мкс слуховая система человека как бы опрашивает состояние "гребенки" физиологических фильтров [19].
В 1963 году Виндроу применил нейронные сети к распознаванию цифр, а в 1964 Мартин применил нейронные сети к распознаванию фонем.
Большой шаг на пути к дискретному, компьютерному анализу речи дала работа [20] 1965 года по эффективному алгоритму дискретного преобразования Фурье (ДПФ), названному алгоритмом быстрого преобразования Фурье (БПФ).
Работа [21] 1968 года, использующая этот факт, ввела важный для дальнейшего развития термин кепструм. Идея кепструма заключается в логарифмировании коэффициентов БПФ и последующей их гладкой аппроксимацией, путём косинусного преобразования и отбрасывания высокочастотной составляющей.
Альтернативным методу кепструма является кодирование коэффициентов БПФ методом линейного предсказывающего кодирования (LPC), которое было известно до появления методов распознавания речи и поэтому явилось одним из первых методов её анализа [22].
Разные произношения одного и того же слова имели разные продолжительности по времени, одно из предложенных решений соотнесения образов, полученных на этапе тренировки и полученных на этапе эксплуатации - использование динамического программирования [23].
В 1969 Джон Пирс (директор отдела научных исследований в Bell Labs) написал письмо "Куда движется Распознавание речи?", в котором утверждал, что нужно заниматься не распознаванием, а пониманием речи, как это делают люди.
Большая часть первых исследований в области применения скрытых Марковских моделей (СММ) в области распознавания речи, принадлежит исследовательской группе IBM, которая сделала ряд публикаций, начиная с 1971 года. Одна из первых хороших разработок была система "Дракон", вышедшая в 1975 году [24], акустическая модель которой базировалась на LPC коэффициентах.
Большой проект по пониманию речи был организован ARPA, которая выделила на это 15 млн. долларов. Ею была поставлена задача: размер словаря - 1000 слов, тип речи - слитная, детерминированная грамматика, независимость от типа голоса, критерий достижения -процент ошибок < 10%. Множество институтов было подключено к этой программе, достиг цели только университет Карнеги-Меллона, в котором усовершенствовали систему "Дракон" внедрением синтаксической и грамматической информации [25].
В 80-х большинство усилий было сосредоточено на увеличении количества слов и на ужесточении к свойствам систем без сильных изменений в методологии распознавания. В 1986 вышла первая версия общей тестовой базы, со следующими параметрами: 61 фонема, 630 голосов по 10 фраз, две из которых были одинаковые у всех говорящих. Сегментация происходила автоматически, но затем проверялась и исправлялась вручную.
В 1984 году был создан CD-ROM с тестовой базой, который получала любая исследовательская группа, желающая принять участие в соревновании, а результаты тестов афишировались. В результате с 60-тысячным словарём речь распознавалась в реальном времени с ошибкой менее 10% (результат, достигнутый в 1998 году). Такой процент распознавания достигнут при чтении текста, для разговорной речи результаты значительно хуже.
После статьи 1969 года, где говорилось о неспособности персептрона представить операцию исключающего "или", об искусственных нейронных сетях долго не писали. Взрыв интереса к нейронным сетям произошёл в 80-х в связи с методами обратного распространения ошибки в многослойных персептронах. Появились статьи по распознаванию звонких и шипящих [26], гласных и согласных звуков [27].
В последнее время много работ посвящено гибридным схемам СММ (Скрытые Марковские Модели) + нейронные сети, где сети используются для вычисления вероятности той или иной фонемы, а СММ для отыскания возможных словосочетаний, составленных из фонем.
В 90-х годах ARPA перевёл своё внимание с чтения журнала на распознавания текста из радионовостей. Это ещё более сложная задача: разные стили разговора, начиная от равномерного чтения до разговорной речи; различные акустические условия, от студии до шумных улиц. Однако лучшим системам распознавания такая задача оказалась не под силу.
Продолжаются работы, начатые ещё в 70-ые, где речь рассматривается не как совокупность коротких фреймов одинаковой длины, а как совокупность сегментов, представляющих собой набор фонем [28].
Системы, разрабатывающиеся в 80-х, были сильно зависимы от линейных (по времени) фильтраций сигнала. Последние работы направлены на уменьшение этой зависимости, в том числе на уменьшение зависимости от типа микрофона и акустических шумов [29]. Исследуются работы в направлении уменьшения влияния выразительности стиля произношения, влияния расстояния от микрофона и других параметров.
В конце 2001 года компании Intel и Cognitive Technologies анонсировали результаты реализации инвестиционного проекта по развитию систем распознавания русской речи. Впервые в России был создан обширный инструментарий для разработки систем распознавания речи, который включает крупный речевой корпус русского языка RuSpeech объемом 15 Гбайт. RuSpeech - речевая база данных, содержащая как отдельные фонемы, так и их последовательности. В состав RuSpeech вошло более 50 тыс. предложений с фонетической разметкой каждой произнесенной фразы.
Подводя итог, можно сказать, что на начало 2005 года достаточно распространены следующие подходы в области решения рассматриваемых в диссертационной работе задач:
для обработки графической информации [30], [31]:
Фильтрация с помощью алгоритмов blur [32].
Структурно-зависимое удаление квадрируемости.
Использование ДПФ и БПФ.
Поиск по цветовому раскладу, соответствующему исходному изображению.
Поиск по процентному содержанию основных цветов (красный, зеленый, синий).
Поиск по заданной цветовой маске.
Текстурный поиск.
Поиск по заданному эскизу.
Контурный поиск [33].
Поиск лиц.
Объектный поиск.
Поиск фиксированных изображений с использованием Вейвлет преобразований.
для обработки речи:
Скрытые Марковские модели.
Искусственные нейронные сети.
Использование БПФ.
Анализ кепструма.
Линейное предсказывающее кодирование (LPC).
Сведение распознавания речи к распознаванию образов.
Определение двумерных функций Чебышёва-Эрмита
Покажем, что двумерный проекционный метод Чебышёва-Эрмита (1.10) можно свести к суперпозиции одномерных проекционных методов
Чебышёва-Эрмита (1.8). Допустим, что к двумерной функции / \х у) в Ь2{— Х),со)хЬ2(—со,со) применим как двумерный проекционный метод Чебышёва-Эрмита, так и одномерный проекционный метод Чебышёва-Эрмита по любой переменной, тогда:
Т.е. вместо двумерного проекционного метода Чебышёва-Эрмита достаточно применить для всех У одномерный проекционный метод Чебышёва-Эрмита к функции / \Х, У) по переменной X 5 рассматривая У как параметр: i=0 со ct(y)= jf(x,y)y/t(x)dx, а потом, к полученной таким образом функции /\Х,У) для всех х применить одномерный проекционный метод Чебышёва-Эрмита по переменной У , рассматривая X как параметр.
Выбор оптимального отрезка интегрирования Как было упомянуто ранее, каждая из функций tyn\x) локализована на отрезке [ Ап,Ап J (рис. 1.6). Если быть точнее, каждая из функций Wп \х) локализована как в частотном пространстве, так и в позиционном (временном) пространстве. 0,8Т Y -0,8 -L Рис. 1.6. Локализация функции Чебышёва-Эрмита.
Данный отрезок может быть выбран с помощью нескольких критериев [36]. Один из таких критериев можно записать следующим образом: Л jy/n2(x)dx = 0.99 —А„ Результат применения данного критерия изображён на рис. 1.7. 0,8 -г Y Рис. 1.7. Выбор отрезка интегрирования с помощью нормы. Но данный критерий не является оптимальным. Например, если мы возьмем 500 ( ), то около 5 осцилляции данной функции выйдут за границы отрезка [— soo» 500 J Если же мы возьмем WQ \х), то при последующем кодировании значения, попавшие в центр отрезка L А) о \, будут иметь существенно больший вес, чем значения, находящиеся ближе к краям отрезка.
Другим выбором критерия является взятие крайних точек перегиба (рис 1.8). -0,8 -J Рис. 1.8. Выбор отрезка интегрирования с помощью крайних точек перегиба.
Как мы упоминали ранее, функции Чебышёва-Эрмита удовлетворяют уравнению (1.4), откуда для абсцисс точек перегиба можно прийти к уравнению (1.6), которое имеет п + 2 действительных корней, п из которых являются нулями функции Wn\x), а два остальных предоставляют нам интересуемые значения - ± V 2и +1 . Откуда следует, что вторым критерием выбора отрезка будет Но, как показывает практика, наилучшим критерием с точки зрения визуального восприятия является следующий критерий (рис. 1.9): А = 1,и = 0, arg(max(iff„(x)) ),Vw 1. (l-ll) -0,8 -L Рис. 1.9. Выбор отрезка интегрирования с помощью экстремумов. Данный критерий выбора отрезка более оптимален для последующей аппроксимации с точки зрения качества/точности, чем предыдущие два критерия, так как, в общем случае, по сравнению с первым критерием, он задействует больше несущих частот, что выражается в более точной аппроксимации данных и в меньшем количестве артефактов, а по сравнению со вторым критерием, при его использовании более чётко кодируются приграничные значения.
Вычисление для п \ можно осуществить по итеративной схеме с локальным поиском максимума на предполагаемом отрезке, который вычисляется по двум предыдущим шагам итерации:
Увеличение/уменьшение изображений
На рис. 2.9 и 2.10 приведены результаты применения алгоритмов уменьшения исходных изображений #1 и #2 до размера 200x200 пикселей с оптической плотностью в 78 dpi (первая строка - алгоритм линейного уменьшения, вторая строка - «Soft Hermite» (слева) и «Contrast Hermite» (справа), третья строка - алгоритм пакета Corel Photo Paint 11 без устранения контурных неровностей (слева) и с устранением контурных неровностей (справа)).
Как видно из рисунков 2.9 и 2.10 - видимого фаворита в задаче уменьшения изображений нет, так как со вторым изображением все алгоритмы справились превосходно, что нельзя сказать об уменьшении первого изображения - ни один из методов не смог правильно интерпретировать полоски на тканях. Это бич всех наиболее известных алгоритмов, используемых на данный момент в обработке изображений. Если внимательно присмотреться к головному платку, можно было бы сказать, что алгоритм «Soft Hermite» более логично интерпретировал рисунок на платке, но утверждать, что данный алгоритм правильно справился с поставленной задачей, нельзя.
Теперь перейдем к сравнению алгоритмов, предназначенных для увеличения изображений. Производя увеличение исходных изображений до разрешения 900x900 пикселей с оптической плотностью в 352 dpi и выделяя для лучшей наглядности на первом изображении область, содержащую лицо, с разрешением в 400x400 пикселей и оптической плотностью в 156 dpi, а на втором изображении область, содержащую правый глаз, с разрешением в 120x120 пикселей и оптической плотностью в 47 dpi, можно прийти к результатам, представленным на рис. 2.11 и 2.12 (первая строка - алгоритм линейного увеличения, вторая строка - «Soft Hermite» (слева) и «Contrast Hermite» (справа), третья строка - алгоритм пакета Corel Photo Paint 11 без устранения контурных неровностей (слева) и с устранением контурных неровностей (справа)).
Как видно из рисунков 2.11 и 2.12 - в случае с увеличением изображений всё менее однозначно, чем в случае с уменьшением изображений. С одной стороны и алгоритм «Soft Hermite», и алгоритм «Contrast Hermite» размывают картинку намного меньше, что вызвано общей особенностью данных подходов, с другой стороны вместо этого можно заметить так называемый «эффект холста» или «эффект зернистости». Данный эффект можно достаточно часто встретить на практике, например, при сканировании фотоплёнки на высоком разрешении. С точки зрения автора данный эффект меньше влияет на восприятие изображения чем эффект «размытости» изображения. Именно поэтому автор отдает в данном сравнении предпочтение алгоритму «Contrast Hermite».
Нельзя не упомянуть еще об одной особенности алгоритмов «Soft Hermite» и «Contrast Hermite» - оба они обладают «эффектом Гиббса», проявление которого иногда может свести на нет остальные преимущества данных алгоритмов.
Если попробовать увеличить второе исходное изображение, приведённое справа на рис. 2.8, ещё больше, а если быть точнее - в 27.8 раз, рассмотренные эффекты сохранятся, что говорит об их устойчивости. На рис. 2.13 приводится соответствующее сравнение (разрешение изображений - 180x180 пикселей, оптическая плотность - 70 dpi) для алгоритмов линейного увеличения (первая строка), «Soft Hermite» (вторая строка слева) и «Contrast Hermite» (вторая строка справа). Для экономии места остальные два алгоритма опущены, так как их результат достаточно сильно похож на алгоритм линейного увеличения.
Как уже упоминалось ранее, JPG (он же JPEG) является одним из самых распространённых алгоритмов сжатия изображений с потерями [49]. Именно поэтому возникает вопрос устойчивости коэффициентов Чебышёва-Эрмита к различным степеням сжатия формата JPEG.
Для исследования данного вопроса было выбрано 6 различных изображений с разрешением в 512x512 пикселей и оптической плотностью в 200 dpi (включая две похожие гравюры под номерами #3 и #4, достаточно близкие друг к другу визуально), к каждому из которых было применено 16 вариантов степеней компрессии. После этого к каждому из 102 изображений была применена 2D фильтрация с помощью двумерной простой схемы на базе функций Чёбышева-Эрмита с числом функций от 2x2 до 512x512 с шагом мультипликации равным 2. Для сравнения та же самая процедура была проделана и для дискретного преобразования Фурье.
Итак, было получено по 918 шаблонов коэффициентов для каждого метода. Для каждого из 54 исходных шаблонов были вычислены расстояния до соответствующих им по числу функций пхп 96 шаблонам. Расстояние вычислялось по формуле:
Пример индексации беседы 3-х человек
На следующем шаге происходит индексация резонансных известных квазипериодов. Для этого используются образы (наборы коэффициентов Чебышёва-Эрмита) квазипериодов из базы данных. Для каждого резонансного квазипериода из речи находится ближайший образ из базы данных и, если квадратичная невязка между нормированными образами меньше порога распознавания, данный квазипериод помечается как распознанный, в противном случае квазипериод отклоняется. Далее происходит сопоставление соседних распознанных квазипериодов и их корректировка: если один из квазипериодов отличается от соседних, то он корректируется; последовательность из двух одинаковых квазипериодов пропускается; последовательность из трех и более одинаково идентифицированных квазипериодов передаётся на этап индексации говорящих.
Индексация говорящих осуществляется для резонансных известных квазипериодов и основана на использовании информации из базы данных.
Коррекция индексации говорящих направлена на удаление неправильно проиндексированных говорящих. Первый метод основан на том, что на протяжении одного резонансного квазипериода говорящий должен быть всегда один. Второй метод коррекции основан на временном фильтре, суть которого заключается в том, что все включения продолжительностью менее установленной длины фильтра должны игнорироваться (длина фильтра по умолчанию равна 0.2 секунды).
На рис. 3.5 приведён пример беседы 3-х человек, взятой из программы новостей российского телевизионного канала НТВ (общая продолжительность - 15 секунд, изменение оттенка показывает изменение говорящего, а номер идентифицирует говорящего).
Для каждого человека осуществлялось обучение базы данных на независимом монологе длиной 8 секунд. Процесс обучения занимал для каждого говорящего около 7 секунд процессорного времени на процессоре Pentium-M 1500MHz и происходил в полностью автоматическом режиме. Процесс индексации занимал около 9 секунд процессорного времени. (Необходимо заметить, что более длинные диалоги могут просчитываться с большей скоростью за счёт внутренней оптимизации алгоритма).
Достаточно часто количество ошибок индексации можно уменьшить за счёт использования ручной настройки порога распознавания и длины временного фильтра, что подразумевает нахождение и задание таких значений, при которых гарантировано достижение наилучшего результата на всем отрезке индексации.
На рис. 3.6 представлен результат индексации исходной беседы с помощью одномерной иерархической схемы на основе разложения по функциям Чебышёва-Эрмита без использования временного фильтра и с порогом распознавания, заданным по умолчанию.
Как видно из рис. 3.6, без использования временного фильтра и с порогом распознавания, заданным по умолчанию, результат является далёким от истинного. На рис. 3.7 приведён пример уменьшения количества ошибок индексации при помощи ручного регулирования порога распознавания.
На рис. 3.8 и 3.9 приводятся результаты индексации исходной беседы с помощью дискретного преобразования Фурье. Как видно из приведённых рисунков, дискретное преобразование Фурье менее устойчиво в рамках поставленной задачи, но, как и в случае с одномерной иерархической проекционной схемой, с помощью регулирования порога распознавания количество ошибок можно уменьшить.
Но при этом дискретное преобразование Фурье больше подходит для распознавания речи, так как оно несёт больше частотной информации, тогда как функции Чебышёва-Эрмита несут больше частотно-временной информации, а именно позиционное (во времени) расположение совокупности частот определяет индивидуальные характеристики человека. Далее с помощью статистических данных будет показано, что в общем случае эта тенденция сохраняется.
Также стоит отметить, что приведённый в данной главе алгоритм не может точно определить границы индексации, что связано с обработкой только резонансных согласных и гласных, распределение которых показано на рис. ЗЛО. В речи же человека часто встречаются взрывные, шипящие и свистящие согласные, обработка которых в приведённом алгоритме игнорируется.
Диаграммы состояний
Задание основных параметров программного комплекса осуществляется через стандартную панель инструментов и диалоговые панели. Вспомогательные команды доступны через меню. Для графических документов доступны следующие команды, вызываемые через меню: создание нового стандартного графического документа; создание дубликата текущего документа; открытие документа; сохранение документа (оригинал, результат, разность, коэффициенты, информация по коэффициентам); вычисление всех документов; закрытие документа; закрытие всех документов; настройка принтера; быстрый запуск ранее открываемых документов; выход из программы; отображение диалоговой панели по доступу к базам данных; отображение диалоговой панели параметров; отображение панели инструментов; отображение строки состояния; возврат к исходному изображению; подсчёт усреднённой производной; подсчёт модуля усреднённой производной; подсчёт смешанной производной; подсчёт модуля смешанной производной; подсчёт максиминной производной; подсчёт модуля максиминной производной; пороговая обработка; подсчёт информации по включениям; копирование изображения разности в исходное изображение; копирование изображения результата в исходное изображение; нормализация изображения; сравнение с другими изображениями; нормализация и сравнение с другими изображениями; распознавание изображения; переход в режим true color с восстановлением; переход в режим grayscale; автоматический баланс цвета; регулировка яркости и интенсивности; смена красного и зелёного каналов; смена красного и синего каналов; смена зелёного и синего каналов; инвертирование всех каналов; инвертирование красного канала; инвертирование зелёного канала; инвертирование синего канала; горизонтальное зеркальное отражение; вертикальное зеркальное отражение; обрезка документа; изменение размеров документа; поворот на 90 градусов по часовой стрелке без потери качества; поворот на 90 градусов против часовой стрелки без потери качества; поворот на произвольный угол; сдвиг документа; запуск диалога профессиональных настроек; отображение информации о текущей базе данных; открытие другой базы данных; ускоренное заполнение базы данных; создание нового окна текущего документа; расположение окон каскадом; шахматное расположение окон по горизонтали; шахматное расположение окон по вертикали; выравнивание иконок; информация о программе; приблизительный подсчёт необходимых ресурсов.
Сам графический документ разделён на три окна в случае фильтрации всего изображения и на два окна в случае фильтрации выбранной линии (выбор линии осуществляется путем задания нужного номера или путем двойного нажатия левой кнопки мыши на выбранном участке изображения, простое нажатие левой кнопки мыши на выбранном участке изображения задаёт новую точку фовеации). В первом случае в левом окне показывается изображение перед фильтрацией, в среднем -низкочастотная часть изображения после фильтрации, в правом -высокочастотная часть изображения после фильтрации. Во втором случае в левом окне показывается изображение перед фильтрацией с выделенной линией, а в правом - графики выделенной линии и её низкочастотной аппроксимации.