Введение к работе
Актуальность темы исследования.
В последние годы пристальное внимание уделяется вопросам обработки информации и принятия решений при человеко-компьютерном взаимодействии. Эффективность данного процесса во многом зависит от качества распознавания информации, поступающей от пользователя автоматизированной системы и целенаправленности воздействия человека на объекты исследования. Достижение цели диалогового взаимодействия ЭВМ и пользователя возможно при учете большинства аспектов, характеризующих речевые потоки, возникающие в процессе общения.
Одним из направлений повышения качества обработки информации является определение эмоциональных реакций человека. Компании Nokia, Siemens, Philips, понимая особую важность передачи эмоциональных реакций, включили такую возможность в опытные образцы своих решений. На современном этапе развития информационных технологий разработка методов автоматического определения эмоциональных реакций человека по голосу является актуальной задачей, позволяющей решить ряд экономических, социальных, бытовых проблем и играющей важную роль в вопросах безопасности.
Эмоциональный речевой сканер необходим в транспортных компаниях и диспетчерских службах для автоматизированного введения ограничений или полного запрета доступа к выполнению служебных обязанностей лиц, находящихся в неустойчивом или неадекватном эмоциональном состоянии. Подобные системы контроля позволят проводить дополнительную проверку пассажиров авиарейсов в рамках мероприятий по противодействию терроризму.
В применении компьютерного распознавания речи и определении ее эмоциональности в первую очередь заинтересованы компании, внедряющие роботизированные системы в повседневную жизнь людей, а также компании, работающие с большим числом клиентов и желающие перейти на новый уровень общения с ними. Эффективное общение на естественном языке должно сыграть важную роль в мультимедийном обществе будущего с лёгкими в обращении интерфейсами «человек-машина». Применение таких интерфейсов, оставляющих у клиентов ощущение удобства и удовлетворенности при получении информации или услуг в режиме самообслуживания, позволит уже сейчас, при достигнутом качестве работы распознавателей, создать социально значимые системы, внедрение которых сделает доступ населения к услугам и данным более дешевым, удобным и круглосуточным.
Одним из источников определения эмоциональных реакций является речь. Русский язык содержит около 40% эмоционально окрашенных слов. Кроме того, эмоции кодируются определенными акустическими параметрами в речевом сигнале. Понимание этих особенностей акустического кодирования эмоций позволит понять сам механизм восприятия эмоций и их выражения. Основной вклад в изучение эмоций внесли: 3. Фрейд, Ч. Дарвин, Г. Спенсер,
Т. Рибо, У. Джеймс, К. Ланге, У. Кэннон, Ф. Бард, Л. Фестингер, К. Изард, Р. Лазарус, А.Н. Леонтьев, П.В. Симонов, Е.П. Ильин, И.Б. Фоминых. В работах Е.Ю. Мягковой, А. Вежбицкой описаны теоретическая и практическая значимость изучения эмоций как феноменов человеческого сознания в рамках современной когнитивной лингвистики. В работах Ю.С. Степанова, Н.Ф. Дорофеевой рассмотрены основные эмоциональные концепты. Ю.Д. Апресяном проанализированы семантические типы «эмоциональных» метафор (физиологические, когнитивные, культурные) в аспекте выявления характера соответствия между объектом (эмоции) и источником метафоризации (физические состояния). П.К. Анохиным и его учениками рассмотрена физиология эмоций.
Изучение речевых сигналов проводились многими исследователями. Наибольший вклад в теорию внесли Г. Фант, Н.В. Витт, В.К. Вилюнас, Л.А. Чистович, А.А. Пирогов, Н.Н. Акинфиев, Ю.Н. Плотников, В.Н. Сорокин и др. Экспериментальные исследования были выполнены Н.А. Дубровским, Н.Г. Бибиковым, Г.С. Ромишвили, Н.Г. Загоруйко, М.В. Фроловым, В.И. Морозовым, В.Р. Женило и др. Однако, несмотря на большое число работ и проведенных исследований в области распознавания эмоциональных реакций по речи, ряд проблем все еще остаются нерешенными и многие идеи требуют дальнейшего развития. Так, программы, работающие с изолированными словами, достигли высокой точности в командных системах, в то же время задача распознавания слитной речи, несмотря на множество работ посвященных этому вопросу (ИПУ РАН, «Истра-Софт», IBM), в достаточной степени не решена. Хотя для случая ограниченного словаря системы такого типа существуют (VoxReports на ядре ViaVoice, Verbmobil) и показывают высокие результаты по точности. Одним из ограничений создания системы, способной со 100% точностью распознать слитную речь является наличие эмоциональности.
Таким образом, в результате практического рассмотрения и анализа существующих моделей определения эмоциональных реакций по речи выявляется необходимость их модификации и создания новых методов. Данное исследование важно для повышения эффективности распознавания речи, а повсеместное внедрение роботов делает результаты данной работы важными для повышения эффективности взаимодействия человека и машины.
Цель и задачи исследования. Цель диссертационной работы заключается в повышении эффективности обработки информации и принятия решений при человеко-компьютерном взаимодействии за счет автоматизации определения эмоциональных реакций по речевому потоку.
Для достижения поставленной цели необходимо решить следующие задачи:
1. Определить понятия «эмоциональное реагирование», «эмоциональный тон», «эмоция» на основе анализа существующих теорий эмоций. Проанализировать современные методы определения эмоционального реагирования и методы формального представления эмоциональных реакций. Выделить недостатки современных систем распознавания речи в части определения эмоциональных реакций. Проанализировать возможность
существования аналогии между эмоциональным реагированием и иммунным ответом организма. Провести анализ иммунологических методов и алгоритмов.
2. Разработать методику определения эмоционального реагирования по речи
человека, позволяющую повысить эффективность обработки информации и
принятия решений при человеко-компьютерном взаимодействии.
3. Разработать и исследовать модель эмоционального реагирования,
основанную на применении иммунологического подхода и нечеткого вывода.
Разработать алгоритмическое обеспечение определения эмоционального реагирования по речи человека. Реализовать разработанные формализмы, методику и алгоритмы в виде отдельных модулей, автоматизирующих определение эмоциональных реакций.
Провести исследование эффективности разработанного алгоритмического и программного обеспечения при определении различных эмоциональных реакций пользователя автоматизированного call-центра.
Объектом исследования является речевой поток при различных эмоциональных реакциях.
Предметом исследования являются эмоциональные реакции человека.
Методы исследования. В диссертации использованы методы системного анализа, математического моделирования, иммунных систем, теории алгоритмов, цифровой обработки сигналов, теории нечетких множеств и нечетких продукционных моделей, речеобразования, языков программирования и реляционных баз данных. Разработка программных и информационных средств произведена на основе современных принципов построения программных систем.
Научная новизна состоит в следующем:
Разработаны модели и методы оценки эмоциональных реакций человека по речевому потоку, позволяющие повысить эффективность обработки информации и принятия решений при человеко-компьютерном взаимодействии:
Предложена и разработана методика определения знака эмоционального тона по речи: на первом уровне выделяются акустические параметры и по экспериментально полученной функциональной зависимости определяется знак эмоциональной реакции; на втором уровне выделяются слова, характеризующие эмоциональные реакции; на третьем уровне выделяются характеристики фонем четырех гласных звуков и лингвистические переменные, затем на основе нечеткого вывода определяется эмоциональная реакция.
Впервые модель эмоционального тона представлена в виде гибридной модели, основанной на применении иммунологического подхода и системы нечетких продукций.
Разработана модель построения эмоции человека на основе применения алгебры и дерева эмоций Фоминых И.Б. к описанию эмоциональных тонов.
Положения, выносимые на защиту:
1. Методика определения знака эмоционального тона по речи.
2. Гибридная модель эмоционального тона, построенная с применением
иммунного подхода и нечеткого вывода.
Функциональная зависимость между акустическими параметрами речи и эмоциональным тоном.
Алгоритм построения нечетких продукций по акустическим параметрам и лингвистическим переменным и вывода по ним значения эмоционального тона.
Модель эмоций человека, построенная с применением алгебры и дерева эмоций Фоминых И.Б.
Практическая ценность работы заключается в следующем:
1. Разработанная методика определения эмоциональных реакций по речи
позволяет получить знак эмоционального тона, что помогает отслеживать
изменения отношения людей к происходящим событиям. Это дает возможность
автоматизированной системе эффективно и своевременно реагировать на
изменения в состоянии человека, устраняя негативные последствия
взаимодействия.
Предложенные функциональные зависимости между акустическими параметрами и эмоциональными реакциями важны для повышения эффективности распознавания речи.
В результате внедрения методики определения знака эмоциональных реакций и модели эмоционального тона, основанной на гибридизации иммунологического подхода и нечетких продукций, повышается эффективность обработки информации при человеко-компьютерном взаимодействии. Это дает возможность компьютеризированным системам гибко подстраиваться под эмоциональные реакции человека, увеличивая тем самым свои конкурентные преимущества.
4. Разработанная модель построения эмоции человека на основе применения
алгебры и дерева эмоций Фоминых И.Б. позволяет находить и описывать
эмоции, образованные различными эмоциональными тонами, для которых не
существует литературного описания.
Достоверность полученных результатов подтверждается теоретическим обоснованием разработанных подходов, а также результатами исследований созданного программного обеспечения.
Алгоритмическое обеспечение определения и моделирования эмоциональных реакций внедрено в ЭКЦ при ГУВД Волгоградской области, ЗАО «Волгоград-GSM» ТМ СМАРТС, ВолгГТУ.
Апробация работы. Основные положения и результаты работы докладывались и обсуждались на: V-ой и VI-ой международных научно-методических конференциях: "Дистанционное обучение - образовательная среда XXI века" (Белоруссия, г. Минск, 10-11 ноября 2005-2007г.); XVIII и XIX международных Интернет-ориентированных конференциях молодых ученых и студентов по современным проблемам машиноведения (МИКМУС-2006, -2007) (г. Москва, 27-29 декабря 2006 г., 5-7 декабря 2007 г.); VI-ой, VII, VIII, IX международных научно-технических конференциях "Интеллектуальные системы (AIS'06'07,08,09). Интеллектуальные САПР (CAD-2006'07'08'09)" (Россия, Черноморское побережье, Дивноморское, 3-10 сентября 2006-2009 г.); Х1-ой региональной конференции молодых исследователей Волгоградской области (г. Волгоград, 8-11 ноября 2006 г.); IX международной научно-
практической конференции "Interactive Systems and Technologies: The Problems of Human-Computer Interaction" (г. Ульяновск, 24-28 сентября 2007 г.); 8th International Conference "Pattern Recognition and Image Analysis: New Information Technologies" (PRIA-8-2007) (г. Йошкар-Ола, 8-12 октября 2007 г.); XXXIV международной конференции и дискуссионном научном клубе "Информационные технологии в науке, образовании, телекоммуникациях и бизнесе (IT+SE'07)" (Украина, г. Ялта, 2007 г.); VII-ой международной конференции "Информационные технологии в образовании, медицине и технике" (г. Волгоград, 2007 г.); "Научной сессии МИФИ-2007-2008: Технологии разработки программных систем. Информационные технологии" (г. Москва, 2007-2008 гг.); V-ой международной научно-практической конференции "Интегрированные модели и мягкие вычисления в искусственном интеллекте" (г. Коломна, 28-30 мая 2009 г.); Научно-практической конференции студентов, аспирантов, молодых ученых и специалистов "Интегрированные модели, мягкие вычисления, вероятностные системы и комплексы программ в искусственном интеллекте" (ИММВИИ-2009) (г. Коломна, 26-27 мая 2009 г.), Третьей всероссийской научной конференции «Нечеткие системы и мягкие вычисления» (НСМВ-2009) (г. Волгоград, 2009).
Работа "Модель пользователя и его эмоции" удостоена поощрительной премии на Х1-ой Региональной конференции молодых исследователей Волгоградской области (2006 г.).
По теме диссертации опубликовано 25 работ, в том числе: 3 статьи опубликованы в изданиях, входящих в перечень ВАК; 1 статья в международном журнале; 11 статей в сборниках трудов; 10 материалов конференций.