Введение к работе
Актуальность темы. В настоящее время, как средства общения и обмена информацией, широкое распространение получили системы экспресс-сообщений (ЭС). ЭС являются видом оперативных коммуникационных услуг, позволяющим двум пользователям создавать в сети Интернет сессии обмена информацией на основе текстовых сообщений. Дополнительно, некоторые из систем ЭС позволяют передавать голосовую информацию, на базе технологии VoIP. В качестве терминалов могут использоваться персональные компьютеры (стационарные, ноутбуки), беспроводные устройства (сотовые телефоны, КПК) или другое интернет оборудование. Возможны различные комбинации этих устройств.
ЭС имеют две основные особенности: предоставляют возможность обмена текстовыми сообщениями в реальном масштабе и передают информацию о присутствии пользователя. Высокой популярностью ЭС обязаны этим двум особенностям, отличающим их от электронной почты и SMS сообщений и позволяющим клиентам систем вести диалог путем набора текста на клавиатуре терминала (ПК, КПК, мобильного телефона и т.д.). Для пользователей, работающих в системе ЭС, характерно употребление единой терминологии. Разговоры связаны общими интересами и обычно происходят на одном языке.
Для системы ЭС использование технологии VoIP, зачастую является избыточным. Анализ существующих разновидностей технологий ЭС, показывает возможность использования словаря для преобразования, как текстовых сообщений, так и речи на передающей стороне и передаче в канал связи индекса каждого обработанного слова. На приемной стороне по словарю можно синтезировать в естественную речь индексы полученных из канала связи слов. Таким образом, на базе системы ЭС возможно предоставление услуги передачи речи, отличающейся сниженным объемом передаваемых в канал связи данных, по сравнению с технологией VoIP.
Своими исследованиями в области цифровой обработки речевых сигналов известны Л. Рабинер, Р. Шафер, С. Левинсон, А. Ланнэ (RusVox). Вопросы синтеза речи освещены в работах В. Кучерова, Б. Лобанова, Г. Фанта, Дж. Фланагана, М. Сапожникова. Теории обработки разговорной речи посвящены работы X. Хуанга, А. Асеро, Х. Хона. Все эти наработки в области распознавания и синтеза речи могут быть применены в системах ЭС, порождая тем самым новый метод передачи речи, исключающий избыточность существующих подходов.
Поэтому поставленная и решенная в диссертационной работе задача является актуальной.
Целью работы и задачей исследования является повышение эффективности использования канала связи, путем снижения объема передаваемых в системе ЭС данных. Цель достигается путем решения нижеперечисленных основных задач.
-
Анализа систем ЭС и выявления проблем связанных с избыточностью применения существующих методов передачи речи в системах ЭС.
-
Исследования и разработки метода сжатия речевых сообщений в системе ЭС.
-
Исследования и разработки модели обработки информации на передающей и приемной сторонах в системе ЭС.
-
Исследования и разработки алгоритмов модели обработки информации в системе ЭС.
-
Экспериментальной проверки разработанного метода, модели, алгоритмов и сравнения с существующим методом.
Методы исследования. При проведении исследований в диссертационной работе использовались методы теории обработки речевых сигналов, вычислительной математики, программирования, теории телетрафика, теории вероятностей.
В качестве инструмента исследования автором было разработано приложение для обмена речевой информацией в системе ЭС. Данное приложение использовалось для получения количественных оценок объема передаваемых в канал связи данных и времени доставки пакетов ЭС, было экспериментальной платформой для внедрения и применения разработанного метода передачи речи.
Научная новизна. В данной работе предложен новый метод передачи ЭС, модель обработки информации, модель процесса преобразования речи и ее алгоритмы. Научная новизна заключается в разработке для систем ЭС нового подхода, основанного на применении систем распознавания и синтеза речи, функционирующих по словарю. Словарь позволяет преобразовывать поступающую на передающей стороне речь в индексы слов, а на приемной стороне, переданные через канал связи индексы слов синтезировать в речевой сигнал. Исследование систем ЭС и разработка метода передачи речи, дает толчок к созданию лингвистических моделей языка общения пользователей, в рамках этих систем, тем самым, расширяя возможности систем ЭС.
Практическая ценность работы. К практической ценности разработанного метода можно отнести:
-
уменьшение объема передаваемой в канал связи информации и снижение нагрузки на сеть;
-
обеспечения более эффективного, по сравнению с набором на клавиатуре, способа ввода ЭС и более эффективного, по сравнению с чтением на дисплее, способа восприятия ЭС;
-
совместная передача на базе протоколов системы ЭС как речевой, так и текстовой информации в едином цифровом потоке.
Разработчикам, инженерам, операторам предоставляется новый инструмент, позволяющий обмениваться как текстовой, так и голосовой информацией в реальном масштабе времени. Математическим аппарат, представленный в работе в виде модели обработки информации удобен и доступен для инженерных расчетов в системах обмена информацией. Разработанные средства также могут быть использованы в системах требующих низкую скорость передачи данных, к примеру: в системах передачи данных на подводных лодках, в шахтах или в туннелях.
Апробация работы. Результаты работы докладывались на:
59 (май 2005) и 60 (май 2006) научно-технических конференциях студентов, аспирантов и молодых специалистов СПбГУТ;
58 (январь 2006), 59 (январь 2007), 60 (январь 2008), 61 (январь 2009) научно-технических конференциях профессорско-преподавательского состава, научных сотрудников и аспирантов СПбГУТ.
Основные практические результаты работы демонстрировались на ежегодной конференции IBM Lotus Forum 25 сентября 2008 в городе Москве.
Основные положения, выносимые на защиту. К основным научным результатам, которые получены лично автором, включены в диссертацию и выносятся на защиту, относятся:
-
результаты анализа существующих систем ЭС и их особенностей;
-
предложенный метод передачи речи на базе системы ЭС;
-
разработанная модель обработки информации в системе ЭС;
-
созданные алгоритмы для модели обработки информации в системе ЭС;
-
результаты экспериментальных проверок работы предложенного метода для системы ЭС в режиме реального времени и оценок объема данных, передаваемого в канал связи;
-
дальнейшие пути исследований:
-
построение лингвистической модели языка, используемого в системе ЭС;
-
снижение требований к вычислительной мощности аппаратуры клиентской части системы, за счет распознавания речи на выделенном сервере;
-
создание клиентской части системы на базе программируемой логики в виде аппаратного решения;
-
разработка клиентской части системы, работающей на мобильных устройствах;
-
исследования по применению созданной системы в работе на низкоскоростных каналах связи, например инфразвуковых.
-
Личный вклад автора. Основные научные положения, теоретические и практические выводы и результаты экспериментов, содержащиеся в диссертационной работе, получены автором самостоятельно.
Публикации. По теме диссертации опубликовано 13 научных работ, в том числе в 4 изданиях из перечня, рекомендуемого ВАК.
Структура и объем работы. Работа состоит из введения, 4 глав, заключения, списка литературы, включающего 106 наименований. Работа содержит 150 страниц машинописного текста, 34 рисунка, 12 таблиц.