Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

ТЕХНОЛОГИЯ АВТОМАТИЗАЦИИ СОЗДАНИЯ И ОЦЕНКИ КАЧЕСТВА ПРОГРАММНЫХ СРЕДСТВ АНАЛИЗА РЕЧИ С УЧЕТОМ ОСОБЕННОСТЕЙ МАЛОРЕСУРСНЫХ ЯЗЫКОВ Хусаинов Айдар Фаилович

ТЕХНОЛОГИЯ АВТОМАТИЗАЦИИ СОЗДАНИЯ И ОЦЕНКИ КАЧЕСТВА ПРОГРАММНЫХ СРЕДСТВ АНАЛИЗА РЕЧИ С УЧЕТОМ ОСОБЕННОСТЕЙ МАЛОРЕСУРСНЫХ ЯЗЫКОВ
<
ТЕХНОЛОГИЯ АВТОМАТИЗАЦИИ СОЗДАНИЯ И ОЦЕНКИ КАЧЕСТВА ПРОГРАММНЫХ СРЕДСТВ АНАЛИЗА РЕЧИ С УЧЕТОМ ОСОБЕННОСТЕЙ МАЛОРЕСУРСНЫХ ЯЗЫКОВ ТЕХНОЛОГИЯ АВТОМАТИЗАЦИИ СОЗДАНИЯ И ОЦЕНКИ КАЧЕСТВА ПРОГРАММНЫХ СРЕДСТВ АНАЛИЗА РЕЧИ С УЧЕТОМ ОСОБЕННОСТЕЙ МАЛОРЕСУРСНЫХ ЯЗЫКОВ ТЕХНОЛОГИЯ АВТОМАТИЗАЦИИ СОЗДАНИЯ И ОЦЕНКИ КАЧЕСТВА ПРОГРАММНЫХ СРЕДСТВ АНАЛИЗА РЕЧИ С УЧЕТОМ ОСОБЕННОСТЕЙ МАЛОРЕСУРСНЫХ ЯЗЫКОВ ТЕХНОЛОГИЯ АВТОМАТИЗАЦИИ СОЗДАНИЯ И ОЦЕНКИ КАЧЕСТВА ПРОГРАММНЫХ СРЕДСТВ АНАЛИЗА РЕЧИ С УЧЕТОМ ОСОБЕННОСТЕЙ МАЛОРЕСУРСНЫХ ЯЗЫКОВ ТЕХНОЛОГИЯ АВТОМАТИЗАЦИИ СОЗДАНИЯ И ОЦЕНКИ КАЧЕСТВА ПРОГРАММНЫХ СРЕДСТВ АНАЛИЗА РЕЧИ С УЧЕТОМ ОСОБЕННОСТЕЙ МАЛОРЕСУРСНЫХ ЯЗЫКОВ ТЕХНОЛОГИЯ АВТОМАТИЗАЦИИ СОЗДАНИЯ И ОЦЕНКИ КАЧЕСТВА ПРОГРАММНЫХ СРЕДСТВ АНАЛИЗА РЕЧИ С УЧЕТОМ ОСОБЕННОСТЕЙ МАЛОРЕСУРСНЫХ ЯЗЫКОВ ТЕХНОЛОГИЯ АВТОМАТИЗАЦИИ СОЗДАНИЯ И ОЦЕНКИ КАЧЕСТВА ПРОГРАММНЫХ СРЕДСТВ АНАЛИЗА РЕЧИ С УЧЕТОМ ОСОБЕННОСТЕЙ МАЛОРЕСУРСНЫХ ЯЗЫКОВ ТЕХНОЛОГИЯ АВТОМАТИЗАЦИИ СОЗДАНИЯ И ОЦЕНКИ КАЧЕСТВА ПРОГРАММНЫХ СРЕДСТВ АНАЛИЗА РЕЧИ С УЧЕТОМ ОСОБЕННОСТЕЙ МАЛОРЕСУРСНЫХ ЯЗЫКОВ ТЕХНОЛОГИЯ АВТОМАТИЗАЦИИ СОЗДАНИЯ И ОЦЕНКИ КАЧЕСТВА ПРОГРАММНЫХ СРЕДСТВ АНАЛИЗА РЕЧИ С УЧЕТОМ ОСОБЕННОСТЕЙ МАЛОРЕСУРСНЫХ ЯЗЫКОВ ТЕХНОЛОГИЯ АВТОМАТИЗАЦИИ СОЗДАНИЯ И ОЦЕНКИ КАЧЕСТВА ПРОГРАММНЫХ СРЕДСТВ АНАЛИЗА РЕЧИ С УЧЕТОМ ОСОБЕННОСТЕЙ МАЛОРЕСУРСНЫХ ЯЗЫКОВ ТЕХНОЛОГИЯ АВТОМАТИЗАЦИИ СОЗДАНИЯ И ОЦЕНКИ КАЧЕСТВА ПРОГРАММНЫХ СРЕДСТВ АНАЛИЗА РЕЧИ С УЧЕТОМ ОСОБЕННОСТЕЙ МАЛОРЕСУРСНЫХ ЯЗЫКОВ ТЕХНОЛОГИЯ АВТОМАТИЗАЦИИ СОЗДАНИЯ И ОЦЕНКИ КАЧЕСТВА ПРОГРАММНЫХ СРЕДСТВ АНАЛИЗА РЕЧИ С УЧЕТОМ ОСОБЕННОСТЕЙ МАЛОРЕСУРСНЫХ ЯЗЫКОВ
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Хусаинов Айдар Фаилович. ТЕХНОЛОГИЯ АВТОМАТИЗАЦИИ СОЗДАНИЯ И ОЦЕНКИ КАЧЕСТВА ПРОГРАММНЫХ СРЕДСТВ АНАЛИЗА РЕЧИ С УЧЕТОМ ОСОБЕННОСТЕЙ МАЛОРЕСУРСНЫХ ЯЗЫКОВ: диссертация ... кандидата технических наук: 05.13.11 / Хусаинов Айдар Фаилович;[Место защиты: Уфимский государственный авиационный технический университет].- Уфа, 2014.- 162 с.

Содержание к диссертации

Введение

Глава 1. Анализ требований и подходов к анализу речи на малоресурсных языках 13

1.1 Малоресурсные языки 13

1.1.1 Понятие малоресурсных языков 13

1.1.2 Основные проблемы исследований малоресурсных языков 17

1.1.3 Анализ технологий анализа речи для малоресурсных языков 17

1.2 Автоматическое распознавание речи для малоресурсных языков 23

1.2.1 Классификация задач распознавания речи 23

1.2.2 Подходы к построению программных средств распознавания речи 26

1.2.3 Существующий программный инструментарий для распознавания речи 29

1.3 Постановка цели и задач исследования 34

1.4 Выводы по главе 1 34

Глава 2. Модель комплекса автоматизации создания и оценки качества программных средств автоматического распознавания речи для малоресурсных языков 37

2.1 Основные требования к программным средствам анализа речи 37

2.2 Используемые принципы проектирования программных продуктов 45

2.3 Общее строение программных средств распознавания речи 48

2.3.1 Вычисление признаков речевого сигнала 50

2.3.2 Акустическое и лексическое моделирование 54

2.3.3 Языковая модель 60

2.3.4 Распознавание речи 62

2.4 Модель комплекса автоматизации создания и оценки качества программных средств автоматического распознавания речи для малоресурсных языков 65

2.5 Оценка качества работы программных средств распознавания речи 78

2.6 Выводы по главе 2 80

Глава 3. Программная реализация комплекса автоматизации создания и оценки качества программных средств распознавания речи и анализ эффективности его использования на примере татарского языка 82

3.1 Разработка программного обеспечения комплекса автоматизации создания и оценки качества программных средств анализа речи 82

3.1.1 Пользователи, права доступа к функциональности комплекса 86

3.1.2 Проекты комплекса 90

3.1.3 Модули проектов комплекса 91

3.1.4 Тестирование работоспособности программных средств анализа речи 98

3.1.5 Система логирования комплекса 102

3.2. Программные средства автоматического распознавания речи для малоресурсных языков в рамках комплекса автоматизации 105

3.2.1 Модуль «Акустические особенности языка» 107

3.2.2 Модуль «Анализ текстов» 111

3.2.3 Модуль «Запись» 115

3.2.4 Модуль «Акустические модели» 118

3.2.5 Модуль «Распознавание фонем» 121

3.2.6 Модуль «Грамматика» 122

3.2.7 Модуль «Распознавание речи» 125

3.3 Анализ эффективности комплекса автоматизации на примере создания и оценки качества программных средств распознавания татарской речи 127

3.3.1 Разработка программных средств распознавания фонем татарского языка 128

3.3.2 Разработка программных средств распознавания слитной татарской речи 136

3.3.3 Анализ эффективности использования комплекса при построении программных средств анализа речи на татарском языке 143

3.4 Выводы по главе 3 149

Заключение 150

Литература 152

Введение к работе

Актуальность темы исследования. Развитие и широкое внедрение информационных технологий делает актуальной задачу развития более совершенных видов человеко-машинных интерфейсов. Одним из подходов к решению данной задачи является использование речи в качестве канала взаимодействия человека с компьютером. Для практической реализации данного подхода необходимо наличие средств автоматического анализа речи, задача создания которых лежит в области речевых технологий. В целом, в области речевых технологий можно выделить следующие основные направления: автоматическое распознавание речи, идентификация и верификация языка, идентификация и верификация диктора, распознавание эмоций диктора, синтез речи, распознавание тематики разговора.

В настоящее время разработано множество моделей и алгоритмов анализа речи, создано и успешно используется множество коммерческих систем, однако, несмотря на это, существуют задачи, которые не решены до конца, например, задача распознавания слитной и спонтанной речи. Кроме того, степень развития речевых технологий сильно отличается между различными языками. Так, высокое качество работы речевых систем для английского, испанского, французского, китайского и некоторых других языков сочетается со слабым развитием или даже их полным отсутствием для многих других языков. На примере России можно говорить о развитии программных средств распознавания речи, примерно сопоставимых по качеству работы с мировыми аналогами, только для русского языка. Однако в то же время по данным переписи 2010 года в России насчитывается 38 языков, на каждом из которых разговаривает более 100 тысяч человек, и 7 языков, помимо русского, на которых говорят более миллиона человек.

Таким образом, в настоящий момент в мире выделяется класс малоресурсных языков1, для которых не создано средств автоматического распознавания речи, что препятствует их использованию в современных информационных системах и способствует их вытеснению ведущими мировыми языками.

Факт слабого развития речевых технологий для малоресурсных языков как в России, так и в мире, может быть объясним целым рядом причин. Во-первых, данная ситуация объясняется научной сложностью стоящих перед исследователями задач. Во-вторых, высокими финансовыми затратами на подготовку необходимых программных инструментов, речевых и текстовых корпусов. Однако важным также является тот факт, что существующие на данный момент способы моделирования и создания комплексов распознавания речи, чаще всего, стремятся к решению узкого спектра задач, не учитывая при этом все особенности разработки в контексте работы с малоресурсными языками. Это приводит к тому, что разрабатывать и оценивать качество работы программных средств анализа большинства малоресурсных языков приходится с нуля, используя лишь базовый набор имеющегося инструментария, сталкиваясь и решая схожие для многих других языков проблемы.

1 Малоресурсный язык (термин предложен S. Krauwer, V. Berment) – язык, развитие информационных технологий для которого является недостаточным

Таким образом, можно говорить об актуальности проблемы создания технологии, которая бы позволила реализовать программный комплекс автоматизации создания и оценки качества программных средств распознавания речи для малоресурсных языков.

Гипотеза, проверяемая в данной работе, состоит в том, что использование технологии и реализующего её программного комплекса автоматизации, учитывающих специфику обработки малоресурсных языков, существенно сократит время создания средств распознавания речи для множества малоресурсных языков, сопоставимых по качеству работы с существующими мировыми аналогами.

Степень разработанности темы исследования. Термин «малоресурсные языки» для обозначения класса языков с недостаточным уровнем развития информационных технологий был введен в работах S. Krauwer и V. Berment. Ими также были предложены методики экспертной оценки степени развития данных языков.

Разработками в области речевых технологий в целом, и в контексте малоресурсных языков занимаются такие ведущие научные центры, как Университет Карнеги Меллон, Университет Кембриджа, Массачусетского технологического университета, компании Nuance, IBM, Google. Одними из основоположников подходов, применяемых в области автоматического анализа речи, являются Т. К. Винцюк, предложивший метод динамического программирования, а также А.А. Марков, разработавший теорию стохастических процессов.

Лидерами в области распознавания и синтеза речи в России являются такие научные центры, как Санкт-Петербургский институт информатики и автоматизации РАН, Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, компания Центр речевых технологий.

Объект исследования. Объектом исследования является процесс создания и оценки качества программных средств автоматического анализа речи.

Предмет исследования. Предметом исследования в диссертационной работе является разработка технологии автоматизации создания и оценки качества программных средств анализа речи с учетом особенностей малоресурсных языков.

Цель работы и задачи исследования. Основной целью диссертационной работы является разработка технологии автоматизации создания и оценки качества программных средств анализа речи для малоресурсных языков, которая позволила бы повысить скорость создания данных средств при условии сохранения качества их работы на уровне соответствующих мировых аналогов.

Для достижения поставленной цели в ходе диссертационной работы сформулированы и решены следующие задачи:

  1. Разработка технологии построения программных средств распознавания речи, позволяющей повысить скорость создания и качество работы данных средств для множества малоресурсных языков.

  2. Разработка модели комплекса автоматизации создания и оценки качества программных средств анализа речи для малоресурсных языков.

  1. Программная реализация комплекса автоматизации создания и оценки качества программных средств анализа речи для малоресурсных языков, включающего средства решения вспомогательных задач, таких как проектирование и запись текстовых и речевых корпусов, вычисление параметров речи.

  2. Создание программных средств распознавания фонем и слитной речи на татарском языке на базе разработанного комплекса автоматизации.

  3. Исследование эффективности разработанного комплекса автоматизации создания и оценки качества программных средств распознавания речи для малоресурсных языков.

Научная новизна.

  1. Разработана технология автоматизации создания и оценки качества программных средств анализа речи малоресурсных языков, отличающаяся применением моделей, учитывающих специфику обработки малоресурсных языков и обеспечивающих совместную работу экспертов в области языка, анализа речи, программистов и других специалистов при многоэтапной процедуре проектирования и верификации прикладных систем распознавания речи.

  2. Разработана модель комплекса автоматизации создания и оценки качества программных средств анализа речи для малоресурсных языков, отличающаяся от существующих аналогов охватом всех основных подзадач области распознавания речи, а также возможностью их настройки для работы с конкретным малоресурсным языком, что позволяет существенно ускорить процесс создания программных средств анализа речи для малоресурсных языков.

  3. Разработан программный комплекс автоматизации создания и оценки качества программных средств анализа речи малоресурсных языков и инструментальные средства выполнения алгоритмов автоматического анализа речи малоресурсных языков, отличающиеся использованием созданной технологии, обеспечивающей существенное ускорение процесса создания программного обеспечения анализа речи малоресурсных языков при сохранении качества и скорости его работы на уровне мировых аналогов.

  4. Впервые созданы программные средства распознавания фонем и слитной речи на татарском языке на базе разработанного программного комплекса средств, позволяющие использовать их для обеспечения речевого интерфейса взаимодействия человека с компьютером.

Теоретическая и практическая значимость работы. Разработанные модели и программные реализации направлены на решение проблем в области речевых технологий, возникающих при построении и оценке качества программных средств распознавания речи для малоресурсных языков. Предложенная модель позволяет использовать выявленные особенности процессов создания и оценки качества программных средств распознавания речи. Например, учитывая междисциплинарный характер области речевых технологий, предоставляется возможность одновременной работы специалистам по фонетике, лингвистике, программистам с возможностью предоставления настраиваемого для каждого из специалистов доступа к функционалу. Реализация в рамках комплекса модели системы распознавания речи для малоресурсных языков позволяет автоматизировать про-

цессы решения стандартных задач распознавания речи и, таким образом, заметно ускорить процесс создания систем для множества малоресурсных языков.

Методология и методы исследования. Для решения поставленных задач в работе используются методы статистического анализа, теории вероятности, математической статистики, математического моделирования в лингвистике. Программная реализация основана на объектно-ориентированном подходе.

Положения, выносимые на защиту:

  1. Технология построения и оценки качества программных средств распознавания речи для малоресурсных языков, основанная на использовании моделей, учитывающих специфику обработки данного класса языков и позволяющих одновременно осуществлять проектирование и верификацию прикладных систем распознавания речи специалистам из разных областей знаний.

  2. Модель комплекса автоматизации создания и оценки качества программных средств анализа речи для малоресурсных языков, основанная на учете особенностей решения всех основных подзадач области распознавания речи в контексте работы с малоресурсными языками и позволяющая существенно ускорить процесс создания программных средств анализа речи для малоресурсных языков.

  3. Программная реализация комплекса автоматизации создания и оценки качества программных средств анализа речи, а также инструментальных средств решения вспомогательных задач автоматического распознавания речи, основанных на использовании разработанной технологии и позволяющих существенно ускорить процесс создания программного обеспечения анализа речи малоресурсных языков при сохранении качества и скорости его работы на уровне мировых аналогов.

  4. Программные средства распознавания фонем и слитной речи на татарском языке, созданные на базе разработанного комплекса автоматизации и позволяющие использовать их для обеспечения речевого интерфейса взаимодействия человека с компьютером.

Степень достоверности и апробация результатов. Разработанный программный комплекс был использован в рамках проекта по созданию онлайн-школы обучения татарскому языку «Ана Теле»; проект осуществляется совместно с Министерством образования и науки Республики Татарстан и компанией «English First». Результаты работы внедрены в учебный процесс кафедры математической лингвистики и информационных систем в филологии Института филологии и межкультурной коммуникации Казанского федерального университета.

Основные результаты диссертационного исследования представлялись на Международных конференциях: «Речь и Компьютер» SPECOM (Казань 2011; Пльзень, Чехия, 2013), «Open Semantic Technologies for Intelligent Systems» OSTIS (Белоруссия, 2013), «Computer Science and Information Technologies» CSIT (Австрия, Венгрия, Словакия, 2013), «Computer processing of Turkic languages» (Казахстан, 2013).

Публикации. Основные положения и результаты диссертационной работы опубликованы в 10 публикациях, включающих 2 статьи в научных журналах из перечня ВАК («Доклады Томского государственного университета систем управ-

ления и радиоэлектроники», «Программные продукты и системы»), 1 статью в журнале, цитируемом SCOPUS («Speech and Computer, Lecture Notes in Computer Science», издательство Springer), 1 свидетельство о государственной регистрации программы для ЭВМ.

Структура и объем работы. Диссертационная работа включает введение, три главы, заключение, список литературы. Материал диссертации изложен на 162 страницах текста, включающих в себя 42 рисунка и 26 таблиц. Количество библиографических ссылок – 104.

Основные проблемы исследований малоресурсных языков

Сам принцип обособления множества малоресурсных языков, как языков с недостаточным развитием информационных ресурсов, свидетельствует о трудности применения к ним стандартных подходов распознавания речи, основанных во многом на специально подготовленных и размеченных массивах текстовых и речевых корпусов. При создании данных корпусов необходимо совместное участие ученых-фонетистов, лингвистов, алгоритмистов. Однако для малоресурсных языков редким является случай наличия эксперта в области языка (лингвиста, фонетиста), обладающего необходимыми техническими знаниями и навыками для участия в процессе создания программных средств распознавания речи на родном для него языке.

Учеными отмечается недостаток исследований, описывающих необходимые для учета при распознавании аспекты малоресурсных языков. Также существует недостаток научной литературы, которую можно было бы использовать на начальном этапе создания акустических и лингвистических моделей, необходимых для распознавания. В связи с этим во многих случаях для начала работ по созданию систем распознавания речи бывает оправдано выбрать близкий язык, для которого доступно большее количеств ресурсов. Далее, осуществляется попытка установить необходимые взаимосвязи между аппаратами языков и ответить на вопросы о применимости имеющихся подходов к распознаванию данного конкретного языка. Всё это, наряду с трудностями сбора текстовых и речевых данных, делает проблему создания программных средств распознавания речи на малоресурсных языках мультидисциплинарной, технически и научно сложной.

Первый наиболее заметный рост числа исследований в области анализа малоресурсных языков был отмечен в 90е годы 20 века. Именно в это время впервые осуществляются попытки использовать уже созданные системы распознавания речи для анализа малоресурсных языков. Так, например, были использованы для анализа других языков системы следующих компаний [77]: IBM [32], BBN [28], Cambridge [102], Philips [38], MIT [43], LIMSI [55]. Известная в области распознавания речи компания Dragon ещё в 1996 году в своей работе [23] привела результаты экспериментов по использованию своих систем распознавания для анализа английского, французского, немецкого, итальянского и испанского языков. Результаты свидетельствовали о применимости схожих методик распознавания речи для разных языков, что открывало перспективы использования лучших образцов систем распознавания для анализа множества малоресурсных языков. Однако в то же время исследователи сделали вывод о том, что, во-первых, качество распознавания для разных языков существенно отличается, а во-вторых, при решении сложной задачи распознавания слитной речи качество работы для множества языков оказалось очень низким.

Первые результаты подчеркнули, в первую очередь, важность создания качественных акустических моделей для новых анализируемых языков. Опыт по созданию речевых баз, их разметке и анализу для крупнейших мировых языков свидетельствовал о высокой стоимости, сложности и продолжительности данных работ. Поэтому возросло число исследований, направленных на упрощение процесса создания акустических моделей, которые можно было бы использовать для распознавания новых языков. Одним из возникших подходов стало создание и использование языконезависимых акустических моделей в качестве начального приближения для новых языков. Языконезависимость данных моделей подразумевает под собой способность данных моделей описывать акустические особенности языков, вошедших в обучающую выборку. Именно такие языконезависимые модели, построенные на данных доступных в большом объёме речевых корпусов, оказались наилучшим образом применимы для адаптации к моделированию новых малоресурсных языков [77]. Для адаптации при этом используется имеющееся небольшое количество речевых фрагментов целевого языка.

В настоящий момент проектами, направленными на развитие технологий адаптации акустических моделей распознавания, занимаются все ведущие центры речевых технологий мира, среди которых проекты Университета Карлсруе, Университет Карнеги Меллон. На постоянной основе проводятся специализированные конференции (SLTU [88, 89, 90], COLING [16]) и отдельные секции конференции (Interspeech [15]), посвященные исключительно проблемам создания речевых технологий для малоресурсных языков.

Анализ тематик научных работ последних лет позволяет выделить несколько основных направлений развития технологий для малоресурсных языков:

1. Создание программных средств распознавания речи для малоресурсных языков, создание новых специфичных для данной группы языков алгоритмов.

1.1. Использование данных другого языка (out-of-language data) для улучшения качества распознавания малоресурсного языка. Например, исследование по улучшению качества распознавания языка Afrikaans за счет использования в качестве основы корпусов для немецкого языка [49]. Для полного сравнения были использованы различные векторы признаков речи, а также разные подходы к построению акустических моделей. В результате применения данного подхода было продемонстрировано 12%-ое улучшение качества работы за счет использования речевых данных на немецком языке.

1.2. Использование специфических для языка базовых единиц при создании акустических, лингвистических и лексических моделей для языка Amharic (Эфиопия) позволило улучшить результат, полученный на основе классического трифонного подхода [84].

1.3. Решение проблемы создания текстовых корпусов для малоресурсных языков за счет использования текстовых корпусов конкретной предметной области на другом языке и применении алгоритмов машинного перевода [35].

1.4. Для группы малоресурсных языков с богатой морфологией и со свободным порядком слов предложены подходы построения языковых моделей [50, 83]. 1.5. Созданы программные средства распознавания речи с очень большим словарем слов для русского языка, которые после нескольких модификаций могут быть применены для распознавания восточнославянских языков [51].

2. Вопросы использования существующих программных средств распознавания и анализа речи в контексте малоресурсных языков.

2.1. Создание расширяемой архитектуры программных средств распознавания речи для мобильных устройств. В работе [20] предлагается использование клиент-серверного приложения для распознавания эстонского языка в устройствах на базе операционной системы Android.

2.2. Развитие методов, которые позволяют осуществлять перенос ресурсов с одного языка на другой, являются составными частями некоторых подходов по созданию программных средств распознавания речи. Наиболее важным направлением является создание текстовых корпусов на основе уже имеющихся, для чего необходимо развитие корректных моделей машинного перевода, учитывающих различие в исходном и целевом языках [52].

На настоящий момент крупнейшими мировыми центрами в области речевых технологий созданы программные инструменты, облегчающие и автоматизирующие те или иные процессы создания систем распознавания речи. Выделим основные особенности существующих на данный момент проектов в области автоматизации процесса создания систем анализа речи:

1. В совместной работе ученых Института технологий г. Гренобль и Ханойского университета наук и технологий [98] описывается созданное специализированное средство анализа малоресурсных языков, которое позволяет автоматизировать процессы фонетической аннотации речевых корпусов, а также вычислять и анализировать множество базовых параметров речи, например, период основного тона.

2. Проект «The Crbadn Project» [75] помогает при создании текстовых корпусов для множества малоресурсных языков с помощью автоматического поиска и анализа текстовых материалов, находящихся в сети Интернет. 3. Для ускорения создания необходимых для распознавания речи словарей транскрипций малоресурсных языков можно использовать имеющуюся информацию, например, ресурс Wiktionary. На базе информации данного ресурса были построены статистические графем-фонемные модели для 6 различных языков [76].

Используемые принципы проектирования программных продуктов

Выявленные требования к комплексу автоматизации создания и оценки качества программных средств анализа речи для малоресурсных языков, с одной стороны, а также стоящие цели по обеспечению скорости создания и возможности оценки качества работы программных средств анализа речи, с другой стороны, делают необходимым использование различных принципов создания программного обеспечения при проектировании как самого комплекса, так и создаваемых с его помощью систем.

Так, согласно принципа открытой архитектуры, регламентируются и стандартизируются только описание принципа действия системы и её конфигурация. Система при этом может быть собрана из отдельных составных элементов, разработанных и изготовленных в независимом друг от друга порядке. Использование особенностей данного принципа в контексте проектирования предлагаемого комплекса автоматизации позволит реализовать несколько сформулированных ранее требований, прежде всего, достичь универсальности используемых компонентов программных средств анализа, обеспечить возможность их адаптации и повторного использования при решении новых задач анализа речи.

Особенности открытой архитектуры в рамках комплекса реализуются следующим образом: создание программных средств анализа речи предлагается осуществлять на основе модульного подхода, где каждый модуль реализует специфическую функциональность, но при этом для всех модулей характерна единая структура.

Объектный подход проектирования информационных систем основывается на понятии объекта как замкнутой независимой сущности, взаимодействующей с внешним миром через строго определенный интерфейс в виде перечня сообщений, которые объект может принимать. Объект обладает свойствами, поведением и состоянием. Объекты с одинаковыми свойствами и поведением объединяются в классы, которые, в свою очередь, представляют собой описания свойств и поведения составляющих их объектов. С этой точки зрения, выделение модуля, обладающего характерной структурой, можно также считать представить в качестве реализации объектного подхода к проектированию информационных систем. Помимо этого, объект модуля также реализует принцип наследования: базовыми для любого модуля комплекса будут являться интерфейсы, которые позволяют комплексу осуществлять с ним следующие стандартные операции, вне зависимости от особенностей реализации каждого конкретного модуля:

1. Запускать выполнение заложенных в модуль команд;

2. Обеспечивать обмен информацией между различными модулями;

3. Предоставлять возможность настройки прав доступа для различных групп пользователей;

4. Осуществлять обмен информацией между модулями с помощью значений входящих и выходящих параметров.

Помимо определения класса модуля, важным также является выделение класса проектов – объектов, объединяющих в себе совокупность модулей. Объекты класса проект должны инкапсулировать функциональность и настройки входящих в его состав модулей, а также обеспечивать на их основе выполнение поставленных задач анализа речи.

Кроме того, в соответствии со стоящими требованиями по поддержке параллельной работы нескольких пользователей и обеспечению возможности гибкой настройки прав доступа, оправдано выделение отдельного класса объектов пользователей, которые бы хранили информацию, позволяющую проводить аутентификацию и предоставлять права доступа к различной функциональности комплекса.

Необходимость обеспечения высокой скорости и удобства разработки программных средств анализа речи совпадает с целями концепции проектирования программных продуктов быстрой разработки приложений (Rapid Application Development, RAD), наиболее существенными из которых являются:

высокая скорость разработки;

низкая стоимость;

высокое качество. Применение технологии RAD целесообразно, когда:

требуется выполнение проекта в сжатые сроки (несколько месяцев);

отсутствуют четко прописанное техническое задание;

проект выполняется в условиях ограниченности бюджета;

проект большой, но поддается разделению на более мелкие функциональные компоненты. Если предполагаемая система велика, необходимо,чтобы ее можно было разбить на мелкие части, каждая из которых обладает четкой функциональностью.

Перечисленные критерии выполняются для случая создания программных средств автоматического анализа речи для малоресурсных языков. Следовательно, при проектировании комплекса является обоснованным использование основных принципов RAD, которые можно сформулировать следующим образом:

работа ведется группами; разработка базируется на моделях. Моделирование позволяет оценить проект и выполнить его декомпозицию на составные части, каждая из которых может разрабатываться отдельной группой;

используется итерационное прототипирование. Разработка системы и предъявление ее заказчику осуществляется в виде последовательности развиваемых прототипов. Любой из прототипов реализует определенную часть функциональности, требуемой от конечного продукта. При этом каждый последующий прототип включает всю функциональность, реализованную в предыдущем прототипе, с добавлением новой.

В соответствии с перечисленными принципами, а также выделенными ранее объектами модулей, проектов и пользователей, процесс разработки программных средств анализа речи для малоресурсного языка можно представить следующим образом: создаётся отдельный проект для решения конкретной задачи, происходит добавление в него предустановленных в комплекс модулей для решения стандартных подзадач, создание новых модулей для учета особенностей языка и условий использования конечной системы, устанавливаются взаимосвязи между модулями, назначаются права доступа, после чего работа может осуществляться отдельно над каждым модулем различными группами исследователей. Изменение версии реализации любого модуля при этом не нарушает целостность всего проекта; каждая итерация изменения функциональности модуля приводит к расширению функциональности всей системы.

На основании вышеизложенного, можно говорить о том, что использование перечисленных принципов создания программных систем позволит комплексу реализовать стоящие перед ним требования.

Разработка программного обеспечения комплекса автоматизации создания и оценки качества программных средств анализа речи

Вторая глава диссертации представляла результаты исследований, направленных на создание моделей процессов, описывающих работу комплекса автоматизации создания и оценки качества программных средств распознавания речи. Данные модели создавались с учётом выявленных особенностей области речевых технологий в контексте анализа малоресурсных языков.

Для подтверждения на практике возможностей использования комплекса автоматизации приводится описание реализации данного комплекса в виде программной системы. Для апробации созданного программного комплекса, построенного на основе разработанных моделей, а также для оценки преимуществ его использования, на основе комплекса были реализованы программные средства распознавания фонем и слитной речи для татарского языка. По данным переписи 2010 года татарским языком в России владеет более 4,2 миллионов человек, всего же в мире это число составляет около 8 миллионов человек. В то же время, исследования в области создания программных средств автоматического анализа татарской речи не производились, что делает этот язык подходящим малоресурсным языком для демонстрации возможностей комплекса.

В результате анализа требований, стоящих перед комплексом автоматизации, была получена функциональная модель процесса создания и оценки качества программных средств анализа речи для малоресурсных языков. Для осуществления программной реализации комплекса на основе построенной модели была выбрана среда разработки Visual Studio 2010 Express с использованием языка программирования C# платформы .Net Framework. Для достижения целевых характеристик комплекса (скорости создания и качества работы создаваемых программных средств анализа речи) в рамках описанных в главе 2 моделей было решено использовать набор базовых классов объектов: пользователь, модуль, проект. Хранение информации об объектах данных классов, а также, например, о правах доступа, значениях различных параметров, было решено реализовать на основе базы данных. В качестве СУБД выл выбран продукт Microsoft SQL Server Express Edition. Модель хранилища данных представлена на рисунке 18.

Модель структуры комплекса автоматизации создания и оценки качества программных средств распознавания речи для малоресурсных языков представлена на рисунке 19.

Описание программной реализации комплекса автоматизации представлено в порядке, соответствующем выполнению основных этапов работы с комплексом:

1. Определение списка специалистов, которые будут участвовать в процессе создания программных средств анализа речи, определение прав доступа каждого из специалистов к функциональности комплекса.

2. Создание проекта, формирование составляющих его модулей и определение их взаимосвязей.

3. Реализация функциональности всех модулей проекта.

4. Тестирование работоспособности созданных программных средств анализа речи, а также оценка качества их работы.

Создание программных средств анализа речи представляет собой комплексную мультидисциплинарную задачу, в которой необходимы знания по акустике, фонетике, лингвистике, математической статистике и моделированию, программированию. Поэтому большинство речевых систем разрабатывается коллективами ученых из разных областей знаний. Этим продиктована необходимость внедрения системы разделения и контроля прав доступа к различной функциональности комплекса для разных пользователей.

Комплексом должна быть обеспечена возможность параллельной работы нескольких специалистов. Соответственно, для начала работы с комплексом необходимо авторизоваться в системе, при этом уровень доступа к функционалу определяется отдельно для каждого пользователя или для группы пользователей.

Данные о пользователях, их логине и пароле, а также о соответствующих им уровнях доступа, хранятся в нескольких таблицах созданной БД. Структура данных таблиц представлена на рисунке 18 (таблицы Users, UserRoles, ProjectStageRoleRights, rbRoles, rbRights).

Рассмотрим особенности предоставления пользователям различных прав доступа. Так, в комплексе выделено 3 различных уровня предоставления функциональности:

1. Уровень комплекса;

2. Уровень проектов;

3. Уровень модулей. На уровне комплекса существует обычный и администраторский доступ, определяемый атрибутом IsAdmin таблицы Users. Права администратора назначаются конкретному пользователю и позволяют выполнять следующие операции:

1. Добавление нового проекта;

2. Добавление, изменение и удаление пользователей;

3. Изменение сущностей, связанных с настройками доступа. На уровне проекта также выделяется два различных типа прав: права создателя проекта и обычные права. Пользователь, создавший данный проект, в отличие от остальных пользователей имеет доступ к следующему функционалу:

1. Создание и удаление модулей;

2. Редактирование любой информации, относящейся к модулям проекта (параметры, версии, зависимости от других модулей);

3. Запуск тестового выполнение модулей и всего проекта.

Остальные пользователи обладают потенциальной возможностью участия в доработке и использовании уже имеющихся проектов и содержащихся в них модулей согласно прав, заданных создателями проектов.

Анализ эффективности использования комплекса при построении программных средств анализа речи на татарском языке

Эффективность создания программных средств автоматического распознавания речи можно оценивать по ряду критериев:

1. Качество работы созданных программных средств распознавания речи (Corr, Acc и другие показатели);

2. Скорость работы созданных средств распознавания речи (RTF);

3. Скорость создания программных средств распознавания речи;

4. Стоимость создания программных средств распознавания речи. При оценке эффективности согласно выделенным критериям необходимо

учитывать специфику стоящей задачи, которая заключалась в автоматизации создания базовых программных средств распознавания речи для малоресурсных языков, и производить сравнение полученных для случая татарского языка результатов с соответствующими мировыми аналогами.

Качество созданных программных средств распознавания фонем и слитной речи на татарском языке, как отмечалось выше, соответствует уровню аналогичных систем, таблица 25. Достигнутые показатели скорости работы программных средств также соответствуют современным требованиям по осуществлению работы в режиме реального времени.

Сравнение качества работы программных средств распознавания для различных малоресурсных языков

Название языка Разработчики системы Corr, % Acc, %

Монгольский язык Toyohashi University of Technology, Япония 63,2 59,0

Тамильский язык Avinashilingam Institute for Home Science and Higher Education for Women, Coimbatore, TamilNadu, Индия 92 81

Уйгурский язык Xinjiang University, Urumqi, China N/A 58,9

Разработанная система для татарского языка Казанский (Приволжский) федеральный университет 76,7 67,3

Провести оценку эффективности использования комплекса автоматизации создания и оценки качества программных средств распознавания речи для малоресурсных языков путём прямого сравнения временных и стоимостных затрат с существующими аналогами не представляется возможным. Причиной этому служит отсутствие в свободном доступе количественных показателей о стоимости и трудозатратах разработки конкретных программных средств распознавания. В связи с данным фактом предлагается осуществить экспертную оценку трудозатрат на создание базовых программных средств распознавания слитной речи для малоресурсного языка, а также отметить преимущество использования созданного комплекса автоматизации данного процесса, таблица 26.

Подводя итог вышесказанному, можно отметить, что основное преимущество от использования предложенного комплекса автоматизации и входящих в его состав инструментов заключается в следующем:

1. Существенно снижается объем работы специалистов-экспертов в области речевых технологий и программистов, их усилия могут быть необходимы только в процессе дальнейших доработок базовой версии распознавателя;

2. Специалисты в области исследуемого языка обеспечиваются необходимым инструментарием, который позволяет исследовать важные при распознавании особенности языка и записывать результаты этих исследований в форматах, используемых современными системами распознавания;

3. Использование инструментов, например, по планированию и осуществлению создания необходимых речевых данных, позволяет ускорить выполнение данных этапов работы.

1. Произведена программная реализация предложенной модели комплекса автоматизации создания и оценки качества программных средств распознавания речи для малоресурсных языков. Обеспечение предусмотренных моделью свойств комплекса было достигнуто благодаря реализации необходимых классов объектов, а также реализации модели распознавания речи для малоресурсного языка в рамках созданного комплекса.

2. Использование созданных технологий и модели распознавания при построении программных средств автоматического распознавания фонем и слитной речи для татарского языка продемонстрировало применимость разработанных средств при анализе речи для малоресурсных языков.

3. Анализ эффективности использования разработанных инструментальных средств показал, что построенные программные средства анализа речи для татарского языка отвечают необходимым требованиям по качеству и скорости работы. Было отмечено сокращение времени разработки систем, в том числе трудозатрат наиболее востребованных специалистов в области анализа речи.

Похожие диссертации на ТЕХНОЛОГИЯ АВТОМАТИЗАЦИИ СОЗДАНИЯ И ОЦЕНКИ КАЧЕСТВА ПРОГРАММНЫХ СРЕДСТВ АНАЛИЗА РЕЧИ С УЧЕТОМ ОСОБЕННОСТЕЙ МАЛОРЕСУРСНЫХ ЯЗЫКОВ