Содержание к диссертации
Введение
Глава 1. Проблемы представления и обработки информации в интеллектуальных системах 39
1.1. Извлечение ключевой информации 39
1.2. Системы искусственного интеллекта 43
1.2.1. Тенденции развития систем искусственного интеллекта 43
1.2.2. Типы искусственно-интеллектуальных систем 45
1.3. Интеллектуальные системы 46
1.4. Анализ интеллектуальных систем с точки зрения эффективности обработки информации 48
1.4.1. Системы распознавания речи 49
1.4.2. Системы распознавания изображений 53
1.4.3. Системы анализа текстов 54
1.4.4. Семантические представления в интеллектуальных системах 56
Глава 2. Теоретические основы построения нейросетевых технологий обработки неструктурированной информации разных модальностей - 65
2.1. Преобразование, реализующее свойство ассоциативности обращения к информации 65
2.1.1. Запоминание информации. Воспроизведение. Авто- и гетероассоциативность 67
2.1.2. Формирование статистической модели. Забывание 69
2.1.3. Формирование словаря 70
2.1.4. Формирование синтаксической последовательности. Многоуровневая структура 72
2.1.5. Расфокусированное преобразование 74
2.1.6. Механизм локального внимания 76
2.1.7. Распознавание 76
2.1.8. Топология сигнального пространства. Устойчивость к разрушению 77
2.1.9. Передача информации, устойчивая к потерям 78
2.2. Иерархия, реализующая структурную обработку информации 81
2.2.1. Концептуальная иерархическая структура 82
2.2.2. Реальная иерархическая структура 84
2.3. Фреймовая организация знаний на основе иерархической структуры ассоциативных процессоров обработки информации 86
2.3.1. Модель мира на основе иерархической структуры ассоциативных процессоров обработки информации - семантическая сеть 87
2.3.2. Семантические представления 89
2.3.3. Фрейм-структура - динамическое знание - как отклик подмножества семантической сети на входную ситуацию 92
2.3.4. Механизм внимания - механизм формирования фрейм-структуры на семантической сети
Глава 3. Нейронные сети для представления информации 98
3.1. Использование нейронных сетей для представления информации 98
3 11. Представление статической и динамической информации с помощью
нейронных сетей 98 ,
3.1.2. Использование статических нейронных сетей для представления квази динамической информации 101
3.2. Использование рекуррентных (динамических) нейронных сетей для представления информации 101
3.2.1. Гребенки статических нейронных сетей с задержками для представления динамической информации 104
3.2.2. Введение обратных связей в нейронных сетях и сохранение временного контекста 104
3.3. Динамическое ассоциативное запоминающее устройство 105
3.3.1. Нейроподобный элемент с временной суммацией сигналов 106
3.3.2. Временная суммация сигналов - основа механизма избирательной адресации нейронов 109
3.3.3. Сеть из нейроподобных элементов с временной суммацией сигналов 113
3.3.4. Биологические предпосылки 114
3.4. Нейронная сеть для переупорядочивания информации 117
3.4.1. Архитектура гиппокампа 119
3.4.2. Поле САз 120
3.4.3. Поле СА-|. Конкурентная сеть ' 123
3.4.4. Функция переупорядочивания информации 124
Глава 4. Структурный подход с использованием нейросетевой технологии -естественный путь решения задачи анализа неструктурированной информации разных модальностей и интеграции их в единую структуру 128
4.1. Распознавание речи 129
4.1.1. Многоуровневая иерархия представления лингвистической информации 132
4.1.2. Формирование многоуровневого языкового представления у человека 137
4.2. Распознавание изображений 140
4.2.1. Основные функции элементов зрительного анализатора 141
4.2.2. Иерархия механизмов обработки информации в модели зрительного анализатора 149
4.3. Семантический и прагматический уровни представления знаний 158
4.3.1. Парадигматическая и синтагматическая семантика 158
4.3.2. Многомодальные семантические представления 163
4.3.3. Прагматический уровень обработки информации на примере речевого
поведения 170
4.4. Структурная обработка текстовой информации. Подчеркивание существенных
элементов модели 176
4.4.1. Обработка текстовой информации человеком 176
4.4.2. Структурная обработка текстовой информации
4.4.2. Формирование статистического портрета текста в многомерном
пространстве 178
4.4.3. Формирование ассоциативной сети перенормировкой весовых
характеристик слов 180
4.4.4. Квази-семантическая картина мира на основе текстового представления 180
Глава 5. Программные приложения на основе нейросетевой технологии обработки информации различных модальностей 184
5.1. Система для структурного анализа текстов «TextAnalyst» 184
5.1.1. Программная реализация технологии 185
5.1.2. Основные функции системы «TextAnalyst» 189
5.1.3. Электронная книга 190
5.2. Система распознавания речи 192
5.2.1. Первичная обработка речевого сигнала 193
5.2.2. Акустико-фонетическое преобразование 196
5.2.3. Нейросетевой анализ акустического текста 200
5.2.4. Лексический уровень обработки информации 210
5.3. Система распознавания изображений символов 217
5.3.1. Предобработка и кодирование изображения 218
5.3.2. Представление и распознавание эталонов символов 218
Глава 6. Аппаратные реализации на основе нейросетевого подхода 222
6.1. Аппаратная реализация адресного блока динамического ассоциативного запоминающего устройства 222
6.1.1. Режимы обучения и распознавания 228
6.2. Нейрочип 230
6.2.1. Моделирование нейрочипа 231
6.2.2. Функциональное описание СБИС нейрочипа 232
6.2.3. Внешние выводы 235
6.2.4. Каскадирование приборов 235
6.2.5. Конструктивное исполнение 236
6.3. Модуль ассоциативной памяти для высокопроизводительных нейрокомпьютеров, решающих задачу обработки информации верхних уровней в системе распознавания ключевых слов в потоке слитной речи 236
6.3.1. Архитектура модуля ассоциативной памяти 236
6.3.2. Конструкция модуля ассоциативной памяти 242
6.3.3. Мягкие вычисления на ассоциативной памяти, реализованной с применением САМ 243
6.4. Модель обработки речевой информации с использованием модулей ассоциативной памяти 244
6.5. Ассоциативный поисковик с доступом к информации за один такт.
Полнотекстовая индексация на основе динамического ассоциативного запоминающего устройства 247
Заключение , 250
Библиография 263
Приложения. Акты о внедрении
- Тенденции развития систем искусственного интеллекта
- Формирование синтаксической последовательности. Многоуровневая структура
- Использование статических нейронных сетей для представления квази динамической информации
- Иерархия механизмов обработки информации в модели зрительного анализатора
Введение к работе
Актуальность темы диссертации. Теория и практика обработки больших информационных массивов имеет богатую традицию и большой арсенал успешных решений. Это относится как к области распознавания образов различной природы, так и к области извлечения ключевой информации. Не рассматривая вопросы сжатия информации для передачи по каналам связи, очертим проблему эффективного извлечения ключевой информации из источников различной природы, с целью ее компактного представления пользователю.
Сначала сосредоточимся на вопросах извлечения ключевой информации из текстов. К наиболее актуальным направлениям извлечения знаний из текста на сегодняшний день относятся: аннотирование документов, выполнение индексирования, построение и динамический анализ семантической структуры текстов, выделение ключевых тем и информационных объектов. К ним же можно отнести поиск в текстах объектов - фактов (атрибутивный анализ) и их взаимосвязей, что позволяет исследовать связи объектов из документов, осуществлять навигацию к нужным объектам для получения и анализа документов о связях этих объектов.
Источники информации не всегда являются текстами. Это могут быть фотографии, видеозаписи, а также речевая информация. Растущий объем мультимедийной информации делает ее едва ли не самым важным объектом для обработки средствами реферирования. Соответствующие технологии должны обрабатывать информацию из источников разного типа на этапе анализа, на этапе извлечения и на этапе синтеза, когда происходит интеграция информации разного типа. Это относится к выделению ключевых слов в потоке слитной речи, что позволяет вычленять из потока речевой информации нужные фрагменты, а также осуществлять контентный анализ речевой информации. Это относится также к обработке видеоряда с выявлением фрагментов, содержащих интересные события.
Улучшить качество обработки можно за счет использования семантической и прагматической информации, которая является фильтром, позволяющим ограничить число гипотез, возникающих комбинаторно на нижних уровнях принятия решений.
Разработка методов представления информации семантического и прагматического уровней, одинаково удобных для использования как в задачах распознавания, так и в задачах выделения ключевой информации, является основным моментом и при улучшении качества, и при увеличении функциональности указанных систем, а также в переходе на следующий этап разработки интеллектуальных систем - этап создания интегрированных многомодальных систем обработки и хранения информации - интегральных роботов. Существование этих задач заставляет искать новые подходы к методам представления и обработки информации различных модальностей - речевой, зрительной, а также надмодальной (семантической, прагматической) информации.
Для решения задач данного типа необходим интегрированный подход, позволяющий объединять при решении задачи информацию различных типов, а также надмодальную - семантическую информацию, при помощи которого можно построить общую методологию решения этой проблемы на основе единой математической модели. Она должна содержать методы: обработки и представле-
ния текстовой информации; обработки лингвистической и семантической информации; обработки изображений; математического описания обработки и представления информации различных типов; реализации выбранного типа представлений, в том числе с использованием аппарата искусственных нейронных сетей.
Составными частями такого интегрированного подхода должны стать методы: обработки текстовой информации, обработки лингвистической информации, обработки изображений, извлечения ключевой информации различной природы, аппаратной поддержки таких представлений, в том числе с использованием ассоциативной памяти, эмулирующей искусственную нейронную сеть.
Для практического подтверждения правильности выбранных методов необходимо отработать их применение на обработке реальной информации, для чего необходимо разработать программные реализации систем распознавания речи и изображений, а также анализа текстов, включающих представление семантической и прагматической информации. Реальная интеграция представления информации различных модальностей, а также надмодальной информации может быть эффективно осуществлена на основе аппаратной реализации указанных методов.
Поскольку до настоящего времени ни один из этих вопросов не решался в совокупности со всеми остальными, при наложении ограничений на качество предоставляемой пользователю ключевой информации, можно считать, что решение такой проблемы весьма актуально.
Целью диссертационной работы является выявление эффективных способов извлечения ключевой информации различных модальностей (текст, речь, изображения) из больших информационных выборок для компактного представления пользователю, а также автоматического выявления внутренней структуры многоуровневой структурированной информации различных модальностей. Указанные способы должны позволить осуществлять эффективное представление как информации различных модальностей, так и надмодальной информации, в том числе семантической и прагматической.
Выбранные способы представления и обработки информации должны позволять осуществить единое интегрированное представление многомодальной и надмодальной информации, каковая, являясь многомодальной моделью предметной области, позволит фильтровать комбинаторные гипотезы, возникающие на разных уровнях в разных модальностях, что позволит улучшить качество анализа разномодальной и надмодальной информации.
Достижение поставленной цели предполагает решение ряда задач теоретического, методического и практического характера. В том числе задач:
разработки теоретических основ и формализации процесса нейросетевой обработки информации;
формализации нейросетевого представления и обработки информации различных модальностей: речи, изображений, текстов, а также надмодальной информации: семантической и прагматической;
разработки методов и алгоритмов для структурной нейросетевой обработки текстов, речи, изображений,;
разработки методов аппаратной реализации эффективного представления и нейросетевой обработки информации.
Для достижения поставленных задач необходимо провести следующие исследования:
рассмотреть существующие подходы к обработке и анализу информации различных модальностей, в первую очередь, текстовой информации, а также надмодальной: семантической и прагматической информации, и на их основе разработать единое математическое описание для представления в наиболее общей форме технологии обработки информации, описания эталонов, методов распознавания;
разработать обобщенный способ описания объектов (эталонов), включающий способы его получения и методы, по которым он может быть идентифицирован.
Методы исследований, применяемые в работе, основываются на использовании алгоритмов обработки текстовой информации, алгоритмов распознавания речи, алгоритмов обработки изображений, теории распознавания образов, теории графов.
Достоверность результатов теоретических исследований подтверждается данными, полученными при обработке реальной информации, с применением построенных систем анализа текстов, распознавания речи и системы распознавания изображений рукописных символов.
Научная новизна работы заключается в следующем:
разработаны теоретические основы нейросетевой обработки информации с помощью одного класса искусственных нейронных сетей на основе нейроподобных элементов с временной суммацией сигналов;
разработана формализация представления и нейросетевой обработки информации различных модальностей: текстов, речи, изображений, а также надмодальной информации - семантической и прагматической;
разработаны методы и алгоритмы для структурной нейросетевой обработки текстов, речи, изображений;
разработаны методы аппаратной реализации нейронных сетей указанного класса.
Практическая ценность диссертационной работы состоит в том, что ее результаты были использованы или могут быть использованы в разработке:
систем анализа текстовой информации, в том числе, информационных и информационно-поисковых систем;
систем распознавания ключевых слов в потоке слитной речи для построения источников знаний верхних уровней;
систем распознавания изображений для структурного анализа, включая автоматическое формирование эталонов разных уровней;
блоков ассоциативной памяти, позволяющей реализовать быстрый поиск на больших массивах данных.
Реализация результатов. Результаты исследований в виде готовых программных продуктов были использованы в организациях ФСБ РФ, и на фирмах ООО «Центр Нейросетевых Технологий - Интеллектуальные Системы Безопасности», ОАО «Ангстрем-М», 000 «Юникор микросистемы», в Hague Centre for Strategic Studies, Голландия.
Апробация работы. Основные положения диссертации докладывались на Международном симпозиуме «Нейронные сети и нейрокомпьютинг» NEURONET'90, Прага 1990г.; на Всесоюзном семинаре «Автоматическое распознавание слуховых образов (АРСО-16)», Москва 1991г.; на Международном совещании «Нейрокомпьютеры и внимание», Москва 1991г.; на XI Международной конференции по нейрокибернетике, Ростов-на-Дону 1995г.; на Втором международном симпозиуме «Интеллектуальные системы», С.-Петербург 1996г.; на IV Всероссийской конференции «Нейрокомпьютеры и их применение (НКП-98)», Москва 1998г.; на Международной конференции «Информатизация правоохранительных систем», Москва 1998г.; на Третьем Международном симпозиуме «Интеллектуальные системы», Псков 1998г.; на IX сессии Российского акустического общества, Москва 1999г.; на Международной конференции-совещании "Новые информационные технологии из России", Берлин 2002г.; на IV Международном социальном конгрессе, Москва 2004г.; на Международной конференции-совещании "Новые информационные технологии из России", Белград 2004г.; на Международной научно-технической конференции «Интеллектуальные и многопроцессорные системы - 2005 (ИМС-2005)», Геленджик 2005г., на Международной конференции-совещании "Новые информационные технологии из России", Будапешт 2005г.; на Международной выставке «Интеллектуальные и адаптивные роботы - 2005», г. Москва 2005г., на Третьем совещании Российской секции IEEE Computation Intelligence Society «Биометрические системы», Москва 2005г., на 5-х Годичных научных чтениях факультета иностранных языков РГСУ, Москва 2006г.; на конференции «Нейрокомпьютеры и их применение» (Нейро-2007), Геленджик 2007г., на конференции «Digital libraries and technology-enhanced learning: Call 3 information days», Люксембург 2007г.; на молодежной школе «Нейрокомпьютеры 2008», Таганрог 2008г., на семинаре кафедры Искусственного интеллекта Белорусского государственного университета информатики и радиоэлектроники, Минск 2008.
Публикации. Результаты работы опубликованы в 58 печатных научных трудах общим объемом 20 печатных листов, среди которых монографии, статьи в центральных журналах, труды и тезисы конференций.
Личный вклад. Лично автором получены следующие основные результаты:
разработаны теоретические основы нейросетевой обработки информации;
формализованы нейросетевое представление и обработка информации различных модальностей: речи, изображений, текстов, а также надмо-дальной информации - семантической и прагматической;
разработаны методы и алгоритмы для структурной нейросетевой обработки изображений, речи, текстов;
разработаны методы аппаратной реализации эффективного нейросетево-го представления и обработки информации.
Структура и объем диссертации. Диссертация состоит из введения, шести глав, заключения и списка литературы, приложений. Работа содержит 269 страниц текста, список литературы включает 142 наименования.
Тенденции развития систем искусственного интеллекта
Если в качестве обуславливающей последовательности используется та же последовательность, что и несущая, то есть в точках траектории в сигнальном пространстве записываются символы этой же последовательности, - возникает случай самообусловливания: то есть, если J A , Л/{Я(/).Я(/ + І)} = Я(/)І„(,+І) : [A\A-\A\ M{F(A).A] В ЭТОМ Случае МОЖНО ВОССТЭНОВИТЬ ИСХОДНУЮ последовательность, начиная с одной из точек траектории: л= и (ІЛ].«(/)Є/(,І)І . Такая запись называется автоассоциативной записью, а воспроизведение -автоассоциативным воспроизведением.
Заменой триггера регистрации следующего символа я(м і) последовательности А двумя счетчиками, фиксирующими число прохождений траекторией заданной точки в заданном направлении: с0 - для переходов в "О" и с, - для переходов в "1", возможна реализация, наряду с функцией ассоциативной записи/воспроизведения, механизма статистической обработки информации. Введение порогового преобразования // , позволяет восстановить по значению функции // в точке многомерного сигнального пространства, определенной ее координатами «(/), значение наиболее вероятного перехода в следующую точку-в "О" или в "1": я(/ + і). Такой механизм памяти чувствителен к числу прохождений заданной точки в заданном направлении. Он позволяет характеризовать каждую точку траектории с точки зрения частоты появления во входной информации сочетания (я(/),п(/ + 1)).
Наряду с запоминанием - неуменьшением значений счетчиков с0 и г, , возможно забывание - равномерное уменьшение значений счетчиков во времени со скоростью изменения их содержимого значительно меньшей, чем при запоминании. Введение забывания позволяет устранить случайные точки на траектории, не подтверждающиеся в процессе дальнейшего обучения.
Механизм памяти, чувствительный к числу прохождений заданной вершины в заданном направлении (механизм статистической обработки), является инструментом для анализа входной последовательности с точки зрения повторяющихся ее частей. Как было показано выше, одинаковые фрагменты последовательности отображаются преобразованием F В одну и ту же часть траектории.
Преобразование IIM ]MF , при взаимодействии с классом входных последовательностей {А\ , формирует словарь, характеризующий состав последовательностей входного класса в терминах их повторяющихся фрагментов в пространстве данной мерности: {1} = HM XMF({A)). В зависимости от величины порога и преобразования // слова словаря могут быть либо цепями, либо графами.
Сформированный словарь часто встречающихся событий может быть использован для детектирования старой информации в потоке новой. Для этого необходимо поглощение фрагментов входной последовательности л , соответствующих словам словаря, и пропускание новой, относительно словаря, информации. В результате появляется возможность реализовать структурный подход к обработке информации.
Для решения задачи детектирования преобразование /" модифицируется для придания ему детектирующих свойств. Преобразование /;- взаимодействует с входной последовательностью Л , которая содержит, наряду со старой, некоторую новую информацию. Если на основании множества входных последовательностей А ранее был сформирован словарь {д} = ш/_1л//--({л}) , то использование преобразования /;- позволяет сформировать так называемую синтаксическую последовательность или последовательность аббревиатур - с, характеризующую связи слов в словаря \в\ в последовательности л. Здесь \в) есть множество подпоследовательностей, соответствующих всем цепям слов в словаря {/}): {B) = F \\B)). В результате взаимодействия происходит формирование последовательности с , в которой заменяются нулями те части последовательности Л, соответствующие которым части траектории 7\ = F(A) , совпадают с частями траектории л Другими словами, во входной последовательности А заменяются нулями символы, соответствующие которым точки траектории Л совпадают с точками сформированной ранее траектории Л = /(/(): с=(...,с(-і),с(0),с(і),...,с(о,...) Таким образом, отображение F ] позволяет устранить из входной последовательности л некоторую информацию, содержащуюся в словаре ;/}; . Тем самым создается предпосылка построения многоуровневой структуры для лингвистической (структурной) обработки входной информации. Синтаксическая последовательность с , содержащая только новую, по отношению к данному уровню, информацию, становится входной для следующего уровня. На следующем уровне, подобно описанному выше, из множества синтаксических последовательностей cj формируется словарь {/3j и множество синтаксических последовательностей следующего уровня {}. Мы имеем стандартный элемент многоуровневой иерархической структуры из ассоциативных процессов: такая обработка с выделением поуровневых словарей может происходить на всех уровнях. Словарь следующего уровня является, в этом случае, грамматикой для предыдущего уровня, так как его элементами, при соответствующем выборе размерностей пространств этих уровней, являются элементы связей слов
Процессы в описанной многоуровневой структуре обратимы. Информация может сжиматься при ее обработке в иерархии в направлении снизу-вверх, с выделением из нее на каждом уровне поуровневых словарей (освобождением проходящей наверх информации от часто встречающихся событий соответствующей частоты встречаемости). Информация может развертываться при ее обработке в иерархии в направлении сверху вниз.
Расширением понятия преобразования /- является расфокусированное преобразование г{г) , преобразующее каждый п -членный фрагмент символов последовательности не в точку - вершину гиперкуба, а во множество вершин, лежащих в окрестности указанной вершины радиуса /- (по Хеммингу). Исходная последовательность л, таким образом, отображается в трубку радиуса г с осью-траекторией Л : А(г) = F{r)(A) .
Использование расфокусированного преобразования г(г) позволяет увеличить надежность воспроизведения, если при обучении была сформирована нерасфокусированная траектория. При этом, в случае ухода с траектории, в результате зашумления входной информации (например, замены части символов на противоположные), среди c,; + i точектой окрестности текущей точки траектории содержатся и точки траектории, в которых записана нужная информация. При воспроизведении, на основе этой информации (информации о переходе, содержащейся в точках , -ой окрестности), а также взятой со своим весом информации о следующем символе входной последовательности, инициировавшей воспроизведение, принимается решение о следующем символе воспроизводимой последовательности.
Формирование синтаксической последовательности. Многоуровневая структура
Таким образом, отображение F ] позволяет устранить из входной последовательности А некоторую информацию, содержащуюся в словаре {в}. Тем самым создается предпосылка построения многоуровневой структуры для лингвистической (структурной) обработки входной информации. Синтаксическая последовательность с, содержащая только новую, по отношению к данному уровню, информацию, становится входной для следующего уровня. На следующем уровне, подобно описанному выше, из множества синтаксических последовательностей {С} формируется словарь ф) и множество синтаксических последовательностей следующего уровня {} (см. рис. 2.4а). Мы имеем стандартный элемент многоуровневой иерархической структуры: такая обработка с выделением поуровневых словарей может происходить на всех уровнях. Словарь следующего уровня является, в этом случае, грамматикой для предыдущего уровня, так как его элементами, при соответствующем выборе размерностей пространств этих уровней, являются элементы связей слов предыдущего уровня. Нечто подобное наблюдается на разных уровнях переключений в слуховой коре при восприятии речевой последовательности [10]. {С} формируется словарь { }, а на его выходе - множество синтаксических последовательностей {}. б) В режиме синтеза на выходе нижнего уровня синтезируется управляющая последовательность А из последовательности аббревиатур с, поступающей на его вход, в результате ассоциативного наполнения купюр в последовательности С словами В словаря {В}. Последовательность аббревиатур С, в свою очередь, синтезируется на выходе верхнего уровня из последовательности Е и слов словаря { }.
Процессы в описанной многоуровневой структуре обратимы. Информация может сжиматься при ее обработке в иерархии в направлении снизу-вверх, с выделением из нее на каждом уровне поуровневых словарей (освобождением проходящей наверх информации от часто встречающихся событий соответствующей частоты встречаемости). Информация может развертываться при ее обработке в иерархии в направлении сверху-вниз. Так, если мы подаем на вход первого уровня (см. рис. 2.46) синтаксическую последовательность с, являющуюся элементом словаря { }, то соответствующие ее части будут запускать, каждая в свое время, воспроизведение одного из слов словаря {/?}. На выходе первого уровня, таким образом, развернутся процессы, происходившие при формировании синтаксической последовательности первого уровня.
Расширением понятия преобразования F является расфокусированное преобразование F(r), преобразующее каждый «-членный фрагмент символов последовательности не в точку - вершину гиперкуба, а во множество вершин, лежащих в окрестности указанной вершины радиуса г (по Хеммингу). Исходная последовательность А, таким образом, отображается в трубку радиуса / с осью-траекторией А:
Использование расфокусированного преобразования Fir) позволяет увеличить надежность воспроизведения, если при обучении была сформирована нерасфокусированная траектория. При этом, в случае ухода с траектории, в результате зашумления входной информации (например, замены части символов на противоположные), среди Сг„+\ точек /-той окрестности текущей точки траектории содержатся и точки траектории, в которых записана нужная информация. При воспроизведении, на основе этой информации (информации о переходе, содержащейся в точках /-ой окрестности), а также взятой со своим весом информации о следующем символе входной последовательности, инициировавшей воспроизведение, принимается решение о следующем символе воспроизводимой последовательности. Решение принимается на основе алгебраической суммы числа единиц (если переход в "1") и минус единиц (если в "О") для всех точек /--ой окрестности, плюс со своим весом вклад символа входной последовательности ("1" - для "1" и "-1" - для "О") [2, 3]. При этом возможны четыре случая.
В первом случае в данном символе входная последовательность совпадает с запомненной последовательностью. Воспроизводится запомненная последовательность. Если входная последовательность не совпадает в данном символе с запомненной, но вес информации о переходе в точках окрестности адресуемой точки превышает вес входной информации, воспроизведение идет по запомненной траектории. Обратная картина: вес входной информации оказывается большим. В этом случае воспроизведение уходит с записанной траектории в пустые области сигнального пространства и прекращается. Воспроизведение восстанавливается после того, как в п-разрядном регистре вновь появится и-членный фрагмент последовательности, адресующий к записанной траектории. Это происходит не более чем за (»-l) тактов. Механизм срыва оказывается полезным при случайном совпадении входной и записанной информации. И, наконец, если алгебраическая сумма оказывается равной нулю -мы имеем случай, когда не можем принять решения на основе записанной информации - решение принимается по информации верхнего уровня или по некоторому закону, например - случайным образом.
В работе предложен механизм управления активностью процесса обработки информации - механизм локального внимания. Расфокусированное преобразование F(r) реализуется с использованием механизма внимания с помощью управления порогом срабатывания: y(t) = (2.17)
Точка сигнального пространства откликается точно на свой адрес, если порог равен числу единиц в ее адресе (так называемый порог острой настройки): /?„„ = . Изменение порога приводит к расфокусировке, если порог уменьшается, и к охлопыванию зоны захвата, если порог увеличивается.
Уменьшение порога на величину расфокусировки переводит процесс в режим генерализации. В этом случае радиусы сфер захвата всех точек гиперкуба увеличиваются и они начинают откликаться на л-членные фрагменты, отличающиеся от их адреса на г символов. Увеличение порога переводит процесс в режим локализации.
Если процесс распознавания идет устойчиво, он все больше локализуется. Если начинаются срывы, увеличивается генерализация.
Под распознаванием понимается процесс принятия решения о степени совпадения входной информации с ранее запомненной. Распознавание предполагает предшествовавший ему процесс обучения. В основе механизма распознавания лежит сравнение входной последовательности А и наиболее близкой ей, из запомненных, последовательности А, которая начинает воспроизводиться с помощью преобразования HM XMF в ответ на входную последовательность А , с вычислением меры близости по Хеммингу: \\A-A\\=DX. (2.18)
Вычисление Dt осуществляется суммированием расстояния по Хеммингу между соответствующими «-членными фрагментами входной и воспроизводимой последовательностей, полученных на каждом шаге:
Использование статических нейронных сетей для представления квази динамической информации
В работе предложена интерпретация процессов обработки информации в многоуровневой иерархии. Автоматическое формирование поуровневых словарей и грамматик в многоуровневой иерархической структуре предполагает на каждом уровне (и для каждой сенсорной модальности) обработку всей, поступающей на вход иерархической структуры, информации в едином сигнальном пространстве, где и происходит формирование поуровневых словарей. Такая потребность вызвана необходимостью сохранения топологии входной информации с сохранением перцептивных расстояний между отдельными ее частями.
Основу иерархической структуры в этом случае составляет модуль, представленный на рис. 2.4, а обработка информации полностью сводится к таковой, описанной в разделе 2.1.5. Иерархическая структура всегда работает или в режиме анализа (как анализатор) с формированием поуровневых словарей и грамматик (синтаксических последовательностей) при обучении, сжимая информацию снизу-вверх, или в режиме синтеза - как эффектор (управляющая структура), развертывая информацию сверху-вниз.
Рассмотрим более подробно процессы, происходящие в иерархической структуре, работающей в режиме анализа и в режиме синтеза. Но предварительно рассмотрим этап обучения, необходимый как в первом, так и во втором случае.
При обучении с выхода рецепторного органа на вход иерархической структуры, предназначенной для работы в режиме анализа, поступает множество последовательностей {А}, характеризующих множество реализаций множества входных ситуаций, имеющих внутреннюю структуру в смысле повторяемости отдельных ее элементов.
На этапе обучения на обращенный выход (теперь - вход) управляющей иерархической структуры, предназначенной для работы в режиме синтеза, поступает множество последовательностей {А} с обращенного входа эффекторного органа (работающего в этом случае в качестве рецептора - как сельсин-датчик).
По мере поступления последовательностей из множества А сначала на первом уровне формируется словарь событий наибольшей частоты встречаемости. Размерность и, следовательно, объем сигнального пространства первого уровня выбираются такими, чтобы в словаре хватило места для всех событий в наибольшей частоты встречаемости, содержащихся в А, но также и чтобы размер слов словаря соответствовал реальным событиям данной частоты встречаемости.
После формирования на первом уровне иерархии словаря {#}, по мере дальнейшего поступления последовательностей из {А}, начинается их взаимодействие с элементами словаря в сигнальном пространстве с формированием на выходе первого уровня подмножества последовательностей аббревиатур {С} (синтаксических последовательностей), соответствующих последовательностям из {А}.
Сформированное множество синтаксических последовательностей {С}, поступая на вход сигнального пространства второго уровня, запускает там процессы, аналогичные вышеописанным, только словарь ф) формируется на основе множества событий D меньшей частоты встречаемости, чем в.
Таким образом, при обучении заполняются сигнальные пространства всех уровней, на которых находятся соответствия элементам входных ситуаций того или иного уровня.
В режиме анализа возможны три случая. Если на вход иерархической структуры поступает последовательность из обучающего множества {А}, происходит совпадение (вложение) поступающих последовательностей с соответствующими им (ранее сформированными) траекториями сигнального пространства всех уровней. Происходит так называемое распознавание В реальных устройствах требование к объему сигнального пространства, необходимому для размещения словаря, может оказаться в противоречии с требованием к длине адресного регистра. Длина должна быть меньше длины последовательности, соответствующей слову словаря данного уровня, в противном случае слово может быть представленным в сигнальном пространстве единственной точкой. Оно может быть не представленным и единственной точкой, если длина адресного регистра оказывается больше длины слова. Поэтому, на каждом уровне иерархической структуры сигнальное пространство разбивается на ряд подпространств, в каждом из которых при обучении формируются подсловари, в дальнейшем используемые для распознавания, синтаксической обработки или воспроизведения.
В зависимости от способа обучения - с учителем или без учителя -меняется механизм обработки информации, используемый для направления потока информации в то или иное сигнальное пространство.
В случае обучения с учителем, именно он формирует обучающие выборки для соответствующих подпространств и переключает поток информации в то или иное подпространство, по мере формирования в нем подсловаря. Поток информации, состоящий из последовательностей реализаций слов подсловаря {В}] направляется в первое сигнальное подпространство, подсловаря {В}2 - во второе, и так далее. Наиболее хорошие результаты по распознаванию получаются при записи в каждое сигнальное подпространство множества реализаций только одного события [79]. В мозге человека роль учителя выполняет специальная структура - гиппокамп, которая сравнивает входные события с ранее записанными в памяти (в коре), и разрешает запись события либо в новую область коры, либо - в старую, где уже была записана аналогичная информация [14].
В случае обучения без учителя требуется некоторый механизм, позволяющий производить обучение автоматически, и еще один, позволяющий формировать подсловари.
Для формирования подсловаря можно взять некоторое (оперативное) подпространство, в котором, в ответ на множество входных последовательностей автоматически формируется некоторый словарь. После завершения формирования словаря он переписывается из оперативного сигнального подпространства в свободное сигнальное подпространство. Множество состояний оперативного сигнального подпространства копируется в множество состояний текущего свободного подпространства. Чтобы избежать формирования тождественных словарей, входная информация фильтруется с помощью уже обученных сигнальных подпространств. При этом в случае наличия откликов обученных подпространств, отфильтрованная информация передается на следующий уровень, а сформированный в отдельном подпространстве словарь стирается. Если в ответ на входную информацию обученные подпространства не откликаются (информация новая), новый словарь, после его формирования, переписывается в свободное подпространство.
Иерархия механизмов обработки информации в модели зрительного анализатора
В результате обработки информации в правом полушарии формируются структурные двухуровневые представления по принципу часть-целое [21]. На нижнем уровне формируются элементы синтагм, а связи элементов фиксируются на верхнем уровне. Особенностью обработки информации является переупорядочивание информации по степени ее значимости в рамках целостного представления с помощью гиппокампа [14]. В сформированных двухуровневых представлениях разной степени сложности происходит пересчет весовых характеристик элементов, учитывающий плотность связей элементов представления с другими элементами.
Задача распознавания речи в полной постановке звучит приблизительно так: Дикторонезависимое и независимое от объема используемого словаря распознавание слитной речи в произвольных условиях произнесения и при использовании произвольного канала. Для ее решения необходимо создание системы, содержащей, помимо модуля первичной обработки, источники языковых знаний различных уровней - от фонетического до синтаксического, а также -экстралингвистические источники знаний: семантический и прагматический. В этом случае для фильтрации потока гипотез, порождаемых на выходе акустико-фонетического преобразователя речевого анализатора человека, а также системы распознавания речи, используется система фильтров, включающая фильтры морфологического, лексического, синтаксического, семантического и прагматического уровней. Эти фильтры в совокупности формируют множество ограничений, которым удовлетворяют только верные гипотезы.
В работе предлагается решение задачи создания источников знаний верхних уровней, с использованием однородного нейросетевого представления информации, что позволяет легко интегрировать информацию всех уровней в процессе принятия решения. Особенностью такого представления информации является возможность автоматического формирования информационных баз источников знаний на основе соответствующих обучающих выборок, при приемлемом объеме ручной работы по составлению обучающих выборок.
Речевая и текстовая информация имеют общую часть, касающуюся представления источников знаний верхних уровней. Поскольку, если оставить в стороне первичную обработку, и предположить, что текстовая информация может быть с помощью системы автоматического транскрибирования переведена в последовательность фонетических значков, таких же, какие появляются на выходе акустико-фонетического уровня обработки речевого сигнала, предлагается рассматривать эти два вида информации совместно, дополняя представление одного вида информации представлением другого вида информации. Первичную обработку речевого сигнала мы подробно рассмотрим в главе, посвященной практической реализации системы распознавания речи. При анализе текстовой информации первичная обработка не требуется, так как мы используем для обработки не визуальный текст, а оцифрованный.
Совместное рассмотрение этих двух видов информации имеет под собой еще одно основание. В системах распознавания речи, работающих с большими словарями и со слитной речью, используются источники знаний верхних уровней представления лингвистической информации. Если использовать для их формирования речевую информацию в явном виде, то для их обучения потребуются громадные объемы информации (для русскоязычной системы они имеют астрономические размеры). Дело в том, что если формировать эталонные представления верхних уровней на основе речевой информации, полученной произнесением соответствующих обучающих выборок в явном виде, для каждого уровня представлений необходимо формировать эталоны исходя из обычных соображений. Несколько произнесений (например - 10) для одного диктора на каждую единицу данного уровня представления. То же - для каждого диктора, представляющего свою группу дикторов. Их также может быть 10 групп. Далее, для каждого стиля произнесения: тихо, громко, быстро, медленно, канонически, в условиях физической нагрузки (малой, средней, большой), шепотом, в условиях шума (тоже получается - 10). И, наконец, для классов используемых каналов: воздушного, телефонного, радиоканала. Сколько вариантов, в зависимости от шумовых условий - сказать трудно. Если не учитывать вариативности канала, то все равно остается 10x10x10=1000 произнесений для каждой единицы данного уровня. Лексический уровень содержит столько единиц, какого объема оперативный словарь используется в системе. В случае распознавания ключевых слов в потоке слитной речи он может быть не очень велик - до 1000 слов. В случае полной постановки задачи - это уже сотни тысяч. Объем оперативных словарей морфологического и синтаксического уровней зависит от морфологического состава синтаксической информации, организованной в виде синтаксических узлов. И, наконец, объемы оперативных словарей семантического и прагматического уровней зависят от полноты представления общей и частных предметных областей, описываемых в виде ассоциативных сетей, перечисляемых парами корневых основ.
Поэтому, с одной стороны, хранение таких объемов информации в памяти вычислительных средств, и быстрое их извлечение, при необходимости, представляет непростую техническую задачу. Она может быть решена, в том числе, применением ассоциативной памяти на основе аппаратно реализованной нейросети. С другой стороны, реализация обучающей выборки (произнесение речевого материала несколькими дикторами) - также технически непростая задача. Поэтому разумно формировать лингвистическое представление для решения задачи распознавания речи на основе текстовых выборок.
Предлагается осуществить склейку речевой и текстовой информации на акустико-фонетическом уровне. Здесь осуществляется стыковка представления речевой информации, поступающей со входа системы, и лингвистической информации, хранящейся в источниках знаний верхних уровней. Речевая информация на выходе акустико-фонетического уровня представляется в виде последовательности фонетических меток. Лингвистическая информация в источниках знаний - в обычном текстовом виде. Для стыковки этих двух представлений текстовая информация, представленная в виде последовательностей букв, должна автоматически переводиться в фонетические символы. С этой целью используется алгоритм автоматического транскрибирования [34], который оперирует языковыми единицами лексического уровня - словами. Поэтому, на всех других уровнях: морфологическом, а также синтаксическом, семантическом и прагматическом, за основу берется фонетическое представление лексического уровня.