Введение к работе
Актуальность работы обусловлена необходимостью разработки программ для управления автоматическими системами, участие человека в управлении которыми либо невозможно, либо нецелесообразно. К таким системам относятся различные системы компьютерного зрения, системы теленаведения, управления летательными аппаратами и тому подобные. Эффективность систем такого рода зависит от знаний, которыми они обладают. Эти знания не только чисто эмпирические (полученные опытным путем), но и эвристические - набор правил и рекомендаций, которыми следует пользоваться в той или иной ситуации, возникающей в данной предметной области. Основным критерием при разработке подобных систем является их автономность при принятии решений. То есть, для принятия решений система может использовать лишь данные, полученные из окружающей среды, а также определенные правила и алгоритмы, запрограммированные заранее. Создание таких программных систем приводит к необходимости решения класса задач, ранее решаемых при непосредственном участии человека-эксперта. К подобным задачам относится задача по распознаванию образов предметов. Под образом предмета понимается отражение свойств реального объекта, в общем случае неполное. Это отражение дает исходные данные для задачи. Решение задачи распознавания есть отнесение исходных данных к определенному классу, то есть установление предмета, образом которого являются исходные данные. Задачи распознавания образов обладают следующими свойствами:
невозможность алгоритмического решения (в силу плохой формализуемости самих задач или огромных затрат машинного времени);
противоречивость, неполнота, возможная ошибочность, исходных данных;
огромная размерность данных, плохо представимых в какой-либо наглядной форме;
динамически меняющийся состав данных (в силу постоянного их пополнения, изменения и развития);
необходимость широкого использования в процессе решений эвристических и эмпирических процедур, сформулированных экспертами;
необходимость участия в процессе решения человека (пользователя), который путем ответа на дополнительно задаваемые вопросы привносит дополнительную информацию и выбирает альтернативные пути принятия решения.
Поэтому для решения задач распознавания невозможно применять обычные методы с жесткими алгоритмами и ограничениями. Автоматическая система, решающая такие задачи должна не программироваться, а обучаться.
В задачах обнаружения сигналов на фоне помех значительное развитие получили статистические методы, которые успешно используются при анализе и синтезе радиотехнических, радиолокационных и гидроакустических систем. Эти методы стали применяться и в оптических и оптико-электронных системах для распознавания образов. Однако теория приема оптических сигналов на фоне сильных помех и принятие решения по ним еще не достаточно полно разработана и не всегда дает ответ. Поэтому для решения задач распознавания образов в последнее время наиболее часто применяются методы на основе нейронных сетей. Нейронные сети представляют собой математическую модель функционирования биологических нейронных сетей - сетей нервных клеток живого организма. Как и в биологической нейронной сети, основным элементом искусственной нейронной сети является нейрон. Соединенные между собой нейроны образуют слои, количество которых может варьироваться в зависимости от сложности нейронной сети и решаемых ею задач. Способность нейронных сетей к генерализации, то есть к принятию верного решения для входных данных, которые не предъявлялись нейронной сети ранее, большое количество эвристических алгоритмов обучения
нейронных сетей и устойчивость к различным флюктуациям входных данных -все это делает нейронные сети самым предпочтительным направлением для решения этих задач.
Целью диссертационной работы является построение эффективных методов распознавания образов с помощью нейронных сетей и разработка программ, реализующих эти методы. Для этого необходимо построить нейронную сеть и эффективный алгоритм для ее обучения. На основе построенной нейронной сети необходимо разработать программный комплекс, способный эффективно решать задачи распознавания образов. Для эффективной обработки исходных данных большой размерности и ускорения функционирования программного комплекса необходимо использовать в его разработке параллельные алгоритмы вычислений с использованием возможностей графических ускорителей. Разработанный программный комплекс должен быть протестирован на известных задачах. Необходимо применить программный комплекс для решения задачи распознавания образов и сравнить полученные результаты с другими подобными работами.
Методы исследования. В качестве метода решения задачи распознавания образов выбран метод на основе нейронных сетей прямого распространения. Для обучения нейронной сети прямого распространения был построен улучшенный метод обучения на основе метода Левенберга-Марквардта. Основу метода составляет классический метод Левенберга-Марквардта, который был существенно улучшен за счет применения таких подходов как:
регуляризация с помощью байесовских гиперпараметров;
инициализация параметров нейронной сети по методу Нгуена-Уидроу;
предотвращение потери нейронной сетью генерализации с помощью метода раннего останова.
Улучшенный метод был реализован в виде параллельного алгоритма обучения с использованием вычислительных возможностей графического ускорителя. Разработана собственная реализация на графическом ускорителе метода обращения матриц с помощью LU-разложения. На основе построенного алгоритма разработан программный комплекс, способный решать многие задачи классификации, что подтверждается результатами тестовых расчетов.
Научная новизна.
В данной работе предложена математическая модель распознавания образов с помощью нейронных сетей. Построена нейронная сеть прямого распространения с улучшенным алгоритмом обучения на основе метода Левенберга-Марквардта и предложен новый алгоритм обучения такой нейронной сети, основанный на методе Левенберга-Марквардта, регуляризации Байеса, инициализации Нгуена-Уидроу и методе раннего останова. Были созданы алгоритмы распараллеливания с использование графических ускорителей, которые позволили существенно повысить эффективность решения задач распознавания образов; в частности, предложена реализация алгоритма обращения матриц с помощью LU-разложения на графических ускорителях. На основе построенной нейронной сети разработан программный комплекс с использованием вычислительных возможностей графических ускорителей. С помощью разработанного программного комплекса решены задачи распознавания образов.
Практическая значимость:
Построенная в диссертации модель и вычислительные алгоритмы апробированы на тестовых задачах и могут быть применены для решения многих задач классификации. Программный комплекс разработан с использованием современных технологий параллельных вычислений с использованием возможностей графических ускорителей, многократно ускоряющих вычисления.
На защиту выносятся следующие положения и результаты:
математическая модель распознавания образа предмета с помощью нейронных сетей;
новый алгоритм обучения нейронной сети прямого распространения, основанный на методе Левенберга-Марквардта;
построенная нейронная сеть с эффективным алгоритмом обучения на основе метода Левенберга-Марквардта;
алгоритмы распараллеливания с использованием графических ускорителей;
программный комплекс для параллельных вычислений с использованием возможностей графических ускорителей;
результаты исследования наиболее предпочтительных параметров программного комплекса для решения задачи распознавания образов;
результаты решения задачи распознавания образов и сравнительный анализ с другими работами.
Апробация результатов. Основные результаты докладывались и обсуждались на конференциях, семинарах и школах-семинарах:
X международный семинар «Супервычисления и математическое моделирование» (Саров, 2008, 29 сентября - 2 октября);
XII международный семинар «Супервычисления и математическое моделирование» (Саров, 2010, 11 - 15 октября);
XIII международный семинар «Супервычисления и математическое моделирование» (Саров, 2011, 3 - 7 октября);
VIII Международная научная конференция «Дифференциальные уравнения и их приложения» (Саранск, 2008, 12-16 мая);
IX научная конференция «Дифференциальные уравнения и их приложения в математическом моделировании» с участием зарубежных ученых (Саранск, 2010, 1 - 3 июля);
школа-семинар «Математическое моделирование, численные методы и комплексы программ» (Саранск, 2011, 1 - 13 июля);
VI Международная научно-техническая конференция «Аналитические и численные методы моделирования естественнонаучных и социальных проблем» (Пенза, 2011, 25 - 29 октября).
Публикации. Основные результаты опубликованы в работах [Bl], [В2], [А1], [А2], [A3], [А4].
Структура и объем диссертации: диссертация состоит из введения, трех глав, заключения и списка цитируемой литературы. Общий объем диссертации -112 листов. Список литературы содержит 103 наименования.