Введение к работе
Актуальность темы
В различных областях человеческой деятельности повседневно возникают задачи поддержки принятия решений, выявления закономерностей, анализа данных, прогнозирования, диагностики и распознавания образов. Для решения этих задач необходимы универсальные и надежные подходы, использующие в качестве исходной информации эмпирические данные об объектах или процессах. Выборки эмпирических данных в виде наборов векторов признаков объектов могут быть использованы для решения таких задач, как распознавание образов; прогнозирование ситуаций или процессов; кластерный анализ; выявление значимых признаков и т.д.
Большой вклад в развитие теории машинного обучения, распознавания образов, классификации и восстановления зависимостей внесли отечественные ученые: Айзерман М.А., Браверман Э.М., Розоноэр Л.И., Мазуров В.Д., Ивахненко А.Г., Лбов Г.С, Вайнцвайг М.Н., Глушков В.М., Михале-вич B.C., Пугачев B.C., Айвазян С.А., Вапник В.Н., Рудаков К.В. Рязанов В.В., Дюкова Е.В., Журавлев Ю.И., Сенько О.В., Воронцов К.В., Загоруйко Н.Г., Миркес Е.М., и многие другие исследователи России и СНГ.
Один из подходов к построению прогностических моделей представляют нейронные сети (НС), которые благодаря способности к обучению находят применение для решения различных практических задач, в том числе для идентификации нелинейных систем, прогнозирования, обнаружения сигналов, а также в системах связи и управления. Первые результаты в области искусственных нейронных сетей получены зарубежными учеными W. McCulloch, W. Pitts, F. Rosenblatt, D. Hebb. Дальнейшие исследования в области нейронных сетей, в том числе алгоритмов их обучения и применения для распознавания образов и восстановления зависимостей проводили отечественные ученые Галушкин А.И., Круглов В.В., Борисов В.В., Горбань А.Н., Аведьян Э.Д., Терехов В.А., Головко В.А., а также зарубежные ученые J. Hopfield, Т. Kohonen, D.J.C. МасКау, С. Bishop, S. Haykin, М.Е. Tipping и др.
Возможностей отдельного типа нейросетевых прогностических моделей, как правило, недостаточно для универсального использования в практической деятельности, поскольку разнообразные типы НС демонстрируют свою эффективность на различных типах задач. В связи с этим возникает необходимость создания информационно-аналитической системы, включающей разнообразные подходы и обладающей возможностью автоматического выбора как типа прогностической модели, так и алгоритма ее обучения.
Несмотря на заметный прогресс в области нейросетевых технологий и множество успешных практических применений НС, отсутствуют однозначные рекомендации по их практической реализации.
Таким образом, актуальным является исследование, направленное на формирование методов автоматизации выбора из нескольких возможных вариантов решения, наиболее подходящего для поставленной задачи.
Важной задачей при построении прогностических моделей является выбор исходного описания объектов. Существует ряд принципиальных и технических проблем, связанных с процедурами снижения размерности при большом количестве признаков, а также при обучении прогностических моделей в условиях сравнительно малых обучающих выборок. Кроме того, существуют сложности, связанные с решением задач при наличии непрерывных и номинальных признаков.
Повышение эффективности алгоритмов обучения НС необходимо для обеспечения высокой достоверности принятия решений в информационно-аналитических системах. Таким образом, разработка алгоритмов снижения размерности, а также обучения НС для задач с разнородными входными данными с учетом специфики отдельных видов НС, в частности процедур структурной оптимизации, является актуальной.
Цель и задачи диссертационной работы
Целью работы является повышение эффективности аналитической обработки информации, а также достоверности принимаемых решений с использованием нейросетевых процедур распознавания образов и восстановления зависимостей.
Поставленная цель достигается решением следующих задач.
Сформировать архитектуру системы обработки информации и принятия решений на основе интеллектуализации процедур выбора прогностических моделей с учетом специфики отдельных задач анализа данных.
Разработать информативные показатели качества решения задач классификации и восстановления зависимостей, предназначенные для сравнительного анализа эффективности алгоритмов синтеза нейросетевых прогностических моделей.
Синтезировать процедуры отбора атрибутов, работоспособные при большом количестве признаков.
На основе байесовской методологии разработать алгоритмы структурно-параметрического синтеза нейронных сетей с учетом особенностей их архитектуры для решения задач классификации и восстановления зависимостей.
Сформировать способ синтеза прогностических моделей и выявления скрытых закономерностей при наличии как непрерывных, так и номинальных признаков.
Методы исследования
В диссертационной работе методы исследования базируются на сочетании теории искусственного интеллекта, теории искусственных нейронных сетей, теории информации, теории статистических решений, байесовской методологии, а также методах оптимизации и математического моделирования.
Научная новизна
Предложена новая архитектура системы аналитической обработки информации и принятия решений, отличающаяся использованием при выборе прогностической модели знаний экспертов, формальных характеристик качества решения отдельных задач и оценок субъективной удовлетворенности пользователей.
Получен показатель близости условных распределений вероятностей, основанный на обобщении информационного расстояния Кульбака-Лейблера, позволяющий оценивать качество прогностических моделей. Предложен способ оценки точности бинарных классификаторов, основанный на развитии метода минимума среднего риска и не требующий задания значений функции потерь.
Разработан способ отбора атрибутов, отличающийся предварительной оценкой их информативности, что позволяет значительно снизить вычислительную сложность алгоритма поиска подмножества значимых признаков.
Разработаны алгоритмы структурно-параметрического синтеза нейронных сетей, отличающиеся от метода релевантных векторов процедурой структурной оптимизации, способствующей уменьшению сложности синтезируемых прогностических моделей.
Разработан способ синтеза прогностических моделей, позволяющий выявлять скрытые закономерности при наличии непрерывных и номинальных признаков.
Практическая значимость работы
Полученные в диссертационной работе результаты могут быть использованы при построении информационно-аналитических систем: распознающих систем, систем поддержки принятия решений; а также в составе интеллектуальных систем управления сложными техническими объектами и систем обнаружения. Реализация разрабатываемых процедур в системах диагностики, управления и информационно-аналитических системах будет способствовать снижению риска принятия ошибочных решений, а также повышению эффективности управления за счет интеллектуализации процессов обработки информации.
Результаты диссертационной работы нашли применение в трех НИР. В рамках ФЦНТП «Исследования и разработки по приоритетным направлениям развития науки и техники» выполнены следующие НИР:
по государственному контракту № 02.442.11.7378 на тему «Приобретение знаний и логический вывод в распределенных гибридных интеллектуальных системах» (отчет о НИР, инв. № 02200607048);
по государственному контракту № 02.442.11.7033 на тему «Интеллектуальный нейросетевой анализ данных и принятие решений в информаци-
онно-аналитических распределенных системах» (отчет о НИР, инв. № 02200604002).
По проекту с ФГУП ФНПЦ НИИИС им. Ю.Е. Седакова выполнена разработка нейросетевых систем и технологий технической диагностики, мониторинга и автоматизированного управления сложными техническими объектами и технологическими процессами.
Разработанные алгоритмы нашли применение для распознавания образов на изображениях, распознавания объектов по сейсмоакустическим сигналам, для восстановления рельефа местности, для восстановления осевой линии подземного газопровода по данным измерений, для построения моделей энергопотребления в учреждениях.
Часть материалов диссертационной работы использована в учебном процессе на кафедре «Электроника и сети ЭВМ» Нижегородского государственного технического университета им. Р.Е. Алексеева при проведении занятий для магистрантов по направлению подготовки 230200 «Информационные системы».
Апробация работы
Основные положения и результаты диссертационной работы доложены и обсуждены на следующих научно-технических семинарах и конференциях.
Научно-технические семинары кафедры ЭСВМ 2006-2010 г.г.;
16-я Международная научно-практическая конференция по графическим информационным технологиям и системам - КОГРАФ (г. Нижний Новгород, 2006 г.);
Международная научно-техническая конференция «Информационные системы и технологии» - ИСТ (г. Нижний Новгород, 2006, 2007, 2009, 2010 г.г.);
12-я, 13-я и 15-я Нижегородская сессия молодых ученых. Технические науки (г. Нижний Новгород, 2007, 2008, 2010 г.г.);
Международная молодежная научно-техническая конференция «Будущее технической науки» (г. Нижний Новгород, 2007, 2008, 2010 г.г.);
Восьмой и Девятый Международный симпозиум «Интеллектуальные системы» - INTELS'2008 (г. Нижний Новгород, 2008 г.) и INTELS'2010 (г. Владимир, 2010 г.);
Конференция «Распознавание образов и анализ изображений: Новые информационные технологии» - PRIA-9-2008 (г. Нижний Новгород, 2008 г.);
Конференция «Технологии Microsoft в теории и практике программирования» (г. Нижний Новгород, 2009 г.);
XI и X Всероссийская научно-техническая конференция - «Нейроинфор-матика-2009» и «Нейроинформатика-2010» (г. Москва, 2009 и 2010 г.г.).
Основные положения диссертационной работы, выносимые на защиту
Предложенная архитектура системы аналитической обработки информации и принятия решений обеспечивает накопление информации об эффективности прогностических моделей и автоматизацию их выбора с учетом специфики решаемых задач.
Разработанный показатель определения близости условных распределений позволяет оценивать точность прогностических моделей в задачах распознавания образов и восстановления зависимостей.
Предложенная процедура предварительного ранжирования признаков по их информативности позволяет значительно снизить вычислительную сложность алгоритмов отбора атрибутов.
Разработанные алгоритмы структурно-параметрического синтеза нейронных сетей на основе байесовской методологии позволяют преодолеть эффект переобучения и получать модели, аппроксимирующая способность которых согласована с доступными эмпирическими данными.
Предложенный алгоритм синтеза прогностических моделей при наличии непрерывных и номинальных признаков способствует выявлению и группировке близких зависимостей за счет процедуры кластеризации.
Структура и объем диссертации