Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Модели и алгоритмы анализа сверхкоротких гранулярных временных рядов на основе байесовских сетей доверия Суворова, Алёна Владимировна

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Суворова, Алёна Владимировна. Модели и алгоритмы анализа сверхкоротких гранулярных временных рядов на основе байесовских сетей доверия : диссертация ... кандидата физико-математических наук : 05.13.17 / Суворова Алёна Владимировна; [Место защиты: Сам. гос. аэрокосм. ун-т им. С.П. Королева].- Санкт-Петербург, 2013.- 168 с.: ил. РГБ ОД, 61 14-1/334

Введение к работе

Актуальность темы. Проблема анализа данных и знаний, характеризующихся неопределенностью, является одной из областей искусственного интеллекта, в частности, вопросы обработки и представления неопределенности рассматривали J. Halpern, A. Dempster, D. Dubois, J. Pearl, H. Prade, G. Shafer, L. Zadeh, Д.А. Поспелов, Л.В. Уткин, А.В. Язенин Н.Г. Ярушкина и др. Одной из подобных задач является разработка моделей и методов для обеспечения поддержки принятия решений в условиях, когда для получения данных невозможно организовать классические формы длительного наблюдения и многофакторного измерения параметров процесса, но имеются сведения, полученные от экспертов, предположения о классах и семействах таких процессов, а также ограниченное число измеряемых особенностей такого процесса. В частности, такие данные возникают при изучении поведения посредством опросов участников или экспертов. Аналогичные задачи возникают в системах управления и принятия решений, например, при оценке степени удовлетворенности той или иной предоставляемой государственной услугой. В целом, можно сказать, что поставленные вопросы относятся к более широкой, комплексной области исследований, посвященной анализу и моделированию поведения в контексте интеллектуальных систем принятия решений, изучением которой занимаются Г. С. Осипов, О.П. Кузнецов, В.Л. Стефанюк и др.

Указанная проблема является междисциплинарной, для ее решения требуется привлечение и адаптация ряда методов и моделей искусственного интеллекта и мягких вычислений вместе с методами и моделями классической математики (нечеткие системы и ряды, вероятностные графические модели, в т.ч. байесовские сети, методы построения сводных показателей в условиях дефицита информации (подход Н.В. Хованова), модели гранулярных знаний и др.), причем развиваемые методы и модели должны быть нацелены на дальнейшее использование в комплексах программ, автоматизирующих/поддерживающих принятие решений или мониторинг показателей в соответствующих предметных областях.

Междисциплинарность тематики обусловлена также тем, что во многих случаях при изучении поведения (или процесса) кроме данных об эпизодах поведения становятся известными также дополнительные сведения. В случае социально-значимого поведения это психологические, демографические, социальные характеристики, позволяющие конкретизировать значения параметров процесса. Кроме того, часто существуют дополнительные обоснованные предположения о характере процесса, о связях между параметрами. Включение такого рода теоретических предположений позволяет построить более полную модель. Как следствие, необходимо предложить модели и алгоритмы, позволяющие анализировать данные, полученные при исследовании указанных процессов, в частности, при изучении социально-значимого поведения.

Степень разработанности темы. В работах А.Е. Пащенко, Т.В. Тулупье-вой предложен подход, позволяющий получать количественные данные об эпизодах поведения (другими словами, элементов временного ряда) в условиях невозможности длительного наблюдения или измерения параметров. Проведено полевое исследование для сбора статистических данных и апробации разработанного опросного инструментария, выявлены психологические характеристики респондентов, ассоциированные с рискованным поведением. Проведена форма-

лизация и классификация ответов респондентов об эпизодах поведения, предложены подходы к оценке параметров рискованного поведения по исходным данным частного вида. Предложено рассмотрение модели поведения в виде случайного процесса определенного класса. Однако, в такую модель очень сложно добавлять новые факторы, новые предположения о предметной области потребуют полного пересчета компонентов модели.

Исследуемая задача близка к задачам, возникающим при анализе временных рядов. Однако, несмотря на удобство использования методологии моделирования и анализа временных рядов, в частности, методологии анализа нечетких временных рядов, разрабатываемой Н.Г. Ярушкиной, СМ. Ковалевым и др., применение этих подходов к решению задачи, связанной с моделированием социально-значимого поведения, сталкивается с рядом ограничений. В частности, такие модели характеризуются невысоким качеством при моделировании коротких временных рядов (причем короткими считаются ряды с числом наблюдений меньше 40). Предлагаемые в диссертационном исследовании модели и алгоритмы анализа направлены на преодоление подобных ограничений за счет адаптации и совместного использования методов искусственного интеллекта и классической математики для обработки данных, характеризующихся неопределенностью.

Объект диссертационного исследования— интеллектуальные (на основе байесовских сетей доверия) модели поведения респондентов на основе неточных данных об ограниченном числе его измеряемых особенностей. Предмет исследования — модель временного ряда эпизодов поведения, рассматриваемого как пуассоновский процесс, на основе байесовских сетей доверия как средства представления и обработки данных и знаний с неопределенностью и методы оценки параметров такой модели.

Цель диссертационного исследования — разработка и развитие моделей на основе байесовских сетей доверия, методов и алгоритмов анализа временных рядов эпизодов поведения, представленного пуассоновским процессом, в условиях неполной, неточной, нечеткой и нечисловой информации особого вида, характеризующейся гранулярностью, для оценки параметров таких моделей. Такая информация включает в себя различные комбинации ограниченного числа сведений об эпизодах поведения (последние эпизоды, минимальный и максимальный интервалы).

Достижение цели осуществляется за счет последовательного решения следующих задач:

  1. формализация особенностей последнего элемента ряда, представленного пуассоновским и гамма-пуассоновским процессом, для корректного построения моделей, основанных на данных об этом элементе, а также разработка подходов к обработке этих особенностей;

  2. разработка методов оценки параметров ряда эпизодов поведения, представленного пуассоновским процессом, на основе гранулярных данных о рекордных интервалах между последовательными эпизодами;

  3. построение обобщенной модели временного ряда эпизодов поведения, представленного пуассоновским процессом, по неполной и неточной информации об ограниченном числе его элементов на основе байесовской се-

ти доверия, как теоретического аппарата для представления и обработки данных и знаний с неопределенностью;

4) формализация разработанных методов в виде алгоритмов расчета оценок
параметров таких рядов;

5) реализация указанных алгоритмов в прототипе комплекса программ для
вычислительных экспериментов и решения практических задач.
Теоретическая и практическая значимость работы. Полученные резуль
таты предлагают подходы к обработке данных особого типа, часто встречаю
щихся при анализе социально-значимого поведения на основе результатов опро
са или интервью. Такие данные являются неполными, выражены на естествен
ном языке и характеризуются неопределенностью. В частности, в качестве одно
го из применений построенных моделей можно выделить использование разра
ботанного комплекса программ для сопровождения, в первую очередь, эпиде
миологических и социально-эпидемиологических исследований, направленных
на моделирование, анализ и мониторинг рискованного поведения и изучение
численных характеристик указанного поведения (таких как интенсивность и
риск, связанный с рассматриваемым поведением). Таким образом, разработан
ный комплекс программ может являться составной частью комплексной системы
для поддержки принятия решений в области здравоохранения. Кроме того, на
основе полученных результатов А.Е. Пащенко разрабатывается подход к вычис
лению относительных оценок интенсивности, что необходимо, в частности, при
сравнении групп респондентов.

Теоретическая часть работы относится к таким направлениям, как исследование и разработка средств представления знаний (содержащихся в естественноязыковых высказываниях), разработка методов анализа данных, разработка теоретических основ создания программных систем для новых информационных технологий (в части синтеза в условиях информационного дефицита различных показателей интенсивности рискованного поведения). Результаты работы вносят вклад в теоретическую основу, а также в основу для проведения вычислительных экспериментов для исследования и моделирования поведения респондентов.

Кроме того, полученные теоретические результаты могут использоваться в учебном процессе для студентов, специализирующихся в информатике, особенно в таких междисциплинарных направлениях, как прикладная информатика в гуманитарной сфере. Так, частично, результаты диссертационного исследования были включены в программы спецкурсов «СУБД, интерфейсы и интеллектуальные модели в комплексах программ» и «Комплекс средств и языков для хранения, обработки и анализа данных» математико-механического факультета СПбГУ.

Методология и методы исследования. Работа носит теоретический характер. Работа опирается на методологию дедуктивного и индуктивного обоснования утверждений в отношении специальным образом формализованных объектов и сведения новых нерешенных задач к известным задачам, уже получившим решение. Используются методы теории вероятностей, математической статистики, гранулярных вычислений. Основным инструментом моделирования поведения респондентов для последующей разработки подходов к оцениванию их характеристик выступает теория случайных последовательностей вместе с методами теории вероятностных графических моделей, и, более узко, методов теории

байесовских сетей доверия. В программно-технологической части используются принципы структурного и объектно-ориентированного программирования, Java-технологии, а также среда GeNIe&SMILE для представления байесовской сети доверия и построения апостериорных вероятностных распределений.

Научная новизна. Все результаты, представленные в диссертации, являются новыми.

Разработаны методы и алгоритмы оценки параметров временного ряда эпизодов поведения на основе данных о последних элементах ряда (последних эпизодах поведения) и рекордных интервалах между последовательными эпизодами. Предложена модель на основе байесовской сети доверия для оценки параметров поведения респондентов. Методы формализованы в виде алгоритмов расчета оценок параметров таких рядов.

Разработаны компоненты прототипа комплекса программ, реализующие указанные алгоритмы расчета параметров сверхкороткого временного ряда на основе гранулярных данных и знаний.

Таким образом, в диссертации предложены новые модели и методы для обеспечения поддержки принятия решений в условиях, когда для получения данных о поведении невозможно организовать длительное наблюдение, но имеются сведения с неопределенностью, полученные от экспертов, предположения о классах и семействах процессов, а также ограниченное число измеряемых особенностей такого процесса (сверхкороткого временного ряда).

Степень достоверности и апробация результатов. Достоверность и обоснованность результатов работы обеспечены строгими математическими доказательствами и корректным использованием методов соответствующих математических дисциплин.

Результаты диссертационного исследования были представлены на 20 научных мероприятиях: 1) Научно-практическая конференция студентов, аспирантов, молодых ученых и специалистов «Интегрированные модели, мягкие вычисления, вероятностные системы и комплексы программ в искусственном интеллекте» (Коломна, 2009); 2) Международная научно-практическая конференция «Моделирование и анализ массовых событий в экономике и социуме» (Санкт-Петербург, 2010); 3) Научная сессия НИЯУ МИФИ-2010 (Москва, 2010);

  1. VI-й Международная научно-техническая конференция «Интегрированные модели и мягкие вычисления в искусственном интеллекте» (Коломна, 2011);

  2. Научная сессия НИЯУ МИФИ-2011 (Москва, 2011); 6) VII Санкт-Петербургская межрегиональная конференция «Информационная безопасность регионов России (ИБРР-2011)» (Санкт-Петербург, 2011); 7) VI Международная научно-практическая конференция молодых специалистов, аспирантов и студентов «Математическое и компьютерное моделирование естественнонаучных и социальных проблем» (Пенза, 2012); 8) XV Международная конференция по мягким вычислениям и измерениям (SCM-2012) (Санкт-Петербург, 2012); 9) 1-й Международный симпозиум «Гибридные и синергетические интеллектуальные системы: теория и практика» (Калининград, 2012); 10) 5-я российская мульти-конференция по проблемам управления «Информационные технологии в управлении (ИТУ-2012)» (Санкт-Петербург, 2012); 11) Тринадцатая национальная конференция по искусственному интеллекту с международным участием (КИИ-2012) (Белгород, 2012); 12) Всероссийская научная конференция по проблемам

информатики СПИСОК-2012 (Санкт-Петербург, 2012); 13) Научная сессия НИЯУ МИФИ-2012 (Москва, 2012); 14) XIII Санкт-Петербургская международная конференция «Региональная информатика-2012 (РИ-2012)» (Санкт-Петербург, 2012); 15) Международная (44-я Всероссийская) молодежная школа-конференция «Современные проблемы математики» (Екатеринбург, 2013); 16) Вторая Международная научно-практическая конференция «Социальный компьютинг, технологии развития, социально-гуманитарные эффекты (ISC-13)» (Москва, 2013); 17) VII-й Международная научно-техническая конференция «Интегрированные модели и мягкие вычисления в искусственном интеллекте» (Коломна, 2013); 18) Научная сессия НИЯУ МИФИ-2013 (Москва, 2013); 19) Всероссийская научная конференция по проблемам информатики СПИСОК-2013 (Санкт-Петербург, 2013); 20) VIII Санкт-Петербургская межрегиональная конференция «Информационная безопасность регионов России (ИБРР-2013)» (Санкт-Петербург, 2013).

Кроме того, результаты диссертационного исследования докладывались на Санкт-Петербургском городском научном семинаре «Информатика и компьютерные технологии» в феврале 2013 года.

Исследования по тематике выполнялись в рамках проектов, поддержанных следующими грантами: 1) грант РФФИ на 2009-2011 гг., проект № 09-01-00861-а «Методология построения интеллектуальных систем поддержки принятия решений на основе баз фрагментов знаний с вероятностной неопределенностью»; 2) грант РФФИ на 2012-2014 гг., проект № 12-01-00945-а «Развитие теории алгебраических байесовских сетей и родственных им логико-вероятностных графических моделей систем знаний с неопределенностью»; 3) субгрант на 2012-2013 гг. № М13А11589 (А06995) гранта NIH № 5 R01AA017389-04 «Alcohol and HIV Risk Reduction in St. Petersburg, R.F.»; 4) грант Комитета по науке и высшей школе Правительства Санкт-Петербурга для молодых ученых и кандидатов наук на 2012 г. «Модели и алгоритмы анализа сверхкоротких неточных временных рядов на основе гранулярных данных и знаний»; 5) грант РФФИ на 2012 г., проект № 12-01-16031-моб_з_рос «Научный проект "Вероятностно-нечеткостная модель социально-значимого поведения в случае неточных данных о его эпизодах, предшествующих интервью" для представления на научном мероприятии 1-й Международный симпозиум "Гибридные и синергетические интеллектуальные системы: теория и практика (ГИСИС2012)"». Соискатель является руководителем проектов № 4-5. Также соискатель является победителем конкурсов на получение стипендии Президента Российской Федерации (пр. 970 от 23.11.2012 и пр. 1140 от 11.10.2013).

Публикации. По теме диссертации автором опубликована 41 научная работа (включая 4 единоличных), из них 12 статей (3 — единоличных) в журналах из Перечня рецензируемых научных журналов и изданий для опубликования основных научных результатов диссертаций, рекомендованного ВАК, включая 1 статью в журнале, входящем в базу данных цитирования Web of Science, 10 свидетельств о регистрации программы для ЭВМ и баз данных (5 — в РОСПАТЕН-Те, 5 — в ОФЕРНиО / ЦИТиСе). Кроме того, материалы диссертационного исследования нашли отражение в 12 тезисах докладов на научных конференциях и в 3 научных отчетах, прошедших регистрацию в ЦИТиС.

Личный вклад А.В. Суворовой в основных публикациях с соавторами характеризуется следующим образом: в [1] предложена модель рискованного поведения, учитывающая особенности последнего интервала между эпизодами, проведено исследование модели; в [2] формализовано описание особенностей исходных данных; в [3] преобразована к более удобной форме разработанная ранее математическая модель; в [4] проведены вьгаислительные эксперименты и обобщены их результаты; в [5] предложено формальное обоснование подхода к обработке систематической ошибки при анализе данных о последнем эпизоде; в [6] проведено тестирование модели на статистических данных; в [7] специфицирована байесовская сеть доверия, моделирующая поведения; в [8] проведена коррекция модели с учетом дополнительных предположений и включением новых исходных данных; в [11] проведено тестирование модели на статистических данных и обобщены его результаты.

Более подробное описание личного вклада А.В. Суворовой в совместных публикациях приведено в тексте диссертации.

Структура диссертации. Диссертация состоит из введения, четырех глав, заключения, списка литературы и списка иллюстраций. Работа изложена на 168 страницах машинописного текста, включающих 37 рисунков и библиографию, содержащую 271 наименование.

Положения, выносимые на защиту:

  1. формализация особенностей последнего элемента ряда, представленного пуассоновским и гамма-пуассоновским процессом, для корректного построения моделей, основанных на данных об этом элементе, а также подходы к обработке этих особенностей;

  2. методы оценки параметров ряда эпизодов поведения, представленного пуассоновским процессом, на основе гранулярных данных о рекордных интервалах между последовательными эпизодами;

  3. обобщенная модель временного ряда эпизодов поведения, представленного пуассоновским процессом, по неполной и неточной информации об ограниченном числе его элементов на основе байесовской сети доверия;

  4. формальное описание методов расчета оценок параметров таких рядов в виде алгоритмов;

  5. реализация указанных алгоритмов расчета параметров сверхкороткого временного ряда на основе гранулярных данных и знаний в компонентах прототипа комплекса программ.

Похожие диссертации на Модели и алгоритмы анализа сверхкоротких гранулярных временных рядов на основе байесовских сетей доверия