Введение к работе
Актуальность темы исследований. В настоящее время междисциплинарные многосторонние проблемы получения и обработки информации с различными видами и степенями неполноты, несовершенства и недоопреде-ленности для последующего построения с помощью компьютерных технологий оценок показателей существенных для предметной области процессов являются одними из самых значимых, наличествуют и остаются нерешенными в широком спектре отраслей научных исследований, в том числе таких, как общественное здоровье (public health), эпидемиология, анализ социальных сетей, психология поведения, психология труда, маркетинг и информационная безопасность.
Общий принцип решения таких проблем — построение (зачастую с использованием гибридного подхода), исследование и обработка данных и знаний с неопределенностью с помощью комбинированных методов теории вероятности, статистического анализа данных, компьютерного моделирования, искусственного интеллекта. Существующие способы построения агрегированных показателей, характеристик и индексов на основе рандомизации, необходимой для учета неопределенности доступной информации, с последующим исследованием их свойств методами теории вероятности и математической статистики нуждаются в уточнении и адаптации практически в случае каждого конкретного класса задач предметной области при всех возможных сочетаниях элементов исходной информации.
Не является исключением из этого вывода и задача оценивания показателей скрытых от непосредственного наблюдения процессов (например, таких показателей как кумулятивный риск и относительная частота), о которых доступны в различных сочетаниях лишь сведения об интервалах между небольшим числом последних событий и моментом их регистрации, наблюдения, опроса, а также сведения о некоторых видах интервалов (между последовательными событиями), связанных с особыми порядковыми статистиками: максимальной, минимальной, медианной или другими. Причем такие сведения отличаются нечеткостью, либо, скорее, гранулярностью, поскольку содержатся в совокупности высказываний на естественном языке.
Настоящая диссертационная работа концентрируется на оценке (при указанных видах информационного дефицита) показателей процессов, события которых распределены согласно пуассоновской модели случайного процесса. В классическом подходе ключевым искомым показателем такого процесса вполне обоснованно выступает его интенсивность. Однако интерес представляют также такие производные показатели, как кумулятивный риск, ассоциированный с этим процессом, а также относительные показатели частоты событий процесса и кумулятивного риска в заданный интервал времени.
Вместе с тем, такие задачи как получение, анализ и обработка описанных выше сведений, усовершенствование инструментария для приобретения информации, представление гранулярности исходных элементов информации, учет влияния этой гранулярности на агрегированную оценку показателей, а также разработка метода, основанного на синтезе случайных элементов, обработки неопределенности исходной информации за счет рандомизации этой неопределенности, решены именно в работах соискателя и обусловили, таким образом, теоретическую составляющую актуальности темы данного исследования.
Практический же аспект актуальности темы диссертации состоит в том, что полученные результаты будут непосредственно востребованы в подготовке и организации процедуры и в самой процедуре получения и обработки информации, в том числе и экспертной информации, приобретаемой в ходе интервью и опросов респондентов по поводу их рискованного, угрозообразующе-го или просто значимого поведения, а также в ходе интервьюирования экспертов-исследователей указанных видов поведения. Важным частным случаем, а также ключевыми мотивирующим и иллюстрирующим примером такого поведения в настоящей работе выступает поведение респондентов, ассоциированное с риском приобретения и (или) передачи ВИЧ-инфекции, акцентирующим собой непосредственную практическую значимость и актуальность настоящего диссертационного исследования.
Степень разработанности. Исследование нечетких временных рядов является смежной, наиболее близкой областью по отношению к тематике настоящей диссертации. Подходы к исследованию таких рядов развиваются Н.Г. Ярушкиной, С.М. Ковалевым. Но при этом существует ряд принципиальных отличий, заключающихся в неприспособленности методов анализа нечетких временных рядов к сверхкоротким временным рядам, а также к добавлению к классической модели дополнительных элементов информации и учету их влияния на классическую модель и формирующиеся на ее основе оценки. Следует отметить, что обрабатываемые (получаемые) данные и знания обладают неопределенностью, причем эта неопределенность может быть представлена с помощью вероятностных моделей, а в такой постановке изучаемая проблема близка к тематике, посвященной приложениям логико-вероятностных моделей к задачам теории надежности структурных сложных систем, рассматриваемых, в частности, в работах И.А. Рябинина, Е.Д. Соло-женцева, А.С. Можаева. Кроме того, вопросам обработки и представления неопределенности данных и знаний посвящены работы таких зарубежных и российских авторов, как J. Fagin, К. Korb, L. Zadeh, Д.А. Поспелов, В.Б. Тарасов, В.Н. Вагин, А.С.Нариньяни и др. Рассматриваемая проблема относится, в том числе и к задачам разработки интеллектуальных систем принятия решений, решаемым в работах Н. Н. Моисеева, Г.В. Рыбиной, Г.С. Осипова, В.Л. Стефанюка. Предлагаемые алгоритмы используют адаптированные к предметной области принципы, близкие к тем, на которых основаны метод синтеза агрегированных показателей в условиях дефицита информации (Н.В. Хованова), теория количественной важности критериев в многокритериальных задачах принятия решений (В.В. Подиновский), а также используют аппарат вероятностных графических моделей (J. Pearl, В.И. Городецкий).
Кроме того, ряд исследований по близким тематикам ведется в лаборатории, где выполнялась диссертация. В работах Суворовой А.В. предложена модель, учитывающая особенности обработки информации об интервалах между последним эпизодом и моментом интервью; для данной модели предложен подход к обработке особой систематической ошибки (length bias) при анализе данных о последнем эпизоде; разработана и специфицирована байесовская сеть доверия, позволяющая формировать апостериорную оценку распределения случайного элемента, характеризующего абсолютную интенсивность исследуемого процесса. В работах Т.В. Тулупьевой сведения о последних эпизодах и рекордных интервалах использовались в прикладных задачах
психологических исследований, нацеленных на выявление норм интенсивности различного вида поведения, связей показателей поведения как процесса со степенью выраженности психологических особенностей личности. В работах А.А. Азарова модель используется в задаче анализа поведения пользователей с точки зрения реализации угроз при социоинженерных атаках.
Объект диссертационного исследования — представление и обработка информации с различными видами и степенями неполноты, несовершенства и недоопределенности о скрытых от непосредственного наблюдения процессах, ассоциированных с риском.
Предмет исследования — с одной стороны, модели для представления исходной информации, отличающейся гранулярностью, о небольшом числе последних событий пуассоновского процесса, а также об особых показателях, связанных с порядковыми статистиками: максимальной и минимальной; а с другой стороны, метод оценивания, базирующиеся на указанных моделях, агрегированных показателей процессов: абсолютной величины кумулятивного риска, относительных частот и относительного кумулятивного риска в заданный интервал времени.
Цель исследования. Повысить оперативность расчета агрегированных оценок показателей скрытых от непосредственного наблюдения процессов (абсолютной величины кумулятивного риска, относительных частот и относительного кумулятивного риска в заданный интервал времени) за счет применения менее времязатратных методов получения информации и автоматизации ее обработки, используя особым образом построенные случайные элементы и байесовские сети доверия (как вид вероятностных графических моделей). При этом предполагается, что такая информация отличается гранулярностью и различными сочетаниями элементов о моменте регистрации, о небольшом числе последних эпизодов, интервалов, точек, а также некоторых видов интервалов, связанных с особыми порядковыми статистиками.
Для достижения поставленной цели в диссертационной работе поставлены и решены следующие задачи:
-
Разработка инструментария для получения информации о процессе, скрытом от непосредственного наблюдения и ассоциированном с риском, в условиях ее дефицита (доступность различных сочетаний сведений в вербальной форме о небольшом числе последних событий процесса и рекордных интервалах между последовательными событиями);
-
Разработка теоретико-вероятностной модели, позволяющей, с одной стороны, агрегировать вербальные оценки показателей скрытых от непосредственного наблюдения процессов, ассоциированных с риском, а с другой стороны, обрабатывать неопределенность, присущую таким оценкам;
-
Разработка на основе предложенной модели метода и алгоритмов для формирования оценок интенсивности процессов, ассоциированных с риском, и характеристик разброса таких оценок, обусловленного информационным дефицитом;
-
Обеспечение учета гранулярности как исходной информации, так и ожидаемых результатов ее обработки в моделях на основе байесовских сетей доверия для формирования гранулярных оценок показателей
(абсолютного кумулятивных риска, относительной частоты, относительного кумулятивного риска); 5. Реализация на основе компьютерных технологий полученных методов, моделей и алгоритмов визуализации и анализа различных сочетаний описанных выше элементов информации для автоматизации расчета на их основе агрегированных оценок искомых показателей процессов, ассоциированных с риском.
Научная новизна. Предложен новый инструментарий для опроса респондентов, апробированный в рамках полевого исследования. В результате такого опроса получены сверхкороткие серии неточных ответов об эпизодах рискованного поведения, сформулированных на естественном языке, проведена первичная обработка ответов, на основе которой была составлена классификация ответов респондентов о последних эпизодах рискованного поведения, а также о максимальном, минимальном, обычном интервалах. Кроме того, выработана методика обработки данных указанного типа.
На основе этой классификации предложен новый способ получения информации об интенсивности процессов, ассоциированных с риском, в условиях дефицита исходных данных, отличающийся от двух известных ранее способов, таких как прямые вопросы о числе событий и лайкерт-шкал о качественных градациях частот событий тем, что задаются вопросы о серии последних событий, минимальном, максимальном интервалах между событиями и одновременно обеспечивается регистрация ответов, содержащих количественные оценки.
Указанная классификация также позволила применить метод Н.В. Хованова, к рандомизации неопределенности, содержащейся в информации, получаемой из ответов о последних событиях процесса, причем результат такой рандомизации допускает представление неопределенности в виде особого рода случайного элемента, что, в свою очередь, позволило соискателю применить классические приемы теории вероятности (вычисление разных моментов, например, математического ожидания и дисперсии вещественной функции от построенного случайного элемента) для расчета показателей кумулятивного риска, относительных частот, относительного кумулятивного риска, а также для вычисления характеристик разброса полученных оценок.
В развитие положений результатов работ А.В. Суворовой предложен способ формирования байесовских сетей доверия для расчета показателей абсолютного кумулятивного риска, а также относительных частот и относительного кумулятивного риска.
Наконец, разработан прототип комплекса программ, позволяющий вносить, хранить и обрабатывать информацию, используя полученные ответы на естественном языке с присущими им различными видами и степенями неполноты, несовершенства и недоопределенности.
Теоретическая и практическая значимость работы. Теоретическая значимость диссертационного исследования заключается в разработке математического и программного обеспечения нового метода получения оценок показателей скрытых от непосредственного наблюдения процессов по исходной, отличающейся гранулярностью и различными сочетаниями элементов информации о моменте регистрации, небольшом числе последних эпизодов,
интервалах, точек и некоторых видов интервалов, связанных с особыми порядковыми статистиками.
Данный метод необходим для разработки программного обеспечения, позволяющего обеспечить преобразование информации с описанным выше составом и особенностями и ее последующую обработку с помощью компьютерных технологий во многих отраслях научных исследований, в том числе таких, как общественное здоровье (public health), эпидемиология, анализ социальных сетей, психология поведения, психология труда, маркетинг и информационная безопасность.
Практическая значимость результатов настоящей диссертационной работы в маркетинговых исследованиях заключается в применении разработанного в диссертации метода к решению задач выделения группы потребителей, существенно различающихся интенсивностью потребления продуктов, товаров или услуг. Практическая значимость для медицины заключается в разработке инструментария, позволяющего оценивать частоту отклонения пациента от предписанного режима лечения. Практическая значимость в области информационной безопасности заключается в использование данного подхода для составления профиля уязвимостей пользователя для количественной оценки вероятности совершения пользователем информационной системы угрозообразующих действий при социоинженерной атаке.
Практическая значимость результатов работы в области эпидемиологии заключается в разработке альтернативного метода обработки информации при ее дефиците для оценок показателей процессов, ассоциированных с риском заразится, который в сравнении с эталонным методом когортного исследования, характеризующегося а) стоимостью 3-5 миллионов долларов, б) минимальной выборкой в тысячу человек, в) временными затратами в 2-3 года, г) чувствительностью к потерям (не более 10%), д) полученные результаты характеризуют ситуацию на момент начала исследования. Применение предложенного подхода ожидаемо даст следующий положительный эффект: а) затраты на уровне 10-15 тысяч долларов, б) минимальная выборка от 100 человек в) результаты применимы сразу после получения данных, г) нет потерь во время исследования, д) полученные результаты характеризуют текущее положение в отношении рассматриваемых показателей.
Кроме того, создан прототип комплекса программ, позволяющий специалистам из предметной области в простой и удобной форме получать сведения об интенсивности рискованного поведения, что, в свою очередь, позволяет им давать прогностические оценки кумулятивного риска, связанного с различными видами рискованного поведения, а также наблюдать динамику изменения рассматриваемых показателей.
Положения, выносимые на защиту
-
Классификация ответов, содержащих информацию в различных сочетаниях о небольшом числе последних событий процесса; выделены два особых класса, сформирована методика обработки ответов респондентов, предложен новый инструментарий, поддерживающий получение информации, со шкалой значений, учитывающей возможные варианты ответов;
-
Способ построения случайного элемента, агрегирующего исходную гранулярную информацию, который, таким образом, является пред-
ставлением полученной информации, одновременно учитывающим ее дефицит за счет использования рандомизации;
-
Модель для расчета оценок показателей процессов, ассоциированных с риском, на основе указанного выше случайного элемента;
-
Метод и алгоритмы синтеза байесовской сети доверия, агрегирующей полученную информацию и позволяющей вывести гранулярную оценку искомых показателей.
-
Прототип комплекса программ, реализующий предложенные в диссертации алгоритмы, поддерживающие обработку полученной информации и вычисление искомых оценок абсолютного кумулятивного риска, относительной частоты, относительного кумулятивного риска, и обеспечивающий проведение вычислительных экспериментов.
Обоснованность и достоверность представленных в диссертационной работе научных положений обеспечивается за счет тщательного анализа состояния исследований в области оценки рискованного поведения и в смежных областях, корректность математических выкладок, подтверждается работоспособностью прототипа комплекса программ, реализующего алгоритмы, основанные на теоретических результатах, полученных в диссертационном исследовании.
Апробация результатов. Основные положения и результаты диссертационной работы докладывались на следующих научных и научно-практических конференциях: 1-3) Всероссийская научная конференция по нечетким системам и мягким вычислениям НСМВ-2006, НСМВ-2008, НСМВ-2009; 4-5) X, XI Санкт-Петербургская международная конференция «Региональная информатика - (РИ-2006, РИ-2008); 6) Всероссийская научно-практическая конференция "Социальное партнерство психологии, культуры, бизнеса и духовное возрождение России". Москва 2006; 7-8) Международная научно-практической конференции «Интегрированные модели и мягкие вычисления в искусственном интеллекте». Коломна, 2007 г, 2009; 9-12) Научная конференция МИФИ-2007,2008,2010,2011; 13-14) V Санкт-Петербургская региональная конференция «Информационная безопасность регионов России, Санкт-Петербург (ИБРР-2007, ИБРР-2011); 15) Научно-практическая конференция студентов, аспирантов, молодых ученых и специалистов «Интегрированные модели, мягкие вычисления, вероятностные системы и комплексы программ в искусственном интеллекте». Коломна-2009; 16) Международная конференция «Моделирование и анализ массовых событий в экономике и социуме» 2010; 17) VII Санкт-Петербургская межрегиональная конференция «Информационная безопасность регионов России (ИБРР-2011)», г. Санкт-Петербург, 2011г.; 18) 1-й Международный симпозиум «Гибридные и синергетические интеллектуальные системы: теория и практика», Калининградская обл., г. Светлогорск, 2012 г.; 19) С.П.И.С.О.К. - 2012: Материалы всероссийской научной конференции по проблемам информатики, г. Санкт-Петербург, 2012 г.; 20) VI Международная научно-техническая конференция молодых специалистов, аспирантов и студентов «Математическое и компьютерное моделирование естественнонаучных и социальных проблем», г. Пенза, 2012 г.; 21) XV Международная конференция по мягким вычислениям и измерениям. SCM-2012, г. Санкт-Петербург, 2012 г.; 22) Вторая Международная научно-практическая конференция "Социальный компьютинг, технологии развития, социально-гуманитарные эффекты" (ISC-13), г. Москва, 2013 г.
Кроме того, результаты диссертационного исследования докладывались на Санкт-Петербургском городском научном семинаре «Информатика и компьютерные технологии» в феврале 2006 года.
Исследования по тематике выполнялись в рамках проектов, поддержанных следующими грантами: в качестве исполнителя: 1) грант РФФИ на 2009-2011 гг., проект № 09-01-00861-а «Методология построения интеллектуальных систем поддержки при-
нятия решений на основе баз фрагментов знаний с вероятностной неопределенностью»; 2) грант РФФИ на 2012-2014 гг., проект № 12-01-00945-а «Развитие теории алгебраических байесовских сетей и родственных им логико-вероятностных графических моделей систем знаний с неопределенностью»; 3) грантом РГНФ «Взаимосвязь адаптивных стилей ВИЧ-инфицированных и степени рискованности их поведения» №07-06-00738а; 4) госконтрак № 2.442.11.7489, шифр 2006-РИ-19.0/001/209, на НИР «Психологическая защита и копинг-стратегии ВИЧ-инфицированных с точки зрения опасности для общественного здоровья»; 5) грантом СПбНЦ РАН на 2007 год «Моделирование и измерение количественных характеристик ВИЧ-рискованного поведения на основе обработки ответов респондентов» № 2-199; в качестве руководителя: 6) грант РФФИ на 2012 г., проект № 12-01-16031-моб_з_рос «Научный проект "Вероятностно-нечеткостная модель социально-значимого поведения в случае неточных данных о его эпизодах, предшествующих интервью" для представления на научном мероприятии 1-й Международный симпозиум "Гибридные и синергетические интеллектуальные системы: теория и практика (ГИСИС2012)"»; 7) грантом №02/2.1/17-03/48 (в 2007 году) Конкурса для студентов и аспирантов вузов и академических институтов, расположенных на территории Санкт-Петербурга «Оценка вероятности заражения ВИЧ-инфекцией на основе сведений о последних N эпизодах рискованного поведения, а также статистическое моделирование ограниченных указанных серий эпизодов»; 8-11) грантом для молодых ученых и кандидатов наук от Правительства Санкт-Петербурга в 2009г №25.05/027/27 «Разработка математических моделей, вычислительных алгоритмов и комплекса программ для оценки интенсивности рискованного поведения в условиях дефицита информации», в 2010г № 10526 «Разработка математических моделей, алгоритмов и распределенного комплекса программ для косвенной оценки рисков, связанных с угрозообразующим поведением», в 2011г № 11421 «Разработка математических моделей и алгоритмов для идентификации интенсивности рискованного поведения на основе данных, содержащих систематическую ошибку, связанную с длительностью наблюдений», в 2012г «Разработка программного комплекса для идентификации интенсивности и производных параметров стохастических моделей рискованного поведения на основе неполных и неточных данных»
Публикации. По теме диссертации было сделано 52 публикации и приравненные к ним научные работы. Из них 11 статей (из которых 2 единоличных) в изданиях из «Перечня рецензируемых научных журналов и изданий для опубликования основных научных результатов», утвержденного ВАК, 1 монография в соавторстве, 29 статей и докладов на научных конференциях (из которых 3 единоличных), 16 тезисов научных конференций, 11 зарегистрированных программ ЭВМ и алгоритмов (5 — в РОСПАТЕНТе и 6 в ОФЭР-НиО/ЦИТиСе). В дополнение к перечисленному в материалы диссертационного исследования вошли в 5 прошедших госрегистрацию в ЦИТиС научных отчетов.
Личный вклад А.Е. Пащенко в основных публикациях с соавторами кратко характеризуется следующим образом: в публикациях [1, 12, 13, 14, 17, 18, 19] ему принадлежит подход, для получения информации о процессе, скрытом от непосредственного наблюдения, ассоциированном с риском, в условиях ее дефицита; в [6, 39] предложена практическая реализация предложенного метода к социо-инженерным атакам; в статьях [3, 12, 16, 22, 30, 35] рассмотрены подходы к агрегированию вербальные оценки показателей, и с другой стороны, подходы к обработке неопределенности, присущей таким оценкам; в [4, 9, 20, 25, 26, 29, 31, 34, 36, 37] автору принадлежит обзор методов косвенной оценки параметров процесса и представления неопределенности; в [5, 7, 8, 28, 33] предложен и описан подход характеризующий гранулярность исходных данных; в [10, 38] предложено развитие модели представления моделей скрытых от непосредственного наблюдения в виде байесовских
сетей доверия; в статьях [12, 15, 23, 24, 27] — описание программного комплекса реализующего методы, модели и алгоритмы для визуализации и анализа информации, обладающей гранулярностью, неполнотой, несовершенством и недоопределенностью. Более подробное описание личного вклада А.Е. Пащенко в совместных публикациях приведено в тексте диссертации.
Структура диссертации. Диссертация состоит из введения, четырех глав, заключения, списка литературы из более, чем 180 наименований. Объем диссертации — 128 страниц. Глоссарий и свидетельства о регистрации программных продуктов и баз данных приведены в приложении.