Содержание к диссертации
Введение
1. Аналитическое исследование проблемы распознавания образов в пространстве малоинформативных признаков. Задачи исследований 13
1.1. Проблема распознавания образов в пространстве малоинформативных признаков 13
1.2. Задачи исследований .21
2. Формирование эталонов идентифицируемых образов в пространстве малоинформативных признаков 30
2.1. Особенности формирования эталонов в пространстве малоинформативных признаков. Постановка задач 30
2.2. Выбор признаков для идентификации пользователей компьютерных систем 33
2.3. Исключение грубых ошибок при создании эталона. Дополнительные признаки 46
2.4. Формирование эталонов классифицируемых образов с использованием алгоритма нечеткого вывода 51
2.5. Анализ результатов. Выводы .62
3. Идентификация образов в пространстве малоинформативных признаков 63
3.1. Постановка задач 63
3.2. Критерий оценки вероятностей ошибок идентификации при выборе метода принятия решений .69
3.3. Имитационное моделирование функционирования систем распознавания образов по совокупности малоинформативных признаков с использованием различных методов принятия решений .73
3.4. Разработка алгоритма принятия решений с учетом информативности признаков при последовательном применении формулы Байеса 83
3.5. Использование метода Хемминга для минимизации ошибки второго рода 95
3.6. Анализ результатов. Выводы .100
4. Идентификация пользователей компьютерных систем по динамике подсознательных движений .102
4.1. Постановка задач 102
4.2. Алгоритм идентификации пользователей компьютерных систем по динамике подсознательных движений с использованием альтернативных сценариев авторизации .107
4.3. Альтернативные сценарии авторизации в информационных системах .119
4.4. Архитектура программного комплекса для биометрической идентификации пользователей компьютерных систем по динамике подсознательных движений 122
4.5. Оценка эффективности работы комплекса для биометрической идентификации пользователей компьютерных систем по динамике подсознательных движений 127
4.6. Анализ результатов. Выводы .130
Заключение .132
Список литературы 134
- Проблема распознавания образов в пространстве малоинформативных признаков
- Выбор признаков для идентификации пользователей компьютерных систем
- Критерий оценки вероятностей ошибок идентификации при выборе метода принятия решений
- Алгоритм идентификации пользователей компьютерных систем по динамике подсознательных движений с использованием альтернативных сценариев авторизации
Введение к работе
Актуальность работы. Можно привести много примеров успешного использования теории распознавания образов для решения прикладных задач в разных областях знаний. Успех сопутствовал в тех случаях, когда признаки относились к категории информативных. Однако существует множество актуальных задач, которые в силу их специфики характеризуются наличием для классификации только малоинформативных признаков. К числу таких задач относится и разработка систем скрытой идентификации сотрудников при их работе с информационными ресурсами организации.
Интерес к решению этой задачи объясняется большими потерями, которые несут собственники компьютерных систем от своих сотрудников, совершающих противоправные действия с доступной им информацией. Имеющиеся оценки таких потерь впечатляют (суммарный ущерб, нанесенный компаниям в мире за 2013 год, по данным Zecurion Analytics составил более 25 млрд. долл., и с каждым годом оценки ущерба растут).
Системный подход к решению данной проблемы позволил сформировать условия, которые должны быть выполнены, чтобы качественно улучшить параметры технологии защиты от неавторизованного доступа. Прежде всего, идентификацию субъектов, входящих в систему, сделать скрытой от них. Реализовать это условие возможно, если для описания субъекта использовать параметры его подсознательных движений. К числу таких движений относят изменения артикуляционного аппарата субъекта при произнесении парольной фразы. “Речевое” направление не получило распространение, надежность идентификации оказалась слишком низкой. Аналогичные заключения можно сделать, анализируя результаты по идентификации подписантов автографов и лиц, набирающих пароль на клавиатуре. Требуется повысить достигнутую надежность идентификации в пространстве до 100 классов образов, чтобы процент верных решений превысил 98% при количестве ошибок ложного доступа менее четверти процента от общего числа попыток подделки биометрических данных. Настоящая работа посвящена разработке необходимых для такого усовершенствования методик и получила финансовую поддержку Российского фонда фундаментальных исследований (проект №13-07-00246, на данный момент проект перешел на 2-ой год финансирования).
Степень разработанности темы исследования. Вопросам, связанным с идентификацией личности по динамике подсознательных движений, посвящены работы российских и зарубежных ученых, заложившие основы данной теории. Среди них Иванов А.И., Ушмаев О.С., Бондаренко В.П., Ложников П.С., Брюхомицкий Ю.А., Ажмухамедова И.М., Корнюшин П. Н., Харин Е.А., Еременко А.В., Фукунага К., Boutellaa E., Bengherabi M., Harizi F., McCabe A., Trevathan J. Несмотря на большое количество работ в данной области, полученные результаты не достаточно показательны для внедрения на практике. Анализ этих и других работ позволил определиться с направлениями исследований, ориентированных на усовершенствование метода формирования эталонов и повышение эффективности процедуры принятия классификационных решений, а также созданию более эффективного алгоритма идентификации субъектов по динамике подсознательных движений.
Объектом исследования диссертационной работы являются малоинформативные идентифицирующие признаки.
Предметом исследования диссертационной работы являются динамика воспроизведения подписи и набора парольной фразы на клавиатуре, а также алгоритмы формирования эталонов и решений при идентификации образов в пространстве малоинформативных признаков.
Цель диссертационной работы – повысить надежность идентификации пользователей компьютерных систем по динамике подсознательных движений. Для достижения поставленной цели необходимо было решить следующие задачи:
-
Разработать метод формирования эталонов в пространстве малоинформативных признаков.
-
Разработать алгоритм принятия решений в пространстве малоинформативных признаков.
-
Разработать адаптированный алгоритм для идентификации пользователей компьютерных систем по динамике подсознательных движений.
-
Разработать программный комплекс для идентификации пользователей компьютерных систем по динамике подсознательных движений.
Методы исследования. В диссертации представлены результаты исследований, полученные с помощью аппарата теории вероятностей, нечеткой логики, математической статистики и имитационного моделирования.
Научная задача: разработать модернизированную технологию идентификации образов в пространстве малоинформативных признаков.
Научная новизна результатов исследования:
-
Получена оценка эффективности метода формирования эталонов образов, включающего построение плотностей распределения вероятностей значений признаков с последующим получением функции принадлежности этих образов, что позволило уменьшить количество ошибок при идентификации пользователей компьютерных систем по динамике подсознательных движений в среднем в 1,6 раз.
-
Проведена оценка эффективности алгоритмов получения интегральной вероятности гипотез, основанных на использовании принципа накопления вероятностей, общей теоремы о повторении опытов, формулы гипотез Байеса. Найден вариант модернизации наилучшего из них, обеспечивающего уменьшение количества ошибочных решений более чем в 4,7 раз при идентификации пользователей по динамике подсознательных движений.
-
Предложен усовершенствованный алгоритм идентификации образов в пространстве малоинформативных признаков, основанный на совместном использовании модернизированного алгоритма Байеса и меры Хемминга, позволивший распознавать пользователей с вероятностью ошибок первого и второго рода 0,01 и 0,002 при наличии в базе 150 эталонов пользователей.
-
Получены результаты имитационного и натурного моделирования по идентификации пользователей компьютерных систем по динамике подсознательных движений, которые упрощают выбор методики формирования решений в системах идентификации при комплексировании нескольких независимых каналов для получения описаний объектов.
Практическая ценность научной работы. Полученные результаты позволили решить важную проблему повышения надежности распознавания образов в пространстве малоинформативных признаков. Применение полученных результатов позволит повысить защищенность корпоративных информационных систем. Практическую ценность представляют:
метод формирования эталонов образов в пространстве малоинформативных признаков, позволивший уменьшить количество ошибок идентификации пользователей компьютерных систем в среднем в 1,6 раз;
модифицированный алгоритм принятия решений, благодаря которому удалось уменьшить количество ошибочных решений более чем в 4,7 раз;
алгоритм идентификации пользователей компьютерных систем по динамике подсознательных движений, позволивший распознавать пользователей с вероятностью ошибок первого и второго рода 0,01 и 0,002;
разработанный программный комплекс с распределенной архитектурой для идентификации пользователей компьютерных систем.
Также ценность работы заключается в результатах вычислительных и натурных экспериментов, упрощающих выбор методики формирования решений в задачах идентификации образов при использовании нескольких независимых каналов для получения описаний идентифицируемых объектов.
Внедрение результатов работы. Результаты диссертационной работы использовались в проектно-конструкторской деятельности ООО «НТЦ «КАСИБ» при разработке линейки биометрических систем «TEOFRAST», что позволило создать продукт со следующими характеристиками: вероятности ошибок 1-ого и 2-ого рода составили 0,01 и 0,002. Это подтверждается свидетельствами о регистрации программного обеспечения, и актом внедрения результатов. Проект, основанный на результатах настоящей работы, получил финансовую поддержку Фонда содействия развитию малых форм предприятий в научно-технической сфере по программе СТАРТ (название проекта: «Разработка комплексной системы управления безопасностью компьютера на основе SaaS-технологии»). Это подтверждается свидетельствами о регистрации программ. Найденные решения использовались в рамках Гос. контракта № П215 «Разработка комплексированной технологии оперативного выявления террористических угроз на магистральных продуктопроводах», благодаря чему удалось создать эффективный метод определения несанкционированных отводов нефтепродукта в реальном времени (с вероятностью ошибки определения порядка 0,0012), при разработке коммерческой биометрической системы SignToLogin, что подтверждается свидетельством о регистрации программы в США, а также в рамках гос. задания на 2011-2014 годы по теме № 8.2018.2011 «Интеллектуализация транспортных систем: модели скрытой дистанционной идентификации водителей транспортных средств и их психоэмоционального состояния». Результаты работы внедрены в учебный процесс ФГБОУ ВПО «СибАДИ», что подтверждается актом внедрения.
Соответствие диссертации паспорту научной специальности. Представленная диссертация удовлетворяет п.3 и п.11 паспорта специальности 05.13.19 – “Методы, модели и средства защиты информации, информационная безопасность”:
п. 3. Методы, модели и средства выявления, идентификации и классификации угроз нарушения информационной безопасности объектов различного вида и класса.
п. 11. Технологии идентификации и аутентификации пользователей и субъектов информационных процессов. Системы разграничения доступа.
Достоверность результатов подтверждена соответствием результатов имитационного моделирования и натурных экспериментов, а также использованием признанных методик статистической обработки данных.
Апробация работы. Основные результаты работы докладывались на Межрегиональной научно-практической конференции «Безопасность и банковский бизнес» (г. Омск, 22 ноября 2007 г.); Конференции-конкурсе работ студентов, аспирантов и молодых ученых «Технологии MICROSOFT в теории и практике программирования» (г. Новосибирск, Академгородок, 2008 г.); «Восьмом Всероссийском конкурсе студентов и аспирантов по информационной безопасности .SIBINFO-2008» (г. Томск, 2008 г.); «Всероссийском форуме студентов, аспирантов и молодых ученых «Наука и инновации в технических университетах» (г. Санкт-Петербург, 28-31 октября 2008 г.); I и III Всероссийской научно-технической конференции «Россия молодая: передовые технологии — в промышленность!» (г. Омск, 12-13 ноября 2008 г. и г. Омск, 16– 18 ноября 2010 г., соответственно); 62-й научно-технической конференции ГОУ ВПО СибАДИ. (г. Омск, 2008 г.); Международном информационном конгрессе «МИК-2010» «Международный и региональный опыт построения информационного общества» (г. Омск, 14-16 сентября 2010 г.); Сибирском промышленно-инновационном форуме «ПРОМТЕХЭКСПО» (г. Омск, 16 марта 2011 г.); Одиннадцатой Международной научно-практической конференции «Фундаментальные и прикладные исследования, разработка и применение высоких технологий в промышленности» (г. Санкт-Петербург, 27-29 апреля 2011 г.); Всероссийской научно-технической конференции студентов, аспирантов и молодых ученых «Научная сессия ТУСУР – 2011» (г. Томск, 4-6 мая 2011 г.).
Публикации. Материалы диссертации опубликованы в 19 печатных научных работах. В число указанных публикаций входят 7 статей из перечня ВАК ведущих рецензируемых научных журналов и изданий, 12 статей в сборниках материалов международных, всероссийских, и вузовских конференций. Получены 4 свидетельства о государственной регистрации программы для ЭВМ и 1 свидетельство о регистрации программы для ЭВМ в США.
Личный вклад автора. Основные результаты и положения, выносимые на защиту, получены лично автором. Все алгоритмы, обсуждаемые в работе, разработаны и экспериментально исследованы автором самостоятельно. Научный руководитель принимал участие в постановке цели и задач исследования, их предварительном анализе, планировании экспериментов.
Основные научные результаты, выносимые на защиту:
-
Метод формирования эталонов идентифицируемых образов в пространстве малоинформативных признаков, основанный на построении плотностей распределения вероятностей используемых признаков с последующим преобразованием полученных распределений в компактные кластеры на основе алгоритма нечеткого вывода, который позволяет уменьшить количество ошибок при идентификации пользователей компьютерных систем по динамике подсознательных движений в среднем в 1,6 раз.
-
Модифицированный алгоритм идентификации образов на основе формулы гипотез Байеса, учитывающий конфигурацию распределений значений идентифицирующих признаков, позволяющий уменьшить количество ошибочных решений более чем в 4,7 раз при идентификации пользователей по динамике подсознательных движений на основе статистических алгоритмов.
-
Адаптированный алгоритм для идентификации пользователей компьютерных систем по клавиатурному почерку и динамике воспроизведения подписи, основанный на концепции альтернативных сценариев авторизации и совместном использовании модифицированной стратегии Байеса и меры Хемминга, позволяющий распознавать пользователей с вероятностью ошибок первого и второго рода 0,01 и 0,002.
-
Программный комплекс с распределенной архитектурой для идентификации пользователей компьютерных систем по динамике подсознательных движений, позволяющий повысить защищенность корпоративных информационных систем.
Структура и объём диссертации. Диссертация изложена на 174 страницах. Она состоит из введения, четырёх глав, заключения. Работа содержит 85 иллюстраций, 7 таблиц, список использованных источников, состоящий из 125 наименований, и 5 приложений.
Проблема распознавания образов в пространстве малоинформативных признаков
Алгоритмы распознавания образов используются при решении множества прикладных задач, относящихся к различным областям знаний: медицина, военные технологии, охрана окружающей среды, нефтегазовая отрасль, робототехника, промышленность, ядерная энергетика, информационные технологии и информационная безопасность [1-4, 6-9, 29-36]. Любая система распознавания образов, структура которой представлена на рисунке 1.1, строится на основе следующих функциональных блоков: получение данных о классифицируемых объектах, обработка данных и выделение признаков, формирование эталонной информации, классификатор объектов, позволяющий сравнивать новую информацию о неизвестном объекте с эталонной информацией известных объектов. Если задачу классификации объектов не удается решить с учетом предъявляемых к ее решению требований, используя доступные признаки, и возникает потребность в поиске новых признаков для повышения надежности классификационных решений, то исходные признаки можно считать малоинформативными для решения поставленной задачи.
Одной из основных проблем при использовании технологий распознавания для многих приложений является наличие для описания объектов только малоинформативных признаков. Следствием этого получение приемлемых оценок надежности распознавания становится проблематичным. Данный тезис демонстрирует рисунок 1.2. Основными показателями, характеризующими любую систему распознавания образов, являются вероятности ошибок 1-ого и 2-ого рода. Ошибка первого рода FRR (False Rejection Rate) характеризует ложный пропуск цели, ошибкой второго рода FAR (False Acceptance Rate) оценивается ложное распознавание цели. Связь между этими ошибками отражают характеристические кривые (Receiver Operating Characteristic, ROC). Состояние вопроса по распознаванию образов при использовании только малоинформативных признаков иллюстрируют следующие примеры. Крупнейшей компанией, занимающейся вопросами анализа речи в России является «Центр речевых технологий» (ЦРТ). По данным, взятым из научных публикаций [7], уровни ошибок 1-ого и 2-ого рода, достигнутые в работах ЦРТ при распознавании диктора соответственно равны 3-4 % и 1 %, что является низким показателем по сравнению с системами, например на базе статических биометрических признаков, где вероятность FAR может достигать 0,001 % [8]. По мнению Gartner (известной компании, занимающейся исследованиями в области информационных технологий) лишь около 1 % процента объема потенциальных пользователей удовлетворено эффективностью коммерческих систем распознавания диктора [7,9]. Несмотря на многолетнюю историю развития технологий распознавания речи, в данной области не было достигнуто желаемых результатов, эффективность существующих систем на сегодня составляет не более 98 % (вероятность правильного распознавания менее 0,98) при ограниченном количестве слов (100-200). Другими примерами классификации образов в пространстве малоинформативных признаков является распознавание номеров автомобилей в условиях плохой видимости, оптическое распознавание символов на изображении низкого качества, распознавание лиц [3, 42-43]. Системы распознавания лиц, несмотря на сорокалетнюю историю развития, пока не в состоянии выполнить надлежащим образом многие задачи, которые часто встречаются на практике [42]. Проблемы распознавания рукописного текста, а также текстов и лиц на графических объектах низкого качества в настоящее время не имеют приемлемых решений и являются предметом активных исследований. Проблемными для идентификации представляются объекты, искаженные шумом, засветкой, сдвигами, поворотами, нарушением пропорций. Пока не предложено достаточно надежного метода распознавания изображений, который был бы не чувствителен к перечисленным видам преобразований [43]. При оптической разведке состояния трассы пролегания магистральных трубопроводов достигаемая вероятность правильного обнаружения следов террористической деятельности не превышает 0,93 [29]. В течение последних пяти лет стремительно растет число работ по предотвращению несанкционированного доступа инсайдеров в информационно-вычислительные системы. Инсайдер – внутренний нарушитель, собственный сотрудник, нашедший способы прохождения всех рубежей авторизации и получивший санкционированный доступ к корпоративной информации за пределами своей компетенции. Выделяют 6 типов инсайдеров: халатного и манипулируемого из группы лояльных сотрудников, обиженного, нелояльного, подрабатывающего и внедренного из группы злонамеренных [44]. Каждый из приведенных типов сотрудников является источником угроз информационной безопасности, отличие их определяется уровнем наносимого ущерба.
Выбор признаков для идентификации пользователей компьютерных систем
Предложено использовать в качестве признаков клавиатурного почерка временные интервалы между нажатием клавиш и временные интервалы удержания клавиш [6, 15, 19-20, 26-27, 67] и формирование по этим данным временной функции [68] с последующим разложением ее по ортогональному базису функций Хаара [69], а также использовать наиболее часто встречаемые в словах n-граммы [70-72] (или n-графы, n символов, набираемых при помощи клавиатуры последовательно) либо наиболее информативные n-граммы [17, 21]. В указанных работах [19-20, 26-27] автор (Сулавко А.Е.) занимался исследованием клавиатурного почерка, алгоритмов формирования решений и эталонов, соавторы занимались исследованием динамики подписи (Буслаев Н.Н.), речевых сигналов (Борисов Р.В.), а также реализацией программного комплекса для проверки разработанных алгоритмов (Борисов В.В.), постановкой задач эксперимента (Епифанцев Б.Н., Покусаева О.А.). В работе [15] автор (Сулавко А.Е.) занимался исследованием клавиатурного почерка, динамики подписи, алгоритмов принятия решений и формирования эталонов, соавторы занимались исследованием динамики подписи (Ложников П.С.), исследованием речевых сигналов, реализацией программного комплекса для тестирования разработанных методик (Борисов Р.В.), постановкой задач эксперимента (Епифанцев Б.Н., Ложников П.С.).
Базовые признаки клавиатурного почерка – временные интервалы между нажатием клавиш и интервалы времени удержания клавиш (рисунок 2.1). Информативность парольной фразы определяется ее длиной. Парольная фраза должна быть легко запоминаемой и предпочтительно содержать от 21 до нажатий на клавиши [6] (слишком длинные парольные фразы сложно запоминаемы и воспроизводимы, велика вероятность ошибки при наборе фразы на клавиатуре). При синтезе парольной фразы допустимо использование слов со смыслом из некоторого словаря.
Построение временных функций по временным интервалам с последующим разложением ее по ортогональному базису функций Хаара видится нецелесообразным, т.к. данный подход не принес существенного улучшения качества распознавания. Исходные интервалы содержат достаточное количество информации о пользователе, имеющем выработанный клавиатурный почерк, и характеризуются распределением близким к нормальному [6]. Использование n-грамм существенно затрудняет генерацию парольных фраз (парольные фразы должны будут обязательно содержать информативные n-граммы, что не всегда позволяет создавать осмысленные и легко запоминающиеся предложения). Кроме того, при таком подходе необходимо проводить дополнительные исследования с целью поиска информативных n-грамм для каждого используемого языка. Взаимодействие с клавиатурой характеризуется работой 20 мышц плечевого пояса на каждой руке. Человек не может сразу выполнить сложные движения, в процессе обучения он подбирает удачные решения поставленной задачи и запоминает их путем многократных повторений (тренировок) [6]. Программы управления мышцами запоминаются в подсознательной области, запускаются сознанием и реализуются автоматически. Исследования показали, что время удержания клавиш является стабильным признаком, проявляющимся на подсознательном уровне. Было установлено, что время между нажатием клавиш является информативным признаком в том случае, если клавиши достаточно удалены друг от друга [6]. Например, биграмма “пр” не позволяет идентифицировать пользователя по времени между нажатием клавиш, т.к. время между нажатием клавиш не является информативным признаком в данном случае, клавиши расположены слишком близко друг к другу. Данную особенность можно объяснить на основании закона Фиттса, который касается сенсорно-моторных процессов и связывает время движения с точностью движения и с расстоянием перемещения: чем дальше или точнее выполняется движение, тем больше коррекции необходимо для его выполнения, и соответственно, больше времени требуется для внесения этой коррекции. При внесении коррекции движений проявляются индивидуальные особенности человека. Эту особенность динамики подсознательных движений можно видеть на рисунках 2.2 и 2.3. На этих рисунках показаны распределения времен между нажатиями различных пар клавиш у быстропечатающих пользователей.
Рукописный ввод автографа можно осуществить с помощью сенсорных устройств ввода, таких как планшетные компьютеры с емкостными дисплеями (например, iPad), а также графические планшеты различных производителей и специальные электронные устройства ввода подписей (signature pad, см. рисунок 2.4). Планшетные устройства ввода характеризуются рабочей площадью, разрешением и количеством степеней свободы. Количество степеней свободы описывает число квазинепрерывных характеристик взаимного положения планшета и пера. Чем больше степеней свободы имеет устройство, тем больше различных признаков можно получить из введенного рукописного слова (больше первичных функций для обработки и выделения признаков). Наибольшее количество степеней свободы имеют графические планшеты, многие из которых способны регистрировать не только положение пера на плоскости планшета (координаты x, y), но и давление пера на планшет, а также угол наклона и азимут светового пера.
В данной работе во всех опытах использовался планшет Wacom Intuos 3 Graphics Tablet модель PTZ-630, имеющий 5 степеней свободы: координаты конца пера (по оси Х и Y) на плоскости (планшете), уровень давления пера на планшет, азимут и наклон пера относительно планшета. Данная модель планшета также использовалась в [66, 73-77], подробно принципы работы этого устройства, его характеристики и возможности для получения идентифицирующей информации описаны в [77]. Информация об автографе, введенном при помощи этого устройства, представляет собой 4 функции, зависящие от времени [66]: функция изменения координаты х при письме, x(t); функция изменения координаты у при письме, y(t); функция давления кончика пера на поверхность планшета при письме, p(t) (чувствительность к нажатию: 1024 уровней); угол наклона пера к плоскости графического планшета хОу при письме, 6(t).
Критерий оценки вероятностей ошибок идентификации при выборе метода принятия решений
Получение потенциальных оценок вероятностей ложной тревоги и пропуска цели возможно на базе эталонных описаний классов P(AjHi). Положительный эффект от применения описанных выше методов принятия решений достигается при заметном различии параметров распределений Aj и особенно их нерегулярном расположении по оси параметра Aj. Этот тезис поясняют рисунки 3.2-3.4, где Гij и Гi – генераторы плотностей вероятностей (условных вероятностей) i-ой гипотезы, j-ого признака. Генератор Гij выполняет процесс получения частной плотности вероятности P(AjHi) по j-ому признаку из идентифицирующих данных, получаемых от i-ого пользователя, Гi выполняет интегрирование частных плотностей в финальную апостериорную вероятность при помощи одного из описанных выше методов.
Приведенные рисунки 3.2-3.4 демонстрируют, как три гипотезы H1-H3 в пространстве признаков A1, A2 могут быть идентифицированы по интегрированной вероятности. Вероятности ошибок идентификации Q представляют собой число превышений вероятностями конкурирующих гипотез qk(Hi) вероятности истинной гипотезы, отнесенных к общему числу опытов. Процесс получения значений Q при различных значениях n и N несложно автоматизировать. Для этого формируется набор генераторов случайных чисел Гij, эмитирующих процесс получения вероятностей P(AjHi) (которые в реальной системе идентификации могут быть получены в результате сопоставления реализаций, полученных от пользователя, с эталонными), с параметрами соответствующих распределений Aj и программируется алгоритм расчета вероятностей ошибок идентификации. Основной целью вычислительного эксперимента является получение информации для снятия следующих вопросов: 1. Как изменяется динамика вероятностей ошибок идентификации для каждого метода при увеличении количества гипотез (увеличении степени пересечения их описаний в пространстве признаков); 2. По какому закону происходит изменение вероятностей ошибок идентификации для каждого метода получения интегральной вероятности при увеличении нестабильности признаков; 3. Как влияет на динамику изменения вероятностей ошибок идентификации для каждого метода увеличение количества признаков; 4. Меняется ли динамика изменения вероятностей ошибок идентификации для метода последовательного использования модифицированной формулы Байеса при разных значениях параметра m.
На основе установленных закономерностей можно будет сделать выбор метода принятия решений для идентификации образов в пространстве малоинформативных признаков. В силу того, что малоинформативные признаки по большей части нестабильны, т.е. имеют высокие показатели среднеквадратичного отклонения значений признаков, то предпочтение будет отдано методу принятия решений, показывающему наилучшие результаты при работе с менее стабильными признаками при увеличении количества идентифицируемых образов. Вычислительный эксперимент был проведен при следующих условиях: 1. Число различных признаков – 7, максимальное число гипотез – 50. Выполнение расчетов с использованием большего количества гипотез нежелательно с точки зрения затрачиваемого на это времени. При увеличении количества гипотез время на обработку каждого опыта увеличивается экспоненциально. При существенном увеличении количества гипотез расчеты с высокой достоверностью (выполнение большого числа опытов) крайне сложно реализовать и требования к аппаратной конфигурации вычислительного устройства становятся слишком высокими. Количество используемых признаков ограничено числом 7 из тех же соображений, кроме того в рамках поставленных целей данное число можно считать достаточным; 2. Плотности вероятности идентифицируемых признаков распределены по нормальному закону. Данному закону подчиняется большинство процессов в природе; 3. Математические ожидания идентифицируемых признаков распределены на интервале (0;10) и используются для генерации сигналов в процессе эксперимента для всех гипотез по законам распределения, представленным на рисунке 3.5. Для каждого признака был предусмотрен свой закон распределения математических ожиданий в соответствии с рисунком 3.5. Представленные распределения образуют различные виды признаков с различными областями концентрации параметра M(Aj) в области значений признака. Параметры распределения вероятностей подбирались из соображений построения более общего эксперимента. Так как при проведении вычислительного эксперимента учесть все возможные признаки и их распределения просто невозможно, была произведена имитация использования нескольких принципиально различных типов признаков, что позволило сделать более объективную оценку различий в работе методов принятия решений, на основе которого сделать обоснованный выбор базового метода для формирования решений в технологии идентификации гипотез в пространстве малоинформативных признаков. Признаки подаются на вход алгоритмов принятия решений в той же последовательности, что и на рисунок 3.5; 4. Эксперимент состоял из нескольких частей, в каждой из которых среднеквадратичные отклонения значений признаков Aj для всех гипотез и всех признаков увеличивалось. Таким образом, в течение эксперимента нестабильность признаков в целом возрастала, что дало возможность проследить динамику изменения вероятностей ошибок идентификации для каждого метода при увеличении нестабильности признаков. 5. Диапазон изменения переменных: N = 2, …, 7; j = 2, …, N; и = 2, …, 50; і = 2, …,«; т = 1, …, 7;к= 1000. Для генерации значений Aj в соответствии с их распределениями (как уже было указано выше, все признаки распределены по нормальному закону) использовался метод разыгрывания случайных величин Монте-Карло [60].
Алгоритм идентификации пользователей компьютерных систем по динамике подсознательных движений с использованием альтернативных сценариев авторизации
При разработке алгоритма идентификации большое значение имеет логика механизма принятия решений, которая определяет: при каких условиях пользователь является “своим”, “чужим” или возможно пользователю стоит ввести свои идентифицирующие данные повторно, а также, какой сценарий авторизации будет применен по отношению к пользователю после прохождения им процедуры идентификации. Данный механизм основывается на пороговых значениях методов принятия решений, используемых для идентификации.
В разработанном комплексе алгоритмов имеется два показателя, которые характеризуют соответствие данных об идентифицируемом объекте какому-либо эталону: расстояние Хемминга (вычисляемое исходя из вектора Хемминга) и апостериорная вероятность гипотезы, ассоциируемой с эталоном объекта, полученная при помощи модифицированной стратегии Байеса с учетом информативности признаков на последнем шаге работы алгоритма. Таким образом, можно задать два пороговых значения: пороговое значение по Байесу и пороговое значение по Хеммингу. В рамках текущей работы имеется два канала для получения признаков: динамика ввода рукописного пароля и клавиатурный почерк пользователя, что подразумевает два этапа прохождения процедуры идентификации – ввод парольной фразы на клавиатуре и ввод рукописного пароля. Таким образом, можно задать по два пороговых значения на каждом этапе процедуры идентификации пользователя: Пороговое значение по Байесу на 1-ом этапе; Пороговое значение по Хеммингу на 1-ом этапе; Пороговое значение по Байесу на 2-ом этапе; Пороговое значение по Хеммингу на 2-ом этапе. В одном из наиболее простых вариантов построения логики принятия решений могут использоваться следующие решающие правила: Если пороговое значение по Хеммингу на этапе 1 превышено, пользователь попадает на этап 2; Если пороговое значение по Хеммингу на любом из этапов не превышено, данный этап повторяется; Если пороговое значение по Байесу на этапе 2 не превышено, пользователю будет отказано в доступе к системе; Если оба пороговых значения на этапе 2 превышены, пользователь получает доступ к системе.
Описанная логика работы системы принятия решений изображена на рисунке 4.2 в виде схемы алгоритма. Данная логика не содержит элементов обмана и имеет в своем арсенале лишь 2 сценария авторизации: разрешить или запретить доступ. Для создания существенно более гибкой системы принятия решений необходимо больше пороговых значений. Для этого нужно разделить каждое из существующих пороговых значений на несколько составляющих. Введем понятие порогового интервала. Пороговый интервал ограничивается максимальным и минимальным значениями величины, характеризующей соответствие предъявляемого биометрического образца эталону пользователя и разделен на пороговые участки, границами которых являются пороговые значения. Пороговый участок относит предъявляемый биометрический образец к определенной степени соответствия эталону пользователя и тем самым определяет возможный уровень допуска пользователя, проходящего процедуру идентификации, т.е. какой сценарий авторизации может получить пользователь, а также переходит ли пользователь на следующий этап процедуры принятия решений или реализует повторный ввод биометрических данных. Пороговые участки, принадлежащие одному пороговому интервалу должны полностью покрывать его (содержать все значения, принадлежащие данному интервалу) и не должны пересекаться (не должны содержать одинаковые значения).
Пусть пороговый интервал IMs является множеством пороговых участков UAMs, где M – метод принятия решений, относительно которого задается пороговый интервал/участок, s – этап прохождения процедуры идентификации, относительно которого задается пороговый интервал/участок, A – уровень возможного допуска пользователя (user ACCESS level), который дает степень соответствия предъявляемого биометрического образца эталону пользователя, относительно которой задается пороговый участок. В контексте данной работы имеется 2 этапа прохождения процедуры идентификации (s = {1,2}), 2 метода принятия решений (модифицированный метод последовательного применения формулы Байеса и мера Хемминга, M = {“B”,”H”}). Было принято решение определить 3 степени соответствия предъявляемого биометрического образца эталону пользователя и соответственно 3 уровня возможного допуска: 1. Биометрический образец не соответствует эталону – пользователь не может быть авторизован (NOT AUTHORIZED, в данном случае A=”N”); 2. Биометрический образец имеет сходство с эталоном, но ситуация спорная и информации недостаточно – пользователь может получить лишь ограниченную авторизацию (LIMITED AUTHORIZATION, в данном случае A=”L”); 3. Биометрический образец соответствует эталону пользователя -пользователь может быть авторизован и получить полные права своей учетной записи (FULL ACCESS, в данном случае 4=”F”). Вместо пороговых значений определим пороговые интервалы с заданным количеством пороговых участков: Пороговый интервал по Байесу на 1-ом этапе Іві = {UNBI;ULBI;UFBI}; Пороговый интервал по Хеммингу на 1-ом этапе Іні = {UNHI;ULHI;UFHI}; Пороговый интервал по Байесу на 2-ом этапе Ів2 = {UNB2;ULB2;UFB2}; Пороговый интервал по Хеммингу на 2-ом этапе Im = {UNH2;ULH2;UFH2} . Данные пороговые интервалы являются ключевыми критериями выбора сценария авторизации пользователя при построении логики принятия решений. В зависимости от значений расстояния Хемминга и апостериорной вероятности на последнем шаге по Байесу, полученных в результате прохождения пользователем процедуры идентификации, в обманной системе активируется тот или иной сценарий авторизации либо повторяется один из этапов идентификации пользователя. Использование пороговых интервалов позволяет построить существенно более гибкую систему принятия решений за счет введения множества пороговых значений. Логика работы системы принятия решений изображена на рисунке 4.3 в виде схемы алгоритма.