Введение к работе
Актуальность исследования. Активное внедрение информационных технологий для повышения эффективности управления привело к формированию больших объемов собранных данных. Количественный рост информации в настоящее время приводит к накоплению качественно новых знаний. Традиционные методы обработки накопленных данных, не дают эффективных подходов для ее интеллектуального анализа, в отличие от методов нового и активно развивающегося научного направления Data Mining, нацеленного на поиск ранее неизвестных знаний.
Особый интерес в качестве объекта поиска новых знаний представляет персонифицированная информация или персональные данные (ПДн), т.е. цифровая информация, генерируемая или так или иначе связанная с конкретной личностью. Значительная потребность в использовании этой информации и ее анализе, в том числе методами Data Mining, в настоящее время испытывается в двух сферах: в бизнес-аналитике и сфере государственных услуг (в связи с активным переводом услуг населения в электронный формат: единая карта гражданина РФ, электронные очереди, электронное правительство и т.п.).
В рамках указанной обработки персонифицированной информации все острее проявляются противоречия требований интеллектуального анализа данных и сохранения приватности личности при использовании ее данных. Так 34,7% организаций, обрабатывающих персональные данные, в качестве основного препятствия к использованию их в качестве объекта исследования называют неясность положений Федерального закона №152 «О персональных данных». В частности, Законодательно установлено, но не регламентировано требование проведения предварительной процедуры обезличивания персональных данных перед их исследованием, что значительно препятствует полноценному и безопасному их использованию в качестве объекта поиска новых знаний.
Направлением Data Mining занимались и продолжают заниматься многие российские и зарубежные ученые: Г. Пиатецкий-Шапиро, А.В. Дюк, И.А. Чубуков, H. Edelstein и др. Использование методов Data Mining применительно к анализу персонифицированной информации без угрозы приватности личности рассмотрены в работах: P.Samarati, G.Aggarwal, RJ Bayardo и др. Наконец, вопросами обезличивания персональных данных в нашей стране посвящены работы: С.Д. Рябко, А.Лукацкого, Е.А. Саксонова, Р.В.Шередина, Е.Царева и др.
Диссертационная работа посвящена разработке альтернативной модели обезличивания персональных данных, позволяющей подготовить данные к анализу методами Data Mining и решить задачу безопасного использования данных по достижению первичных целей их обработки. В работе проверяется возможность использования некоторых методов аппарата анализа временных рядов на базах с персонифицированной информацией и предлагаются усовершенствования существующего метода. Кроме того, предложена новая процедура защитного преобразования данных, зависящая от параметров конкретной среды ее реализации, для повышения безопасности ее применения. Указанные мероприятия должны способствовать развитию эффективной и в то же время безопасной обработки ПДн, чем и обосновывается актуальность темы диссертационного исследования.
Объект исследования – базы данных с персонифицированной информацией жителей РФ, находящиеся в свободном доступе в сети Интернет.
Предмет исследования. Методы, модели и алгоритмы обработки больших наборов персонифицированных данных.
Целью диссертационного исследования является повышение эффективности анализа, поиска новых знаний и безопасной обработки на основе обезличивания персонифицированной информации. Для достижения поставленной цели необходимо решить следующие задачи:
-
Разработать способы оценки свойств персонифицированной информации на основе построения их классификационной структуры.
-
Модифицировать метод SSA-Гусеница для решения задач Data Mining применительно к персональным данным.
-
Построить модель и алгоритм обезличивания данных, позволяющие при необходимости восстанавливать исходные данные.
-
Разработать алгоритм защитного преобразования, зависящий от параметров конкретной операционной среды обработки.
Методы исследования. В процессе работы использовались методы системного анализа, математического моделирования, теории вероятностей, математической статистики, графов.
Достоверность и обоснованность подтверждена результатами компьютерных экспериментов и внедрением работы в ООО «Новая Клиника» (г. Астрахань).
Научная новизна диссертационного исследования:
-
Сформирована классификационная структура свойств персональных данных вместе со способами оценки этих свойств, которые позволяют повысить степень эффективности и безопасности обработки данных в процессе поиска новых знаний.
-
Модифицирован метод SSA-Гусеница применительно к анализу данных, не являющихся временными рядами, а также разработана процедура эффективного выбора длины окна, позволяющая результативнее определять характеристики регулярных составляющих в базах данных.
-
Предложена новая модель обезличивания, усовершенствующая модель «k-анонимности» и обеспечивающая более высокий уровень функциональности, по сравнению с последней, за счет реализации возможности восстановления обезличенной информации.
-
Разработан новый алгоритм защитного преобразования данных, который обеспечивает адаптивную связь процесса обезличивания с параметрами конкретной операционной среды.
Практическая значимость.
-
Полученные в работе количественные оценки свойств баз данных с персонифицированной информацией могут быть использованы для прогнозирования характеристик результатов идентификации личности в произвольных базах персональных данных.
-
Модифицированный метод SSA-Гусеница позволяет применять различные варианты этого метода для анализа данных, не являющихся временными рядами.
-
Разработанный в работе алгоритм обезличивания данных может быть использован для безопасного хранения и обработки персональных данных в коммерческих целях.
Апробация работы. Основные положения и отдельные результаты диссертации докладывались и обсуждались на Международной научно-технической конференции «Современные информационные технологии – 2011» (Пенза, 2011), Международной конференции по информационной безопасности «Info Security Russia» (Москва, 2010), I международной научно-практической конференции «Эволюция системы научных коммуникаций Ассоциации университетов Прикаспийских государств» (Астрахань, 2008), Международной отраслевой научной конференции профессорско-преподавательского состава Астраханского государственного технического университета (Астрахань, 2010).
Публикации. Основные результаты диссертационного исследования опубликованы в 6 печатных работах: 3 статьях в журналах из списка, рекомендованного ВАК РФ, 3 материалах и трудах конференций. Все работы опубликованы без соавторов.
Структура и объем работы. Работа состоит из введения, 3 глав, заключения, списка литературы из 106 наименований и 5 приложений. Основная часть работы изложена на 117 страницах машинописного текста, содержит 17 таблиц и 45 рисунков.