Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Метод и алгоритмы гарантированного обезличивания и реидентификации субъекта персональных данных в автоматизированных информационных системах Волокитина, Евгения Сергеевна

Метод и алгоритмы гарантированного обезличивания и реидентификации субъекта персональных данных в автоматизированных информационных системах
<
Метод и алгоритмы гарантированного обезличивания и реидентификации субъекта персональных данных в автоматизированных информационных системах Метод и алгоритмы гарантированного обезличивания и реидентификации субъекта персональных данных в автоматизированных информационных системах Метод и алгоритмы гарантированного обезличивания и реидентификации субъекта персональных данных в автоматизированных информационных системах Метод и алгоритмы гарантированного обезличивания и реидентификации субъекта персональных данных в автоматизированных информационных системах Метод и алгоритмы гарантированного обезличивания и реидентификации субъекта персональных данных в автоматизированных информационных системах Метод и алгоритмы гарантированного обезличивания и реидентификации субъекта персональных данных в автоматизированных информационных системах Метод и алгоритмы гарантированного обезличивания и реидентификации субъекта персональных данных в автоматизированных информационных системах Метод и алгоритмы гарантированного обезличивания и реидентификации субъекта персональных данных в автоматизированных информационных системах Метод и алгоритмы гарантированного обезличивания и реидентификации субъекта персональных данных в автоматизированных информационных системах Метод и алгоритмы гарантированного обезличивания и реидентификации субъекта персональных данных в автоматизированных информационных системах Метод и алгоритмы гарантированного обезличивания и реидентификации субъекта персональных данных в автоматизированных информационных системах Метод и алгоритмы гарантированного обезличивания и реидентификации субъекта персональных данных в автоматизированных информационных системах Метод и алгоритмы гарантированного обезличивания и реидентификации субъекта персональных данных в автоматизированных информационных системах Метод и алгоритмы гарантированного обезличивания и реидентификации субъекта персональных данных в автоматизированных информационных системах Метод и алгоритмы гарантированного обезличивания и реидентификации субъекта персональных данных в автоматизированных информационных системах
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Волокитина, Евгения Сергеевна. Метод и алгоритмы гарантированного обезличивания и реидентификации субъекта персональных данных в автоматизированных информационных системах : диссертация ... кандидата технических наук : 05.13.19 / Волокитина Евгения Сергеевна; [Место защиты: С.-Петерб. нац. исслед. ун-т информац. технологий, механики и оптики].- Курск, 2013.- 183 с.: ил. РГБ ОД, 61 13-5/1106

Содержание к диссертации

Введение

1. Актуальность решения задачи обезличивания персональных данных 13

1.1. Анализ объекта исследования и постановка задачи на разработку метода и алгоритмов обезличивания персональных данных 13

1.2. Состояние вопроса обезличивания персональных данных 18

1.3. Анализ существующих методов обезличивания персональных данных 20

1.4. Задачи исследования 28

1.5. Выводы по первой главе 29

2. Построение модели процесса обезличивания и проверки невозможности реидентификации субъекта по обезличенным персональным данным 30

2.1. Анализ существующих методов реидентификации по обезличенным персональным данным 30

2.2. Анализ существующих моделей информационной безопасности 33

2.3. Цели создания модели обезличивания персональных данных 34

2.4. Принципы построения модели обезличивания персональных данных 34

2.5. Основные компоненты математической модели обезличивания персональных данных 37

2.6. Модель процесса оценки невозможности повторной идентификации субъекта по обезличенным данным 41

2.7. Классификация объектов и субъектов модели гарантированного обезличивания персональных данных

2.7.1. Описание объектов модели гарантированного обезличивания ПДн 43

2.7.2. Описание субъектов модели гарантированного обезличивания ПДн

2.8. Выводы по второй главе 44

3. Разработка метода и алгоритмов обезличивания и последующей реидентификации персональных данных . 46

3.1. Математическая постановка задачи реидентификации субъекта по обезличенным персональным данным 46

3.2. Способ идентификации субъекта персональных данных по обезличенным данным 49

3.3. Обезличивание как метод защиты персональных данных 56

3.4. Разработка алгоритмов анонимизации базы данных с ПДн и реидентификации субъекта ПДн

3.4.1. Алгоритм с применением хеширования данных 61

3.4.2. Алгоритм реидентификации субъекта персональных данных 68

4.1. Выводы по третьей главе 69

4. Программная реализация метода и алгоритмов гарантированного обезличивания и реидентификации субъекта персональных данных 71

4.1. Требования к программной реализации 71

4.2. Описание разработанного программного обеспечения

4.2.1. Графический интерфейс программы 74

4.2.2. Логика работы программы 76

4.2.3. Процедура математической обработки 76

4.2.4. Описание работы программы 77

4.2. Выводы по четвертой главе 87

5. Экспериментальная проверка разработанного метода и алгоритмов обезличивания персональных данных. практические предложения по использованию метода в автоматизированных информационныхсистемах персональных данных 88

5.1. Методика разработки метода оценки эффективности применения алгоритмов обезличивания данных

5.1.1. Цели и основные принципы метода оценки эффективности применения алгоритмов обезличивания данных 88

5.1.2. Задача многомерной группировки для оценки эффективности 91

5.1.3. Метод подавления ячеек для оценки эффективности 98

5.2. Экспериментальная проверка эффективности разработанных алгоритмов 99

5.2.1. Описание спектральной модели SLM 99

5.2.2. Метод накопленных частот 101

5.3. Практическое использование результатов работы 103

5.3.1. Стоимость защиты информационной системы персональных данных 106

5.3.2. Стоимость защиты информационной системы персональных данных при применении обезличивания 110

5.4. Выводы по пятой главе 111

Выводы 113

Заключение 115

Список литературы

Введение к работе

Актуальность темы исследования

В настоящее время технические средства позволяют производить сбор, хранение, обработку, передачу и распространение, а также обеспечение информационной безопасности больших объемов социально значимых сведений, необходимых для эффективного функционирования государственных механизмов, протекания общественных процессов, а также реализации прав человека. Постоянно ускоряющаяся информатизация общества и активное развитие открытых информационных систем значительно упрощают утечку и иные формы незаконного доступа к персональным данным субъектов, что делает задачу обеспечения безопасности информации от внешних и внутренних угроз хищения, разрушения и/или модификации особо актуальной.

Одним из способов защиты, с точки зрения законодательства, является обезличивание, так как оно позволяет устранить объект атаки.

Применение метода обезличивания персональных данных (ПДн), то есть действий, в результате которых у оператора становится невозможным без использования дополнительной информации определить принадлежность персональных данных конкретному субъекту персональных данных, позволяет снизить требования к информационным системам персональных данных (ИСПДн), что ведет к снижению затрат и, с другой стороны, обеспечивает безопасность персональных данных и согласуется требованиями Федерального закона от 27 июля 2006 года №152-ФЗ «О персональных данных».

Согласно требованиям законодательства Российской Федерации по обезличенным данным должна отсутствовать возможность восстановить принадлежность персональных данных субъекту персональных данных без использования дополнительной информации, к которому они относились до обезличивания. Практика показывает, что удаление части персональных данных недостаточно для того, чтобы было невозможно идентифицировать личность человека. Иногда по оставшимся данным, используемым в совокупности, можно повторно определить человека, т.е. при обезличивании данных существует риск повторной идентификации (реидентифшацш).

Поэтому разработка практического метода и алгоритмов гарантированного обезличивания персональных данных, повышение их надежности и эффективности составляют актуальную проблему, имеющую большое научное и практическое значение.

На современном этапе развития автоматизированной обработки баз, содержащих персональные данные, существует объективное противоречие между необходимостью использования обезличивания персональных данных с целью снижения затрат на построение и защиту систем, содержащих персональные данные и возможностью реидентификации субъекта персональных данных по обезличенным данным.

Данное противоречие обуславливает актуальность темы диссертационного исследования и свидетельствует о необходимости комплексного и системного изучения норм права и современных технических возможностей, средств и систем обработки данных, касающихся института персональных данных, с целью разработки метода и алгоритмов обезличивания и повторной идентификации субъекта ПДн, позволяющих снизить требования по обеспечению безопасности персональных данных в соответствии с законодательством, а также выработки механизмов снижения затрат малого бизнеса и бюджета страны.

В связи с вышеизложенным, научно-техническая задача гарантированного обезличивания персональных данных и реиндентификации субъекта персональных данных в автоматизированных информационных системах.

Объектом исследования являются информационные системы обработки персональных данных и технологические процессы обработки персональных данных в них.

Предметом исследования являются метод и алгоритмы обезличивания персональных данных в автоматизированных информационных системах и реидентификации субъекта персональных данных после применения методов обезличивания.

Целью работы является разработка метода и алгоритма гарантированного обезличивания персональных данных и реидентификации субъекта персональных данных по обезличенным данным, позволяющего снизить финансовые затраты при обеспечении безопасности ПДн, обрабатываемых в информационных системах, на основе комплексного анализа существующих методов обезличивания персональных данных и проверка возможности реидентификации субъекта после их применения.

Поставленная научная задача предполагает решение следующих частных задач:

  1. анализ действующего законодательства для изучения состояния вопроса обезличивания персональных данных и установки границ требований к разрабатываемому методу и алгоритму обезличивания и реидентификации персональных данных, анализ научных предпосылок решения задачи гарантированного обезличивания персональных данных, путем разработки формальной постановки задачи обезличивания и последующей реидентификации субъекта персональных данных;

  2. разработка математической модели обезличивания персональных данных

  3. разработка модели процесса оценки невозможности повторной идентификации субъекта по обезличенным данным или реидентификации с целью оценить риски и достаточность набора идентификаторов и способов обезличивания;

  4. разработка способа идентификации субъекта персональных данных по обезличенным данным;

  1. разработка алгоритмов гарантированного обезличивания персональных данных и реидентификации субъекта персональных данных;

  2. разработка метода гарантированного обезличивания и реиндентификации субъекта персональных данных в автоматизированных информационных системах

  3. экспериментальная проверка разработанного метода и алгоритмов обезличивания персональных данных;

Методы и средства исследования

Основой для создания и исследования разработанных алгоритмов является использование общенаучных методов: анализа и синтеза, методов математической логики и теории алгоритмов, теории вероятностей и математической статистики, математического моделирования.

Обоснованность и достоверность научных положений, основанных на выводах и результатах диссертации, обеспечивается тщательными исследованиями в данной области и подтверждаются согласованностью результатов, полученных при компьютерной реализации разработанного метода и алгоритмов, апробацией основных теоретических положений диссертации в печатных трудах и докладах на международных научных конференциях, а также государственной регистрацией патента на полезную модель и государственной регистрацией программы для ЭВМ.

Научная новизна результатов работы и положения, выносимые на защиту:

  1. Математическая модель обезличивания персональных данных, обладающая свойством универсальности, поскольку может быть использована для обезличивания разных наборов данных, и являющаяся расширяемой за счёт возможности добавления новых параметров в модель обезличивания и отличающаяся от существующих моделей обезличивания персональных данных в информационных системах многофакторностью, что позволяет учитывать три основных параметра обезличивания -идентификаторы персональных данных в ИСПДн, метод обезличивания и его возможные результаты обезличивания. Разработанная модель позволяет более продуктивно исследовать особенности моделируемого процесса обезличивания, следовательно, более эффективно строить информационные системы, на основе ранее определённого перечня обрабатываемых идентификаторов (п. 13 паспорта 05.13.19).

  2. Модель процесса оценки возможности повторной идентификации субъекта по обезличенным данным или реидентификации позволяет оценить риски и достаточность набора идентификаторов и способов обезличивания для получения гарантированно обезличенных данных на основе ранее определённого набора данных, участвующих в обезличивании и способов деперсонализации (п. 10 паспорта 05.13.19).

  3. Способ идентификации субъекта персональных данных по обезличенным данным позволяет снизить вероятность использования чужого внешнего идентификатора, за счёт ввода в систему устройства санкционирования

доступа. В случае идентификации субъекта, для проверки
принадлежности внешнего носителя физическому лицу, отправляется код
подтверждения на устройство санкционирования доступа. Физическое
лицо вводит код подтверждения после этого система идентифицирует
субъекта персональных данных. Применение устройства

санкционирования доступа в системе позволяет достичь более высокого уровня надежности идентификации физического лица и понизить вероятность использования внешнего носителя несанкционированным пользователем системы (п. 15 паспорта 05.13.19).

  1. Алгоритм обезличивания персональных данных с применением хеширования данных и алгоритм реидентификации субъекта персональных данных, что позволяет эффективно проверить соответствие набора обезличенных данных и данных внешнего носителя, высчитав снова значение хеш-функции для данных, расположенных на внешнем носителе и в записи БД (п. 13 паспорта 05.13.19).

  2. Метод гарантированного обезличивания и реиндентификации субъекта персональных данных в автоматизированных информационных системах по обезличенным данным, благодаря чему достигается соблюдение требований к обеспечению уровня защищенности информационной системы, в которой находятся персональные данные и оптимизация затрат на построение системы защиты ИСПДн (п. 13 паспорта 05.13.19).

Практическая значимость

Построение формальной модели обезличивания и реидентификации субъекта по обезличенным персональным данным в автоматизированных информационных системах на основании предлагаемых метода и алгоритмов, позволяющих увеличить надежность процесса обезличивания персональных данных, в формировании практических выводов и рекомендаций по повышению безопасности обрабатываемых данных.

Разработанные в диссертации метод и алгоритмы гарантированного обезличивания и реидентификации субъекта персональных данных в автоматизированных информационных системах реализованы в виде программного обеспечения. Их программная реализация может быть использована при применении процедуры обезличивания различных загружаемых баз данных, содержащих персональные данные, как в государственных организациях, так и в коммерческих предприятиях и реидентификации субъекта персональных данных по обезличенным данным.

Реализация и внедрение.

Результаты диссертационного исследования внедрены в Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Юго-Западный государственный университет», ООО «ТЕХНО-ЩИТ» и ОБУ Информационно-аналитический центр Курской области с целью выполнения требований Федерального закона №152-ФЗ «О персональных данных» и обеспечения

конфиденциальности обрабатываемых персональных данных в автоматизированных системах персональных данных.

Соответствие паспорту специальности.

Анализ существующих методов обезличивания персональных данных

При обнаружении нарушений порядка предоставления персональных данных оператор незамедлительно приостанавливают предоставление персональных данных пользователям информационной системы до выявления причин нарушений и устранения этих причин.

По классификации категорий персональных данных, предложенной Федеральной службой по техническому и экспортному контролю (ФСТЭК) [11, 12] и Федеральной службой безопасности (ФСБ) [13, 14], обезличенные и общедоступные персональные данные относятся к самой низкой - четвертой категории, для которых нарушение безопасности обрабатываемых персональных данных не приводит к негативным последствиям для субъектов персональных данных [15]. А в соответствии с классификацией по уровням защищенности, приведенной в Постановлении Правительства РФ от 01.11.2012 №1119 «Об утверждении требований к защите персональных данных при их обработке в информационных системах персональных данных» к информационной системе, содержащей только обезличенные персональные данные, не предъявляются требования необходимости обеспечения уровня защищенности персональных данных при их обработке в информационной системе.

Поэтому актуальной проблемой остается вопрос минимизации затрат по защите персональных данных в соответствии с требованиями закона «О персональных данных». В ст. 7 Федерального закона «О персональных данных» №152-ФЗ поясняется понятие конфиденциальности персональных данных - операторы и иные лица, получившие доступ к персональным данным, обязаны не раскрывать третьим лицам и не распространять персональные данные без согласия субъекта персональных данных, если иное не предусмотрено федеральным законом. В данном определении конфиденциальность предусматривает явный запрет на передачу персональных данных третьим лицам без согласия физического лица, чьи данные передаются, и указана необходимость предотвращения разглашения какой-либо информации о субъекте персональных данных. Оператор должен на полностью обеспечить не распространение персональных данных.

Развитие правовых отношений [16] в сфере обработки персональных данных, а также повышенное внимание общества к проблемам защиты обрабатываемых операторами персональных данных заставили задуматься о необходимости совершенствования режима обработки и защиты персональных данных. Одним из путей стало использование операторами механизмов деперсонификации персональных данных - обезличивания (или анонимизации) и псевдонимизации.

Согласно требованиям законодательства Российской Федерации по обезличенным данным должно быть невозможно без использования дополнительной информации определить принадлежность персональных данных конкретному субъекту персональных данных. Практика показывает, что удаление части персональных данных может быть недостаточно для того, чтобы было невозможно идентифицировать личность человека. По оставшимся данным, используемым в совокупности возможно повторно определить человека, т.е. при обезличивании данных существует риск повторной идентификации или реидентификации [17].

В этой связи на современном этапе развития автоматизированной обработки баз, содержащих персональные данные существует объективное противоречие между необходимостью использования обезличивания персональных данных с целью снижения затрат на построение и защиту систем, содержащих персональные данные и возможностью реидентификации субъекта персональных данных.

Данное противоречие предопределяет актуальную задачу разработки метода и алгоритмов, реализующих гарантированное обезличивание и невозможность повторной идентификации субъекта персональных данных по набору обезличенных персональных данных. 1.2.Состояние вопроса обезличивания персональных данных

Впервые термин обезличивания или деперсонализации ввел Эдгар Дега в медицине. Еще в середине девятнадцатого века был актуален вопрос врачебной тайны и защиты информации о клиенте. И именно им в применении к данным о пациенте было предложено обезличивание данных.

В соответствии с Федеральным законом «О персональных данных» у оператора персональных данных есть право на обезличивание персональных данных. Требования к методам обезличивания в нормативных документах не закреплены. Отсюда следует, что способы и алгоритмы обезличивания персональных данных оператор, осуществляющий обработку ПДн, определяет самостоятельно.

Критерием качества обезличивания является возможность идентифицировать физическое лицо на основании данных, присутствующих в базе данных после обезличивания [18].

Например, согласно временному регламенту организации размещения сведений о находящихся в суде делах и текстов судебных актов в информационно-телекоммуникационной сети "Интернет" на официальном сайте суда общей юрисдикции, перечень персональных данных участников судебного процесса, подлежащих деперсонификации в тексте судебного акта, размещаемого на сайте [19]: любые фамилии, имена, отчества; дата и место рождения, место жительства или пребывания, номера телефонов, реквизиты паспорта или иного документа, удостоверяющего личность, идентификационный номер налогоплательщика, государственный регистрационный номер индивидуального предпринимателя, сведения о транспортных средствах (тип, марка, модель, год выпуска, государственные регистрационные номера и др.);

Модель процесса оценки невозможности повторной идентификации субъекта по обезличенным данным

Разработанная математическая модель обезличивания персональных данных обладает свойством универсальности, поскольку может быть использована для обезличивания разных наборов данных, и является расширяемой за счёт возможности добавления новых параметров в модель обезличивания. Модель предусматривает возможность как текстового, так и графического изображения в виде графа [45]. Модель может быть представлена в формализованном виде при помощи математического аппарата теории графов. В отличие от существующих моделей обезличивания персональных данных в информационных системах она характеризуется многофакторностью, что позволяет учитывать три основных параметра обезличивания - идентификаторы персональных данных в ИСПДн, метод обезличивания и его возможные последствия. Наличие всех этих свойств позволяет сделать вывод о том, что использование разработанных моделей позволяет более продуктивно исследовать особенности моделируемого процесса обезличивания, следовательно, более эффективно строить информационные системы, оптимизируя перечень обрабатываемых идентификаторов.

Модель процесса оценки невозможности повторной идентификации субъекта по обезличенным данным Модель процесса оценки [46] реидентификации разделяет процесс проведения оценки на следующие основные этапы: 1) этап формирования множества, элементами которого являются все идентификаторы, находящиеся в информационной системе персональных данных; 2) этап формирования множества, элементами которого являются идентификаторы, необходимые для обработки в информационной системе персональных данных; 3) этап определения набора идентификаторов, участвующих в процессе обезличивания данных; 4) этап формирования множества, элементами которого являются применяемые способы обезличивания; 5) этап оценки возможности реидентификации субъекта после процесса обезличивания; 6) этап оценки вероятности реидентификации субъекта по обезличенным данным; 7) этап расчета значения достаточности набора идентификаторов и способов обезличивания для получения гарантированно обезличенных данных. Все этапы процесса оценки невозможности реидентификации субъекта по обезличенным данным могут выполняться как самостоятельно оператором, так и при участии специалистов в области информационной безопасности.

На первых четырёх этапах формируются множества идентификаторов в ИСПДн, идентификаторов, необходимых для обработки данных, идентификаторов, задействованных в процессе обезличивания, а также множество способов обезличивания. После этого определяется логическая взаимосвязь между этими множествами, которая схематично изображена на рис. 2.2. Множество идентификаторов необходимых для обработки Множество способов обезличивания Множество всех идентификаторов ИСПДн Множество идентификаторов задействованныхв обезличивании Пятый этап возможности реидентификации субъекта после процесса обезличивания. Оценка возможности реидентификации проводится по отношению к совокупности оставшихся в ИСПДн идентификаторов персональных данных.

На шестом этапе оценки реидентификации определяется вероятность того, что в случае проведения попыток восстановления субъекта по обезличенным данным будут успешно использованы обезличенные данные. В этих целях для каждого идентификатора рассчитываются вероятности реидентификации субъекта при помощи метода экспертных оценок.

На седьмом этапе оценки рисков вычисляется значение достаточности набора идентификаторов и способов обезличивания для получения гарантированно обезличенных данных на основе ранее определённого набора данных, участвующих в обезличивании и способов деперсонализации.

Реализация разработанной модели позволяет изучить процесс обезличивания персональных данных в автоматизированных информационных системах персональных данных, необходимость применения которого обусловлена с одной стороны стремлением операторов снизить затраты на систему защиты персональных данных, а с другой позволяет обеспечить выполнение Федерального закона «О персональных данных» и не допустить утечку персональных данных и нарушение прав субъектов ПДн.

Идея модели Кларка-Вильсона о защищенности третьей стороны, поддерживающей всю систему безопасности в процессе работы системы, трансформирована в идею защиты автоматизированной среды, инфраструктуры информационных систем персональных данных в ней и самих ИС на этапе создания автоматизированной среды (АС) и последующей конфигурации инфраструктуры и самой системы до начала работы системы. Принципиальным отличием данной модели является применение системы гарантированного обезличивания персональных данных до установки системы. Другим отличием является то, что в качестве объекта обезличивания рассматривается не изолированная ИСПДн, а АС плюс метод обезличивания данных АС (МОД АС), плюс сама ИСПДн. Этап гарантированного обезличивания встраивается в начальный этап создания ИСПДн и системы, поэтому такая модель названа проектной моделью гарантированного обезличивания персональных данных (ПМГОД).

При построении этой модели защиты учитывается предположение о том, что понятие АС + МОД АС шире, чем понятие обезличенных персональных данных. Это приводит к необходимости включения в ПМГОД дополнительных параметров и показателей, отражающих невозможность последующей реидентификации субъекта персональных данных по обезличенной информации. К таковым относятся не только наличие обезличивания, но и качество обезличивания, надежность функционирования ИСПДн без возможности повторной идентификации и др.

Обезличивание как метод защиты персональных данных

Бывает, что злоумышленник не имеет достаточных знаний по стоящей перед ним проблеме. В подобной ситуации он начинает искать наиболее подходящие источники получения недостающих данных, информации или знаний. Это является задачей формирования исходного множества альтернатив. Здесь у него две принципиальные возможности: поискать необходимые сведения в одном из "объективных источников", где зафиксирован исторический опыт человечества, или обратиться к "субъективному источнику" - к знаниям, умениям и навыкам признанных специалистов своего дела (экспертам).

Эксперты выполняют информационную и аналитическую работу на основе своих личных представлений о решаемой задаче. В общем случае представления экспертов могут не совпадать с мнением злоумышленника. Такое расхождение во мнениях играет как отрицательную, так и положительную роль. С одной стороны, при несовпадении мнений затягивается процесс выработки решения, но, с другой - злоумышленник может критически осмыслить альтернативную точку зрения или скорректировать собственные предпочтения.

Чтобы повысить личную уверенность в том, что специалист дал ему правильный совет, злоумышленник может обратиться не к одному, а к нескольким экспертам. Поэтому будем различать индивидуальную (один эксперт) и групповую экспертизу.

Понятно, что если вопрос строго конфиденциальный, если время не ждет или если нет возможности спросить у нескольких специалистов ответа на интересующий вопрос, то индивидуальная экспертиза - наилучший способ получения информации. Но если перечисленные ограничения не являются существенными, то, несомненно, групповая экспертиза - в целом более достоверный и точный способ получения информации, ведь ее дают сразу несколько признанных знатоков своего дела.

В то же время в ходе групповой экспертизы возможно несовпадение субъективных суждений отдельных специалистов. Следовательно, предвидя такую возможность, требуется предпринимать специальные приемы обработки экспертной информации с целью повышения надежности результатов и данных.

Процесс поиска общедоступной информации стал более удобным, эффективным и даже творческим. Но в это же время какая-то информация и какие-то источники информации становились недоступными широкой общественности. Поэтому в том случае, когда злоумышленник в силу разных причин не может найти необходимую ему информацию в общедоступных источниках, ее приходится активно добывать. Чтобы добыть недоступную информацию, он может организовать и провести натурный или модельный эксперимент, может прибегнуть к помощи разведки или применить какие-то спецсредства.

Задача обеспечения защиты персональных данных при их обработке в информационных системах персональных данных организации-оператора возникает в случаях автоматизированной обработки данных о физических лицах [54, 55]. В законе в ч. 1 ст. 19 определено, что защита персональных данных является обязанностью оператора (лица, осуществляющего обработку персональных данных).

В организациях хранятся и обрабатываются персональные данные (ПДн) как минимум собственных сотрудников, а также данные учащихся (сферы образования), пациентов (сферы здравоохранения), клиентов.

На организации, обрабатывающие персональные данные, накладываются требования по обеспечению безопасности этих данных и исполнения ФЗ «О персональных данных». В случае применения метода обезличивания мы снижаем требования к обеспечению уровня защищенности информационной системы, в которой находятся персональные данные и тем самым оптимизируем затраты на построение системы защиты информационной системы персональных данных [56].

Метод обезличивания заключается в следующей последовательности операций, производимых с информационной системой персональных данных:

1. У организации находится база данных, включающая в перечне идентификаторов персональные данные. Оператор, желая снизить уровень конфиденциальности системы и требования к ее защите, принимает решение использовать обезличивание персональных данных.

2. Предварительно оператор создает автономное рабочее место (не подключенное к локальным сетям или сетям международного информационного обмена), на котором сохраняется исходная, не обезличенная БД с целью восстановления Данных о субъекте персональных данных, в случае если он утеряет свой внешний носитель с однозначно идентифицирующими данными.

3. Для этого оператор определяет однозначно идентифицирующие данные субъекта персональных данных. Однозначно идентифицирующими данными могут быть как отдельные поля, так и совокупность нескольких полей.

Графический интерфейс программы

Индивидуальные данные - это набор записей о конкретном субъекте персональных данных. Каждому субъекту соответствует запись или набор записей. Несмотря на исключение прямых идентификаторов, таких как фамилии, имени, отчества, паспортных данных, ИНН, адрес и т.д., идентификация субъекта может быть из-за уникальности набора оставшихся косвенных идентификаторов (обезличенных данных).

Анализ исходных данных на предмет наличия выделяющихся наблюдений сводится к решению задачи многомерной группировки, т.е. к выделению сгущений точек (объектов) в и-мерном пространстве.

Характер последующего использования суррогатных данных может обусловливать, помимо общих требований к качеству данных, некоторые специальные требования. Примерами таких требований могут быть: сохранение сводных значений для некоторых групп объектов, максимально возможное сохранение дисперсии отдельных показателей и т.п. Необходимо заранее сформулировать все возможные требования, чтобы учесть их при выборе метода микроагрегирования [84, 85, 86], либо разработать специальную процедуру корректировки суррогатных данных.

В зависимости от характера информации, содержащейся в совокупности отобранных показателей, к уровню безопасности защиты данных могут предъявляться различные требования. Помимо выбора метода микроагрегирования, обеспечивающего наибольшую герметичность, следует правильно подобрать значение к - числа объектов в группе. Чем больше к, тем надежнее защита, но при этом ниже уровень качества суррогатных данных.

Следующим этапом работы является непосредственно микроагрегирование. Предлагается произвести микроагрегирование одновременно несколькими способами, а затем путем оценки качества суррогатных данных, отобрать метод, показавший наилучший результат. После того, как получена оценка качества суррогатных данных, представляется необходимым составить краткое описание основных характеристик предлагаемого пользователю массива данных: — указать, на основе каких данных было произведено микроагрегирование: полных или за исключением выделяющихся наблюдений; — указать, каким максимально допустимым величинам ошибок микроагрегирования в оценке параметров исходной совокупности удовлетворяют полученные данные; — подтвердить соблюдение специальных требований к суррогатным данным. Описанный подход коротко может быть представлен в виде следующей последовательности действий: I этап. Формирование состава показателей и объектов для включения в массив защищенных данных: — анонимизация, т.е. удаление прямых идентификаторов объектов; — формирование состава косвенных идентификаторов объектов; — отбор косвенных идентификаторов объектов, наиболее важных с точки зрения последующего использования данных; — применение метода изменения классификационной схемы к идентификаторам, имеющим большой диапазон значений, для предупреждения возможного вскрытия конфиденциальных данных из-за наличия в массиве данных уникальных комбинаций косвенных идентификаторов; — отбор количественных показателей, наиболее значимых с точки зрения последующего использования защищенных данных; — определение наличия выделяющихся наблюдений и принятие решения об их исключении из массива данных в случае необходимости обеспечения дополнительной защиты, а также в зависимости от характера последующего использования суррогатных данных. II этап. Микроагрегирование данных: — определение числа объектов в группе при микроагрегировании в зависимости от требований к уровню безопасности защиты данных; — реализация процедуры микроагрегирования различными методами. III этап. Оценка качества результата: — оценка качества суррогатных данных, в том числе с позиций удовлетворения специальным требованиям, и выбор наиболее эффективного метода микроагрегирования; — выработка рекомендаций по применению методов статистического анализа к полученным суррогатным данным.

Данный подход к применению методов микроагрегирования был использован для защиты реальных данным по научным организациям России. Работа проводилась с использованием специально разработанного автором программного комплекса для защиты индивидуальных статистических данных методами микроагрегирования.

В рамках решения данной задачи удовлетворяются следующие основные требования: — возможность формировать массив исходных данных из нескольких источников; — возможность выбора метода микроагрегирования и показателей, подлежащих микроагрегированию, а также указания значений — дополнительных атрибутов, необходимых для соответствующих методов микроагрегирования, в том числе: — указание имени поля, в котором хранится первая главная компонента, рассчитанная внешними средствами для данного набора показателей (при использовании метода ранжирования по первой главной компоненте); — выбор показателя, по которому будет производиться ранжирование (при использовании метода ранжирования по одной переменной); — выбор качественных атрибутов групп объектов, для которых в суррогатных данных должны быть сохранены сводные значения (при использовании метода индивидуального ранжирования с компенсацией); — задание числа объектов в группе при микроагрегировании; — возможность оценки качества полученных суррогатных данных; — открытость системы для включения новых методов микроагрегирования. Алгоритм обработки данных основан на реляционном представлении данных [87, 88, 89], которое используется для хранения индивидуальных данных. Она охватывает три основных этапа обработки данных. Рассмотрим подробно каждый из них:

Формирование запроса. Лучшим решением для реализации процедуры формирования исходного файла данных, отобранных объектов науки с набором показателей, подлежащих микроагрегированию, которые в общем случае могут храниться в одной или нескольких таблицах (файлах данных), расположенных на одном или нескольких компьютерах, входящих в состав локальной вычислительной сети является использование языка запросов SQL (Structured Query Language). Язык SQL является общепризнанным стандартом языков запросов для работы с реляционными базами данных как для архитектуры файл-сервер, так и клиент-сервер, а также в условиях применения управления распределенными базами данных. Этот язык использует ограниченный набор команд, но в то же время является реляционно полным языком. Он предназначен для работы с базами данных, создания запросов выборки данных, выполнения вычислений, обеспечения их целостности. Язык SQL направлен на получение готовых таблиц с результатами запроса.

Похожие диссертации на Метод и алгоритмы гарантированного обезличивания и реидентификации субъекта персональных данных в автоматизированных информационных системах