Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методика идентификации Интернет-пользователя на основе стилистических и лингвистических характеристик коротких электронных сообщений Воробьева Алиса Андреевна

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Воробьева Алиса Андреевна. Методика идентификации Интернет-пользователя на основе стилистических и лингвистических характеристик коротких электронных сообщений: диссертация ... кандидата Технических наук: 05.13.19 / Воробьева Алиса Андреевна;[Место защиты: ФГАОУВО Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики], 2017.- 154 с.

Содержание к диссертации

Введение

Глава 1. Анализ состояния проблемы идентификации Интернет-пользователей при информационном обмене электронными сообщениями 18

1.1. Современное состояние проблемы идентификации Интернет-пользователей при информационном обмене электронными сообщениями 18

1.2. Модель угроз безопасности информационных процессов при информационном обмене электронными сообщениями с использованием Интернет-ресурсов 21

1.2.1. Модель вероятного нарушителя информационной безопасности 23

1.3. Существующие методы идентификации Интернет-пользователей при информационном обмене электронными сообщениями 26

1.3.1. Методы идентификации, основанные на данных о технических средствах рабочей станции пользователя - программном и аппаратном окружении 26

1.3.2. Методы идентификации, основанные на данных о поведении пользователя на веб-портале, поиск шаблонов поведения пользователя 29

1.3.3. Методы лингвистической идентификации на основе стилистических характеристик текстов электронных сообщений

1.4. Основные особенности задачи по идентификации на основе стилистических характеристик текстов электронных сообщений 44

1.5. Постановка задачи по идентификации Интернет-пользователей по лингвистическим и стилистическим характеристикам электронных сообщений

Выводы по главе 1

Глава 2. Разработка методики идентификации Интернет-пользователя на основе стилистических и лингвистических характеристик коротких электронных сообщений 51

2.1. Анализ структуры и характеристик электронных сообщений Интернет порталов 51

2.1.1. Корпус электронных сообщений 51

2.1.2. Анализ особенностей текстов электронной коммуникации и характеристик электронных сообщений на русском языке 54

2.2. Комплексная многоуровневая модель представления Интернет пользователя (КММПП) 58

2.2.1. Модель представления электронных сообщений 59

2.2.2. Идентификационные признаки 59

2.2.3. Модель представления Интернет-пользователя 67

2.3. Метод формирования динамического стилистического профиля

пользователя (ДСПП), обладающий наибольшей различающей способностью и

позволяющий повысить точность идентификации 68

2.3.1. Формирование динамического стилистического профиля пользователя 68

2.3.2. Критерии отбора идентификационных признаков

2.3.3. Алгоритм отбора идентификационных признаков на основании расчета расстояния по значению признака до k-ближайших соседей 74

2.3.4. Обоснование использования метода отбора на основании расчета расстояния по значению признака до k-ближайших соседей для формирования ДСПП 76

2.4. Метод сравнения ДСПП с эталонными ДСПП потенциальных пользователей на основе метода Случайного Леса (Random Forest, RF), отличающийся от известных предварительной дискретизацией идентификационных признаков из ДСПП 78

2.4.1. Оценка эффективности различных методов сравнения ДСПП 81

2.4.2. Использование метода случайный лес для идентификации пользователя на основе стилистических характеристик электронных текстов 83

2.4.3. Дискретизация непрерывных признаков 89

2.5. Методика идентификации Интернет-пользователя на основе стилистических и лингвистических характеристик коротких электронных сообщений 91

2.5.1. Подготовительный этап методики идентификации Интернет-пользователя: Сбор и формирование базы характеристик потенциальных пользователей, содержащей эталонные шаблоны пользователей 92

2.5.2. Основные этапы методики идентификации Интернет-пользователя... 96

2.5.3. Оценка точности идентификации пользователя 100

2.5.4. Ограничения методики 101

Выводы по главе 2 101

Глава 3. Проведение экспериментов и оценка результатов 103

3.1. Входные данные экспериментов 103

3.2. Точность идентификации при использовании разработанной комплексной многоуровневой модели представления пользователя (КММПП) 106

3.3. Точность идентификации при использовании метода формирования динамических стилистических профилей пользователей (ДСПП) 111

3.4. Точность идентификации с использованием различных методов сравнения ДСПП при различном количестве текстов и различном уровне несбалансированности обучающей выборки 114

3.5. Повышение точности идентификации путем предварительной дискретизацией идентификационных признаков из ДСПП 116

3.6. Определение итоговой точности идентификации на основе предложенной методики 120

3.7. Использование результатов исследования для повышения безопасности информационных процессов в сети Интернет 124

Выводы по главе 3 127

Заключение 130

Список сокращений и условных обозначений 132

Список использованной литературы

Введение к работе

Актуальность. Одной из базовых задач обеспечения информационной безопасности является идентификация и аутентификация субъектов информационных процессов, протекающих в такой среде как Интернет и реализуемых с помощью коммуникационных средств Интернет-ресурсов (вебсайтов, социальных сетей, форумов). Идентификация является основой систем разграничения доступа, и в том числе к Интернет-ресурсам или отдельным сервисам.

Под Интернет-пользователем понимается конкретное физическое лицо, которое своими действиями с ресурсами портала обнаруживает некоторые признаки (характеристики пользователя). На сегодняшний день существуют три основные группы методов идентификации пользователя в Интернет: по техническим характеристикам рабочей станции пользователя, по «поведенческим характеристикам» пользователя на веб-портале, по лингвистическим или стилистическим характеристикам электронных сообщений, размещаемых пользователем.

Первая группа методов является хорошо проработанной и наиболее распространенной. Идентификация производится по характеристикам аппаратного и программного окружения рабочей станции пользователя, с которой осуществляется доступ к Интернет порталу. К достоинствам первой группы методов можно отнести достаточно высокую точность идентификации, однако, она обладает одним существенным недостатком или ограничением: производится идентификация рабочей станции, с которой осуществляется доступ, а не конкретного пользователя этот доступ осуществляющего.

Одним из наиболее перспективных направлений развития технологий идентификации является биометрическая идентификация. К нему относятся методы идентификации по «поведенческим характеристикам» пользователя на веб-портале, достаточно распространённые на сегодняшний день. Данные методы основываются на анализе «клавиатурного подчерка» или поведения пользователя на веб-портале. Эта группа включает в себя динамические методы идентификации, где в качестве идентификатора используются действия, производимые пользователем на веб-странице, либо динамика набора сообщений на клавиатуре. Применение данного подхода позволяет произвести идентификации пользователя, а не его рабочей станции. Однако эти методы обладают несколькими недостатками и ограничениями: поведенческие характеристики пользователя на веб-портале обладает достаточно низкой различающей способностью, при идентификации по

клавиатурному подчерку сбор характеристик может производиться на стороне пользователя, что определяет трудности реализации.

Идентификация пользователя по характерным свойствам и особенностям его стиля письменной речи, т.е. по лингвистическим или стилистическим характеристикам электронных сообщений, также является одной из разновидностей биометрической идентификации. Каждый человек имеет свой стиль письма, который составляет своеобразный уникальный «отпечаток» - набор характеристик, позволяющих его идентифицировать.

Предыдущие исследования по лингвистической идентификации относятся к двум группам: это методы идентификации автора литературных произведений и методы идентификации пользователей по коротким электронным сообщениям на иностранных языках (работы Mendenhall Т.С., Stamatatos E., Diederich J.J.,V. Keselj, P. Juola, F. Peng, O. de Vel, J. Diederich, M. Koppel, J. Schler, S. Argamon).

Существует ряд ограничений, которые не позволяют применить данные методы для идентификации по коротким электронным сообщениям на русском языке. При информационном обмене в Интернет в основном используются короткие сообщения. Слишком короткая длина делает невозможным применение к ним методик идентификации автора, разработанных для литературных текстов и дающих на них стабильные положительные результаты. Большинство работ зарубежных авторов исследуют проблему идентификации пользователя по сообщениям на иностранных языках, в них не учитываются особенности кириллических текстов. Что делает затруднительным их применение для идентификации пользователя русскоязычного Интернета.

Существенный вклад в проблематику данной области внесли работы Морозова Н.А., Маркова А.А., Фоменко В.П. и Фоменко Т.Г., Хетсо Г., Хмелева Д.В., Романова А.С., Лебедева И.С. Однако представленные в них методы разработаны для сообщений более 20000 символов, что существенно превышает среднюю длину сообщений в Интернете. Также в них не учитывается неравномерное распределение количества сообщений по пользователям. Однако, недостаточное количество текстов обучающей выборки одного пользователя по сравнению с другими, не должно снижать вероятность того, что данный пользователь будет верно идентифицирован.

Таким образом, существующие методы идентификации Интернет-пользователей при информационном обмене обладают рядом ограничений и достаточно низкой точностью. Учитывая широкое распространение средств массовой коммуникации и увеличение количества площадок информационного обмена, необходимо существенное повышение качества

идентификации. Современное состояние науки и техники позволяет повысить точность идентификации за счет использования лингвистических и стилистических характеристик электронных сообщений. Указанные противоречия обуславливает актуальность данного исследования.

Целью работы является повышение точности идентификации Интернет-пользователей, субъектов информационных процессов, размещающих короткие электронные сообщения на русском языке, за счет использования лингвистических и стилистических характеристик электронных сообщений.

Научная задача состоит в разработке и обосновании научно-методического аппарата по идентификации Интернет-пользователя, размещающего короткие электронные сообщения на русском языке, обеспечивающего заданную точность идентификации при условии ограниченной длины сообщений, их малого количества и несбалансированности обучающей выборки.

Для достижения указанной цели работы были решены следующие частные задачи:

  1. Исследование и анализ существующих методов идентификации Интернет-пользователей при информационном обмене, используемых отечественными и зарубежными исследователями.

  2. Разработка модели представления пользователя, включающей лингвистические и стилистические характеристики электронных сообщений.

  3. Разработка метода сравнения модели представления пользователя с эталонами, обеспечивающего более высокую точность идентификации.

  4. Разработка методики идентификации Интернет-пользователя на основе стилистических и лингвистических характеристик коротких электронных сообщений, позволяющая обеспечить более высокую точность идентификации для сообщений на русском языке длиной до 5000 символов.

  5. Проведение вычислительного эксперимента и обоснование применимости разработанной модели представления пользователя, методов и методики. В соответствии с заявленными целями и задачами работы объектом

исследования являются технологии идентификации и аутентификации пользователей и субъектов информационных процессов, а предметом исследования методы идентификации Интернет-пользователя на основе стилистических и лингвистических характеристик электронных сообщений. На защиту выносятся следующие основные результаты:

  1. Комплексная многоуровневая модель представления пользователя (КММПП) и метод формирования динамического стилистического профиля пользователя (ДСПП), отличающиеся от известных использованием ряда уникальных характеристик электронных текстовых сообщений и динамическим вычислением и отбором наиболее информативных признаков из КММПП для каждого набора потенциальных пользователей.

  2. Метод сравнения ДСПП с эталонными ДСПП потенциальных пользователей на основе метода Случайного Леса (Random Forest, RF), отличающийся от известных предварительной дискретизацией идентификационных признаков из ДСПП и позволяющий обеспечить более высокую точность идентификации при меньшей длине текстов, в условиях их малого количества и несбалансированности обучающей выборки.

  3. Методика идентификации Интернет-пользователя по разработанной КММПП, включающая разработанные методы формирования и сравнения ДСПП, позволяющая обеспечить более высокую точность идентификации пользователей по характеристикам электронных текстовых сообщений на русском языке длиной менее 5000 символов. Научную новизну диссертации составляют:

  1. Комплексная многоуровневая модель представления пользователя в виде набора числовых признаков, отличающаяся от известных использованием уникальной комбинации стилистических, структурных, лексических характеристик и мета-характеристик сообщений, ряд из которых для задачи идентификации Интернет-пользователя не применялся

  2. Метод формирования динамического стилистического профиля пользователя, обладающего наибольшей различающей способностью на данной группе пользователей, отличающиеся от известных динамическим вычислением и отбором наиболее информативных признаков из КММПП для каждого набора потенциальных пользователей на основе вычисления расстояния по значению признака до k-ближайших соседей. Подобный подход ранее не применялся при решении задачи идентификации пользователей.

  3. Метод идентификации пользователя, в отличие от известных основанный на применении метода RF и включающий предварительную дискретизацию идентификационных признаков из динамического профиля пользователя, обладающий более высокими показателями точности идентификации.

4. Разработанная новая методика идентификации пользователя, основанная на стилистических или лингвистических характеристиках коротких электронных сообщений на русском языке, в которой впервые для целей идентификации пользователя применяется ансамбль случайных деревьев решений, а также используется оригинальный метод формирования динамического идентификационного набора признаков пользователя.

Обоснованность и достоверность полученных результатов достигается использованием апробированного математического аппарата и подтверждается проведением сравнительного анализа с существующими методами; серией практических экспериментов по идентификации Интернет-пользователя, размещающего электронные сообщения; согласованностью результатов, полученных при теоретическом исследовании с результатами проведенных экспериментов, а также непротиворечивостью достигнутых результатов и результатов работ других авторов; практической апробацией в деятельности научно-производственных организаций и одобрением на научно-технических конференциях.

Практическая значимость работы состоит в следующих аспектах:

  1. Методика идентификации пользователя позволяет осуществлять идентификацию и аутентификацию Интернет-пользователей, может применяться как часть системы разграничения доступа к сервисам публикации электронных сообщений. Также разработанные методы и модель могут применяться для выявления факта нарушения целостности электронного сообщения (подмены авторства) путем подтверждения или опровержения подлинности авторства.

  2. На основе предложенной методики разработан программный комплекс «Система идентификации пользователя-автора анонимных сообщений» позволяющий производить идентификацию пользователя, являющегося автором электронного сообщения. Программный комплекс предназначен для решения следующих задач: сбор и сохранение сообщений пользователей в базе данных (БД), анализ сообщений пользователей с целью формирования КММПП и сохранение их в БД эталонных КММПП, идентификация пользователя по поступившему сообщению.

  3. Предложенная методика позволяет производить идентификацию Интернет-пользователя с средней точностью 79,7% по электронным текстовым сообщениям длиной до 5000 символов, что примерно на 32,7% выше, чем существующие статистические методы.

4. Предложенная методика, программный комплекс и база данных могут применяться для решения задачи идентификации пользователей в сети Интернет в таких областях как: обеспечение ИБ, аутентичности и целостности информации, противодействие терроризму в Интернете, компьютерная криминалистика.

Методы исследования. Для решения задач, сформулированных в работе, использовалась теория информационной безопасности и теория информации, методы математической статистики, искусственного интеллекта, вычислительного эксперимента.

При решении частных задач использовались теоретические положения теории вероятности, математической статистики, теории ИБ и методов защиты информации.

Реализация результатов. Результаты диссертационной работы частично реализованы в рамках НИР научно-исследовательской работы «Идентификация автора анонимных сообщений Интернет порталов на русском языке», реализуемой в рамках программы «Инфотекс Академия 2014» (договор № 2-НИ от «01» мая 2014 г.). Полученные методы также частично реализованы в рамках НИР, выполняемых НИУ ИТМО по заказу Министерства образования и науки. Апробация работы.

Основные результаты работы представлялись на следующих конференциях:

  1. 18th FRUCT Conference. Санкт-Петербург.

  2. First Information Security and Protection of Information Technologies (ISPIT) conference. Санкт-Петербург.

  3. VIII Всероссийская межвузовская конференция молодых ученых. Санкт-Петербург.

  4. IX Санкт-Петербургская межрегиональная конференция «Информационная безопасность регионов России (ИБРР-2015)».

  5. Межвузовская научно-практическая конференция "Актуальные проблемы инфосферы. Инфокоммуникации. Геоинформационные технологии. Информационная безопасность".

  6. III Всероссийский конгресс молодых ученых. II межвузовская конференция "Актуальные проблемы инфосферы. Интеллектуальная собственность."

  7. IV Всероссийский конгресс молодых ученых.

  8. XLII научная и учебно-методическая конференция НИУ ИТМО.

Публикации.

По результатам диссертационного исследования автором опубликовано 9 работ, из них статей в журналах, рекомендованных ВАК РФ – 5, Scopus - 1.

Получены свидетельства о регистрации программ для ЭВМ (средства лингвистического анализа) – 4.

Личный вклад автора.

Результаты диссертационной работы получены автором самостоятельно. Автором проведен анализ существующих методов идентификации Интернет-пользователей, размещающих электронные сообщения. Проанализированы условия и ограничения применения каждого из методов. Проведен анализ структуры и характеристик электронных сообщений, рассмотрена возможность их применения для решения задачи идентификации пользователей.

Структура и объем работы. Диссертационная работа содержит введение, 3 раздела, заключение, список литературы, приложения. Объем работы составляет 153 страниц. Работа включает 35 рисунков, 17 таблиц.

Модель вероятного нарушителя информационной безопасности

По отношению к Интернет-ресурсу все рассматриваемые нарушители являются внутренними, т.к. они имеют некоторые права доступа на указанном Интернет-ресурсе.

Возможности нарушителя существенным образом зависят от действующих на Интернет-ресурсе прав допуска к распространению электронных сообщений и мер, направленных на предотвращение и пресечение несанкционированного допуска.

Однако, на большинстве ресурсов возможен анонимный допуск, либо допуск после прохождения процедуры парольной идентификации, часто являющейся недостаточной. К внутренним нарушителям могут относиться: - Пользователи, имеющие санкционированный доступ к средствам Интернет-ресурса (категория I); - Анонимные пользователи (категория II); - Пользователи, маскирующиеся под легальных (категория III); - Пользователи, создающие множество идентификаторов (категория IV). Лица всех категории имеют доступ к использованию штатных средств

Интернет-ресурса для распространения электронных текстовых сообщений, могут быть знакомы с применяемыми процедурами идентификации и аутентификации, структурой системы разграничения доступа.

Пользователи всех категорий потенциально могут реализовывать угрозы ИБ, используя возможности по доступу к средствам распространения электронных текстовых сообщений, по несанкционированному доступу и уязвимости системы идентификации и разграничения доступа. Предполагается, что лица всех категорий могут относиться к вероятным нарушителям, лица III и IV категорий относятся к нарушителям.

Предположения об имеющейся у нарушителя информации об объектах реализации угроз. Считается, что нарушитель обладает полной исчерпывающей информацией о штатных возможностях средств клиентской части Интернет-ресурса.

В частности, нарушитель может иметь: - сведения об информационных ресурсах Интернет-ресурса: порядок и правила создания, хранения, распространения и передачи информации, структура и свойства информационных потоков; - данные об уязвимостях, включая данные о недокументированных (недекларированных) возможностях программных средств клиентской части Интернет-ресурса; - данные о реализованных процедурах идентификации и аутентификации; - информацию о возможностях и способах реализации угроз через уязвимости системы идентификации/аутентификации. - парольную и аутентифицирующую информацию, используемой на Интернет-ресурсе. В связи с изложенным, предполагается, что вероятные нарушители обладают всей информацией, необходимой для подготовки и реализации угроз, в том числе к парольной и аутентифицирующей информации.

Основные способы реализации угроз ИБ. Возможны следующие способы реализации угроз:

1) маскировка под некоторого легального пользователя Интернет-ресурса путем предъявления идентификатора легального пользователя (для получения могут быть использованы методы социальной инженерии, кража оборудования и использование утерянных, либо оставленных без присмотра устройств, содержащих сохраненную идентифицирующую и аутентифицирующую информацию, а также кража ключевой информации и атрибутов доступа, визуальное наблюдение);

2) создание одним пользователем множества идентификаторов или множественный (повторный) анонимный доступ для размещения нелегальной информации.

Так как не предоставляется возможным контролировать какое физическое лицо осуществляет доступ по предъявленной идентифицирующей и аутентифицирующей информации, необходимо производить дополнительный контроль непосредственно перед распространением некоторого электронного сообщения.

Для противодействия выявленным угрозам и снижения опасности их реализации, в ходе данной работы были разработаны дополнительные методы идентификации Интернет-пользователей. 1.3. Существующие методы идентификации Интернет-пользователей при информационном обмене электронными сообщениями

Идентификационным набором признаков является только та совокупность признаков, которая, будучи выявленной и тщательно изученной, может послужить достаточным основанием для конкретного отождествления объекта. Идентификационные признаки - устойчивые свойства или особенности некоторого пользователя, обладающие отличающей способностью.

На сегодняшний день существует ряд подходов к идентификации пользователя при размещении электронных сообщений. Все существующие методы можно разделить на три основные группы. Предлагается группировка на основе типов идентификационных признаков пользователя, используемых для проведения идентификации. 1. Методы идентификации по техническим характеристикам рабочей станции пользователя. 2. Методы идентификации, основанные на основе поведенческих характеристик пользователя на портале. 3. Методы идентификации на основе лингвистических или стилистических характеристик электронных сообщений. Далее рассмотрим особенности их применения для решения задачи идентификации Интернет-пользователей при информационном обмене короткими электронными сообщениями на русском языке.

Корпус электронных сообщений

В основном все методы представления пользователя при решении задачи лингвистической идентификации можно разделить на две группы на основании подхода к представлению пользователя [38].

В первой группе пользователь представляется как один текст, полученный конкатенацией всех его сообщений. Далее рассчитываются значения идентификационных признаков и формируется т.н. профиль пользователя. Данная группа методов может быть полезна, когда доступно небольшое количество сообщений одного пользователя, либо они очень короткие.

Во второй группе методов пользователь представляется, как набор его сообщений, каждое из которых является обучающим примером. В методах этой группы можно комбинировать различные типы признаков (бинарные, дискретные, непрерывные), также эти методы обладают более высокой точностью в случае большого числа потенциальных пользователей [40]. По результатам анализа результатов предыдущих исследователей было принято решение использовать второй подход к представлению пользователя. Разработанная КММПП отличается от известных использованием ряда уникальных характеристик электронных текстовых сообщений и позволяет производить идентификацию пользователей по характеристикам электронных текстовых сообщений длиной менее 5000 символов.

В векторной модели электронное сообщение рассматривается как вектор в пространстве признаковых описаний Rn, где п - это количество частотных характеристик или признаков, являющееся одинаковым для всех сообщений. Каждый из признаков характеризует некоторую особенность написания текста.

Если ввести в рассмотрение w-мерное пространство признаков [Ft], где і = 1,..., п, то каждое tj сообщение (объект) в этом пространстве отображается точкой с координатами tj = Fj = (/д,..., fjn), а каждый класс объектов - пользователь uk-множеством таких точек.

Любое сообщение, может быть представлено как набор некоторых количественных значений. Также ранее было доказано, что при решении задачи по идентификации пользователя значение имеют статистические частотные характеристики. Одному пользователю в некоторый промежуток времени свойственны определенные характерные особенности. Измерение частот появления этих особенностей позволяет нам представить сообщение, как набор частот характеристик и позволяет перенести его в пространство. Сообщению может быть поставлена в соответствие точка в пространстве, координатами которой являются частоты его характеристик.

Полагая, что пользователь обладает некоторыми свойственными ему стилистическими характеристиками, можно сопоставить ему, как конкретному физическому лицу, определенные характеристики текста на естественном языке. То есть можно представить текст в виде вектора длиной п, где п - число характеристик или идентификационных признаков.

Идентификационные признаки В качестве идентификационных признаков выбираются статистические характеристики текста: частоты использования определенных символов, знаков препинания, частоты использования заглавных букв, длина предложений (в словах или символах) и так далее.

При идентификации пользователя одной из главных задач является определение набора характеристик электронных сообщений, выступающих в качестве признаков ему сопоставляемых и включаемых в эталонные шаблоны. Важным является выявление признаков, позволяющих получить наиболее высокие показатели точности идентификации. На качество идентификации могут оказывать влияние различные факторы, такие как язык сообщения, его длина, общее количество пользователей и сообщений, типы используемых характеристик текста и сам метод классификации.

В качестве идентификатора, сопоставляемого пользователю, выступает совокупность выявленных характерных особенностей электронных сообщений, присущих пользователю. Важным является тот факт, что данные характеристики должны быть внесены в текст подсознательно, их должно быть трудно подделать (например, пол лица от которого ведется повествование не может выступать в качестве признака пользователя).

Как было определено ранее, письменная речь представляет собой сложную систему, в основе которой лежат коммуникативные, интеллектуальные, языковые навыки каждого конкретного пользователя. Многие из этих навыков проявляются в текстах в виде конкретных признаков, которые могут быть использованы при решении задач идентификации автора текста электронного сообщения, в то же время эти признаки являются признаками, индивидуализирующими сами тексты.

В предыдущих исследованиях предлагалось использовать минимальное количество идентификационных признаков. Однако, современное состояние развития средств вычислительной техники, развитие методов работы с большими данными и технологий распределенных и облачных вычислений позволяет производить хранение и обработку достаточно больших моделей представления пользователей.

В работе предлагается использовать максимальное количество признаков пользователя, т.к. при имеющемся количестве Интернет-пользователей и всем многообразии индивидуальных стилей невозможно предварительно исключить некоторые признаки, т.к. для некоторой частной задачи по идентификации пользователя и некотором наборе потенциальных пользователей именно эти признаки могут нести максимальную различающую способность, быть наиболее информативными. Данное предположение обосновано в разделе 2.3. и подтверждено рядом экспериментов, описанных далее, в Главе 3.

С целью повышения точности идентификации и для повышения скорости обработки КММГШ далее в работе предложено и обосновано применение ряда новых методов по формированию динамического стилистического профиля пользователя из признаков, входящих в КММГШ.

Обоснование использования метода отбора на основании расчета расстояния по значению признака до k-ближайших соседей для формирования ДСПП

Первым шагом подготовительного этапа является сбор, предварительная обработка, структурирование и сохранение электронных текстовых сообщений.

Производится формирование базы данных пользователей, зарегистрированных на Интернет ресурсах (U). Далее производится сбор и предварительная обработка сообщений (Т) пользователей, зарегистрированных на данных Интернет ресурсах и последующее сохранение сообщений пользователей в базу данных.

Предлагается следующий алгоритм сбора, обработки, структурирования и хранения сообщений пользователей: 1. Формирование базы данных пользователей, зарегистрированных на Интернет ресурсах (U). Для начала необходимо сформировать список всех пользователей, зарегистрированных на Интернет ресурсе U, данный список обязательно должен быть обновляемым и пополняемым. Для формирования данного списка необходимо произвести индексацию вебстраниц в автоматическом режиме, с использованием поискового робота («веб-паук», краулер). Поисковый робот анализирует и индексирует содержимое страницы (html-код), выделяя из него пользователей и ссылки на страницы пользователей. Порядок обхода страниц и критерии выделения значимой информации определяются разработанным поисковым алгоритмом.

Критерии выделения информации об пользователях:

Информация об пользователях выделяется из содержимого веб-страницы по определенным критериям - последовательность html-тэгов, однозначно определяющая то, что в определенном месте html-кода содержится информация о пользователе.

Если встречается новый пользователь, запись о котором не содержится в БД, то он добавляется в БД. Если пользователь встречается повторно, запись о нем есть в БД, то он игнорируется. 2. Сбор и предварительная обработка сообщений пользователей, зарегистрированных на некотором Интернет ресурсе (Т). 3. Сохранение сообщений Т в БД.

Далее последовательно сообщения каждого пользователя из БД должны быть получены и добавлены в БД сообщений пользователей. Для сбора сообщений пользователей также предлагается использовать поисковый робот, предназначенный для последовательного обхода страниц пользователей и сбора содержащихся на них сообщений.

Из БД извлекается список пользователей. Далее параллельно запускается работа нескольких поисковых роботов, которые последовательно, согласно переданному им списку производят обход станиц пользователей и сбор сообщений на них содержащихся.

Все сообщения проходят предварительную обработку, из них удаляется вся незначимая информация (информация о разметке страницы, комментарии разработчиков страницы и пр.). Сообщения выделяются из html-кода страницы и могут содержать некоторое количество служебных html-тэгов, не представляющих интерес в рамках данного исследования.

Если ранее тексты данного пользователя не собирались, то в БД добавляется все сообщения пользователя. При обновлении информации о сообщениях пользователя учитываются только новые сообщения.

После того, как сообщения попадают в базу данных необходимо произвести индексацию каждого сообщения из множества Т, с целью извлечения идентификационных признаков (F), входящих в КММПП. Эти действия производятся на следующем этапе.

Для каждого пользователя, содержащегося в БД и имеющего сообщения, необходимо произвести обработку, извлечение и сохранение идентификационных признаков.

Для начала необходимо произвести предварительную обработку сообщения, заменить в тексте некоторые фрагменты (гиперссылки), символы или html-сущности (например, «"»), которые в последствии могут помешать производить извлечение идентификационных признаков. Далее производится подсчет всех количественных идентификационных признаков. К ним относятся, например, количество слов, предложений, числовых или заглавных символов, определенных html-тэгов и многие другие. Далее на основании полученных данных вычисляются значения частотных признаков, входящих в КММПП. Большое число электронных сообщений делает ручной анализ крайне трудоемки, для автоматизации данного процесса было разработано специализированное приложение [108].

Ранее было определено, что идентификация представляет собой действия по присвоению субъекту и объекту доступа идентификатора и (или) действия по сравнению предъявляемого идентификатора с перечнем присвоенных идентификаторов [3]. На первом этапе начинается процедура идентификации по лингвистическим и стилистическим характеристикам электронного сообщения tj для пользователя .Производится формирование КММПП и ДСПП для ufc щ и ипотенц.

На первом шаге (Рисунок 16) производится анализ электронного текстового сообщения tj, с целью извлечения характеристик Fj, входящих в КММПП, и формирование КММППик, пользователя щ, размещающего сообщение tj. А также извлечение КММППпотенц для ипотенциз БД.

Точность идентификации с использованием различных методов сравнения ДСПП при различном количестве текстов и различном уровне несбалансированности обучающей выборки

В условиях ограниченной длины текстов, их малого количества и неравномерного распределения по пользователям разработанная методика обеспечивает боле высокую точность идентификации. Точность идентификации по базовой КММПП на малом количестве текстов существенно ниже точности на нормальном количестве, то после применения всех разработанных методов точность идентификации является одинаково высокой (Таблица 17 и Рисунок 33).

Предложенная методика позволяет производить идентификацию Интернет-пользователя (в условиях ограниченной длины текстов и несбалансированности обучающей выборки) со средней точностью на малом количестве текстов - 78,88%, на нормальном количестве текстов - 80,52% по электронным текстовым сообщениям длиной до 5000 символов. Итоговая средняя точность 79,7% примерно на 32,7% выше, чем существующие статистические методы

Методика идентификации Интернет-пользователя может быть использована для повышения безопасности информационных процессов в сети Интернет.

Методика позволяет осуществлять идентификацию и аутентификацию Интернет-пользователей. В основном, разрабатываемые методы идентификации по стилистическим или лингвистическим признакам могут быть применимы в качестве части системы разграничения доступа (СРД). Лингвистическая идентификация является родственной биометрической идентификации.

Объектом доступа в данном случае является сервис размещения электронного сообщения на некотором веб-портале, находящийся в открытом доступе в Интернет. До публикации информации в открытом доступе должна быть пройдена процедура дополнительной скрытой идентификации и аутентификации пользователя. Данная процедура необходима для определения полномочий пользователя на размещение электронного сообщения. Допускается размещение электронного сообщения, в случае успешной идентификации/аутентификации, а также если ранее пользователем не было совершено противоправных действий с ресурсами веб-портала.

Разработанная методика может применяться для предотвращения доступа злоумышленником к созданию и распространению электронных текстовых сообщений, в частности: - Анонимного доступа, без прохождения процедуры идентификации и аутентификации. - Доступа под вымышленными именами; - НСД от имени легального пользователя. До применения методики основные действия СРД включают (Рисунок 34): 1. Ввод идентификатора пользователей (логин, имя пользователя) и идентифицирующей информации (обычно, пароль). Этап может быть дополнен двухфакторной идентификацией. 2. Проверка введенных данных и установление подлинности предъявленного идентификатора. 3. В случае успешной аутентификации - предоставление доступа к Интернет-ресурсу и доступа к сервисам публикации электронных сообщений. В данном случае СРД не может различить, кто именно предъявил идентификатор и идентифицирующую информацию. Опираясь только на предоставленные идентифицирующие данные, СРД не различает легальных пользователей и злоумышленников.

Применение разработанной методики в СРД к сервисам публикации электронных сообщений позволяет дополнить стандартные механизмы идентификации/аутентификации процедурой дополнительной скрытой идентификации (Рисунок 35). 1. Ввод идентификатора пользователей (логин, имя пользователя) и идентифицирующей информации (обычно, пароль). Этап может быть дополнен двухфакторной идентификацией. 2. Проверка введенных данных и установление подлинности предъявленного идентификатора. 3. В случае успешной аутентификации - предоставление доступа к Интернет-ресурсу и доступа к сервисам публикации электронных сообщений. 4. Ввод электронного сообщения с целью опубликования его в открытый доступ. 5. Дополнительная скрытая идентификация по поступившему сообщению. - В случае успешного прохождения дополнительной скрытой идентификации пользователь получает доступ к размещена сообщения. - Иначе, если пользователь раннее был замечен в совершении противоправных действий доступ к размещению сообщения не предоставляется, либо может быть сделана отметка о попытке нарушения прав доступа.

Угрозы: 1. Подделка идентификатора -«маскарад» путем НСД 2. Анонимный доступ 3. Множественные Рисунок 35. Схема процессов обеспечения доступа к сервису публикации электронных сообщений, включающая дополнительную скрытую лингвистическую идентификацию Таким образом, скрытая идентификация является дополнительным средством защиты для обеспечения информационной безопасности информационных процессов, протекающих в Интернет.

Разработанные методы и КММПП могут применяться для выявления факта нарушения целостности электронного сообщения (подмены авторства) путем подтверждения или опровержения подлинности авторства. Можно выделить смежные задачи, в которых может применяться разработанная методика: 1. Установление и проверка авторства, подтверждение или опровержение авторства определенного лица. 2. Проверка того факта, что человек опубликовавший текст является его настоящим автором.

Также предлагаемая методика идентификации Интернет-пользователя эффективно работает и показывает стабильно высокие результаты, когда другие способы идентификации не возможны. Например, в случае, когда инцидент уже произошел, но на Интернет портале не велся учет характеристик пользователя. Также возможно производить идентификацию пользователей, если отсутствует возможность внедрения дополнительных компонентов учета и регистрации на сервер Интернет портала.

Методика может быть использована как часть системы противодействия информационно-психологическому воздействия для идентификации источника воздействия [107], [108].

Методика позволяет производить идентификацию пользователя, а не программного и аппаратного окружения, и может быть востребована специальными службами, производящими экспертизы в компьютерной криминалистике.