Содержание к диссертации
Введение
ГЛАВА 1. Методы идентификации пользователей ресурсов сети интернет 11
1.1 Введение 11
1.2 Классификация угроз безопасности. Модель угроз 16
1.3. Особенности идентификации пользователей на основе текстовой информации 20
1.4. Применение методов обработки текстовых сообщений для защиты информации 23
1.5. Выводы 25
ГЛАВА 2. Идентификация пользователей на основе кортежа лингвистических признаков 27
2.1. Модель идентификатора пользователя портала сети Интернет на основе кортежа лингвистических признаков короткого сообщения 27
2.1.1 Графематический уровень лингвистических признаков идентификатора 32
2.1.2 Лексикографический уровень лингвистических признаков идентификатора 35
2.1.3 Морфологический уровень лингвистических признаков идентификатора 39
2.1.4 Синтаксический уровень лингвистических признаков идентификатора 43
2.1.5 Символьный и графический анализ лингвистических признаков идентификатора. Уровень специальных выражений 46
2.1.6 Оценка сложности и информативности лингвистических структур идентификатора пользователя з
2.2. Метод создания компонентного профиля пользователя портала сети Интернет 56
2.3. Оценка сложности подмены идентификатора на основе компонентного профиля пользователя 65
2.4. Построение тематических моделей разграничения доступа на основе лингвистического профиля пользователя портала. 67
2.5. Выводы 70
ГЛАВА 3. Оценка применимости методики идентификации пользователя портала 72
3.1. Методика идентификации пользователя портала на основе компонентного профиля 72
3.2. Особенности функционирования разработанных методов и моделей 74
3.3. Особенности проведения экспериментов 82
3.4. Сравнительные характеристики моделей и методов 87
3.5. Выводы 97
Заключение 99
Список литературы 101
- Особенности идентификации пользователей на основе текстовой информации
- Применение методов обработки текстовых сообщений для защиты информации
- Графематический уровень лингвистических признаков идентификатора
- Особенности функционирования разработанных методов и моделей
Введение к работе
Актуальность темы. Современному этапу развития информационно-
телекоммуникационных систем (ИТКС) характерны массовое
использование локальных, корпоративных, глобальных вычислительных
сетей и применение новых технологий. Это, в свою очередь,
обуславливает необходимость контроля субъектов информационных
процессов для идентификации возможных направлений информационного
воздействия на пользователей сети Интернет. В связи с тем, что порядка 80%
информации в сети Интернет представлено в текстовом виде, возникает
необходимость в разработке средств идентификации пользователей на основе
методов математической лингвистики, предназначенных для обеспечения
информационной безопасности объектов политической, социально-
экономической, оборонной, культурной и других сфер деятельности от
внешних и внутренних угроз хищения, разрушения и/или модификации
информации. В рамках этой задачи крайне важна идентификация субъектов
информационных процессов, имеющих возможность легально
распространять “недобросовестные” текстовые сообщения. Это может быть
связано с различными способами “серой” накрутки рейтингов ссылок на
сообщения, подмены авторства текстов, внедрения “дополнительных”
пользователей порталов для ведения и поддержки узко направленной
дискуссии.
Весомый вклад в обеспечение информационной безопасности в рамках
данного вопроса внесли такие известные ученые как: Н.Н. Безруков, П.Д.
Зегжда, Дж. М. Кэррол, А.М. Ивашко, Р. Сандху, А.И. Костогрызов, В.И.
Курбатов, К. Лендвер, А.А. Молдовян, Н.А. Молдовян, А.А.Малюк,
Е.А.Дербин, развивая теорию методов информационного воздействия и
обосновывая значимость различных средств информационного
противоборства в современных реалиях методов ведения бизнеса.
Большое количество интернет ресурсов и сервисов, таких как форумы,
порталы, интернет-магазины, сталкиваются с различными проявлениями
проблемы манипуляции и искусственного формирования общественного
мнения путем «организации» целенаправленных тематических диалогов, в
которых ряд пользователей имеют несколько учетных записей. Возможность
использования порталов и сайтов для распространения информации и
недостаточная функциональность механизмов идентификации и
аутентификации пользователей, оставляющих сообщения, определяет ряд направлений совершенствования систем защиты и систем мониторинга информационной безопасности ИТКС.
В связи с этим возникает задача повышения вероятностных показателей качества методов идентификации пользователей различных порталов сети Интернет.
Целью работы является повышение вероятности идентификации субъектов информационных процессов открытых ресурсов сети Интернет на основе методов математической лингвистики.
Для достижения указанной цели в диссертации решаются следующие основные научные и технические задачи:
-
Анализ и выявление достоинств и недостатков методов идентификации пользователей порталов сети Интернет, применяемых для противодействия угрозам нарушения ИБ (информационной безопасности) в открытых информационных системах.
-
Исследование свойств и особенностей текстов коротких сообщений различных Интернет ресурсов для реализации моделей, методов и методик идентификации пользователей.
-
Обоснование использования моделей идентификации пользователей открытых ресурсов для обработки системами мониторинга ИБ коротких сообщений различных порталов сети Интернет.
-
Совершенствование методов и средств идентификации субъектов информационных процессов с целью информационного противодействия угрозам ИБ.
-
Выявление ограничений использования моделей, методов и алгоритмов идентификации пользователей порталов сети Интернет.
В соответствии с заявленными целями и задачами работы объектом
исследования являются системы идентификации субъектов
информационных процессов порталов сети Интернет, а предметом исследования – методы и средства идентификации пользователей на основе лингвистических характеристик текстовой информации.
На защиту выносятся следующие основные результаты:
-
Модель идентификатора пользователя портала сети Интернет на основе кортежа лингвистических признаков короткого сообщения.
-
Метод создания компонентного профиля пользователя портала сети Интернет, базирующегося на модели идентификатора, содержащего кортеж лингвистических признаков.
-
Методика идентификации пользователя портала сети Интернет на основе компонентного профиля.
Научную новизну диссертационной работы составляют:
1. Модель идентификатора пользователя портала сети Интернет на
основе кортежа лингвистических признаков короткого сообщения,
отличается от известных использованием признакового пространства,
содержащего синтаксические паттерны и нераспознанные “шумовые”
словоформы, что позволяет увеличить количество информативных
характеристик, используемых в процессе идентификации.
2. Метод создания компонентного профиля пользователя портала сети
Интернет, отличается от известных использованием характеристик
лингвистических конструкций, полученных после
морфосинтаксической обработки, что позволяет увеличить сложность подмены идентификатора. 3. Методика идентификации пользователя портала сети Интернет на основе компонентного профиля отличается от известного применения к ней лингвистического признакового пространства, характерного для коротких сообщений порталов сети Интернет, что позволяет увеличить показатели качества (вероятность идентификации) для систем мониторинга состояния ИБ и СЗИ ресурсов.
Достоверность результатов работы подтверждается:
научной обоснованностью приводимых выкладок и математических преобразований;
использованием методик и математического аппарата теории вероятности, теории БД (баз данных), проверенных экспериментами;
системным анализом описания объекта исследования, учетом сложившихся практик и опыта в ИБ;
проведением сравнительного анализа предложенного метода с существующими решениями и результатами экспериментов;
непротиворечивостью полученных результатов известным решениям;
практической апробацией и одобрением на научно-технических конференциях.
Практическую значимость результатов диссертационной работы составляют предложенные модели, методы и алгоритмы для средств идентификации пользователей портала сети Интернет, которые позволяют повысить вероятность обнаружения подмены авторства информации в системах мониторинга ИБ ИТКС.
Реализация результатов. Полученные модели и методы реализованы в рамках научно-исследовательских работ и опытно-конструкторских работ, выполняемых в НИУ ИТМО.
Апробация работы.
Основные результаты работы представлялись на следующих конференциях:
22-я научно-техническая конференция “Методы и технические средства обеспечения безопасности информации”, СПбГПУ, г. Санкт-Петербург, 2013;
Конгресс молодых ученых (КМУ 2013), НИУ ИТМО, г. Санкт-Петербург, 2013;
Всероссийская научная конференция по проблемам информатики СПИСОК-2013, СПбГУ, г. Санкт-Петербург, 2013;
Advances in Methods of Information and Communication Technology (AMICT'2013), ПетрГУ, г. Петрозаводск, 2013;
Application of Information and Communication Technologies (AICT 2014), Nazarbayev University, Astana, 2014;
23-я научно-техническая конференция “Методы и технические средства обеспечения безопасности информации”, СПбГПУ, г. Санкт-Петербург, 2014;
Конгресс молодых ученых (КМУ 2014), Университет ИТМО, г. Санкт-Петербург, 2014;
24-я научно-техническая конференция “Методы и технические средства обеспечения безопасности информации”, СПбПУ, г. Санкт-Петербург, 2015.
Публикации. По результатам диссертационного исследования опубликовано 9 работ, из них статей в изданиях, рекомендованных ВАК РФ – 4 (1 статья, индексируется в международной цитатно-аналитической базе данных (SCOPUS)).
Структура и объем работы. Диссертационная работа содержит общую характеристику работы, 3 раздела, заключение, список литературы. Объем работы составляет 108 страниц. Работа содержит 38 рисунков, 8 таблиц.
Особенности идентификации пользователей на основе текстовой информации
Для идентификатора пользователя на основе лингвистических характеристик необходимо использовать признаки текстовой информации. Существуют два подхода к формированию модели текста [10, 47, 51].
Простейший из них предоставляет статистику использования различных слов, сочетаний, N-грамм и т.д.
Второй подход связан с построением структур предложений и текстов и предполагает использование морфологических, синтаксических и семантических признаков. Первый подход легко формализуем и не требует больших вычислительных ресурсов, второй – предполагает наличие словарных баз данных и алгоритмов обработки текстовой информации.
Для повышения качественных показателей, достигаемых в результате процессов идентификации пользователей порталов сети Интернет, для формирования кортежа лингвистических признаков предлагается использование совокупности первого и второго подходов.
Статистический и аналитический анализы текстов комментариев, оставляемых пользователями, позволяет получить частотные характеристики частей речи, используемых авторами сообщений, и образовываемых между ними связей.
Особенностью предлагаемого подхода является анализ не только частотных словарей, формируемых на основе выборки сообщений для идентификации пользователей, но и использование ими правил и связей на основе БД синтаксической информации языка. Текст обрабатывается по технологии, представленной на рисунке 7. Каждому уровню соответствует свой язык представления, состоящий из определенных правил. Каждый следующий уровень основывается на результатах работы предыдущего. - L – признаки лексического уровня. Рассматриваются слова и их частоты, употребляемые комментатором портала. На этом уровне происходит анализ текстовых сообщений пользователя и выделение лексических конструкций на основе слов и словоформ русского языка. - SLP – признаки лексикографического уровня. Идентифицируются шаблоны буквенных сокращений и символьно-буквенных сочетаний. На этом уровне осуществляется лексикографический анализ сообщения и выделение конструкций в соответствии с описанными шаблонами. - SS – признаки графематического уровня обработки текстовых сообщений. В рамках данного признака производится анализ и сбор статистики об использовании знаков препинания и специальных символов. - SP – признаки синтаксического уровня обработки текстовой информации, включающие информацию о шаблонах (синтаксических паттернах). На данном этапе происходит разбор сообщений по частям речи с последующим применением шаблонов (синтаксических паттернов) для выделения наиболее распространенных конструкций. - SE – признаки лексического уровня обработки текстовой информации, направленные на анализ и выявление тематических специальных слов и выражений, характерных для аудитории конкретного форума. - H – шум или нераспознанные лексические и синтаксические конструкции.
Процесс анализа текстового сообщения происходит в несколько этапов. На первом выполняется графематический и лексикографический анализ, в рамках которого идентифицируются шаблоны буквенных и символьно-буквенных сочетаний [39, 43]. На втором этапе происходит морфологический анализ, в результате которого вычисляется информация о составных частях речи текстового сообщения. На следующем этапе осуществляется синтаксический и семантический анализ, включающий выделение слов и специальных выражений и их определение, разбор сообщений по отдельным предложениям, выделение неоднозначных по значению слов и выделение синтаксических конструкций предложений с последующим применением синтаксических паттернов.
На последнем этапе производится анализ использования в рамках сообщения пунктуационных знаков и специальных символов.
Особенностью предлагаемой модели является использование нераспознанных анализаторами лингвистических конструкций (шума).
На всех уровнях появляются нераспознанные конструкции, статистические данные по которым используются в дальнейшем.
На рисунке 8 приведены уровни модели сообщения для вычисления признаков модели идентификатора пользователя портала сети Интернет на основе кортежа лингвистических характеристик. Графематический уровень В графематический уровень включен алгоритм разделения входного текста на предложения [23, 24]. На вход алгоритма подаются два числа StartPos и EndPos, которые обозначают первую и последнюю строки входного текста. Программа ищет конец предложения, а потом после него ищет начало предложения. Алгоритм основывается на следующих правилах:
Предложение может состоять из одного слова; На вход подается номер строки. На выходе возвращается истина, если данная строка содержит разделители или специальные символы. Далее ищется начало предложения. Либо это StartPos, либо предыдущее использование разделяющих знаков. На рисунке 9 представлена алгоритмическая последовательность действий по разделению текста. Особенностью алгоритма является специализированные базы данных графематических дескрипторов.
Анализ текстов комментариев пользователей на различных порталах, форумах и ресурсах сети Интернет показывает наличие специализированных конструкций. К ним относятся названия, аббревиатуры, сокращения, наименования, тематический сленг, специальные символы и т.д. Применение обычных анализаторов понижает показатель качества идентификации пользователей до 60% при обработке таких текстов [8]. Для повышения качества обработки необходимо добавлять информацию о таких конструкциях.
Существует два подхода для решения этой задачи. Первый состоит в том, чтобы по мере встречаемости наполнять ими базу данных, используемую анализатором. Все это ведет к значительному увеличению объема хранимой информации и понижению производительности системы. Второй подход направлен на классификацию последовательностей и создание базы данных их шаблонов (лексикографических паттернов). В этом случае требуются дополнительные алгоритмы идентификации, но, при этом, значительно сокращается объем информации [26].
На предварительных этапах анализа, до применения алгоритмов обработки конструкций, поступающее на вход анализатора сообщение можно рассмотреть в виде множества знаков a A, где A является алфавитом. Выделяемые знаки характеризуются своими признаками b .
Каждый признак символа является лишь гипотезой, которая будет проверяться или уточняться при дальнейшем анализе. На каждом уровне сегментации сообщения анализируются очевидные ситуации. В случае неопределенности неоднозначные и сложные последовательности передаются на более высокий уровень связывания [55]. В результате анализа текстовых сообщений пользователей порталов сети Интернет было выделено несколько видов шаблонов буквенных сокращений и создана база данных их описаний.
Применение методов обработки текстовых сообщений для защиты информации
Таким образом, представлена модель идентификатора пользователя портала сети Интернет на основе кортежа лингвистических признаков короткого сообщения, отличающаяся от известных использованием признакового пространства, содержащего синтаксические паттерны и нераспознанные “шумовые” словоформы и позволяющая увеличить количество информативных характеристик, используемых в процессе идентификации. 2.2. Метод создания компонентного профиля пользователя портала сети Интернет
На сегодняшний день большую популярность получили методы идентификации, использующие технические характеристики, в первую очередь, такие как: Такие подходы эффективны для поиска “троллей-одиночек” или недобросовестных пользователей, но малоэффективны для борьбы и идентификации организованного астротерфинга, проводимого специальными организациями, которые могут обеспечить изменение данных характеристик [21]. Поэтому для решения обозначенных в диссертационном исследовании задач идентификации пользователей возможно дополнительно использовать лингвистические методы. Огромное количество работ, посвященных определению авторства текстов, используют для анализа характеристики и методы, которые применимы для текстов больших объемов. Основу большинства из таких методов составляют частотные характеристики словарного запаса. Одновременно с этим все большую актуальность приобретают методы, использующие особенности построения фраз и сообщений автора текста. На рисунке 18 представлены основные методы идентификации автора текстовой информации, которые могут быть применены к решению поставленных в диссертационном исследовании задач [37, 39].
Существующие методы идентификации текстовой информации показывают хорошие результаты работы для текстов большого объема, что затруднительно при работе с сообщениями в Интернете, где средняя длина составляет порядка 6-8 слов при использовании тематического сленга, аббревиатур, нецензурной лексики, смайликов, заимствований из других языков.
Все эти особенности необходимо учитывать в процессе идентификации для повышения качества получаемых результатов. Таким образом, на основе полученной модели текстового сообщения, содержащей информацию о лексической, графематической и синтаксической составляющих, становится возможным определение компонентного профиля для каждого пользователя портала сети Интернет, использующего кортеж лингвистических признаков.
Профиль – это совокупность данных и настроек окружения пользователя. Построение профиля пользователя возможно на основе ряда технических характеристик и статистических данных. Такой подход к созданию профиля не всегда может дать достоверный результат. Предлагаемый компонентный профиль пользователя особо важен в случаях, когда возможна подмена, клонирование ряда технических характеристик устройств, т.е. однозначная идентификация пользователя невозможна [11]. Методы идентификации Статистический анализ Машинное обучение Лингвистический анализ Одномерный Многомерный Статистический анализ Аналитичес кий анализ Байесовский классификатор Критерий Стьюдента Энтропийный подход Деревья решений ДвустороннийкриттерийФишера Критерий Колмогорова-Смирнова Генетический алгоритмы QSUM Сложностный подход Нейронные сети Хи-квадрат Пирсона Хи-квадратПирсона дляраспределений Машина опорных векторов Статистическийкластерныйанализ Метод k ближайших соседей Линейныйдискретныйанализ Метод главных компонент Марковские цепи Рис. 18. Основные методы идентификации автора текстовой информации Метод создания компонентного профиля пользователя сети Интернет предполагает реализацию ряда шагов: - обработка пользовательских сообщений в рамках Интернет портала; - разбор сообщений по частям речи с последующим применением шаблонов (синтаксических паттернов) для выделения наиболее распространенных конструкций; - лексикографический анализ сообщения и выделение конструкций в соответствии с описанными шаблонами и сбор статистики об использовании знаков препинания и специальных символов; - выделение лексических конструкций на основе слов и словоформ русского языка, а также выявление тематических специальных слов и выражений, характерных для аудитории конкретного форума.
На каждом шаге используются специализированные словарные базы данных и анализаторы текстовой информации, описанные в предыдущих разделах.
Реализация предлагаемого метода построения компонентного профиля пользователя портала сети Интернет направлена на решение обозначенных задач в случаях, когда одним и тем же ПК (персональный компьютер) пользуются несколько человек или же сообщения оставляются пользователями, находящимися в одной локальной подсети. Вследствие чего, однозначно идентифицировать субъект невозможно и необходимо использовать дополнительные средства идентификации. На рисунке 19 схематично изображен процесс создания компонентного профиля пользователя, использующего лингвистические характеристики [29, 41]. Таким образом, профиль пользователя можно записать в следующем виде:
Графематический уровень лингвистических признаков идентификатора
Модуль последовательно переходит по всем страницам, темам и комментариям интернет-форума, сохраняя необходимую текстовую информацию (имя пользователя, название темы обсуждения, раздела обсуждения, текст сообщения) и игнорируя посторонние данные и поля (картинки, баннеры, аватары и т.д.).
Полученные данные сохраняются в соответствующих связанных между собой таблицах базы данных. В таблицу Topictable заносятся данные об иерархии Интернет-портала - дерево тем и подтем обсуждений. В таблицу Usertable заносятся данные об авторах сообщений. В таблицу Contenttable заносятся данные о содержимом записи. Иерархия этих связей представлена на рисунке 26.
На следующем этапе происходит обработка полученной при помощи анализатора текстовой информации. Данные проходят через различные фильтры (Filters) с целью получения необходимых лексем в соответствии с определенным признаковым пространством. Особенностью данного метода являются раздельные базы данных, содержащие информацию о словоформах, их связях и символах. Текст проходит следующий предсинтаксический анализ, собирающий следующую статистическую информацию в отдельные БД: - латинские символы (исключения составляют только аббревиатуры, включенные в словарь для признака О4); - цифробуквенные сочетания (1234абв); - цифры и числа; - интернет-ссылки.
После фильтрации происходит разбиение текста сообщения на предложения (Sentenceparsing). В качестве разделителя служат оканчивающие предложения знаки препинания (. ! и т.д.) и специальные символы (графические смайлики, сочетания знаков препинания). Затем происходит разбор предложений на лексемы [37]. Разделителями служат пробел, двоеточие, тире и т.д. К полученным лексемам применяется словарь словоформ русского языка. Слова, не найденные в базе данных (слова с орфографическими ошибками, сленг, различные пунктуационные сочетания, смайлики и т.д.), заносятся в дополнительную таблицу в базе данных. При получении статистики по каждому пользователю словоформы переводятся в исходное слово в именительном падеже и единственном числе [32]. Пример представлен в таблице 8.
После занесения полученных данных в базу происходит классификация лексем. Лексеме присваивается один из четырех классов: слово, специальное выражение, специальный знак, символьно-буквенное сочетание.
Таблица SpecialwordsDB служит для маркирования специальных выражений, таблица SpecialsymbolsDB – для специальных символов (смайлики, последовательности знаков и т.д.), таблица SLPDB служит для символьно-буквенных сочетаний и таблица WordformsDictionary , которая служит для хранения данных о словах и их формах русского языка. На последнем этапе анализа текста (Lexemclassification) предложение представляется в виде цепочки частей речи, которые получены из базы словоформ русского языка по совпавшим словам текстового сообщения. К полученным цепочкам применяются определенные синтаксические паттерны, после чего распознанные конструкции заносятся в БД, а нераспознанные классифицируются как шумовые. После этого этап обучения системы завершен и начинается этап классификации.
Суть рассматриваемого метода состоит в том, чтобы на основании обучающей выборки сообщений пользователя портала сети Интернет определить: принадлежит ли ему произвольно взятое сообщение. Для оценки был применен подход на основе байесовского классификатора [3]: P(cd) — вероятность того, что лингвистическая последовательность d принадлежит пользователю с; P(d\ с) — вероятность встретить лингвистическую последовательность d среди всех документов пользователя с; Р(с) — безусловная вероятность встретить лингвистическую последовательность пользователя с в корпусе сообщений портала; P(d) — безусловная вероятность лингвистической последовательности d в корпусе лингвистических последовательностей портала. Цель классификации состоит в том, чтобы понять, какому пользователю принадлежит лингвистическая последовательность, поэтому нужна не сама вероятность, а наиболее вероятный пользователь. Байесовский классификатор представляет последовательность как набор лексем, вероятности которых условно не зависят друг от друга. Исходя из этого предположения, условная вероятность последовательности аппроксимируется произведением условных вероятностей всех слов, входящих в нее [12]. Оценка вероятностей Р(с) и Р(й)і\с) осуществляется на обучающей выборке. Наиболее вероятный пользователь оценивается как Р(с) = —, где Dc - количество последовательностей, принадлежащих пользователю с, а D- общее количество документов в обучающей выборке. Оценка вероятности слова в классе осуществляется при помощи модели Байеса: где: Wic- количество раз, сколько /-ое слово встречается в последовательностях пользователя с; V - словарь корпуса документов (список всех уникальных слов).
Если на этапе классификации встретится слово, которого не было на этапе обучения, то значения Wic, а следственно иР(о с) будут равны нулю. Это приведет к тому, что последовательность с этим словом нельзя будет классифицировать, так как она будет иметь нулевую вероятность по всем классам. Решить эту проблему путем анализа большего количества последовательностей не получится, так как невозможно составить обучающую выборку, содержащую все возможные слова, включая неологизмы, опечатки, синонимы и т.д. Решением проблемы неизвестных слов является аддитивное сглаживание (сглаживание Лапласа) - к частоте каждого слова прибавляется единица [7]. Р(:]1г, с + 1 = ИЬ + I,i ev(Witc + l)"\V\+llitevWitc (14)
При достаточно большой длине последовательности необходимо перемножить большое количество вероятностей словоформ, вследствие чего появляется необходимость работы с очень маленькими числами, что влечет за собой потерю точности в вычислениях. Для решения этой проблемы используется свойство логарифма произведения. Таким образом, окончательный вид формулы, по которой осуществляется классификация текста, приведен ниже (15).
Для реализации Байесовского классификатора необходима обучающая выборка, в которой проставлены соответствия между текстовыми документами и их классами. Затем необходимо собрать следующую статистику из выборки, которая будет использоваться на этапе классификации: - относительные частоты пользователей в корпусе последовательностей. То есть, как часто встречаются документы того или иного пользователя; - суммарное количество слов в последовательностях каждого пользователя; - относительные частоты слов в пределах каждого пользователя; - размер словаря выборки. Количество уникальных слов в выборке. Совокупность этой информации назовем моделью классификатора. Затем на этапе классификации необходимо для каждого пользователя рассчитать значение следующего выражения и выбрать пользователя с максимальным значением. На этапе оценки качества характеристик идентификатора для каждого пользователя рассчитывается значение выражения:
Особенности функционирования разработанных методов и моделей
Использование признака О1 для определения авторства показало высокие результаты в обоих режимах. В первом режиме при максимальном значении обучающей выборки признак определил пользователя с вероятностью 0.54, во втором режиме после увеличения количества анализируемых пользователей вероятность определения упала до 0.43.
График вероятности определения авторства при помощи признака O2 в режиме 1 среди 250 и 1 среди 350 пользователей. Использование признака O2 показало высокий результат. В первом режиме определение авторства стало возможно при обучающей выборке в 600 сообщений. Вероятность в этом случае составила 0.36 при 0.21 у ближайшего постороннего класса. При максимальном значении выборки вероятность выросла до 0.44, а показатели ближайшего постороннего класса упали до 0.15. Во втором режиме идентификация стала возможна при выборке в 650 сообщений. При максимальном количестве обучающих сообщений вероятность идентификации составила 0.36 при ближайшем постороннем классе с 0.13.
График вероятности определения авторства при помощи признака O3 в режиме 1 среди 250 и 1 среди 350 пользователей. Признак O3 показал неоднозначные результаты. В первом режиме определение авторства стало возможным при обучающей выборке в 650 сообщений. Вероятность идентификации в этом случае составила 0.32 при 0.2% у ближайшего постороннего класса. После увеличения выборки до 750 сообщений результат вырос до 0.38, а показатели ближайшего постороннего класса упали до показателя в 0.19 по сравнению с выборкой в 650 сообщений. Во втором режиме критическим показателем количества пользователей стало 300 человек. При 350 пользователях обучающей выборки вероятность определения составила 0.31 для идентифицируемого пользователя и 0.19 для ближайшего постороннего класса. P(c I d)
График вероятности определения авторства при помощи признака O4 в режиме 1 среди 250 и 1 среди 350 пользователей. Применение признака O4 для идентификации показало высокие результаты в обоих режимах. В первом режиме при максимальном значении обучающей выборки признак определил пользователя с вероятностью 0.56, во втором режиме после увеличения количества анализируемых пользователей вероятность определения упала до 0.41. При этом вероятности ближайших посторонних классов составляли 0.14 и 0.12 соответственно для каждого из режимов.
График вероятности определения авторства при помощи признака O5 в режиме 1 среди 250 и 1 среди 350 пользователей. Применение признака O5 для идентификации также показало высокие результаты в обоих режимах. В первом режиме при максимальном значении обучающей выборки признак определил пользователя с вероятностью 0.50, во втором режиме после увеличения количества анализируемых пользователей вероятность определения упала до 0.38. При этом вероятности ближайших посторонних классов составляли 0.14 и 0.14 соответственно для каждого из режимов.
Эксперименты показали, что при масштабировании системы и уменьшении объема обучающей выборки рассмотренные известные методы идентификации показали низкие результаты. Это обусловлено спецификой Интернет-общения и длиной анализируемых текстовых данных.
В то же время, применение предлагаемого признакового пространства показало стабильно высокие результаты при изменении размеров обучающей выборки и количества анализируемых пользователей. Обработка текстовых данных происходила с учетом особенностей коротких сообщений в Интернете, что и позволило получить лучшие вероятностные значения.
В разделе показан метод идентификации пользователей, оставляющих текстовые сообщения на порталах сети Интернет, использующий аппарат байесовского классификатора. Исследовано применение лингвистических признаков, характеризующих пользователя сети Интернет. Приведены результаты экспериментов по идентификации авторства текстов. Приведенная методика идентификации пользователя портала сети Интернет на основе компонентного профиля позволяет: - применять апробированный аппарат аналитических моделей естественного языка с минимальными затратами на адаптацию; - использовать математические методы, не требующие больших объемов вычислительных ресурсов; - увеличить вероятность правильной идентификации пользователя, имеющего несколько идентификаторов.
Новизной подхода является использование лингвистического признакового пространства, включающего в себя информацию о связях между словами в сообщении, символьно-буквенных сочетаниях, использовании специальных символов и выражений, а также информацию о нераспознанных словоформах, что позволяет увеличить вероятность идентификации пользователей портала сети Интернет при отсутствии технических характеристик используемых им устройств.