Содержание к диссертации
Введение
Глава 1. Обеспечение информационной безопасности в открытых вычислительных сетях 14
1.1 Введение 14
1.2 Классификация угроз безопасности обработки текстовой информации в информационно-телекоммуникационных системах 17
1.3. Модель угроз предметной области 21
1.4. Постановка научной проблемы исследования 23
1.5. Анализ информационных воздействий в ИТКС 24
1.5. Направления противодействия угрозам нарушения информационной безопасности и методы их решения 27
1.6. Особенности обрабатываемых текстов сети Интернет 30
1.7. Выводы 31
Глава 2. Методы обработки текстовых источников в задачах обеспечения информацонной безопасности открытых вычислительных сетей 32
2.1. Метод оценки характеристик СЗИ 32
2.2. Методика обработки предметно ориентированной естественно языковой информации 39
2.2.1. Концептуальные особенности обработки текстовой информации СМИБ 40
2.2.2. Оценка качества обработки ЕЯ сообщений ИТКС 45
2.3. Аналитические модели описания ЕЯ СМИБ 47
2.3.1. Семантическая модель описания ЕЯ предметной области 47
2.3.2. Адаптированная модель описания ЕЯ предметной области 53
2.3.3. Универсальная структура описания ЕЯ предметной области 65
2.4. Оценка применимости ЕЯ моделей СМИБ 70
2.5. Выводы 76
Глава 3 . Обеспечение контура информационной безопасности объектов информационно-телекоммуникационных систем 78
3.1. Метод оценки состава уровней обработки ЕЯ СЗИ 78
3.2. Уровни обработки ЕЯ СМИБ 82
3.2.1 Вычисление лексикографической информации в специализированных системах обработки текстовой документации 83
3.2.2. Вычисление морфологической информации в специализированных системах обработки текстовой документации 91
3.3.Специализированные средства анализа 103
3.3.1. Алгоритм идентификации неизвестной словоформы 103
3.3.2. Алгоритм борьбы с опечатками на основе морфологических баз данных 111
3.4. Построение предметно ориентированных синтаксических баз данных СМИБ 115
3.4.1. Общая модель синтаксического анализа 116
3.4.2. Предметно ориентированная модель базовых элементов синтаксической модели .118 3.4.3.Особенности обработки синтаксического шаблона 127
3.5. Применение морфолого-синтаксических методов анализ текстов предметной области 133
3.6. Выводы 137
Глава 4. Концепция мониторинга потоков текстовой информации 139
4.1 Концепция мониторинга потоков текстовой информации 139
4.2. Особенности построения словарной базы данных для обнаружения угроз безопасности текстовых ресурсов информационно-телекоммуникационных систем 142
4.2.1. Обобщенная модель онтологического описания идентификаторов предметной области 142
4.2.2. Элементы обобщенной модели онтологического описания идентификаторов предметной области 145
4.2.3. Статистический анализ аргументов предметно ориентированной БД 158
4.3.Синтаксический анализ ЕЯ сообщений СМИБ 160
4.3.1. Особенности обработки основных частей речи ОЕЯ 162
4.3.2. Предсинтаксический анализ устойчивых конструкций ЕЯ сообщений ИТКС 169
4.3.3.Статистический анализ предсинтаксических структур ЕЯ сообщений ИТКС 177
4.3.4. Фрагментация текстовых сообщений ИТКС 178
4.3.5. Использование информации предметно ориентированной БД для синтеза структур 183
4.3.6. Предметно ориентированный алгоритм синтеза конструкций 184
4.3.7. Особенности применения предметно ориентированных структур 188
4.4. Подход к построению классификатора предметной области 191
4.5.Выводы 197
Глава 5. Методы активного и пассивного аудита текстовых ресурсов 199
5.1.Особенности активного аудита ИБ 199
5.2.Построение информационного объекта 200
5.2.1. Алгоритмическая последовательность вычисления структуры текстового сообщения ОЕЯ 200
5.2.2. Оценка вычислительной сложности алгоритмов 204
5.2.3. Вычисление структуры информационного объекта 206
5.2.4. Специфика применения информационного объекта 209
5.3 Модель оценки ресурса для мониторинга ИБ 212
5.4.Оценка использования информационных объектов СМИБ 216
5.5.Выводы 218
Заключение 220
Литература 224
- Классификация угроз безопасности обработки текстовой информации в информационно-телекоммуникационных системах
- Концептуальные особенности обработки текстовой информации СМИБ
- Вычисление морфологической информации в специализированных системах обработки текстовой документации
- Элементы обобщенной модели онтологического описания идентификаторов предметной области
Введение к работе
Реализация основных направлений противодействия угрозам Российской Федерации в различных сферах общественной жизни, обозначенных в «Доктрине информационной безопасности», связана с обработкой разнообразных источников информации. Обеспечение информационной безопасности (ИБ) объектов политической, социально-экономической, оборонной, культурной сфер деятельности в информационно-телекоммуникационных системах требует анализа огромного количества текстов с целью обнаружения потенциально опасных сообщений, выявления внешних и внутренних угроз хищения и модификации информации документов, сведений ограниченного распространения, соблюдения авторских прав, распространения информации экстремистского характера. Вследствие чего, возникает необходимость, с одной стороны, информационного противодействия угрозам нарушения информационной безопасности, а с другой - построение эффективных СЗИ, обрабатывающих текстовые сообщения.
Однако сложность применения методов, направленных на повышение качества защиты информации, использующих автоматический режим идентификации структуры и вычисления значения обрабатываемых естественно-языковых сообщений, заставляет производить их обработку с применением «ручных» технологий. Вместе с тем высокая степень интеграции ПЭВМ в системы защиты информации наряду с внедрением информационных технологий дает возможность для разработки и реализации в ИС относительно сложных, но более эффективных методов и алгоритмов вычисления слабоструктурированных данных.
Снижение вычислительных затрат, повышения характеристик устойчивости обработки, полноты, точности, адекватности идентифицируемых ЕЯ конструкций позволяет увеличить вероятность обнаружения угроз хищения и модификации документов, повысить показатели защищенности информации в процессе хранения и обработки, уменьшить вероятностные показатели преодоления системы защиты. Внедрение формализованной модели ЕЯ, основанной на вычислении связей между словами, позволяет применять новые технологии анализа информации с целью обнаружения и предотвращения угроз безопасности, возникающих в открытых вычислительных сетях.
Другой комплекс проблемных вопросов информационного противодействия угрозам ИБ в открытых вычислительных сетях связан с созданием систем идентификации коротких сообщений, где применение статистических методов классификации затруднено ввиду небольшого объема текста, что может создавать угрозы пропуска потенциально опасных сообщений и являться предпосылкой возникновения уязвимостей в системах мониторинга состояния ИБ. Вычисление семантической составляющей лингвистических конструкций дает возможность повысить точность распознавания текстовой информации для средств активного и пассивного мониторинга состояния ИБ в ИТКС.
Функционирование СЗИ в системах документооборота зависит от качества моделей описания лингвистических конструкций. Сложность практической реализации методов автоматической обработки естественно языковых текстов и идентификации, содержащихся в них данных, на уровне семантики, существенно затрудняет достижения показателей полноты, точности вычисления текстовой информации для методов и средств пассивного и активного противодействия угрозам информационной безопасности.
Таким образом, существует объективное противоречие между возможностями, которые предоставляют новые информационные технологии, и существующим научно-методическим и математическим обеспечением систем и комплексов информационной безопасности, реализующих алгоритмы автоматизированной обработки текста в целях выявления угроз информационной безопасности.
Следствием неразрешенности этого противоречия является объективная необходимость теоретического обобщения и развития методов математического и лингвистического обеспечения специализированных ИС, интегрируемых в комплексы средств защиты и информационного противодействия.
Таким образом, обоснование и разработка теоретических основ математического и программного обеспечения СЗИ, позволяющих автоматизировать процессы вычисления данных и фактов из текстов документов, основанные на проблемно ориентированной семантике естественно-языковых конструкций, для анализа текстовой информации с целью выявления угроз нарушения конфиденциальности, целостности, доступности является актуальной научной проблемой.
Проблемам обеспечения информационной безопасности посвящены работы таких известных ученых как: Н.Н. Безруков, П.Д. Зегжда, А.М. Ивашко, А.И. Костогрызов, В.И. Курбатов К. Лендвер, Д. Маклин, А.А. Молдовян, Н.А. Молдовян, А.А.Малюк, Е.А.Дербин, Р. Сандху, Дж. М. Кэррол, и других. Вместе с тем, несмотря на подавляющий объем текстовых источников в корпоративных и открытых сетях, в области разработки методов и систем защиты информации в настоящее время недостаточно представлены исследования, направленные на анализ угроз безопасности таких документов.
Решение сформулированной научной проблемы осуществляется на основе научных подходов информационной безопасности, предоставляемых теорией искусственного интеллекта и математической лингвистикой.
Первый подход направлен на совершенствование методов искусственного интеллекта. Теоретические основы в этой области применительно к информационным технологиям заложены в работах Кнута Д.Э., Нариньяни А.С, Попова Э.В., Поспелова Д.А и других. Семантическая сложность естественного языка, многообразие и многозначность его конструкций с одной стороны, и недостаточная гибкость представления информации на программном уровне с другой - накладывают ограничения на способы представления знаний о языке. Вследствие сказанного, такие модели, в основном, содержат упрощенные описания ЕЯ конструкций, достаточные для реализации выбранной информационной технологии, но обладающими уязвимостями, не позволяющими использовать их в СЗИ.
Второй подход связан с обоснованием требований к моделям естественного языка и направлен на подготовку и представление исходных данных в виде, удобном для их использования в задачах обработки текстовой информации. Основы описания и использования структур языка заложены в работах Н.Хомского, З.Харриса. В трудах этих и других ученых сформулированы подходы к созданию грамматик. Большое количество работ посвящено аналитическим моделям. Однако любая создаваемая модель ЕЯ профессионально ориентированной предметной области, изначально содержит некоторые ограничения, так как описывается определенной совокупностью свойств. Одновременно с этим, при повышении требований к точности резко возрастает объем учитываемых языковых факторов и затрат на получение адекватной структуры лингвистического описания. О выполнении этого условия говорится во многих работах как прикладного, так и теоретического характера Мельчука И.А. Апресяна Ю.Д., Хорошевского В.Ф., Леонтьевой Н.Н., Тузова В.А. и других.
Аналитические модели, описываемые в работах, являются узкоспециализированными и сложны с точки зрения адаптации под конкретные виды задач обработки текстовой информации открытых компьютерных сетей при противодействии угрозам нарушения информационной безопасности.
Содержание сформулированной проблемы определяет выбор в качестве объекта исследования системы мониторинга состояния информационной безопасности, обрабатывающие предметно ориентированные ЕЯ тексты и сообщения, а в качестве предмета исследования – методы и средства обнаружения и противодействия угрозам нарушения информационной безопасности, основанные на обработке и анализе текстов документов.
Исходя из сущности решаемой в диссертации научной проблемы, теоретическая цель исследования заключается в разработке, развитии аналитических методов, применяемых в системах мониторинга СЗИ, для обработки и вычисления информации ЕЯ текстов с целью обнаружения и противодействия угрозам нарушения информационной безопасности, отличающихся от известных использованием функциональности семантико-грамматических связей между словами, позволяющих осуществлять более качественный анализ конструкций естественного языка.
Прагматической целью работы является повышение показателей защищенности ресурсов ИТКС за счет увеличения качественных характеристик идентифицируемых ЕЯ конструкций при автоматизации процессов вычисления информации текстов предметной области в комплексах пассивного и активного информационного противодействия угрозам нарушения информационной безопасности.
Для достижения указанных целей в диссертации решаются следующие основные научные и технические задачи, вытекающие из декомпозиции научной проблемы:
систематизация и анализ возможности применения в СЗИ современных подходов к вычислению естественно-языковой информации текстов документов;
определение основных характеристик текстовой информации, обрабатываемой СЗИ, позволяющих производить оценку показателей защищенности, выявление достоинств и недостатков;
повышение вероятности обнаружения угроз нарушения конфиденциальности, целостности за счет совершенствования методов представления структур естественно-языковых конструкций и правил их обработки, которые могут быть использованы различными системами мониторинга информационной безопасности с минимальными затратами на адаптацию;
построение и обоснование информационного состава прикладных баз данных и баз знаний средств обеспечения информационной безопасности, содержащих описания структур конструкций, основывающихся на связях между словами, для вычисления объектов содержания коротких сообщений;
разработка предложений по применению в системах и средствах мониторинга безопасности предлагаемых решений автоматической обработки текстовой информации.
На защиту выносятся следующие основные результаты:
Методика определения характеристик для СЗИ информационно-технических объектов, обрабатывающих текстовую информацию, основанная на модели обеспечения ИБ текстовых потоков ИТКС.
Система моделей, методов, методик для обнаружения и предотвращения угроз нарушения информационной безопасности при анализе текстов открытых источников компьютерных сетей, основанная на применении модели естественного языка.
Комплекс методов, определяющий состав морфологического уровня обработки ЕЯ сообщений СЗИ, позволяющих повысить устойчивость алгоритмов функциональных компонент анализа текстовой информации.
Концепция построения методов и моделей мониторинга потоков текстовой информации ИТКС, основанная на идентификации структур текстовой информации.
Комплекс методик и моделей активного аудита текстовых источников открытых компьютерных сетей, содержащих угрозы нарушения ИБ, основанный на построении специализированных объектов естественно-языковых конструкций.
Научную новизну диссертации составляют:
1.Методика определения характеристик для СЗИ информационно-технических объектов, обрабатывающих текстовую информацию, основанная на модели обеспечения ИБ потоков ИТКС отличается от известных, базирующихся на аналитических подходах, использованием вероятностных оценок информационного воздействия текстовых сообщений ресурсов открытых вычислительных сетей, что позволяет определить необходимые качественные показатели для систем мониторинга состояния ИБ и СЗИ ресурсов.
2. Система моделей, методов, методик для обнаружения и предотвращения угроз нарушения информационной безопасности при анализе текстов открытых источников компьютерных сетей, основанная на применении модели естественного языка, отличается от известных, базирующихся на аналитических подходах, использованием в описаниях словоформ масштабируемых предикатов связей, аргументы которых содержат информацию о морфологических характеристиках и семантико-грамматических типах присоединяемых слов, что позволяет увеличить вероятность обнаружения конфиденциальной информации системами анализа контента за счет унификации описания, упрощения структуры ЕЯ базы данных без существенных потерь показателей полноты и точности при вычислении объектов текстовой информации.
3. Комплекс методов, определяющий состав морфологического уровня обработки ЕЯ сообщений СЗИ, позволяющих повысить устойчивость алгоритмов функциональных компонент анализа текстовой информации, отличается от известных, использующих аналитические подходы, вычислением информации на основе семантико-грамматических и морфологических характеристик, содержащихся в предикатах описаний словоформ для анализа возможностей соединения слов, что позволяет повысить точность распознавания данных с целью уменьшения вероятности преодоления защиты.
4. Концепция построения методов и моделей мониторинга потоков текстовой информации ИТКС, основанная на идентификации структур текстовой информации, отличается от известных, базирующихся на алгоритмах вычисления связей между словами, использованием системы приоритетов, реализующей последовательность перебора формализованных описаний синтаксической информации словоформ, обусловленную стилистическими особенностями текстов предметной области, что позволяет увеличить вероятность обнаружения угроз при осуществлении мониторинга сообщений открытых источников текстовой информации вычислительных сетей, избегая лавинообразного роста вычислительной сложности при построении структур без существенного снижения устойчивости обработки.
5. Комплекс методик и моделей активного аудита текстовых источников открытых компьютерных сетей, содержащих угрозы нарушения ИБ, основанный на построении специализированных объектов естественно-языковых конструкций, отличается от известных, базирующихся на статистических подходах, использованием фреймовых структур, что позволяет уменьшить количество примеров для достижения заданного показателя качества функции обучения, увеличив вероятность обнаружения требуемой информации для систем мониторинга состояния ИБ.
Достоверность результатов работы подтверждается:
корректным использованием фундаментальных положений теории искусственного интеллекта, баз данных и математической лингвистики;
научной обоснованностью приводимых выкладок и математических преобразований;
использованием методик, проверенных экспериментами и внедренными в действующие образцы автоматизированных систем управления;
непротиворечивостью полученных результатов известным решениям;
результатами экспертной оценки специалистов в данной предметной области при внедрении результатов работы в опытные образцы систем, разрабатываемые научно-исследовательскими организациями и предприятиями промышленности.
Практическую ценность результатов диссертационной работы составляют предложенные модели, методы и алгоритмы для средств информационного противодействия угрозам нарушения информационной безопасности, которые позволяют повысить устойчивость обработки профессионально-ориентированного текста до 90%, при этом уменьшить вычислительную сложность алгоритмов создания структуры предложения исключив экспоненциальный рост анализа взаимодействия связей.
Теоретическая значимость. Совокупность моделей, технологий, методик, определяет новый методический аппарат, имеющий существенное значение для развития методов, алгоритмов и программных средств обеспечения информационной безопасности в политической, социально-экономической, оборонной и других сферах деятельности.
Реализация результатов. Диссертация является обобщением результатов исследований, проводившихся автором в течение последних 10 лет в ходе плановых НИР и ОКР, выполняемых по плану научной работы ВВС, по заказу ВНК ВВС, Управления РТВ ВВС, научно-исследовательских институтов и предприятий оборонной промышленности. Результаты исследования внедрены в изделия 37И6, 37И6-М, использованы в НИОКР, проводившихся предприятиями промышленности (акты о реализации ОАО Всероссийский НИИ радиотехники, ОАО НИИ точной механики), в Федеральных целевых НИР.
Исследование выполнено по ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технического комплекса России на 2007-2013 годы» в рамках государственного контракта № 07.524.12.4009 на выполнение опытно-конструкторских работ.
Апробация работы. Результаты диссертационной работы докладывались и обсуждались на Международных и Всероссийских симпозиумах, военно-научных, научно-технических конференциях проводимых в научно-исследовательских организациях и высших учебных заведениях Министерства обороны и других Федеральных министерств и ведомств с 1998 по 2009 годы
Публикации. По результатам исследований, представленных в диссертации, опубликовано более 50 печатных работ (из них 10 научных работ в рецензируемых научных изданиях, рекомендованных для докторских диссертаций), в том числе 2 монографии, оформлено 6 отчетов о НИР.
Структура и объем работы. Диссертационная работа содержит введение, 5 разделов, заключение, список литературы. Объем работы составляет 243 страницы.
Классификация угроз безопасности обработки текстовой информации в информационно-телекоммуникационных системах
Современный этап развития информационно-телекоммуникационных систем (ИТКС) характеризуется внедрением новых технологий, повсеместным распространением локальных, корпоративных, глобальных вычислительных сетей. Ведение бизнеса, управление производственным процессом, финансовая и банковская деятельность обуславливает эксплуатацию корпоративных систем с открытым контуром информационной безопасности, где наряду с использованием закрытых сегментов необходима обработка, передача, распространение данных и документов в глобальных компьютерных сетях. Вследствие чего, в простейшем случае на рисунке 1.1 ИТКС рассматривается как объект, находящийся под воздействием внешней информационной среды, и формирующий ответные информационные потоки.
Информационный поток как компонент ИТКС доступен для внешних дестабилизирующих воздействий, одновременно, а с другой стороны сам может являться источником большого числа разноплановых угроз. Наличие угроз защищенности информации ИТКС требует повышенного внимания к обеспечению ИБ. Учитывая направление информационных потоков, информационная безопасность ИТКС рассматривается с двух сторон: защита от информации и защита информации [6,7,17,35,40,41,45,50,51,58,59,65,73,80,173]. Информационно-поисковые системы (ИПС) и присущие им характеристики, показывающие время индексации, поиска, объем индексируемой информации определяются задачами навигации в сети и предоставления удобных пользовательских интерфейсов [1,4,8,9,18,30,31,54,55,144,182,219]. Применение их в системах мониторинга ИБ требует не только улучшения отдельных качественных показателей (полноты, точности, адекватности), но и, в большинстве случаев, разработки принципиально иных методов обработки текстовой информации. Другим направлением развития систем защиты информации (СЗИ) являются программно-технические способы и средства предотвращения утечек конфиденциальной информации, лежащие в основе DLP и IPC систем, направленных на защиту от внутренних преднамеренных и непреднамеренных угроз хищения. В них используются технологии анализа потоков данных, пересекающих периметр защищаемой информационной среды организации [56,91,166,170,171,172,183,184]. Идентификация циркулирующей информации осуществляется на основе признаков сообщения и анализа содержания. Первый подход предполагает использование специальных маркеров, которыми могут являться отдельные метки и поля, например, гриф документа или особенности его регистрационного номера. Такие методы, в большинстве случаев, направлены на предотвращение непреднамеренных угроз, связанных с ошибками персонала. Во втором случае применяются статистические методы анализа информации, заключающиеся в поиске в тексте документа «подозрительных» слов, словосочетаний и выражений и их сравнения с содержимым специализированной словарной базы данных. Данный подход базируется на аппарате, предоставляемом математической статистикой, и, зачастую, использует проработанные методы, применяемые при фильтрации спама, основанные на ошибках первого и второго рода[57,128,188,190,213,226,228]. Увеличивающаяся интенсивность электронного документооборота в государственных учреждениях, корпорациях, компаниях свидетельствует о необходимости развития методов анализа текстовой информации, адаптированных для специальных задач обеспечения ИБ[116,117]. Одним из направлений является создание моделей безопасности на основе тематической политики[89,160,181,185,186,187,189,192], как одного из подходов противодействия информационным угрозам в открытых вычислительных сетях. Безопасное использование ресурсов Интернет из защищаемого сегмента корпоративной сети требует их классификации для тематико-иерархического разграничения доступа. Автоматизация процессов построения иерархических рубрикаторов в СЗИ основывается на методах вычисления естественно-языковых конструкций и статистических технологиях моделей извлечения фактов из текста. Таким образом, основное внимание в исследовании уделено моделям, методам обработки текстовой информации, используемых в СЗИ, с целью предотвращения угроз нарушения конфиденциальности информации, связанных с утечкой документов за периметр охраняемого сегмента сети, построения систем тематико-иерархического разграничения доступа, а также разработке методов информационного противодействия угрозам нарушения информационной безопасности в открытых компьютерных сетях.
Выбор состава СЗИ зависит от конкретных условий применения. На сегодняшний день, несмотря на принятие и использование международных стандартов, повышающих требования к системам защиты информации, постоянно растущие расходы на обеспечение защиты, наблюдается увеличение экономического ущерба от действий злоумышленников, использующих возможности открытых компьютерных сетей.
Современные подходы к защите информации носят в основном оборонительный характер. Они направлены на реализацию средств, имеющих строго определенную структуру, и обеспечивающих требуемые вероятностные показатели по преодолению системы защиты, с учетом информации об известных угрозах. Использование злоумышленниками глобальной сети Интернет обуславливает создание методов, обеспечивающих превентивные меры борьбы с деструктивными информационными воздействиями. Более 80% информации в открытой вычислительной сети Интернет, в системах документооборота представлено в виде естественно-языковых текстов[98,101,130,149]. Данное исследование посвящено методам и использующим их средствам защиты документов в процессе сбора, хранения, обработки, передачи и распространения текстовой информации, а также обеспечения информационной безопасности объектов политической, социально-экономической, оборонной, культурной и других сфер деятельности от внешних и внутренних угроз хищения, разрушения и/или модификации.
Усиление влияния информационной сферы деятельности на жизненно важные интересы общества и государства требует ее защиты от информационных воздействий, что объективно обуславливает возрастание роли и значения обработки и мониторинга текстовой информации в компьютерных сетях и открытых системах документооборота.
Рассмотрим вычислительную сеть Интернет, как глобальную информационно-телекоммуникационную систему. Выделим в ней множество информационных объектов[50,131,132,191]. В нашем случае порталы, сайты, страницы и другие сервисы и ресурсы сети Интернет будут являться информационно-техническими объектами (ИТО). Конечных пользователей, коллективы, анализирующие предоставляемую ИТО информацию, обозначим как информационно-психологические объекты (ИПО). Информационные воздействия, определяемые текстовой информацией, направлены на ИПО.
На рисунке 1.2 показаны основные направления информационных потоков, влияющих на ИБ конечных пользователей ИТКС. Среда оказывает внешние информационные воздействия, которые для ИТО определяют, вид и структуру, а для ИПО формируют, например, базовый уровень содержания информации. Одновременно с этим ресурс формирует информационный поток, требуемый пользователями, равно как и последние, оказывают влияние на контент и состав ресурса.
Концептуальные особенности обработки текстовой информации СМИБ
Однако при таком подходе для «идеальной» базы данных, которую возможно использовать для любого текста, необходимо описать модель реальной действительности, что по своей сути является трудно выполнимой задачей.
Большое количество классов К (более 1500) в классификаторе вызывает сложности с поддержкой словарной БД, связанные с добавлением, модификацией словоформ, когда необходимо определять семантические классы и прописывать связи. Не всегда ввиду тематической многозначности удается однозначно описать такой предикат.
Отдельную сложность составляет слияние используемой для данной модели словарной БД с аналогичными базами других разработчиков и авторов. Связано это с тем, что каждый разработчик имеет свой взгляд на иерархию понятий предметной области и, при поиске сообщений в заданной предметной области, множество описателей различается в зависимости от решаемых задач.
Основные трудности в поддержании и адаптации модели составляют следующие моменты: 1. Несовпадение в словарях, как самих классификаций слов, так и уровней классов, что затрудняет объединение. 2. Отладка и проверка корректности правила связи словоформы оказывается довольно трудоемким процессом, т.к. не всегда словарная статья толкового словаря может быть корректно преобразована в предикат. Несмотря на определенные недостатки, приводимая модель использовалась и используется в задачах классификации текстов специализированных средств мониторинга ИБ и поиска информации [70,74,76,97] и позволяет достигать 90% соответствия при определении тематики сообщений. В зависимости от решаемых задач требуется разная степень формализации естественного языка, поэтому очень часто для достижения конкретных целей обработки ЕЯ отдельными характеристиками можно пренебречь. Исходя из этих и других проблемных вопросов, для метода идентификации текстовой информации предметной области мониторинга состояния ИБ приводится разработанная адаптированная модель естественного языка [77,109,114,115].
Аналогично модели В. А. Тузова в ней также выделяются уровень морфологии, уровень синтаксиса и уровень семантики (рисунок 2.12). Однако семантический и синтаксический уровни отделены друг от друга.
Особенность приводимой модели состоит в использовании масштабируемых предикатов описания информации аргументов словоформ предметно-ориентированных словарных баз данных естественного языка, что позволяет осуществлять идентификацию потенциально опасной информации, сравнение конструкций и построение управляющих правил обработки на уровне связей. Масштабируемый предикат по своему составу идентичен семантическому предикату предыдущей модели. Однако вместо семантического класса в нем используются классы идентификационного множества определенного тематикой мониторинга ИБ, влияющие на тип и семантическое значение ЕЯ конструкции в рамках предметной области. Рассмотрим построение и особенности их использования.
В случае мониторинга состояния ИБ ИТО ИТКС анализ стилистики текстов ресурсов сети Интернет блогов, лент новостных агентств, показывает почти полное отсутствие «длинных» предложений, которые встречаются у русских классиков.
Средняя длина сообщений таких текстов около 10 слов, что подтверждается данными статистических исследований, опубликованных на сайтах, посвященных классической лингвистике. На рисунках 2.13-2.16 приведено процентное соотношение предложений от количества слов в комментариях пользователей порталов lenta.ru, fontanka.ru, mail.ru и общее их усредненное значение[40].
В таблицах 2.1-2.3 приведены результаты эксперимента, проводимого при получении данных зависимостей. На каждом портале было выделено по 10 блоков комментариев на различные темы. Внутри каждого блока показано количество предложений в комментариях пользователей и количество слов в предложении.
Несмотря на различные виды гистограмм, видно некоторое сходство, показывающее всплески предложений, содержащих 4 и 7 слов.
Прилагательные и уточняющие существительные в родительном и творительном падежах, обороты, идентифицируемые словом «который», причастия не разбросаны по тексту сообщений, а тяготеют к базовым, образующим конструкцию существительным. Оценка сообщений источников текстовой информации сети Интернет, несущей потенциально опасное воздействие, может быть осуществлена через подходы, основанные на ошибках первого и второго рода.
В этом случае словарные базы данных адаптируются под конкретную предметную область. Ограничения предметной области позволяют избавиться от значительного количества неоднозначных словоформ[72,78,81,82,83,99]. В тоже время семантический уровень представляется в виде сменяемой части, где описываются правила обработки и вычисления значений получаемых конструкций. Например, в простейшем случае, для правильного вычисления вопросительной связи предложно-падежной формы достаточно использования 17-18 классов (с некоторыми оговорками повторяющие падежи Ч.Филмора).
Предложение текста можно рассмотреть как последовательность морфологических идентификаторов ти, mi2,...,min, которые необходимо выстроить в соответствии с системой Q внешних приоритетов (правил) и системой связей, прописанных в словаре. Таким образом, каждой словоформе, потенциально характеризующей опасное содержание, ставится в соответствие идентификационное множество, и она оказывается под воздействием двух систем управления.
Первая система - внешняя, определяет порядок устранения неоднозначностей морфологических идентификаторов и формируется правилами управления.
Вторая система определяется возможными связями конкретной формы слова. Информация о правилах содержится в предикатах синтаксической базы данных. При связывании слов предложения альтернативы каждого слова вступают во взаимодействие с соседними альтернативами. В результате этого строятся более сложные конструкции, которые также описываются множествами альтернатив wh способными взаимодействовать с соседними альтернативами Wj.
Вычисление морфологической информации в специализированных системах обработки текстовой документации
Для того, чтобы использовать слова с изменяемыми основами, например, в качестве меток с целью предотвращения угроз утечки информации, в первом столбце указаны начальные изменяемые символы, по которым происходит проверка Причем, этот столбец составлен таким образом, что первым символом выступает либо одна буква, либо набор букв, получаемый в результате замены первых нескольких слогов на ASCII-код Например, в слове МЕЧ МЕТИТЬ проверяются просто три первые буквы М, Е и Ч последняя из которых может измениться на Т (второй столбец) Вторая словарная база Здесь проверка осуществляется по первым трем символам с учетом перекодировки. Например, в слове ІЙТИСЬ ("найтись") измениться может буква Й ("находить", "находиться"). Изменения в глагольных формах указаны непосредственно в словарной статье. И если в результате идентификации будет найдено первое слово словарной статьи, то все другие слова, входящие в эту статью, автоматически обрабатываются анализатором и считаются однозначно соответствующими первому слову.
Кроме БД основ для обработки в системах мониторинга ИБ слова используются также рабочие базы данных концов словоформ (tail 1 - tail8). БД концов словоформ служат для организации поиска основной формы слова анализируемого сообщения. В них содержатся концы словоформ морфологических меток, получаемых при склонении или спряжении основ. В отличие от файла окончаний fok.txt, где каждому слову сопоставляется присущий ему набор различных окончаний, в базах данных окончаний taillail8 содержится абстрактный набор, не принадлежащий в полной совокупности какому-либо отдельно взятому слову. Этот набор получается в результате выявления в наборе концов слов конкретного слова тех из них, которые характеризуются признаком количества символов. По этому признаку и формируются абстрактные наборы в файлах taillail8.
Среди словоформ предметной области, характеризующей потенциально опасные сообщения или защищаемую тематическую информацию, выбираются все одно-, двух-,..., восьми - буквенные окончания и заносятся в соответствующую БД. Если комбинация из п букв при этом совпадает, то очередная аналогичная форма не заносится в соответствующий словарь tailn.
Таким образом, и формируются все эти БД после построения парадигм всех слов из основной базы СЗИ. Например, для всевозможных одно-, двух-, трех- и четырехбуквенных окончаний соответствующие словари будут: на примерах. Пусть заданы слова осуществлялся, осуществляйте, осуществляющий, метить, помечать. Первый этап - поиск в словарях с изменяемой основой, сначала в osnl, затем в osnl. Из этого набора в первом словаре будет найдено только слово МЕТИТЬ. По его морфологическому электронному описателю для него будет построена парадигма, которая сохраняется в качестве претендента. Следует заметить, что нахождение слова, на каком либо промежуточном этапе поиска не означает, что оно исключается из рассмотрения на последующих этапах. Возможна ситуация, когда схожая форма искомого слова, идентифицирующего предметную область потенциально опасных сообщений, будет находиться в разных словарных базах данных. Поэтому, важно отследить всех возможных претендентов, сохранив их в памяти, и лишь потом выбрать среди этого списка того из них, в котором в точности содержится поисковая форма. Если найденные формы-претенденты из разных словарных БД совпадают с точностью до морфологического описателя типа, то в качестве претендента сохраняется одна из них. Во втором словаре из представленного набора будет найдено слово ПОМЕЧАТЬ. Его парадигма, построенная по морфологическому описателю из второго словаря, также станет пока лишь претендентом. Второй этап - поиск в словарных базах данных окончаний, который осуществляется последовательно, в сторону убывания количества символов окончаний, от 8 до 1. В tail8 - tail5 не будет найдено ни одного слова из представленного набора. В результате проверки четырех символов в словарной БД окончаний tail4 будет найдено окончание -ЮЩИЙ, принадлежащее слову ОСУЩЕСТВЛЯЮЩИЙ. Это окончание будет "оторвано" от данного слова, а поиск оставшейся части, по существу - основы, используемой в качестве метки для предотвращения утечки информации или идентификации потенциально опасного сообщения, анализатор продолжит уже в основном словаре. Все найденные в нем слова, начинающиеся на "осуществля" и соответствующие им парадигмы сохраняются в качестве претендентов данного поискового слова. Для слова осуществляйте конечным словарем окончаний будет taiB, для слова осуществлялся (-СЯ отбрасывается изначально как признак возвратного глагола) - словарь tail2, для слова ПОМЕЧАТЬ словарь окончаний taill. Итак, в любом случае следующий (третий) этап анализа морфологических меток СЗИ за этапом "отброса" окончаний в соответствующих баз данных - поиск слова в основном словаре и построение парадигмы этого слова. В результате такого отбора скопится некоторый набор претендентов. После фильтрации набора по морфологическому описателю класса, происходит последовательная проверка всех оставшихся словоформ на наличие в парадигме искомой формы слова. Истинным считается тот претендент, в котором эта искомая форма присутствует. Остальные претенденты удаляются из буфера. Возможны и другие, более компактные методы устранения морфологических уязвимостей[102,103,148,149,152,153]. Однако для систем контент-анализа мониторинга ИБ первостепенной задачей является точность построения, максимальная полнота и достоверность получаемой информации, а лишь затем скоростные характеристики ее обработки. Хотя все же, и при такой идеологии подхода к разработке не обошлось без некоторой алгоритмизации процесса ускорения поиска.
Элементы обобщенной модели онтологического описания идентификаторов предметной области
Кроме информационных объектов, обрабатываемых в DLP системах, особый интерес составляют их характеристики, позволяющие оценить эмоциональный фон сообщения для системы мониторинга ИБ, идентифицируемые на основе прилагательного. В формализованном синтаксисе ограниченного ЕЯ СЗИ прилагательное Pril обозначает признак существительного S. Морфологическая информация прилагательных: т0-часть речи, т,- падеж, т2 - число, т3 - род. т, = {прилагательное, падеж, число, род }. Основные формы вопросов, задаваемых к этой части речи от существительного, Vj = { какой? сколько? скольким? }, вычисляются на основании пересечения морфологических признаков га, и rrij : f/И/Пт,-)— - vy
При вычислении конструкции в СЗИ характеристика может полностью изменить значение информационного объекта, например секретная информация - открытая информация. Конструкция прилагательное-существительное Pril(S) наследует признаки существительного.
В задачах анализа контента сообщения прилагательные рассматриваются как элементы, конкретизирующие объекты предложения. Их синтаксическая роль состоит в уточнении аргумента предложения[9,10,11,36].
В формализованном синтаксисе систем мониторинга ИБ числительное Chisl обозначает количественный признак и имеет сходную роль с прилагательным. Морфологические характеристики данной части речи: га0-часть речи, тг падеж, т2 - число, т3 - род. mj = {числительное, падеж, число, род }
Связи количественных, собирательных, дробных, неопределенных числительных являются типовыми характеристиками для систем мониторинга ИБ и определяют вопросительные идентификаторы сколько? скольким? Остальные виды, аналогично прилагательным, отвечают на вопрос какой? Совпадения описателей существительного и числительного га, и га,- можно использовать для вычисления потенциальной конструкции Chisl(S) в предложении. Идентификаторы связи Vj числительного определяются на основании признаков га,, так же как и прилагательного.
Синтаксическая роль числительного в методе мониторинга ИБ состоит в количественном уточнении аргумента, подставляемого в глагольный предикат или замене аргумента, определяемого в функции предложения Р. В отличие от прилагательных, к числительным может быть также задан вопрос от глагола. В формализованном синтаксисе местоимение — часть речи, употребляемая вместо существительного, прилагательного, числительного или наречия. Местоимения Mests, ={ я, мы, ты, вы, он (она, оно), они, кто, что, никто, ничто, некто, нечто, кто-то, что-то ...} соотносимые с существительными, обладают всеми характеристиками этой части речи. Их формализация идентична существительным. Обобщенно-качественные местоимения ограниченного ЕЯ MestPril= { мой, твой, свой, наш, ваш, какой, который, чей, тот, этот, самый, всякий, каждый ...}, имеют сходство с прилагательными. Обобщенно-количественные местоимения Mestausi {столько, сколько} характеризуются аналогично числительным. Основная особенность заключается в том, что они не называют объект явно. Вычисление этой части речи в задачах котент-анализа предметной области больше относится к организации тема-рематических связей между предложениями документа. В системах обработки текстовых сообщений, определяющих потенциально опасные сообщения, глагол G - основа конструкции предложения. Поэтому, в формализованном синтаксисе морфологические характеристики глагола менее востребованы, чем в формализованной семантике [12,13,140,215]. Глагол представляет собой предикат многих аргументов, а аргументами выступают слова предложения. В публикациях [97] выделялось около 40 аргументов, требуемых для построения ЕЯ конструкции обрабатываемой в СЗИ: G(x,,...,x40) (3.34) Предложения естественного русского языка очень часто не имеют глагола. В этом случае наиболее простой вариант построения структуры для системы мониторинга ИБ состоит в том, чтобы приписать какой-либо общий или пустой предикат. Аргументы глагола ограниченного ЕЯ, используемого для анализа сообщения, зависят от существительных, с которыми он оперирует в конструкции предложения. Они фактически носят явный семантический характер, и для чисто синтаксического анализа их описание достаточно затруднительно. Кроме морфологических признаков т} частей речи, подставляемых в глагольный предикат, для создания синтаксического анализатора, ограниченного ЕЯ системы мониторинга ИБ, решающего задачи построения структуры сообщения, информативно то, что инфинитив G0 - неизменяемая форма глагола -определяет только действие. Инфинитив глагола в формализованном синтаксисе может быть аналогично существительному подставлен в глагольный предикат. Во всех остальных случаях первым аргументом является тот объект, который совершает действие - существительное, находящееся в форме именительного падежа. Число аргументов глагольной функции конечно. Многие из них, не относящиеся к зависимым от предложно-падежной формы, в значительной степени определяются семантикой других частей речи, выделяемых в рамках ограниченного ЕЯ систем мониторинга ИБ и СЗИ. Любое предложение в тексте конечно. Поэтому для методов мониторинга ИБ также конечен и набор аргументов, определяемый этой ЕЛ конструкцией Р. И так как всякая абстрактная функция Р выражена полным набором аргументов, то набор аргументов предложения ограниченного ЕЯ предметной области обеспечения ИБ обязательно является подмножеством абстрактного набора: В абстрактной глагольной функции G в качестве ее аргументов выступает морфологическая информация о падежно-предложных формах слов в предложении, обрабатываемом СЗИ ИТО ИТКС, поэтому имеет место соотношение: