Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Концептуальный анализ, принципы моделирования и оптимизация алгоритмов синтеза текстовых структур Суркова Анна Сергеевна

Концептуальный анализ, принципы моделирования и оптимизация алгоритмов синтеза текстовых структур
<
Концептуальный анализ, принципы моделирования и оптимизация алгоритмов синтеза текстовых структур Концептуальный анализ, принципы моделирования и оптимизация алгоритмов синтеза текстовых структур Концептуальный анализ, принципы моделирования и оптимизация алгоритмов синтеза текстовых структур Концептуальный анализ, принципы моделирования и оптимизация алгоритмов синтеза текстовых структур Концептуальный анализ, принципы моделирования и оптимизация алгоритмов синтеза текстовых структур Концептуальный анализ, принципы моделирования и оптимизация алгоритмов синтеза текстовых структур Концептуальный анализ, принципы моделирования и оптимизация алгоритмов синтеза текстовых структур Концептуальный анализ, принципы моделирования и оптимизация алгоритмов синтеза текстовых структур Концептуальный анализ, принципы моделирования и оптимизация алгоритмов синтеза текстовых структур Концептуальный анализ, принципы моделирования и оптимизация алгоритмов синтеза текстовых структур Концептуальный анализ, принципы моделирования и оптимизация алгоритмов синтеза текстовых структур Концептуальный анализ, принципы моделирования и оптимизация алгоритмов синтеза текстовых структур Концептуальный анализ, принципы моделирования и оптимизация алгоритмов синтеза текстовых структур Концептуальный анализ, принципы моделирования и оптимизация алгоритмов синтеза текстовых структур Концептуальный анализ, принципы моделирования и оптимизация алгоритмов синтеза текстовых структур
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Суркова Анна Сергеевна. Концептуальный анализ, принципы моделирования и оптимизация алгоритмов синтеза текстовых структур: диссертация ... доктора Технических наук: 05.13.01 / Суркова Анна Сергеевна;[Место защиты: ФГБОУ ВО Нижегородский государственный технический университет им. Р.Е. Алексеева], 2017.- 343 с.

Содержание к диссертации

Введение

1. Проблема структурного анализа, моделирования и оптимизации алгоритмов синтеза текстовых структур 15

1.1. Роль и место рассматриваемой проблемы и ее значение в сфере информационно-телекоммуникационных систем 15

1.1.1. Задачи анализа и обработки текстовых данных 16

1.1.2 Системы анализа и обработки текстовых данных 22

1.2. Сравнительный анализ известных работ в области анализа, моделирования и синтеза текстовых структур . 28

1.2.1. Интеллектуальный анализ текстов (Text Mining) 28

1.2.2. Компьютерная лингвистика. Статистические методы обработки текстов 34

1.2.3. Компьютерная лингвистика. Семантический анализ текстов. Онтологии. 36

1.2.4. Информационный поиск 41

1.2.5. Анализ и обработка текстовых данных в интеллектуальных системах 42

1.2.6. Специальные прикладные аспекты анализа и обработки текстов 43

1.3. Обоснование нового обобщенного подхода к решению проблемы структурного

анализа, моделирования и оптимизации алгоритмов синтеза текстовых структур. 59

1.3.1. Задачи классификации 59

1.3.2. Задачи кластеризации 61

1.3.3. Задачи идентификации 64

1.4. Выводы к главе 1 70

2. Текстовые структуры и их анализ 71

2.1. Текст как система 71

2.1.1. Основные понятия и определения 71

2.1.2. Структурно-иерархические модели текста 79

2.1.3. Вероятностные модели текстов 83

2.1.4. Модели текстов на основе статистической лексикографии

2.2.1. Потоковое представление текста 95

2.2.2. Информационные модели текста 98

2.3. Текст как многомерный объект 105

2.3.1. Многомерная модель текстов 105

2.3.2. Структурные инварианты текстов 109

2.4. Выводы к главе 2 113

3. Основные теоретические положения моделирования текстовых структур 114

3.1. Концепция скрытых параметров 114

3.1.1. Предпосылки к концепции скрытых параметров 114

3.1.2. Формирование концепции скрытых параметров 117

3.2. Принципы моделирования и анализа текстовых структур 120

3.2.1. Принцип снижения размерности 120

3.2.2. Принцип нечеткости 127

3.2.3. Принцип обучающихся систем 133

3.2.4. Обобщающий принцип, основанный на концепции скрытых параметров 139

3.3. Выводы к главе 3 145

4. Оптимизация алгоритмов синтеза текстовых структур 146

4.1. Параметрический синтез текстовых структур 146

4.1.1. Классификация текстовых структур как аспект параметрического синтеза 147

4.1.2. Алгоритмы классификации текстовых данных 155

4.2. Непараметрический синтез текстовых структур 164

4.2.1. Кластеризация текстовых структур как аспект непараметрического синтеза 164

4.2.2. Колмогоровская сложность. Количественная мера подобия текстов 168

4.2.3. Алгоритмы кластеризации текстовых данных 174

4.3. Информационный синтез текстовых структур 190

4.3.1. Количественная мера взаимной информации 191

4.3.2. Алгоритмы идентификации текстовых данных

4.4.1. Особенности анализа и обработки текстов разной природы 202

4.4.2. Процедура выбора моделей и алгоритмов синтеза текстовых структур 209 4.5. Выводы к главе 4 219

5. Практическая реализация результатов работы 220

5.1. Практическая реализация общетеоретических положений 220

5.1.1. «Кластеризация слабоструктурированных данных» 220

5.1.2. Методика «Кластеризация потоковых данных » 221

5.1.3. Методика «Анализ текстов исходных кодов программ» 226

5.1.4. Описание структуры библиотеки программ «Моделирование текстовых структур» и принципов работы с ней 229

5.2 Практическая реализация результатов работы 237

5.2.1. Идентификация текстов исходных кодов программ 237

5.2.2. Иерархическая кластеризация текстовых данных 243

5.2.3. Классификация текстовых данных

5.3. Перспективы развития теоретических и практических результатов работы 265

5.4. Выводы к главе 5 2 6.

Заключение 268

7. Список сокращений и условных обозначений 270

8. Список литературы 271

Введение к работе

Актуальность.

Важность, значимость и необходимость анализа текстов возрастает с увеличением количества информации, представленной в текстовом виде, причем, кроме традиционных текстов (научных, литературных, публицистических), растет число специальных текстов, обладающих своей спецификой, например, тексты исходных кодов программ, текстовые сообщения в Интернете и т.п.

Существующие системы анализа и моделирования текстов, к которым относятся информационно-поисковые и информационно-аналитические системы различной направленности, включают рассмотрение и решение таких задач как классификация документов по тематическим категориям, идентификация авторства, выявление некорректных заимствований, плагиата, моделирование представлений знаний о предметной области и содержания текстов, классификация и фильтрация документов по заданным запросам и многие другие. В системах обеспечения информационной безопасности (кибербезопасности) существуют разделы, связанные с обработкой текстов, решающие задачи выявления потенциально опасных или нежелательных сообщений в интернет-текстах, идентификации авторства вредоносного программного обеспечения и т.п. Разработанные в диссертации модели и методы анализа текстов могут найти применение в других областях, таких как системы автоматизированного проектирования, при анализе данных, обладающих определенными свойствами последовательной информации.

Необходимо отметить, что большинство известных методов предназначено для решения задач в узкоспециализированных областях и не может быть использовано для решения аналогичных задач для других типов текстов. При этом существующие системы обработки текстов на естественных языках предназначены для работы с англоязычными текстами (и иногда арабскими) и не учитывают специфику русского языка.

Эффективное решение основных задач анализа текстовых данных требует, в первую очередь, рассмотрения с единых позиций общих вопросов, связанных с моделированием и обработкой текстов разных типов. Любой текст является сложным системным образованием, однако при решении конкретных задач требуется выявлять только значимые для решения данной задачи признаки: рассматривать текстовые структуры как совокупность устойчивых связей признаков, описывающих тексты различных типов. Это определяет постановку и решение актуальной научной проблемы, связанной с развитием и совершенствованием одного из приоритетных направлений развития науки,

технологий и техники в Российской Федерации – информационно-телекоммуникационных систем, в рамках которого – создание с единых позиций моделей, методов и алгоритмов синтеза текстовых структур, повышающих эффективность решения конкретных прикладных задач.

Таким образом, актуальность темы определяется необходимостью комплексного исследования, связанной с недостаточной разработанностью моделей текстовых структур и методов их синтеза для обработки текстов различных типов, в частности для русскоязычных текстов.

Степень теоретической разработанности темы. Актуальность обозначенной научной проблемы подтверждается теоретическими и практическими работами российских и зарубежных исследователей. Общее направление, изучающее проблемы компьютерного анализа и синтеза естественных языков, получило название Обработка естественного языка (Natural Language Processing, NLP). Работы Ch.Manning, H.Schutze и других посвящены общим проблемам NLP. Проблемам информационного поиска (information retrieval) посвящены работы Р.С. Гиляревского, Г.Г. Белоногова, Д.Г. Лахути, C.J. Rijsbergen, Ch.Manning. Проблемам формализации и управления знаниями, создания онтологий посвящены работы В.Ф. Хорошевского, Д.Г.Лахути, Б. Магнини, А.С.Нариньяни, В.Н. Кучуганова и др. Специальными вопросами в области анализа и обработки текстов занимались E. Stamatatos (определение авторства), S. Burrows, I.Krsul (анализ текстов исходных кодов), K.Kontostathis, A.Abbasi (анализ интерент-текстов, кибербезопасность) и многие другие. Развитие моделей и методов анализа и обработки текстовых данных связано с развитием информационных технологий, а также может внести вклад в создание интеллектуальных информационных систем, экспертных систем и баз знаний. Значительный вклад в решение проблем интеллектуальных систем внесли работы В.К.Финна, В.М.Курейчика, А.П.Еремеева и многих других.

Объект исследования – слабоструктурированные тексты, в том числе тексты интернет-сообщений, исходные коды программ, традиционные (научные, художественные, публицистические) тексты.

Предмет исследования – методы анализа, моделирования и синтеза текстовых структур.

Целью работы является создание новых общих для текстов различного типа моделей, методов и алгоритмов синтеза текстовых структур для решения прикладных задач в сфере информационно-телекоммуникационных систем.

Поставленная цель достигается решением следующих основных задач:

Обоснование концепции скрытых параметров как системоорганизующих характеристик текста, проявляющихся как структурные инварианты.

Разработка обобщающей модели текста как многомерного объекта, учитывающей особенности ее функционирования в основных задачах кластеризации, классификации и идентификации текстов.

Формализация и теоретическое обоснование принципов моделирования текстовых структур с использованием теории сжатия, теории нечеткой логики, теории обучающихся систем и концепции скрытых параметров.

Разработка методологии анализа и моделирования текстовых структур, включающей совокупность моделей, методов и алгоритмов, а также правила их выбора в зависимости от решаемой задачи.

Исследование возможностей внедрения предложенных моделей для обработки текстов различных типов, в том числе интернет-текстов, текстов патентов и исходных кодов программ.

Реализация и исследование предложенных методов и алгоритмов решения задач кластеризации, классификации и идентификации, а также сравнение полученных результатов с известными. Область исследования соответствует пунктам 2–4 паспорта специальности

05.13.01. – «Системный анализ, управление и обработка информации (в науке и промышленности)»: формализация и постановка задач, разработка моделей описания и оценки эффективности решения задач, разработка методов и алгоритмов решения задач системного анализа и обработки информации.

Научная новизна. В диссертации получены следующие результаты, характеризующиеся научной новизной.

1. Предложена и обоснована концепция скрытых параметров как
системоорганизующих текстовых характеристик, позволяющая провести
структурный анализ текстов различных типов в основных задачах кластеризации,
классификации и идентификации текстов, основанная на представлении
закономерностей текстовых структур в форме инвариантов (универсальных,
тематических, авторских) и формировании обобщающей модели текста как
многомерного объекта.

2. Предложен обобщающий принцип моделирования текстовых структур на
основе концепции скрытых параметров, позволивший объединить предложенные
автором принципы моделирования, основанные на снижении размерности, теории
нечеткой логики, теории обучающихся систем.

3. Проведена оптимизация алгоритмов синтеза текстовых структур,
основанная на концепции скрытых параметров, отличающаяся проблемной

ориентированностью критериев и формализацией постановок решаемых задач, а именно:

параметрического синтеза текстовых структур;

непараметрического синтеза текстовых структур.

информационного синтеза текстовых структур;

4. Разработана методология анализа и моделирования текстовых структур,
включающая процедуру рационального выбора наилучших моделей и методов при
решении конкретных задач, позволяющая с единых позиций развивать и
совершенствовать методы решения основных задач в информационно-поисковых
и информационно-аналитических системах, а также системах обеспечения
информационной безопасности.

5. Предложена структура, реализующая методологию анализа и
моделирования текстовых структур и позволившая разработать комплекс
программных средств, включающий общие для текстов различного типа модели и
методы анализа и обработки текстов, в том числе:

модели и методы иерархической кластеризации потоковых текстовых данных, предполагающей возможность дополнения условиями нечеткости и непрерывного обучения;

модели и методы классификации пользователей в социальной сети на основе анализа характеристик их сообщений и отзывов;

модели и методы идентификации текстов исходных кодов программ;

и другие.

Определяющее отличие полученных результатов заключается в формировании обобщающей модели текста как многомерного объекта и рассмотрении текстовых структур как совокупности устойчивых связей признаков описания текстов, выявлении скрытых параметров, характеризующих структуру текста, и в сжатом виде предоставляющих достаточно информации для решения поставленных задач. Предложенная концепция скрытых параметров позволяет раскрывать закономерности текстовых структур в форме инвариантов (универсальных, тематических, авторских) как общих признаков, присущих всем объектам в некотором классе. Это позволило с единых позиций рассмотреть тексты различных типов (тексты исходных кодов программ, интернет-тексты, художественные и научные тексты) и учесть их особенности при реализации конкретных методов.

Теоретическая и практическая значимость работы, внедрение результатов работы

Работа выполнена в рамках научного направления (темы) «Диагностические и информационно-поисковые системы» (Номер государственной регистрации 01201252337, Интернет-номер И111112195013, руководитель работы д.т.н., профессор Ломакина Л.С.). Результаты работы использованы при выполнении СЧ НИР по хоздоговору № 16/2371 от 26.09.2016 с ФГУП «ФНПЦ НИИИС им.Ю.Е. Седакова».

Теоретическая значимость результатов работы состоит в систематизации подходов к моделированию текстов разных типов, в выявлении закономерностей организации текстовых структур, расширении возможности функционирования различных систем анализа и обработки текстов за счет предложенной методологии анализа и моделирования текстовых структур, включающей формализацию выбора наилучших моделей и методов для решения конкретных задач.

Основные теоретические и практические результаты внедрены в практическую деятельность Российского государственного архива научно-технической документации (г. Москва) при анализе категорий текстовых архивных документальных объектов; Федерального научно-производственного центра АО «НПП «Полет» (г. Нижний Новгород) при анализе попыток несанкционированного доступа в базу данных сервера; ФНПЦ НИИИС им. Ю.Е. Седакова» (г. Нижний Новгород) в виде методики кластеризации данных; ЗАО «Нижегородское агентство наукоемких технологий» (г. Нижний Новгород) для выявления патентов-аналогов с целью обеспечения высокого технического уровня проводимых исследований и исключения дублирования разработок; НПО «Специальная техника и связь» МВД РФ (г. Нижний Новгород) для повышения информационной безопасности при анализе и обработке текстов в Интернете, а также в ФГБОУ ВПО «Нижегородский государственный технический университет им. Р.Е. Алексеева» при разработке и создании новой образовательной программы «Диагностические и информационно-поисковые системы» по подготовке магистров направления 09.04.01. «Информатика и вычислительная техника», программа открыта в 2011 году, научный руководитель – д.т.н., профессор Л.С.Ломакина.

Методологию и методы диссертационного исследования составляют теория системного анализа, теория множеств, теория информации, теория вероятностей и математическая статистика, теория нечетких множеств.

Достоверность и обоснованность обеспечивается корректным применением математического аппарата, подтверждается сопоставлением результатов

теоретических исследований с экспериментальными данными сравнением разработанных аналитических моделей и алгоритмов с результатами экспериментальных исследований и опубликованными материалами других исследователей. Полученные результаты согласуются с современными научными представлениями и данными, основные технические решения внедрены в практическую деятельность ряда предприятий. Положения, выносимые на защиту

Концепция скрытых параметров как системоорганизующих текстовых характеристик в форме инвариантов.

Принципы моделирования текстовых структур.

принцип снижения размерности;

принцип нечеткой логики;

принцип обучающихся систем;

принцип (обобщающий) на основе концепции скрытых параметров.

- Методология анализа и моделирования текстовых структур для текстов
различных типов, включающая:

обобщающую модель текстовых структур, основанную на концепции скрытых параметров текстов;

совокупность методов информационного, параметрического и непараметрического синтеза текстовых структур;

процедуру рационального выбора наилучших моделей и методов при решении конкретных задач.

- Комплекс программных средств анализа, моделирования и синтеза текстовых
структур, позволивший:

провести эффективную кластеризацию текстовых данных с учетом размера рассматриваемых документов;

получить многоуровневую кластеризацию потоковых текстовых данных, предполагающую возможность дополнения условиями нечеткости и непрерывного обучения;

классифицировать пользователей в социальной сети на основе анализа характеристик их сообщений и отзывов;

идентифицировать тексты исходных кодов программ, используя модели на основе Колмогоровской сложности, N-грамм и энтропийных характеристик.

Апробация результатов исследования. Результаты исследования докладывались на 26 всероссийских и международных научных конференциях:

- Международная конференция «Идентификация систем и задачи управления»
SICPRO‘15 (Москва, 2015);

– Международный конгресс по интеллектуальным системам и информационным

технологиям «IS&IT’14» (Новороссийск, 2014); – Международная конференция «Современные методы прикладной математики,

теории управления и компьютерных технологий» («ПМТУКТ-2015»)

(Воронеж, 2015); – Международный симпозиум «Интеллектуальные системы INTELS» (Москва,

МГТУ им. Н.Э. Баумана, 2008, 2012, 2014); – Международная научно-практическая конференция «Системный анализ в

проектировании и управлении» (Санкт-Петербург, 2014, 2015, 2016); – Международная конференция «НТИ-2012. Актуальные проблемы

информационного обеспечения науки, аналитической и инновационной

деятельности» (Москва, ВИНИТИ, 2012); – International Open Science Conference «Modern informatization problems» (2014,

2015); – Международная научная школа "ПАРАДИГМА". ЛЯТО-2015 (Варна, 2015); – Международная конференция «НТИ-2002. Информационное общество.

Интеллектуальная обработка информации. Информационные технологии»

(Москва, ВИНИТИ, 2002); – Международная научно-техническая конференция «Информационные системы

и технологии» ИСТ-2003, 2004, 2005, 2007, 2011, 2012, 2014, 2015, 2016

(Нижний Новгород); – Международная молодежная научно-техническая конференция «Будущее

технической науки» (Нижний Новгород, 2012, 2014, 2015). Публикация результатов исследования. По теме диссертации опубликовано 47 работ, из них 16 статей в журналах из перечня ВАК, 25 докладов в сборниках трудов всероссийских и международных конференций, одна монография и одно учебное пособие, а также пять программ для ЭВМ, зарегистрированных в качестве объектов интеллектуальной собственности.

Личный вклад. Все выносимые на защиту результаты и положения, составляющие основное содержание диссертационной работы, разработаны и получены лично автором или при его непосредственном участии. В большинстве работ, опубликованных в соавторстве, соискателю принадлежит определяющая роль при постановке задачи, ее исследовании и получении результатов.

Объем и структура работы. Диссертационная работа изложена на 343 страницах, состоит из введения, пяти глав, заключения и приложений, содержит 72 рисунка и 28 таблиц. Библиографический список включает 240 наименований.

Сравнительный анализ известных работ в области анализа, моделирования и синтеза текстовых структур

Задачи выявления некорректных заимствований и плагиата традиционно появились в сфере художественной литературы, однако в последнее время все острее встает данный вопрос для научных текстов. Кроме того важной проблемой является проблема «переводного» плагиата и заимствования. Известны примеры плагиата и заимствований при подготовке и защите научно-квалификационных работ, включая кандидатские и докторские диссертации.

В последние годы задача установления автора текста приобретает всё большее значение в связи с развитием электронных сетей и увеличением информации, распространяемой с их помощью; обостряется проблема соблюдения авторских прав. Литературные или научные произведения полностью или частично копируются, иногда слегка перерабатываются и переиздаются под другим именем. Широкое распространение получили программы, которые автоматически изменяют текст по форме - заменяют незначащие слова синонимами, переставляют слова и фразы в выражении и т.п. В таком случае доказать плагиат бывает очень сложно.

При широком распространении текстов различных научных статей, докладов и т.п. на разных языках и постоянном развитии многоязыковых систем перевода возникают возможности для незаконного заимствования и копирования. В связи с этим важной задачей является также определение характеристик искусственно созданных текстов. Искусственными (искусственно созданными) текстами называются текстовые произведения, сгенерированные с использованием специальных программ. К таким текстам можно отнести переработку авторских произведений с автоматической заменой некоторых слов и терминов на синонимы, добавление различных вводных слов и т.п. Широкий резонанс получила история с опубликованием журналом «Журнал научных публикаций аспирантов и докторантов» псевдонаучной статьи, являющейся переводом сгенерированной программой текста, после проверок журнал был исключен из списка ВАК1. 1 https://ru.wikipedia.org/wiki/Скандал вокруг «Корчевателя» Задача автоматического аннотирования и реферирования

Задачи автоматического аннотирования и реферирования, т.е. составления краткой характеристики документа, отражающей основные содержащиеся в нем сведения, являются важной составной частью систем автоматической обработки текстов. Большинство существующих систем основано на выявлении слов и словарных единиц, подсчете их весов в предложении и определении предложений с наибольшим суммарным весом. На основе этих предложений составляется реферат, то есть подобные процедуры являются, по сути, квазиреферированием -экстрагированием частей текста. Задача анализа Интернет текстов и выявление характеристик пользователей

Основным источником текстовых данных являются записи пользователей в социальных сетях, блогах, форумах и т.п. Обработка потоков текстовых сообщений находит применение в нескольких направлениях: - кибербезопасность (отслеживание нежелательных, потенциально опасных сообщений, определение их авторов), - определение эмоциональной окрашенности (тональности) текстовых сообщений используется при построении рекомендательных систем, в том числе и при создании контекстной рекламы, - информационно-поисковые системы (настройки под конкретного пользователя)

В настоящее время актуальной проблемой является задача идентификации авторства коротких текстов, которая возникает чаще, чем задача определения авторства текстов больших объемов [101]. Это объясняется широким распространением программ для обмена сообщениями в сети Интернет (интернет-мессенджеров), возросшей ролью электронной почты в деловой переписке, высокой популярностью интернет-форумов и блогов. Пользователи имеют возможность отправлять сообщения без регистрации и указания какой-либо информации о себе, а регистрация сама по себе зачастую носит чисто символический характер, адрес отправителя можно легко изменить. Модели и методы обработки текстовых данных, предложенные в рамках Text Mining, находят широкое применение во других областях и сферах. В первую очередь результаты обработки текстов используются для решения различных задач социальной сферы. К таким задачам можно отнести оценку в социальных сетях политических и экономических отношений; определение, каким образом эмоциональное состояние, умственные способности, места рождения влияют на проявляющиеся в использовании языковые особенности. [206].

В последние годы стало ясно, что эмоционально окрашенные сообщения в социальных медиа могут оказывать сильное влияние на общественно-политическое мнение. Подобные сообщения мобилизовали огромные массы людей на революции в арабских странах в 2011 году. Анализ тональности сообщений в Интернете теперь становится необходимостью при создании систем информационной безопасности. При этом большое количество таких сообщений находится не только в Интернете. Организации имеют большое количество подобной информации на своих внутренних носителях в виде электронных писем.

Сфера «Рекомендательных систем» как область интеллектуального анализа данных продолжает бурно развиваться. Рекомендательная система – это программный комплекс, который определяет интересы и предпочтения посетителя, на основе предоставленных данных (например, оценки продуктов), и дает рекомендации в соответствии с ними. Для предсказания понравившегося продукта рекомендательные системы (системы коллаборативной фильтрации) опираются лишь на историю оценок пользователя. В настоящее время развивается подход вынесения рекомендаций, основанный на анализе текстовых сообщений пользователя и определения эмоционального окраса, поскольку тональность отзывов может характеризовать пользовательские предпочтения. Задача обеспечения информационной безопасности (кибербезопасности) в области текстовых данных

Вероятностные модели текстов

В зависимости от поставленных задач предложенная структурно-иерархическая модель текста может быть дополнена промежуточными уровнями, например, уровнем морфем между уровнями букв и слов или уровнем словосочетаний между уровнями слов и предложений.

Различные инварианты текста проявляются на всех иерархических уровнях, но в разной степени, так авторские инварианты в большей степени проявляются на верхних уровнях, когда автор составляет предложения из слов и текст из предложений. Однако структуру верхних уровней в рамках вероятностно-информационной модели не удается эффективно использовать из-за большой ошибки при оценке вероятности появления слов. Поэтому требуется рассматривать методы определения характеристик текста, основанные на учете различных структурно-статистических особенностей текста.

Аналогично в [174] построена система смыслового содержания текста. Нижним уровнем также является уровень знаков (буквы, цифры и т.п.), следующий уровень – уровень отдельных слов без учета их значимости в тексте, третий уровень – уровень терминов и последний – уровень понятий и онтологий. В структурно-иерархической модели текста все уровни представляют собой значимые структуры. В иерархической системе смыслового содержания нижние уровни имеют гораздо меньшее значение и используются, в основном, как вспомогательные элементы для составления объектов более высокого уровня. При этом необходимо учитывать, что смысловое содержание единиц более высокого уровня не сводимо полностью к смысловому содержанию составляющих их единиц более низкого уровня (смысл единиц более высокого уровня не всегда может быть «вычислен» на основе информации о смысле единиц более низкого уровня и информации о связях между этими единицами) [10].

Важно, что смысловые представления текста на разных уровнях (разной когнитивной глубины [49]), представляют собой разные стадии обработки и понимания текста. Уровень понимания и рассмотрения задается в зависимости от конкретной решаемой задачи.

Для организации и построения понятийного уровня системы смыслового содержания необходимо учитывать не только сведения, содержащиеся в тексте, но и дополнительную информацию о соответствующей предметной области, экспертные сведения и так называемые «фоновые знания» (Background Knowledge). Поэтому элементы высшего уровня могут содержать тематически связанные слова и термины, прямо не встречающиеся в текстах, или содержащиеся не во всех рассматриваемых текстах, относящихся к данной содержательной области. С семантическим анализом текстов на верхнем уровне тесно связаны задачи построения онтологий. Именно уровень понятий позволяет решать вопросы, связанные с синонимией и полисемией терминов в текстах. Основные недостатки рассмотрения уровня понятий – относительная сложность применения, понятийная зависимость от предметной области и необходимость человеческого взаимодействия.

Обобщая, можно выделить следующие характеристики многоуровневого описания текстовой системы, основываясь на свойства, предложенные в [72]: 1. Выбор уровней, в терминах которых описывается данный текст, зависит от наблюдателя, его знания и решаемой задачи; для многих текстов некоторые уровни являются естественными, внутренне им присущими. На каждом уровне имеется свой собственный набор терминов, принципов и правил. 2. Аспекты описания функционирования системы на различных уровнях зависят от элементов других уровней, однако могут рассматриваться отдельно, поэтому принципы и законы, используемые для характеристики системы на каждом уровне, в общем случае не могут быть выведены из принципов, используемых на других стратах. Грамматические правила, которые работают при объединении слов в словосочетания и предложения отличны и независимы от морфологических и словообразующих правил. 3. Существует асимметричная зависимость между условиями функционирования системы текста на различных уровнях. 4. Понимание системы возрастает при последовательном переходе от одного уровня к другому: чем ниже мы спускаемся по иерархии, тем более детальным становится раскрытие системы, чем выше мы поднимаемся, тем яснее становится смысл и значение всей системы текста.

Понятие языка связано с массовостью лингвистических элементов, описывающих ситуации внешнего мира. Именно в массовости явлений проявляются некие закономерности, для выявления которых необходим количественный анализ. Употребительность языковых элементов является проявлением их функциональной значимости в речи. Чтобы оценить функциональную значимость элементов в тексте необходимо использовать некоторую количественную меру. Из всех количественных методов наибольшие возможности применения для решения конкретных задач и охвата основных фактов языка представляются у вероятностно-статистического анализа [122]. В основе использования вероятностно-статистического метода анализа лежит представление о тексте как о последовательности случайных событий, которыми являются конкретные употребления лингвистических единиц.

«Мешок слов»

Модель «Мешок слов» (Bag-of-Words) отличается простотой представления. При этом модель не учитывает порядок слов и грамматические особенности использования, а рассчитывается на основании подсчета вхождения слова в текст. Наиболее простой случай - бинарная модель, когда для представления текста отмечается наличие или отсутствие слова в тексте. В более сложной модели учитывается частота встречаемости заданного элемента в тексте. Модель Bag-of-Words требует предварительной обработки текста для определения словоформ и выделения основы слова - так называемый стемминг (stemming). В зависимости от выбранной модификации в модели Bag-of-Words может потребоваться процедура лемматизации (lemmatization), т.е. приведения слов к их нормальной форме в зависимости от грамматического класса.

Вероятностная модель текста Будем рассматривать текст в виде последовательности дискретных случайных событий (последовательность появления лингвистических единиц: букв, слогов, словоформ и т.д.). Общее число букв в алфавите или слов в словаре обозначим L. Для каждого элемента (буквы, буквосочетания, слова) su (i=l,2,...N) из множества Q (алфавита или словаря) укажем целое число n(si), равное числу встречаемостей элемента в тексте. Общая сумма встречаемости всех элементов L множества будет равна объему этого текста п(Т): п(Т) = n(st). Если теперь упорядочить элементы по убыванию встречаемостей n(st), то в получившемся списке номер элемента назовем рангом к. Параметр, характеризующий текст по количеству слов, которые встречаются в тексте один, два, три и более раз, был назван «словарным профилем текста» [131], отражает словарное разнообразие текста произведения.

В подобных моделях, основанных на частотном распределении вхождения в текст отдельных элементов, необходимо учитывать и удалять из рассмотрения так называемые «стоп-слова» - общеупотребительные и наиболее часто встречаемые в любом тексте на данном языке слова. В таблице 2.1 приведены 10 наиболее употребительных слов в английском и русском языке. В зависимости от тематики или стиля рассматриваемого текста список «стоп-слов» расширяют дополнительными специальными терминами и понятиями, а также словосочетаниями.

Формирование концепции скрытых параметров

Обычно разговорно-обиходный стиль противопоставляют книжной речи, к которой относят остальные стили. Разговорная речь употребляется в условиях непринужденного общения, имеет ряд отличительных признаков и в морфологии, и в синтаксисе, и словообразовании. Официально-деловой стиль используют в сфере письменных официально деловых отношений, реализуется в документах разных жанров. Характер деловых текстов обусловливает высокий уровень стандартизации языковых средств. Основные особенности деловых текстов следующие: точность, последовательность, логичность, краткость изложения. Научный стиль применяют для сообщения о фактах, существующих объективно, вне зависимости от воли автора и вне его текста, поэтому в научном стиле ярко проявляется отстраненность автора. Научный стиль должен обеспечивать ясность, точность, объективность, логичность и доказательность изложения. Для научной речи характерно применение терминов и слов с абстрактным значением, использование разнообразных сложных предложений. Одним из видов научного текста являются открытые тексты патентных документов. С получением доступа к полным текстам патентов в сети Интернет, этот тип научных публикаций приобретает большое значение. Традиционно научно-исследовательские организации, даже в случае получения патентов, стремятся опубликовать полученные результаты исследований в научных журналах или результатах конференций. Но результаты исследований, проводимых в научных подразделениях промышленных предприятий, чаще всего можно узнать именно по изучению патентных документов.

Публицистический стиль используют в различных газетах, журналах, в других средствах массовой информации. Данный стиль характеризуется популярностью, образностью, полемичностью изложения, яркостью выразительных средств. Основная особенность публицистического стиля заключается в большой роли в нем эмоциональной окрашенности. Направленность на убеждение делает принадлежностью публицистического стиля известную систему доказательств, что сближает публицистические тексты с научными, которые в свою очередь в ряде случаев не лишены элементов публицистичности.

Лексика художественного стиля неограниченна. Здесь могут встречаться языковые средства всех других стилей - и термины, и официальные выражения, и разговорные слова и обороты, и публицистические приемы. Художественный стиль отличается от других функциональных стилей языка особой эстетической функцией. Если разговорная речь выполняет коммуникативную функцию – функцию непосредственного общения, научный и официально-деловой – функцию сообщения, обмена информацией, то художественный стиль выполняет эстетическую функцию, функцию эмоционально-образного воздействия на читателя или слушателя.

Формирование авторских инвариантов текста и особенности стиля

Любой конкретный текст заключает в себе, «наследует» признаки функционального стиля, которому он принадлежит, а также подстиля, жанра, жанровой разновидности. Каждый текст создается по определенным правилам, канонам, сложившимся в том или ином стиле, поэтому читатель легко отличает научную статью от публицистической, узнает художественную речь, деловую, разговорную. Создаваемый текст, помимо общего (стилевого, жанрового) несет в себе и индивидуальные особенности автора. При написании литературного произведения автор следует от идеи, замысла (иногда не выраженных в написанном виде); формирует общую структуру текста, необходимого для выражения идеи. Написанные тексты (наброски, черновики, разные редакции) подвергаются переделкам с разных сторон и точек зрения, автор ищет наиболее подходящие слова, их сочетания и комбинации, изменяет структуру отдельных частей произведения для лучшей передачи задуманного.

При анализе текстовых структур с целью атрибуции текстов предполагается наличие в них некоторых свойств, уникальных для каждого автора, стиля или времени создания текста, так называемых инвариантов текста.

Первоначально делались попытки найти такую единственную характеристику текста, по которой можно было бы различать произведения любых стилей, авторов и т.п., однако дальнейшие исследования показали, что такой единой характеристики, по-видимому, не существует, а производить идентификацию текста необходимо по совокупности параметров, которые описывали бы связи между элементами текста.

Была предложена структура текстовых инвариантов, представленная на рисунке 2.12. При создании алгоритмов анализа текстов необходимо выделить параметры, с помощью которых можно отличить стиль автора от каких-то общеязыковых норм, принятых во время написания произведения (универсальные инварианты текста). Аналогично, следует различать параметры, характеризующие стилевую принадлежность текста (жанровые инварианты), а также инварианты, характеризующие время создания текста и другие. Выявление различных инвариантов текста важно при решении многих задач, таких как кластеризация, атрибуция, определения авторства и других

Методика «Кластеризация потоковых данных

Задачи обработки текстов тесным образом связаны с задачами, рассматриваемыми в рамках машинного обучения. Рассмотрены основные типы задач индуктивного машинного обучения. Как видно из приведенного ниже списка, многие задачи тесно связаны с задачами интеллектуального анализа данных, а значит, связаны и методы их решения. Однако при использовании методов машинного обучения необходимо учитывать особенности, накладываемые спецификой рассматриваемых объектов - текстов.

Классификация (classification). Множество Y является конечным множеством классов (меток классов), задача классификации заключается в отнесении неизвестного объекта х к одному из заданных классов Y1,..Yk. Как уже было отмечено, в задачах анализа текстов задачи классификации находят разнообразное применение, к таким задачам относятся определение тематики теста, идентификация языка, жанра и авторства и т.п.

Ранжирование (rank). Ранжирование текстов часто используется в системах информационного поиска, например, для организации выдачи документов по запросу.

Восстановление регрессии (regression). В случае задачи регрессии множество Y совпадает с множеством действительных чисел R и задача сводится к поиску функции g, аппроксимирующей g :X R. В связи с особенностями формального представления текстовых данных задачи восстановления регрессии практически не используются в системах анализа и обработки текстов.

Прогнозирование (forecasting). Под задачей прогнозирования понимается определение будущих значений некоторого временного ряда на основе его известных предыдущих значений в прошлом. В задачах прогнозирования часто используются обучающиеся алгоритмы восстановления регрессии.

Может быть сформулирована прямая и транспонированная задача регрессии. Пусть задано множество объектов и совокупность («номенклатура») признаков этих объектов. Для каждого объекта может быть определен вектор значений его признаков - полностью или частично. Если эти значения для каких-либо объектов определены не полностью, то возникает классическая проблема восстановления пробелов в таблицах данных. [39]. Задачи прогнозирования связаны главным образом при анализе потоковой текстовой информации, например, из сети Интернет. Такие методы могут служить для своевременного обнаружения негативных высказываний и потенциально опасных сообщений.

Кластеризация (clustering). Задача кластеризации заключается в разбиении объектов исходного обучающего множества на группы (классы, кластеры) по сходству признаков или близости объектов. При этом сами классы (то есть множество Y) не задано, в самом общем случае неизвестно даже количество классов. Таким образом, задача кластеризации является задачей обучения без учителя.

Сокращение размерности (dimensionality reduction). Традиционной постановкой задачи является уменьшения размерности признакового описания объектов обучающей выборки, сокращении размерности. В этом случае важным требованием является учет всей существенной информации об объектах выборки. В задачах анализа текстов сокращение размерности чаще всего является вспомогательной процедурой, например, для определения наиболее типичных признаков для рассматриваемого уровня текстов, для определения возможности использования той или иной характеристики для выбора инвариантов текстов.

Фильтрация выбросов и определение типичных представителей (outliers detection). В задачах фильтрации выбросов требуется определить отдельные нетипичные объекты либо для всей обучающей выборки либо для каждого класса (заданного или определенного в процессе обучения). Природа выбросов может быть различна: иметь естественное происхождение или являться следствием неточностей в модели или ошибок измерения. Связанной с определением выбросов является задача выявления типичных представителей класса. В некоторых задачах требуется рассмотрение не всего объема данных, принадлежащих каждому классу, а выбор «представителя класса». При признаковом описании объектов типичным представителем класса может быть выбран объект, наиболее близкий к центру класса, однако такой подход не всегда возможен, особенно в случае с классами, имеющими сложное пространственное представление. В системах обработки текстов к этому типу задач обучения относятся, например, задачи определения ключевых слов, а также связные с ними задачи автоматизированного реферирования и аннотирования.

Поиск ассоциативных правил (association rules learning). Ассоциативные правила можно представить как логические закономерности между наборами объектов. Поиск ассоциативных правил осуществляется не только на основе признакового описания объектов, но и на статистических закономерностях взаимосвязей между объектами. Чаще всего методы поиска ассоциативных правил используются в различных задачах определения позиций участников рынка, маркетинговых исследованиях и т.п. Однако алгоритмы поиска ассоциативных правил могут быть использованы также для текстовых данных, например, в случае поиска закономерностей в текстах. Но подобные методы рассматриваются лишь как вспомогательные процедуры при решении основных задач анализа и обработки данных.