Введение к работе
Актуальность темы. Развитие телекоммуникационных технологий за последние 15 лет привело к возникновению большого числа потоков текстовых сообщений12. Всё больший масштаб приобретают социальные медиа-ресурсы34 и электронные средства массовой информации. В настоящее время методы и системы сбора и обработки потоков текстовых сообщений из разрозненных источников представляют особый интерес для консультантов и аналитиков, работающих в самых разных сферах: бизнесе, экономике, государственном управлении и т. д.5
Традиционные методы анализа текстов, основанные на глубинной обработке естественного языка (ОЕЯ), ориентированы на взаимодействие с хранилищами документов, изменения в которые вносятся сравнительно редко: национальными корпусами текстов, электронными библиотеки, базами научных статей или архивами вебсайтов. В современных условиях эти методы малоприменимы на практике из-за больших объёмов текстовых коллекций. С другой стороны, большинство методов интеллектуального анализа текстов (ИАТ) и поверхностного ОЕЯ, исследования которых продолжаются с конца 80-х годов, не учитывают динамический характер потоков. Разработка алгоритмов ИАТ, ориентированных на обработку потоков текстовых сообщений, является одним из наиболее перспективных направлений современной информатики.6
Современные задачи интеллектуального анализа текстовых потоков (text stream mining) включают:
классификацию потоков — распределение сообщений по заранее заданным группам (категориям, тематикам, событиям);
кластеризацию потоков — распределение сообщений по группам, которые должны быть определены в процессе работы алгоритма;
обнаружение и отслеживание тематик (topic detection and tracking), обнаружение возникающих трендов (emerging trend detection), включая выявление технологических трендов7 — идентификация новых тем, соответствующих новым явлениям, событиям, предметам и т. д.;
1 Ягунова Е. В. Основы теоретической, вычислительной и экспериментальной лингвистики // Автоматическая
обработка текстов на естественном языке и компьютерная лингвистика. М.: МИЭМ, 2011. С. 70.
2 Брайчевский С. М., Ландэ Д. В. Современные информационные потоки: актуальная проблематика // Научно-
техническая информация. 2005. № 11. С. 21.
3 Англ. social media; включают в себя социальные сети, блоги, микроблоги, форумы, вики-ресурсы, социальные
закладки, сайты отзывов и др.
4 Ни X., Liu Н. Text Analytics in Social Media II Mining Text Data I Springer US, 2012. P. 385.
5 Kontostathis A. et al. A Survey of Emerging Trend Detection in Textual Data Mining II Survey of Text Mining I:
Clustering, Classification, and Retrieval I Springer, 2003. P. 186.
6 Aggarwal С. С. Mining Text Streams II Mining Text Data I Springer US, 2012. P. 298-317.
7 Хорошевский В. Ф. Выявление новых технологических трендов: проблемы и перспективы // Доклады XIII
национальной конференции КИИ-2012. Белгород: Российская ассоциация искусственного интеллекта, 2012. С. 252-258.
анализ эволюции потоков (evolution analysis) — исследование динамики отдельных тем, а также их взаимодействий с течением времени. В настоящей работе под потоком текстовых сообщений понимается последовательность текстовых сообщений с определёнными для каждого сообщения моментами времени. Под обработкой потока текстовых сообщений понимается комплексная задача оперативной классификации поступающих сообщений, определения новизны сообщений и обнаружения возникающих тематик.
Объектом исследования диссертационной работы являются потоки текстовых сообщений. Предметом исследования выступают математические и компьютерные модели этих потоков и методы обработки входящих в них сообщений.
Цели и задачи исследования. Целью настоящей работы является повышение эффективности обработки потоков текстовых сообщений в системах принятия решений. Для выполнения поставленной цели в работе решаются следующие задачи:
-
анализ современных методов обработки потоков текстовых сообщений для оценки ситуации в предметной области и выявление путей повышения эффективности обработки потоков;
-
построение математической модели текстового информационного потока, которая позволяет в формальном виде отобразить и исследовать закономерности между тематиками и динамику тематических потоков;
-
разработка алгоритма обработки потока текстовых сообщений, позволяющего производить оперативную классификацию сообщений, определение новизны сообщений и обнаружение возникающих тематик;
-
выбор критериев эффективности обработки потока и разработка метода оценки эффективности итерационных алгоритмов обработки текстовых сообщений по выявленным критериям для выбора наиболее эффективного алгоритма;
-
разработка программного комплекса, поддерживающего предложенный алгоритм обработки потока, и экспериментальное исследование эффективности предложенного алгоритма.
Методы исследования. При решении поставленных задач использовались методы системного анализа, математического и компьютерного моделирования, обработки естественного языка, теории вероятностей, прогнозирования временных рядов, искусственного интеллекта, разработки информационных систем и программирования.
Научной новизной обладают разработанные в диссертационном исследовании математические модели потока текстовых сообщений и системы обработки потоков; метод многозначной наивной байесовской классификации; предложенные оценки степени новизны сообщения и тематики; итерационный оперативный алгоритм обработки потока текстовых сообщений с частичным обучением и методика оценки его эффективности; разработанный программный комплекс, реализующий предложенные алгоритмы.
Положения, выносимые на защиту:
-
Математическая модель системы обработки потоков текстовых сообщений, позволяющая построить эффективный алгоритм обработки потока, учитывать динамику тематик во времени и производить адаптацию алгоритма к предметной области.
-
Математическая модель потока текстовых сообщений в виде направленного ациклического графа.
-
Метод многозначной классификации на основе наивного байесовского подхода, в котором применена сбалансированная процедура вычисления степени полезности признаков.
-
Итерационный оперативный алгоритм обработки потока текстовых сообщений с частичным обучением, позволяющий производить классификацию текстовых сообщений, обнаружение возникающих тематик и вычисление степени новизны сообщений и тематик.
-
Программный комплекс, позволяющий применять разработанные методы к различным предметным областям и производить вычислительные эксперименты по оценке эффективности предложенных решений на основе скользящего контроля.
Практическая и теоретическая значимость исследований. Результаты диссертационной работы могут найти применение в задачах принятия решений на основе анализа потоков сообщений. Разработанный программный комплекс может быть непосредственно применён для анализа потоков новостных сообщений, заявок на модификацию программной продукции, обращений граждан в государственные учреждения, контент-мониторинга социальных медиа-ресурсов.
Внедрение результатов работы. Система классификации заявок на модификацию программного обеспечения на основе разработанного алгоритма принята к использованию в ФНПЦ ОАО "НПО Марс".
Достоверность результатов работы. Достоверность проведённых в диссертационной работе результатов определяется корректным использованием методов исследования, подтверждена результатами вычислительных экспериментов и эффективностью функционирования алгоритмов и программного обеспечения при внедрении.
Апробация результатов. Апробация основных положений диссертационной работы проведена на XV международной научно-практической конференции "Перспективы развития информационных технологий" (Новосибирск, 2013) и XII международной научной конференции "Актуальные вопросы современной техники и технологии" (Липецк, 2013).
Публикации. По теме диссертационной работы опубликовано 8 работ, 2 из которых — в изданиях из списка ВАК.
Личный вклад автора. Постановка задачи исследования осуществлена совместно с научным руководителем А. А. Смагиным. Основные теоретические и практические исследования проведены автором самостоятельно.
Структура и объём работы. Диссертационная работа состоит из введения, четырёх глав, заключения, списка литературы из 112 наименований источников отечественных, зарубежных авторов и электронных ресурсов и трёх приложений. Общий объём диссертации составляет 147 страниц машинописного текста, в том числе 117 страниц основного текста и 30 страниц приложений.