Иерархическая обработка потоков текстовых сообщений на базе наивного байесовского классификатора Крайнов, Александр Юрьевич

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Крайнов, Александр Юрьевич. Иерархическая обработка потоков текстовых сообщений на базе наивного байесовского классификатора : диссертация ... кандидата технических наук : 05.13.18 / Крайнов Александр Юрьевич; [Место защиты: Ульян. гос. ун-т].- Ульяновск, 2013.- 147 с.: ил. РГБ ОД, 61 14-5/662

Введение к работе

Актуальность темы. Развитие телекоммуникационных технологий за последние 15 лет привело к возникновению большого числа потоков текстовых сообщений¹². Всё больший масштаб приобретают социальные медиа-ресурсы³⁴ и электронные средства массовой информации. В настоящее время методы и системы сбора и обработки потоков текстовых сообщений из разрозненных источников представляют особый интерес для консультантов и аналитиков, работающих в самых разных сферах: бизнесе, экономике, государственном управлении и т. д.⁵

Традиционные методы анализа текстов, основанные на глубинной обработке естественного языка (ОЕЯ), ориентированы на взаимодействие с хранилищами документов, изменения в которые вносятся сравнительно редко: национальными корпусами текстов, электронными библиотеки, базами научных статей или архивами вебсайтов. В современных условиях эти методы малоприменимы на практике из-за больших объёмов текстовых коллекций. С другой стороны, большинство методов интеллектуального анализа текстов (ИАТ) и поверхностного ОЕЯ, исследования которых продолжаются с конца 80-х годов, не учитывают динамический характер потоков. Разработка алгоритмов ИАТ, ориентированных на обработку потоков текстовых сообщений, является одним из наиболее перспективных направлений современной информатики.⁶

Современные задачи интеллектуального анализа текстовых потоков (text stream mining) включают:

классификацию потоков — распределение сообщений по заранее заданным группам (категориям, тематикам, событиям);

кластеризацию потоков — распределение сообщений по группам, которые должны быть определены в процессе работы алгоритма;

обнаружение и отслеживание тематик (topic detection and tracking), обнаружение возникающих трендов (emerging trend detection), включая выявление технологических трендов⁷ — идентификация новых тем, соответствующих новым явлениям, событиям, предметам и т. д.;

¹ Ягунова Е. В. Основы теоретической, вычислительной и экспериментальной лингвистики // Автоматическая
обработка текстов на естественном языке и компьютерная лингвистика. М.: МИЭМ, 2011. С. 70.

² Брайчевский С. М., Ландэ Д. В. Современные информационные потоки: актуальная проблематика // Научно-
техническая информация. 2005. № 11. С. 21.

³ Англ. social media; включают в себя социальные сети, блоги, микроблоги, форумы, вики-ресурсы, социальные
закладки, сайты отзывов и др.

⁴ Ни X., Liu Н. Text Analytics in Social Media II Mining Text Data I Springer US, 2012. P. 385.

⁵ Kontostathis A. et al. A Survey of Emerging Trend Detection in Textual Data Mining II Survey of Text Mining I:
Clustering, Classification, and Retrieval I Springer, 2003. P. 186.

⁶ Aggarwal С. С. Mining Text Streams II Mining Text Data I Springer US, 2012. P. 298-317.

⁷ Хорошевский В. Ф. Выявление новых технологических трендов: проблемы и перспективы // Доклады XIII
национальной конференции КИИ-2012. Белгород: Российская ассоциация искусственного интеллекта, 2012. С. 252-258.

анализ эволюции потоков (evolution analysis) — исследование динамики отдельных тем, а также их взаимодействий с течением времени. В настоящей работе под потоком текстовых сообщений понимается последовательность текстовых сообщений с определёнными для каждого сообщения моментами времени. Под обработкой потока текстовых сообщений понимается комплексная задача оперативной классификации поступающих сообщений, определения новизны сообщений и обнаружения возникающих тематик.

Объектом исследования диссертационной работы являются потоки текстовых сообщений. Предметом исследования выступают математические и компьютерные модели этих потоков и методы обработки входящих в них сообщений.

Цели и задачи исследования. Целью настоящей работы является повышение эффективности обработки потоков текстовых сообщений в системах принятия решений. Для выполнения поставленной цели в работе решаются следующие задачи:

анализ современных методов обработки потоков текстовых сообщений для оценки ситуации в предметной области и выявление путей повышения эффективности обработки потоков;
построение математической модели текстового информационного потока, которая позволяет в формальном виде отобразить и исследовать закономерности между тематиками и динамику тематических потоков;
разработка алгоритма обработки потока текстовых сообщений, позволяющего производить оперативную классификацию сообщений, определение новизны сообщений и обнаружение возникающих тематик;
выбор критериев эффективности обработки потока и разработка метода оценки эффективности итерационных алгоритмов обработки текстовых сообщений по выявленным критериям для выбора наиболее эффективного алгоритма;
разработка программного комплекса, поддерживающего предложенный алгоритм обработки потока, и экспериментальное исследование эффективности предложенного алгоритма.

Методы исследования. При решении поставленных задач использовались методы системного анализа, математического и компьютерного моделирования, обработки естественного языка, теории вероятностей, прогнозирования временных рядов, искусственного интеллекта, разработки информационных систем и программирования.

Научной новизной обладают разработанные в диссертационном исследовании математические модели потока текстовых сообщений и системы обработки потоков; метод многозначной наивной байесовской классификации; предложенные оценки степени новизны сообщения и тематики; итерационный оперативный алгоритм обработки потока текстовых сообщений с частичным обучением и методика оценки его эффективности; разработанный программный комплекс, реализующий предложенные алгоритмы.

Положения, выносимые на защиту:

Математическая модель системы обработки потоков текстовых сообщений, позволяющая построить эффективный алгоритм обработки потока, учитывать динамику тематик во времени и производить адаптацию алгоритма к предметной области.
Математическая модель потока текстовых сообщений в виде направленного ациклического графа.
Метод многозначной классификации на основе наивного байесовского подхода, в котором применена сбалансированная процедура вычисления степени полезности признаков.
Итерационный оперативный алгоритм обработки потока текстовых сообщений с частичным обучением, позволяющий производить классификацию текстовых сообщений, обнаружение возникающих тематик и вычисление степени новизны сообщений и тематик.
Программный комплекс, позволяющий применять разработанные методы к различным предметным областям и производить вычислительные эксперименты по оценке эффективности предложенных решений на основе скользящего контроля.

Практическая и теоретическая значимость исследований. Результаты диссертационной работы могут найти применение в задачах принятия решений на основе анализа потоков сообщений. Разработанный программный комплекс может быть непосредственно применён для анализа потоков новостных сообщений, заявок на модификацию программной продукции, обращений граждан в государственные учреждения, контент-мониторинга социальных медиа-ресурсов.

Внедрение результатов работы. Система классификации заявок на модификацию программного обеспечения на основе разработанного алгоритма принята к использованию в ФНПЦ ОАО "НПО Марс".

Достоверность результатов работы. Достоверность проведённых в диссертационной работе результатов определяется корректным использованием методов исследования, подтверждена результатами вычислительных экспериментов и эффективностью функционирования алгоритмов и программного обеспечения при внедрении.

Апробация результатов. Апробация основных положений диссертационной работы проведена на XV международной научно-практической конференции "Перспективы развития информационных технологий" (Новосибирск, 2013) и XII международной научной конференции "Актуальные вопросы современной техники и технологии" (Липецк, 2013).

Публикации. По теме диссертационной работы опубликовано 8 работ, 2 из которых — в изданиях из списка ВАК.

Личный вклад автора. Постановка задачи исследования осуществлена совместно с научным руководителем А. А. Смагиным. Основные теоретические и практические исследования проведены автором самостоятельно.

Структура и объём работы. Диссертационная работа состоит из введения, четырёх глав, заключения, списка литературы из 112 наименований источников отечественных, зарубежных авторов и электронных ресурсов и трёх приложений. Общий объём диссертации составляет 147 страниц машинописного текста, в том числе 117 страниц основного текста и 30 страниц приложений.

Иерархическая обработка потоков текстовых сообщений на базе наивного байесовского классификатора Крайнов, Александр Юрьевич

Похожие диссертации на Иерархическая обработка потоков текстовых сообщений на базе наивного байесовского классификатора