Введение к работе
Актуальность темы исследования
С начала 2000-х годов активное распространение компьютерных технологий способствует тому, что процедура создания информационного контента стала доступна практически для каждого человека. Содержимое таких информационных ресурсов как социальные сети, сервисы сбора отзывов, веб-форумы и блоги активно формируется самими пользователями. Консолидированный субъективный опыт отдельных пользователей является источником ценной информации1. Например, коллекция отзывов пользователей о конкретном медицинском учреждении содержит сведения об уровне профессионализма персонала, качестве обслуживания, наличии современного медицинского оборудования. Однако, чтобы извлечь такую информацию необходимо анализировать внушительные объёмы текстовых данных. Решению этой проблемы посвящен специальный раздел компьютерной лингвистики – автоматический анализ тональности текста (sentiment analysis или opinion mining).
Исходной целью методов анализа тональности являлась классификация документов, а позднее и предложений, по заданной шкале тональности, как правило, двухбалльной (позитив–негатив) или трехбалльной (добавляется нейтральная или противоречивая тональность). Однако для многих прикладных задач такого общего анализа тональности на уровне всего текста или даже отдельных предложений явно недостаточно. Часто вместо общей оценки тональности требуется более детальное исследование выраженных мнений по конкретным аспектам. Например, для объекта медицинское учреждение такими аспектами могут быть: сервис, аппаратура, расположение и др.; для объекта образовательное учреждение возможные аспекты: образовательная программа, качество обучения, стоимость и т. д. Поэтому со временем начальная постановка задачи анализа тональности приобрела более детальную формулировку и выделилась в отдельную проблему аспектно-эмоционального анализа текста (aspect-based sentiment analysis), которая заключается в автоматическом определении мнений пользователя, выраженных в тексте, относительно конкретных аспектов исследуемой сущности.
Методы аспектно-эмоционального анализа текста разрабатываются в рамках двух подходов машинного обучения: с учителем и без учителя. В подходе на основе обучения с учителем необходима размеченная коллекция документов, в которой указаны примеры эмоциональных выражений и аспектных терминов. Процесс подготовки такой обучающей коллекции сопряжён с большими затратами как по времени, так и по трудоёмкости, что
1 Hu M., Liu B. Mining and Summarizing Customer Reviews // Proceedings of the Tenth ACM SIGKDD International
Conference on Knowledge Discovery and Data Mining (KDD ‘04). 2004. P. 168–177.
2 Liu B. Sentiment Analysis and Opinion Mining // Synthesis Lectures on Human Language Technologies. 2012.
Vol. 5(1). P. 16.
3 Ibid. P. 59, 68.
является существенным ограничением практического использования методов, основанных на этом подходе.
Избежать зависимости от обучающих данных позволяют методы обучения без учителя. Для их работы также нужен корпус документов, но предварительная разметка не требуется. В рамках этого подхода обнаруживаются вероятностно-статистические закономерности текста и на их основе решаются ключевые подзадачи аспектно-эмоционального анализа: выявление аспектных терминов и определение их тональности. Однако такие методы требуют сложной настройки на заданную предметную область. Например, метод на основе скрытого размещения Дирихле (Latent Dirichlet Allocation, LDA) в исходном виде не способен эффективно обнаруживать аспектные термины, поэтому требуется его дополнительная адаптация и настройка соответствия выявляемых тем целевому набору аспектов.
Таким образом, актуальной является проблема разработки методов и алгоритмов аспектно-эмоционального анализа текстов на основе машинного обучения без учителя, простых в настройке и использующих минимальное количество априорной информации о предметной области.
Степень разработанности темы исследования
Исследованиями в области автоматического анализа тональности занимаются российские и зарубежные учёные: Н. В. Лукашевич, И. И. Четвёркин, В. Г. Васильев, П. И. Браславский, П. Ю. Поляков, B. Liu, P. Turney, S. Mohammad, S. Kiritchenko, M. Chernyshevich и др. Однако ряд особенностей задачи анализа тональности (сильная контекстная зависимость выражений, наличие в тексте иронии или сарказма и др.) не позволяет получить высокоточный метод для автоматического извлечения мнений.
Объектом исследования являются коллекции машиночитаемых текстовых документов на естественном языке.
Предметом исследования являются методы и алгоритмы автоматического анализа тональности текста.
Целью диссертационной работы является разработка метода, алгоритмов и программной системы аспектно-эмоционального анализа текстов на основе машинного обучения без учителя.
Для достижения поставленной цели решены следующие задачи:
-
Обзор и анализ существующих подходов и методов аспектно-эмоционального анализа текста.
-
Разработка алгоритма извлечения аспектных терминов заданной предметной области на основе небольшого начального множества образцов.
-
Разработка алгоритма определения тональности, выраженной в тексте по отношению к извлечённым аспектным терминам.
-
Разработка метода аспектно-эмоционального анализа.
-
Разработка структуры системы аспектно-эмоционального анализа текста.
4 Titov I., McDonald R. A Joint Model of Text and Aspect Ratings for Sentiment Summarization // Proceedings of Annual Meeting of the Association for Computational Linguistics (ACL-2008). 2008. P. 308–316.
6. Реализация и тестирование программной системы, позволяющей выполнять аспектно-эмоциональный анализ текста.
Научная новизна
-
Разработан алгоритм извлечения аспектных терминов. Алгоритм отличается от известных итеративным способом отбора терминов на основе пространства распределённых представлений слов. По небольшому начальному множеству терминов и корпусу неразмеченных документов алгоритм позволяет получать тематически согласованные наборы слов, которые являются вербальным выражением конкретных аспектов.
-
Разработан словарный алгоритм определения тональности извлечённых аспектных терминов, отличающийся от известных способом взвешивания оценочных выражений на основе взаимной информации и меры семантической близости слов.
-
На основании разработанных алгоритмов извлечения аспектных терминов и определения тональности, предложен метод аспектно-эмоционального анализа текста, отличающийся от известных способом вычисления интегральных оценок тональности. Метод позволяет выполнять оценку тональности по аспектам без сложной настройки и большого объёма экспертных знаний.
Практическая значимость
Разработанная на основе предложенного метода и алгоритмов программная система предназначена для выполнения анализа тональности текста на уровне аспектов заданной сущности. Система может быть использована как самостоятельный инструмент для резюмирования мнений по аспектам исследуемой сущности на основе коллекции документов, принадлежащих конкретной предметной области. Также разработанная система может быть интегрирована в поисковые системы и рекомендательные сервисы с целью учета пользовательских предпочтений относительно важности аспектов при формировании поисковой выдачи или выработке рекомендаций.
Методы исследования
Для решения поставленных задач использовались методы компьютерной лингвистики, машинного обучения, теории информационного поиска, теории вероятностей и математической статистики; для разработки структуры системы и её программной реализации – унифицированный язык моделирования UML, методы структурного и объектно-ориентированного программирования.
На защиту выносятся:
-
Алгоритм извлечения аспектных терминов предметной области.
-
Алгоритм определения тональности аспектных терминов.
-
Метод аспектно-эмоционального анализа текста.
-
Структура и программная реализация системы аспектно-эмоционального анализа текста.
Достоверность результатов обусловлена корректностью применения методов обработки текстов и машинного обучения, подтверждена экспериментальными исследованиями программных средств, реализующих
предложенные алгоритмы и методы, а также апробацией основных положений работы на международных и российских конференциях.
Личный вклад соискателя
Все результаты, относящиеся к методам и алгоритмам автоматического анализа тональности текстов, получены лично автором.
Внедрение результатов
Теоретические и практические результаты диссертационного исследования использованы при выполнении научно-исследовательских работ по следующим проектам:
-
«Программная система интеллектуального анализа текстов для социально-гуманитарных исследований», выполненной в рамках тематического плана ВятГГУ (2011–2012 гг.).
-
«Модели, методы и программные средства автоматического распознавания эмоциональной составляющей в текстах», выполненной в рамках государственного задания Министерства образования и науки Российской Федерации, номер проекта 8.1118.2011 (2012–2013 гг.).
-
«Разработка программного комплекса для аспектно-эмоционального анализа текстов на основе статистических методов машинного обучения», выполненной по гранту Фонда содействия развитию малых форм предприятий в научно-технической сфере, номера проектов 1421ГУ1/2014 и 5148ГУ2/2014.
-
«Разработка и исследование системы автоматического анализа мнений в текстовых документах», проводимой в рамках государственного задания Министерства образования и науки Российской Федерации, номер проекта 2014/330 (2014–2015 гг.).
-
«Разработка и исследование интеллектуальной системы информационного поиска и анализа тональности текстовых и речевых документов», выполненной по гранту Российского фонда фундаментальных исследований, номер проекта 16-07-00342 а (2016–2018 гг.).
-
«Разработка метода аспектно-эмоционального анализа текста на основе тонально-ориентированных распределённых представлений слов» выполненной по гранту Российского фонда фундаментальных исследований, номер проекта 16-37-00311 мол_а (2016–2017 гг.).
Диссертационное исследование было поддержано стипендией Правительства Российской Федерации по приоритетным направлениям модернизации и технологического развития экономики России, приказ № 1028 от 30.08.2013 г. Министерства образования и науки Российской Федерации.
Разработанные алгоритмы и методы аспектно-эмоционального анализа текста реализованы в виде программной системы [13] и внедрены в работу научно-исследовательской лаборатории интеллектуальных систем и научной социологической лаборатории Вятского государственного гуманитарного университета.
Апробация результатов исследования
Основные результаты работы докладывались на следующих научных конференциях и семинарах:
-
Российский семинар по Оценке Методов Информационного Поиска РОМИП (2012).
-
XIII Международная конференция «Информатика: проблемы, методология, технологии» (г. Воронеж, 2013).
-
Международные конференции по компьютерной лингвистике «Диалог» (г. Москва, 2013, 2014, 2015).
-
XV Всероссийская научная конференция «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL-2013, г. Ярославль, 2013).
-
XIII International Workshop on Semantic Evaluation (SemEval-2014, Dublin, Ireland, 2014).
-
V Biennial International Workshop on Balto-Slavic Natural Language Processing (BSNLP 2015, Hissar, Bulgaria, 2015).
Публикации
По теме диссертации опубликовано 12 печатных работ, в том числе три статьи в журналах из перечня ВАК РФ [1–3], три статьи, входящие в реферативную базу данных SCOPUS [4–6], одна депонированная статья [7] и пять статей в других изданиях [8–12]. Получено свидетельство о государственной регистрации программы для ЭВМ [13].
Структура и объём работы
Диссертационная работа состоит из введения, четырёх глав, заключения, списка литературы (включающего 140 наименований), списка сокращений и условных обозначений и двух приложений. Основная часть работы изложена на 138 страницах и содержит 22 рисунка и 17 таблиц.