Введение к работе
Актуальность работы.
За последние 10-15 лет задачи управления документами на основании их содержимого (обобщенное название извлечение информации) приобрели особенно важное значение в области информационных систем ввиду постоянно повышающейся доступности документов в цифровой форме и вытекающей отсюда необходимости получать к ним доступ максимально быстрыми и удобными способами. Одной из таких задач является категоризация текстов (синонимы - классификация по категориям, определение тематики) - задача распределения текстов на естественном языке по тематическим категориям из заранее определенного набора. Появление задачи категоризации текстов (КТ) относится к началу 60-х годов прошлого века, но только в 90-х она приобрела свою истинную значимость благодаря возросшему прикладному интересу и доступности более мощных аппаратных средств. КТ сейчас применяется во многих контекстах, начиная от индексирования документов на основе контролируемого словаря, заканчивая фильтрацией документов, автоматической генерацией метаданных, заполнением иерархических каталогов Web ресурсов, атрибуцией текстов неизвестных авторов и вообще в любых приложениях, требующих автоматизированной организации или диспетчеризации документов.
До конца 80-х наиболее популярным подходом к КТ, по крайней мере, в сообществе, занимающемся прикладными исследованиями, была инженерия знаний. Этот подход состоит в ручном задании набора правил на основании знаний экспертов о том, как классифицировать документы по заданным категориям. Среди исследователей в этой области можно выделить В.М. Глушкова, Г.С. Осипова, Д.Э. Попова, Д.А. Поспелова, Т.А. Гаврилову, В.Ф. Хорошевского. В 90-х этот подход стремительно утратил популярность (особенно в исследовательском сообществе) в пользу машинного обучения. В
соответствии с этим подходом производится индуктивное автоматическое построение текстового классификатора с помощью обучения на наборе заранее классифицированных документов. Важную роль в развитии машинного обучения сыграли В. Н. Вапник и А. Я. Червоненкис, активными исследованиями в области КТ занимаются С. Apte, F.J. Damerau, N. Fuhr, F. Sebastiani, W.W. Cohen, S.T. Dumais, T. Joachims, S.L. Lam, L.S. Larkey, D.D. Lewis, Y. Yang.
Тексты в обычном представлении не могут быть интерпретированы классификатором или алгоритмом построения классификатора. Поэтому к документам должна быть заранее применена процедура индексирования, которая ставит в соответствие каждому тексту компактное представление его содержимого. Выбор этого представления зависит от того, что считать значимыми элементами текста и какие правила естественного языка считать значимыми для комбинирования этих элементов. В задаче КТ вторая проблема обычно игнорируется, и текст представляется вектором весов элементов, выбранных в качестве "текстообразующих". Типичным выбором на сегодняшний день является представление текста в виде вектора слов. Подобное представление текста представляется сильно ограниченным, соответственно исследования в области моделирования текста продолжаются и являются актуальными и необходимыми с точки зрения развития методик КТ.
Целью работы является разработка и структурный анализ модели текста, использование которой вместо общепринятых векторов слов или фраз позволит повысить эффективность КТ за счет более гибкого решения задачи снижения размерности модели и обобщения существующих подходов к индексированию документов.
Для достижения поставленной цели требовалось решить следующие задачи:
проанализировать существующие способы моделирования текста, используемые в задаче категоризации, обобщить информацию о том, какие элементы текста считаются значимыми при построении моделей, как при использовании этих моделей решаются задачи индексирования документа и уменьшения размерности модели;
сформулировать требования к разрабатываемой модели текста;
разработать алгоритм для индексирования текста, то есть для выбора из текста элементов, на основе которых будет построена модель;
разработать модель текста в виде дерева N-грамм и проанализировать ее свойства;
разработать алгоритмы обработки данных модели, а также способы создания представлений модели с разным уровнем детализации;
разработать методику категоризации документов, моделируемых в виде деревьев N-грамм;
разработать тестовую систему, позволяющую получить оценки эффективности методики КТ;
протестировать разработанную методику КТ с различными алгоритмами классификации данных;
провести эксперимент с целью сравнения эффективности методик КТ, использующих представление текста в виде вектора слов и в виде дерева N-грамм;
Методы исследования.
Для решения поставленых задач применялись методы системного анализа, теории информации, теории вероятностей, а также методы и техники, использующиеся в задачах извлечения информации и категоризации документов. Вычислительные эксперименты проводились с использованием программного комплекса KNIME.
Научная новизна работы заключается в следующем:
1. Предложена модель текста в виде дерева N-грамм, позволяющая использовать ее в любых приложениях, связанных с решением задачи
категоризации документов. Данная модель позволяет значительно повысить эффективность автоматизированных систем категоризации текстов.
Разработаны алгоритмы представления модели текста в виде деревьев в памяти ЭВМ, обработки данных модели и последующего построения спектров модели с различным уровнем детализации.
Разработана практическая методика категоризации текстов, использующая предложенную модель вместо общепринятых векторов слов или фраз. Эффективность методики достигается за счет применения более точной модели текста вместо использования ресурсоемких классификаторов или увеличения объема тестовых наборов документов.
Практическая ценность работы.
Полученные в ходе написания диссертации теоретические и практические результаты наглядно показывают большую важность этапа моделирования текста в задачах его автоматизированной обработки; доказывают, что существующие методики могут быть усовершенствованы за счет использования более совершенных моделей текста; позволяют развить методики категоризации текстов, применяемые в таких областях как автоматическое индексирование для систем извлечения информации, фильтрация текста, иерархическая категоризация страниц во всемирной сети Интернет, автоматическая каталогизация электронных статей и т.д.
Обоснованность и достоверность результатов обеспечены корректным использованием современного математического аппарата, использованием результатов последних исследований в таких областях как извлечение информации, категоризация текстов и машинное обучение и подтверждены результатами экспериментальных исследований на реальном примере.
На защиту выносятся:
Модель текста в виде дерева N-грамм.
Алгоритмы представления текстовых моделей в виде спектров N-грамм для получения возможности динамической настройки точности (детализации) модели после ее создания.
Методика категоризации текстов, построенная на основе использования предложенной модели текста.
Реализация результатов работы.
Практические результаты, полученные в ходе выполнения диссертационной работы, используются в производственном процессе одного из проектов компании "МЕРА НН", что подтверждается актом о внедрении.
Результаты работы использованы в НИОКР "Использование алгоритмов сжатия данных в задаче определения авторства текста" для программы УМНИК (Участник Молодежного Научно-Инновационного Конкурса) фонда содействия развитию малых форм предприятий в научно-технической сфере, № 08-2-7335.
Апробация работы.
Основные положения и результаты диссертационной работы докладывались и обсуждались на следующих научных конференциях:
VII международная научно-техническая конференция НТИ 2007 "Информационные технологии" ВИНИТИ РАН, г. Москва, 2007 г.;
VII международная молодежная научно-техническая конференция "Будущее технической науки" (г. Нижний Новгород, 2007);
XIV Международная научно-техническая конференция "Информационные системы и технологии - ИСТ" (НГТУ, г. Нижний Новгород, 2008);
VIII международный симпозиум "Интеллектуальные системы" -INTELS'2008 (г. Нижний Новгород-Москва,МГТУ им. Н.Э. Баумана-НГТУ им.Р.Е. Алексеева 2008);
Международная открытая научно-практическая конференция "Современные проблемы информатизации" (г. Воронеж, 2008);
XV Международная научно-техническая конференция "Информационные системы и технологии - ИСТ-2009" (г. Нижний Новгород, 2009);
XVI Международная научно-техническая конференция "Информационные системы и технологии - ИСТ-2010" (г. Нижний Новгород, 2010);
Публикации.
Основные положения диссертационной работы отражены в 10 работах, опубликованных соискателем лично или в соавторстве в научных изданиях, в том числе в одной статье, представленной в рецензируемом издании из перечня ВАК РФ.
Структура и объём работы.
Диссертационная работа состоит из введения, четырёх глав, заключения, библиографического списка и приложений. Общий объём работы 153 страницы текста, содержащего 47 рисунков и 8 таблиц. Список литературы содержит 116 наименований.