Содержание к диссертации
ВВЕДЕНИЕ 4
ГЛАВА 1. ОБЗОР МЕТОДОВ КЛАССИФИКАЦИИ ТЕКСТОВОЙ
ИНФОРМАЦИИ И ПОСТАНОВКА ЗАДАЧИ ИССЛЕДОВАНИЯ 14
-
Интеллектуальный анализ текстовой информации 14
-
Характерные особенности обработки текстовой информации 15
-
Модели представления документов в задачах текстовой классификации 17
-
Полнотекстовые и библиографические (реферативные) научно-технические документы 21
-
Процесс классификации текстовой информации 23
-
Предварительная обработка текстовых документов. 23
-
Математические модели текстовых документов 24
-
Индексация текстовых документов 26
-
Сокращение размерности в задачах классификации текстовых документов.... 30
-
Оценка качества классификации 32
1.6 Обзор методов классификации текстовой информации 34
1J Сравнительный анализ методов классификации текстовой информации... 44
Выводы 47
ГЛАВА 2. РАЗРАБОТКА МОДИФИЦИРОВАННОГО МЕТОДА БЛИЖАЙШЕГО
СОСЕДА 48
2.1 База данных библиографических документов Compendex 48
2.1 Л Методика формирования обучающей и тестовой выборок с помощью БД
Compendex 49
2.1.2 Формирование выборок для исследований SO
LI Метод л:-ближайших соседей . 51
2.3 Модификации метода а:-ближайших соседей 56
-
Редуцированные методы ближайшего соседа. , 56
-
Модифицированные методы ближайшего соседа 57
2.4 Разработка модифицированного метода ближайшего соседа 58
-
Алгоритм модифицированного метода ближайшего соседа 58
-
Исследование влияния количества и месторасположения опорных точек на ошибку и время классификации ММБС. 62
2.5 Сравнительный анализ ММБС и МБС (МлгБС) 64
Выводы 69
ГЛАВА 3. ГЛАВА 3. ИССЛЕДОВАНИЕ МОДИФИЦИРОВАННОГО МЕТОДА
БЛИЖАЙШЕГО СОСЕДА 70
3.1 Факторы, влияющие на ошибку и время классификации 70
-
Выделение информативных признаков 71
-
Исследование влияния длины обучающей выборки на ошибку и время классификации 74
-
Исследование влияния меры определения близости между документами на ошибку и время классификации 77
-
Исследование влияния количества классов в выборке на ошибку и время классификации 77
3.2 Сравнение ошибки классификации различными методами 80
Выводы 86
ГЛАВА 4. РАЗРАБОТКА ПРОГРАММНОГО КОМПЛЕКСА ДЛЯ
АВТОМАТИЧЕСКОГО ОТСЛЕЖИВАНИЯ ПУБЛИКАЦИЙ НА INTERNET-
САЙТАХ НАУЧНО-ТЕХНИЧЕСКИХ ЖУРНАЛОВ 87
4.1 Разработка программного комплекса классификации библиографических
текстовых документов "СКАТ" (Система Классификации и Анализа Текста) , 89
4.1.1 Функциональные возможности разработанного ПО 94
4.2 Методика использования ПК "СКАТ" для классификации библиографических
статей из научно-технических журналов 102
-
Формирование обучающей выборки и обучение классификатора 102
-
Отбор журналов, публикующих статьи по интересующим пользователя предметным областям 103
-
Пополнение базы данных и автоматическая классификация статей 104
-
Просмотр статей 104
-
Использование ПК "СКАТ' для классификации библиографических документов из научно-технических журналов 105
-
Использование ПК "СКАТ" в учебном процессе 111
Выводы 113
ЗАКЛЮЧЕНИЕ 114
ЛИТЕРАТУРА 116
ПРИЛОЖЕНИЕ 1. ОПИСАНИЕ БД COMPENDEX 126
ПРИЛОЖЕНИЕ 2. ПРИВЕДЕНИЕ HTML ДОКУМЕНТОВ К
СТРУКТУРИРОВАННОМУ ВИДУ 129
ПРИЛОЖЕНИЕ 3. РЕЗУЛЬТАТЫ КЛАССИФИКАЦИИ СТАТЕЙ ЖУРНАЛОВ.... 134
ПРИЛОЖЕНИЕ 4. АКТЫ О ВНЕДРЕНИИ 151
Введение к работе
Актуальность проблемы. При проведении научных исследований одной из основных задач, которая стоит перед специалистом, является своевременное получение информации об изменениях в интересующей его предметной области. Для решения этой задачи необходимо постоянно отслеживать публикации в специализированных журналах, просматривать материалы конференций. До недавнего времени эти действия приходилось выполнять вручную. Однако с развитием сети Internet значительно расширились возможности специалистов получать ценные сведения по научно-технической проблематике, используя специализированные ресурсы, такие как виртуальные библиотеки, электронные версии профильных журналов и конференций, сайты университетов и т. д. Таким образом, сегодня отслеживать публикации можно не выходя из дома с помощью компьютера и программы просмотра Internet-сайтов.
Необходимо отметить, что в настоящее время существует значительное число специализированных научно-технических Internet-ресурсов и со временем их количество будет только увеличиваться. Поиск и анализ релевантной (соответствующей запросу) информации уже сейчас требует больших временных затрат со стороны исследователя.
Для автоматизации процесса отслеживания и обработки публикаций на Internet-сайтах, увеличения его эффективности необходимо применение методов интеллектуального анализа и обработки текстовой информации (Text Mining). Одним из важных и наиболее эффективных направлений обработки и анализа текстовой информации является классификация. Классификация текстовой информации заключается в разбиении набора документов на группы с целью обеспечения максимальной "близости" документов одной группы и максимального различия между группами. В качестве меры "близости " обычно используются метрики расстояния: евклидова метрика, квад-
5 рат евклидовой метрики, манхэттенское расстояние, метрика Чебышева и
Важной особенностью является то, что на сайтах журналов и конференций обычно находятся не полные тексты статей и докладов, а только их краткие описания (при этом полные тексты доступны только за деньги). Такие документы принято называть библиографическими. Как правило, библиографические научно-технические документы состоят из названия, фамилий авторов, краткого описания (аннотации) и ключевых слов. При этом библиографические научно-технические документы представляют сжатое изложение полнотекстового документа, его квинтэссенцию.
В настоящее время разработано значительное количество методов классификации текстовой информации, использующих ряд положений теории вероятностей, математической статистики, систем искусственного интеллекта. Многие из них требуют выполнения большого числа нереалистичных предположений, громоздки, требуют сложной процедуры обучения и настройки собственных параметров и далеко не всегда проходят проверку практикой. Необходимо также отметить, что большинство известных методов не способны проводить группировку документов с малой ошибкой и с высоким быстродействием и при этом быть легко обучаемыми и дообучае-мыми. Вместе с тем для ряда практических задач обработки больших массивов информации (в частности, при обработке и анализе потока научных публикаций на сайтах журналов и конференций) представляется необходимым разработка такого метода классификации, который обеспечивал бы высокое быстродействие без существенного увеличения ошибки классификации, был бы несложным для обучения и дообучения, представлял бы легко интерпретируемые результаты.
Использование поисковых систем Internet для отслеживания публикаций невозможно по той причине, что поисковые системы лишь облегчают поиск необходимой информации, а анализ полученных результатов (в част- ности классификация) по-прежнему возлагается на исследователя. На рынке программного обеспечения представлено значительное количество программных пакетов, в число основных функций которых входит классификация текстовой информации, однако применять эти программы для решения задачи отслеживания электронных публикаций проблематично, т.к. большинство программных продуктов не ориентированы на обработку библиографических научно-технических документов. Кроме того, большие программные продукты обладают излишней функциональностью и дорогостоящи. Таким образом, на данный момент не существует программного обеспечения, которое можно напрямую использовать для автоматического отслеживания библиографических публикаций на Internet-сайтах журналов. Следовательно, актуальной представляется задача разработки программного комплекса для автоматизации процесса получения и обработки научных публикаций с Internet-сайтов журналов по заданным пользователем предметным областям.
Целью диссертационной работы является разработка и исследование метода, который ориентирован на решение задачи классификации библиографических документов, расположенных на Internet-сайтах научно-технических журналов, обеспечивает малое время классификации и ошибку, сопоставимую с ошибкой известных методов.
В соответствии с указанной целью были определены следующие задачи исследования.
Проведение обзора и сравнительного анализа существующих методов классификации текстовых документов. Выявление характерных особенностей классификации библиографических текстовых документов по научно-технической проблематике.
Разработка метода классификации библиографических текстовых документов, обеспечивающего малое время классификации и ошиб-
7 ку классификации, сопоставимую с ошибкой других известных методов.
Исследование характеристик разработанного метода на различных выборках из библиографических текстовых документов и проведение сравнительного анализа с известными методами.
Разработка программного комплекса (ПК) для проведения классификации библиографических текстовых документов и составление методики, позволяющей использовать разработанный ПК для обработки и анализа библиографических документов на Internet-сайтах научно-технических журналов.
Методы исследования. Полученные в диссертации результаты основываются на применении аппарата теории вероятностей, математической статистики, численных методов, линейной алгебры, вычислительной геометрии.
Научная новизна.
Разработан новый метод классификации библиографических текстовых документов - модифицированный метод ближайшего соседа, основанный на методе ближайшего соседа, в котором с целью увеличения быстродействия предложено ввести опорные точки.
Обосновано количество и месторасположение опорных точек, даны рекомендации по выбору настраиваемых параметров в разработанном методе.
Получена оценка количества вычислительных операций, необходимых для классификации библиографических текстовых документов с помощью разработанного метода и показано, что он требует меньшего количества вычислительных операций по сравнению с прототипом (методом ближайшего соседа).
Выявлено влияние способа взвешивания терминов, меры близости между документами, длины документа, длины выборки и количест-
8 ва классов на ошибку и время классификации разработанного метода.
5. На основе сравнительного анализа ошибок классификации разработанного метода с ошибками известных методов показано, что при существенном снижении времени классификации (по сравнению с прототипом) ошибка разработанного метода остается сопоставимой с ошибками известных методов.
Практическая ценность результатов.
Разработан ПК "СКАТ" ("Система классификации и анализа текста"), реализующий предложенный в диссертации метод классификации.
Для обоснования выбора наиболее эффективного метода (для решения конкретной задачи) в ПК "СКАТ" реализованы также другие методы (метод ^-ближайших соседей, метод центроидов и наивный байесовский метод).
Разработанный ПК "СКАТ" позволяет пользователям получать и обрабатывать в автоматизированном режиме библиографические текстовые документы с Internet-сайтов электронных журналов.
ПК "СКАТ" ориентирован на использование широким кругом пользователей, не имеющих специальных знаний в области теории классификации и программирования.
Теоретические результаты и опыт использования ПК "СКАТ" в экспериментальных исследованиях обобщены в методике использования данного ПК для классификации библиографических документов из научно-технических журналов, получаемых из сети Internet.
Реализация результатов. Разработанный ПК "СКАТ" внедрен в эксплуатацию в Федеральном государственном учреждении Научно-исследовательском институте "Республиканский исследовательский научно-консультационный центр экспертизы" (ФГУ НИИ РИНКЦЭ) для автомати-
9 зированного получения и классификации англоязычных публикаций по профильным научно-техническим тематикам с сайтов электронных издательств, что подтверждается актом о внедрении.
Апробация работы. Материалы диссертации докладывались на трех международных конференциях "Информационные средства и технологии" (в 2001, 2002, 2003 гг. Москва, МЭИ) и на четырех научных сессиях МИФИ (2002, 2003,2004,2005 гг. Москва, МИФИ).
Публикации. Основные результаты исследований опубликованы в 11 печатных работах.
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 102 наименований. Диссертация изложена на 125 страницах основного текста, содержит 31 рисунок и 5 таблиц.
Содержание работы:
Во введении обосновывается актуальность темы диссертации, формулируются основные цели и задачи исследования.
В первой главе рассматривается процесс классификации текстовой информации, проводится обзор методов классификации текстовых документов, анализируются характерные особенности классификации текста, рассматриваются модели представления документов, проводится сравнительный анализ наиболее известных методов.
Во второй главе детально рассматривается метод ближайшего соседа, указываются его достоинства и недостатки, подходы к устранению указанных недостатков, проводится разработка модифицированного метода ближайшего соседа с использованием опорных точек, исследуется влияние настраиваемых параметров метода и выбор опорных точек на ошибку и время классификации, даются рекомендации по выбору настраиваемых параметров метода; проводится сравнительный анализ модифицированного метода ближайшего соседа и метода А-ближайших соседей.
В третьей главе представлены исследования влияния внешних факторов на ошибку и время классификации модифицированного метода ближайшего соседа, оценивается ошибка классификации библиографических документов несколькими методами классификации (методом центроидов, наивным байесовским методом, методом /г-ближайших соседей и модифицированным методом ближайшего соседа). Основное внимание уделено исследованию характеристик разработанного модифицированного метода ближайшего соседа на различных выборках из библиографических документов.
В четвертой главе проводится обзор программных средств для классификации текстовых документов, рассматриваются функциональные возможности разработанного программного комплекса "СКАТ', описывается методика использования разработанного программного комплекса, приводятся результаты автоматического отслеживания и классификации библиографических научно-технических статей, опубликованных на сайтах электронных журналов в сети Internet.
Основные результаты работы:
Проведен обзор и сравнительный анализ наиболее распространенных и эффективных методов классификации текстовых документов. Показано, что в настоящее время не существует методов, одновременно обеспечивающих малое время классификации, малую ошибку классификации, высокую скорость обучения, простоту реализации, легкую интерпретацию результатов на различных выборках текстовых документов.
Разработан новый метод классификации библиографических текстовых документов - модифицированный метод ближайшего соседа, основанный на методе ближайшего соседа, в котором с целью увеличения быстродействия предложено ввести опорные точки. Обосновано количество и месторасположение опорных точек, даны рекомендации по выбору настраиваемых параметров в разработанном методе.
Получена оценка количества вычислительных операций, необходимых для классификации библиографических текстовых документов с помощью разработанного метода и показано, что он требует меньшего количества вычислительных операций по сравнению с прототипом (методом ближайшего соседа).
На основе сравнительного анализа ошибок классификации разработанного метода с ошибками известных методов показано, что при существенном снижении времени классификации (по сравнению с прототипом) ошибка разработанного метода остается сопоставимой с ошибками известных методов.
Разработан ПК "СКАТ" ("Система классификации и анализа текста"), реализующий предложенный в диссертации метод классификации. Для обоснования выбора наиболее эффективного метода (для решения конкретной задачи) в ПК "СКАТ" реализованы также другие методы (метод А-ближайших соседей, метод центроидов и наивный байесовский метод). Разработанный ПК позволяет получать и обрабатывать в автоматизированном режиме библиографические текстовые документы с Internet-сайтов электронных журналов и ориентирован на широкий круг пользователей, не имеющих специальных знаний в области теории классификации и программирования.
Теоретические результаты и опыт использования ПК "СКАТ" в экспериментальных исследованиях обобщены в методике использования данного ПК для классификации библиографических документов из научно-технических журналов, получаемых из сети Internet.
12 Основные положения диссертации опубликованы в следующих ра-
Некрасов И.В., Толчеев В.О. Модифицированный метод ближайшего соседа с использованием опорных точек для классификации текстовых документов. Вестник МЭИ. М. МЭИ, 2004, стр. 76-81.
Некрасов И.В., Толчеев В.О. Разработка модели представления библиографических документов в задачах текстовой классификации. Научная сессия МИФИ 2004. М. МИФИ, 2004, стр. 179-180.
Некрасов И.В., Толчеев В.О. Сравнительный анализ методов классификации текстовых документов. Научная сессия МИФИ 2003 том 2. М. МИФИ, 2003, стр. 169-170.
Некрасов И.В., Толчеев В.О. Современные средства поиска, обработки и анализа текстовой информации. Вестник МЭИ. М. МЭИ, 2002, стр. 52-55.
Некрасов И.В., Толчеев В.О. Разработка алгоритма модифицированного метода ближайшего соседа. Международная конференция "Информационные средства и технологии" том 2. М. Станкин, 2003, стр. 198-201.
Некрасов И.В., Толчеев В.О. О выборе опорных точек в модифицированном методе ближайшего соседа. Международная конференция "Информационные средства и технологии" том 2. М. Станкин, 2003, стр. 202-204.
Некрасов И.В., Толчеев В.О. Разработка программного комплекса для классификации текстовых документов. Международная конференция "Информационные средства и технологии" том 2. М. Станкин, 2002, стр. 160-163.
Некрасов И.В., Толчеев В.О. Информационно-поисковая система для обработки научно-технической информации. Международная
13 конференция "Информационные средства и технологии" том 1. М. Станкин, 2001, стр. 114-117.
9. Некрасов И.В., Толчеев В.О. Методика модификации запросов в информационно-поисковой системе IAS. Международная конференция "Информационные средства и технологии" том 1. М. Станкин, 2001, стр. 118-121.
Ю.Машков Д.В., Некрасов И.В., Толчеев В.О. Построение модели предметной области "идентификация динамических систем" на основе анализа электронных информационных ресурсов. Научная сессия МИФИ 2002. М. МИФИ, 2002, стр. 122-123.
П.Некрасов И.В., Толчеев В.О. Экспериментальные исследования методов классификации текстовых документов. Научная сессия МИФИ 2005. М МИФИ, 2005, стр. 152-153.