Систематизация, разработка методов и коллективов решающих правил классификации библиографических текстовых документов Толчеев Владимир Олегович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Толчеев Владимир Олегович. Систематизация, разработка методов и коллективов решающих правил классификации библиографических текстовых документов : диссертация ... доктора технических наук : 05.13.01 / Толчеев Владимир Олегович; [Место защиты: ГОУВПО "Московский энергетический институт (технический университет)"].- Москва, 2009.- 355 с.: ил. РГБ ОД, 71 10-5/332

Введение к работе

Актуальность темы. Для современного этапа развития общества характерна информатизация всех сфер деятельности, в результате которой текстовые данные в электронном виде превратились в ресурс, во многом определяющий научно-технический и экономический потенциал государства. По оценкам экспертов, в настоящее время около 70% накопленной и используемой обществом цифровой информации находится в неструктурированной (текстовой) форме.

В сложившейся ситуации особую актуальность приобретают работы по созданию систем обработки текстовой информации (СОТИ). В последнее десятилетие в России и за рубежом было разработано и внедрено значительное число коммерческих СОТИ, ориентированных, прежде всего, на массового потребителя. При этом значительно меньше внимания было уделено созданию инструментальных средств для удовлетворения информационных потребностей пользователей (специалистов-предметников), занятых научно-исследовательской деятельностью. К числу основных информационных потребностей данной категории пользователей следует отнести: мониторинг публикуемых научных материалов и отслеживание тенденций, происходящих в области профессиональных интересов; выявление и получение из имеющегося документального потока значимых научных статей, необходимых для проведения НИОКР и подготовки современных учебных курсов, диссертационных работ.

Общеизвестно, что в Интернет, корпоративных хранилищах информации в некоммерческом доступе обычно находятся библиографические документы. Если СОТИ ориентирована на работу с такими документами, то появляется возможность на основе их анализа проводить отбор и адресный заказ небольшого числа платных полнотекстовых статей, необходимых для успешного проведения научных исследований. Данный подход к обработке информации обеспечивает снижение материальных затрат на подписку и закупку периодических изданий и материалов конференций, что особенно важно для малых научных коллективов (кафедра, лаборатория, отдел) и специалистов-предметников, самостоятельно проводящих исследования.

Чаще всего информационная потребность специалиста-предметника состоит не только в выделении релевантных документов из общего документального потока, но также в разнесении этого текстового массива на тематические группы, соответствующие более узким вопросам (подтемам). Поэтому практически все современные СОТИ содер-

жат модуль классификации документальной информации в качестве одного из основных компонентов системы.

Методы классификации давно находятся в центре внимания многих коллективов разработчиков. Вместе с тем до сих пор не создано универсального решающего правила, обладающего большой обобщающей способностью и показывающего устойчиво высокую точность на различных выборках. Более того, в условиях изначально непредсказуемой структуры текстовой выборки многие достаточно точные методы классификации показывают противоречивые результаты и их точность от выборки к выборке варьируется в значительных пределах. В большинстве практических задач использование только одного метода не может гарантировать желаемых результатов.

Обзор и анализ публикаций в области обработки данных показывает, что один из наиболее эффективных подходов к увеличению точности и устойчивости классификации основан на синтезе коллективов решающих правил {КРП, комитетов классификаторов). В КРП для принятия решения о классификации документа используется не один, а т методов, каждый из которых самостоятельно присваивает метку класса, после чего формируется общий результат классификации, например, с помощью простого голосования членов комитета.

К числу важных достоинств КРП необходимо отнести следующие свойства.

Групповые решения обладают значительно большей устойчивостью и независимостью от структуры и размера выборок. В КРП компенсируются неточности и ошибки, возникающие из-за ограниченного размера обучающей выборки, наличия в ней нерелевантных шумовых элементов, несовершенства методов, используемых на стадии предварительной обработки данных. В условиях практически полного отсутствия априорной информации о структуре документального массива комитеты классификаторов позволяют получать наиболее точное из возможных решений за счет использования дополняющих друг друга решающих правил и специальных стратегий обучения.
Существует возможность наращивания сложности решающего правила путем увеличения числа членов КРП до той степени, которая отвечает требованиям решаемой задачи классификации, обеспечивая заданную точность.
Групповые решения легко интерпретируются, что особенно важно при применении КРП на практике.

Основным недостатком данного подхода является низкое быстродействие и высокая ресурсозатратность (вычислительная сложность) при обучении. В связи с этим особую актуальность приобретают работы по синтезу высокоточных, быстродействующих и малозатратных КРП для обработки и анализа библиографических текстовых документов. Как показывают специально проведенные автором исследования, для решения данной задачи требуется разработка новых (или усовершенствование уже имеющихся) индивидуальных методов классификации.

Объектом исследований в данной работе являются системы обработки текстовой информации, позволяющие автоматизировать процесс анализа документов и обеспечивающие своевременное получение и распределение информации по классам согласно профессиональным потребностям пользователя.

Предметом исследований в диссертации являются индивидуальные и коллективные методы классификации библиографической текстовой информации.

Цель работы заключается в разработке новых методов классификации и синтезе коллективов решающих правил, обеспечивающих высокую точность, быстродействие и небольшую ресурсозатратность решения задачи классификации библиографических текстовых документов.

Методы исследования. Полученные в диссертации результаты основываются на применении аппарата системного анализа, теории вероятностей, математической статистики, линейной алгебры, теории множеств, вычислительной геометрии, теории алгоритмов, систем искусственного интеллекта, численных методов, имитационного моделирования.

Научная новизна.

На основе системного анализа процесса обработки библиографических текстовых документов предложен критерий, учитывающий требования к процедурам выявления информативных терминов, обучения и классификации по точности, быстродействию, ресурсозатратам; построена модель процесса, имеющая модульную структуру, что позволяет оценить влияние различных этапов обработки и анализа библиографических данных на значение целевого критерия.
Проведена систематизация процедур выявления информативных терминов и методов классификации текстовых данных, сформулированы рекомендации по их использованию. Построена классификационная матрица, которая позволяет осущест-

влять обоснованный выбор процедур выявления информативных терминов и методов классификации, исходя из требований к точности, быстродействию и ресурсозатратам.

3. Разработано три новых метода классификации библиографических тексто
вых документов (модифицированный метод ближайшего соседа, обобщенный метод

ближайшего соседа и метод Ml- профилей). Адаптированы метод % - профилей и метод Q - профилей для решения задач классификации библиографических текстовых документов. Даны рекомендации по выбору настраиваемых параметров в предложенных алгоритмах.

Получены оценки вычислительной сложности для разработанных и адаптированных методов на стадиях обучения и классификации. Показано, что при классификации текстовых документов предложенные методы обеспечивают более высокое быстродействие по сравнению с известными процедурами.
Сформулированы требования к простым классификаторам. Разработана и обоснована процедура синтеза высокоточных, быстродействующих и малозатратных КРП на основе простых классификаторов для обработки и анализа библиографических текстовых документов.
На основе предложенной процедуры проведен синтез двух новых коллективов решающих правил, состоящих из простых классификаторов. Синтезированные КРП состоят как из известных процедур, так и из методов классификации, разработанных в ходе выполнения диссертации. Экспериментально показано, что сформированные КРП имеют меньшую ошибку по сравнению с известными индивидуальными классификаторами.
Рассчитаны оценки вычислительной сложности синтезированных КРП. Показано, что их быстродействие существенно превышает быстродействие метода к-ближайших соседей.
Разработана оригинальная процедура выявления тематических журналов по заданным пользователем предметным областям. Данная процедура позволяет организовать автоматизированный мониторинг информационных ресурсов и получение релевантных научных публикаций, соответствующих потребностям пользователя.

Практическая ценность результатов.

Разработан программный комплекс (ПК) "СКАТ" (^'Система Классификации и Анализа Текста"), реализующий полный цикл обработки и анализа библиографической текстовой информации. ПК "СКАТ" ориентирован на использование широким кругом пользователей, не имеющих специальных знаний в области теории классификации и программирования.
Разработанный ПК "СКАТ" позволяет пользователям получать и обрабатывать в автоматизированном режиме текстовые документы из библиографических баз данных и с Интернет-сайтов. Показано, что предложенные в диссертации методы, алгоритмически и программно реализованные в ПК, эффективны при обработке больших массивов библиографических текстовых данных, обладают высокой точностью, быстродействием, не требуют существенных затрат на стадии обучения. Подтверждено, что точность классификации может быть повышена при формировании КРП с учетом обоснованных в работе рекомендаций.
Теоретические результаты и опыт применения ПК "СКАТ" в экспериментальных исследованиях обобщены в методике использования данного ПК для классификации библиографических документов из научных журналов, получаемых из сети Интернет.
Разработан, апробирован и внедрен в учебный процесс учебно-исследовательский программный комплекс, предназначенный для подготовки специалистов в области обработки и анализа текстовых данных. Продемонстрированы его возможности по проведению самостоятельных комплексных исследований методов обработки и анализа текстовой информации. Алгоритмическую основу программного комплекса составляют разработанные автором методы классификации и синтезируемые из них КРП.
Показано, что функциональные возможности ПК "СКАТ" и учебно-исследовательского программного комплекса позволяют эффективно решать широкий круг реальных задач обработки и анализа библиографических текстовых документов (автоматизированный мониторинг информационных ресурсов, фильтрация-классификация научных публикаций по заданным тематикам, наукометрический анализ библиографических баз данных, исследование и сравнительный анализ методов обработки и анализа документальной информации).

Реализация результатов. Разработанный ПК "СКАТ" внедрен в эксплуатацию в Федеральном государственном учреждении Научно-исследовательском институте "Республиканский исследовательский научно-консультационный центр экспертизы" (ФГУ НИИ РИНКЦЭ). ПК "СКАТ" был использован для автоматизированного получения с сайтов электронных издательств англоязычных публикаций по заданным научно-техническим тематикам и фильтрации-классификации документального массива. Практическое применение разработанного программно-алгоритмического и методического обеспечения подтверждается актом о внедрении.

Разработанные в диссертации инструментальные средства были успешно использованы для обработки и анализа базы данных научных публикаций в области химии, в частности для определения основных тематик исследований, построения профилей научных групп, отслеживания изменения тематик работ с течением времени. По результатам применения разработанных инструментальных средств в Институте проблем химической физики РАН (г.Черноголовка) автором был получен акт о внедрении.

Процедура выявления тематических журналов, разработанные индивидуальные и коллективные решающие правила были использованы в издательстве «Новые технологии» для обработки и анализа англоязычных документальных потоков в области информатики. Эффективность применения на практике предложенных теоретических подходов подтверждается актом о внедрении.

Разработанный учебно-исследовательский программный комплекс внедрен в учебный процесс для проведения лабораторного практикума по курсу «Интеллектуальные информационные системы», курсового и дипломного проектирования на кафедре Управления и информатики МЭИ, что подтверждается актом о внедрении.

Апробация работы. Материалы диссертации докладывались на одиннадцати международных конференциях "Информационные средства и технологии" (1998, 1999, 2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008 гг. Москва, МЭИ), на восьми Научных сессиях МИФИ (2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009 гг. Москва, МИФИ), на семи научно-технических семинарах "Современные технологии в задачах управления, автоматики и обработки информации" (2002, 2003, 2004, 2005, 2006, 2007, 2008 гг. Алушта, МАИ).

Публикации. Автором опубликовано 55 работ по теме диссертации, в том числе 14 статей в журналах, рекомендованных ВАК по направлению управление, вычислительная техника и информатика, монография и учебное пособие.

Структура и объем работы. Диссертация состоит из введения, пяти глав, заключения, списка литературы, содержащего 284 наименований, 6 приложений. Основной текст диссертации излагается на 335 машинописных страницах, содержит 27 рисунков и 25 таблиц.

Систематизация, разработка методов и коллективов решающих правил классификации библиографических текстовых документов Толчеев Владимир Олегович

Похожие диссертации на Систематизация, разработка методов и коллективов решающих правил классификации библиографических текстовых документов