Введение к работе
Актуальность темы. В настоящее время объем электронных изданий и документов в интернет, локальных сетях, электронных библиотеках, электронных каталогах и др. по некоторым оценкам удваивается каждый год. Однако ограниченные возможности инструментариев поиска и классифицирования информации существенно затрудняют пользователю доступ к релевантной его запросам информации. Проблема разработки эффективных подходов тематической классификации документов стала сегодня объектом серьезных исследований. Для решения этой проблемы были разработаны и предложены ряд подходов, связанных с выделением и извлечением информационных объектов, определением их статистических, лингвистических и семантических характеристик, построением семантико-тематической структуры документов и тематик, тематической фильтрацией и пр. Этой проблеме также посвящен ряд международных научных конференций и семинаров.
Как показывает анализ подходов в области классификации документов, каждый из них обладает определенными достоинствами и недостатками, а также областью эффективного использования. Однако, ни в одном из этих методов для повышения эффективности классификации не используется явное выделение функциональных областей в документах. В то же время, использование разнородной информации из данных областей может существенно улучшить результаты классификации документов. Поэтому, несмотря на то, что существует много работ по тематической классификации, на сегодня в общем виде данная проблема до сих пор еще не решена. Таким образом, разработка методов и систем автоматической тематической классификации документов остается одной из актуальных проблем в области информатики и имеет как теоретическую, так и практическую значимость.
Настоящее диссертационное исследование выполнено в рамках данной проблематики и направлено на разработку и исследование моделей и методов атрибутной тематической классификации документов.
Объект исследований. Методы построения атрибутного тематического классификатора документов.
Цели и задачи работы. Разработка и исследование методов построения атрибутного тематического классификатора документов.
Для достижения поставленной цели исследования были решены следующие основные задачи:
-
Построение и исследование моделей атрибутного описания документов и тематик, отличающихся от известных моделей тем, что традиционная совокупность классификационных признаков дополнена атрибутными функциональными характеристиками.
-
Разработка способов построения классифицирующей функции на основе частичных функций близости атрибутных множеств документов и тематик.
-
Разработка методов построения обучающих выборок, методов обучения и настройки атрибутного классификатора для тематической классификации документов.
-
Построение программной модели для экспериментального исследования атрибутного классификатора и апробации теоретических выводов результатов.
-
Проведение экспериментального моделирования и исследования разработанного атрибутного классификатора.
Методы исследования. Для решения выше перечисленных задач использованы методы математического и комбинаторного анализов, методы нечеткой логики, методы оптимизации, методы статистического анализа, методы лингвистического анализа, технология программирования.
Научная новизна работы. Состоит в следующем:
-
Разработана модифицированная модель описания документа, которая отличаются от известных моделей тем, что наряду с описанием основного текста содержит ряд дополнительных атрибутов, таких как описания названия, авторов, аннотации, глоссарии и пр., а также таких атрибутов, как УДК, ISBN и пр., которые соответствуют данному типу документов.
-
Разработана модифицированная модель описания тематики, атрибутивно согласованная с предложенной моделью описания документа, что позволяет устанавливать между документами и тематиками степень близости по однотипным атрибутам описаний.
-
Разработана классифицирующая функция на основе частичных функций близости по типу “текст”“текст”, “текст”“экспертное знание”, “экспертное знание”“экспертное знание”, “описательные атрибуты”“описательные атрибуты”, которая в отличие от известных позволяет учитывать информацию из дополнительных атрибутов документов и тематик.
-
Сформулированы в виде лемм требования к структуре правильно построенной обучающей выборки, правила и процедура обучения классификатора путем настройки коэффициентов доверия и порогов классифицирующей функции в виде решения оптимизационной задачи и разработаны методики коррекции обучающей выборки, что позволяет организовать обучение и настройку разработанного атрибутного классификатора.
-
Предложено представлять классифицирующую функцию в виде лингвистической переменной, а построенные правила нечеткого логического вывода использовать для классификации, что позволяет существенно упростить переобучение атрибутного классификатора путем коррекции нечетких переменных и/или правил логического вывода.
Основные положения, выносимые на защиту. На защиту выносятся следующие научные положения и результаты, полученные в диссертационном исследовании:
-
Атрибутные модели описания документа и тематики.
-
Классифицирующая функция на основе частичных функций близости по типу “текст”“текст”, “текст”“экспертное знание”, “экспертное знание”“экспертное знание” и “описательные атрибуты”“описательные атрибуты”.
-
Методы построения правильной обучающей выборки, правила и процедура обучения классификатора путем настройки коэффициентов доверия и порогов классифицирующей функции в виде решения оптимизационной задачи, методика коррекции обучающей выборки на основе решения оптимизационной задачи.
-
Представление классифицирующей функции в виде лингвистической переменной и системы правил нечеткого логического вывода.
Теоретическая и практическая значимость результатов исследования.
-
Разработанная модифицированная модель описания документа позволяет наряду с характеристиками основного текста включить в описание документа информацию из дополнительных функциональных областей (атрибутов) таких, как названия, авторы, аннотация, глоссарий, УДК, ISBN и пр., которые соответствуют данному типу документов.
-
Разработанная модифицированная модель описания тематики атрибутивно согласована с предложенной моделью описания документа и позволяет устанавливать между документами и тематиками степень близости по однотипным атрибутам описаний.
-
Разработанная классифицирующая функция на основе частичных функций близости по типу “текст”“текст”, “текст”“экспертное знание”, “экспертное знание”“экспертное знание”, “описательные атрибуты”“описательные атрибуты” позволяет интегрально учитывать информацию из дополнительных атрибутов документов и тематик.
-
Сформулированные в виде лемм требования к структуре правильно построенной обучающей выборки, правила и процедура обучения классификатора путем настройки коэффициентов доверия и порогов классифицирующей функции в виде решения оптимизационной задачи, а также разработанные методики коррекции обучающей выборки позволяют организовать обучение и настройку разработанного атрибутного классификатора.
-
Разработанное представление классифицирующей функции в виде лингвистической переменной и построенные правила нечеткого логического вывода позволяют существенно упростить переобучение атрибутного классификатора путем коррекции нечетких переменных и/или правил логического вывода.
Разработанные методы, способы и алгоритмы дополняют существующие теоретические разработки в данной области и подтверждают их теоретическую значимость, а их практическая значимость подтверждается результатами экспериментального моделирования и возможностью их применения в системах информационного поиска документов, электронных библиотеках и библиотеках различных учреждений.
Достоверность результатов. Вытекает из их математического обоснования, корректного использования методов математического и комбинаторного анализов, нечеткой логики, оптимизации, статистического и лингвистического анализов, технологии программирования, а также подтверждается результатами проведенных модельных экспериментов.
Использование результатов работы. Результаты диссертационного исследования используются в ряде работ, выполненных в международной лаборатории ELDIC, и в учебном процессе, что подтверждается актами о внедрении результатов исследования в рамках работ по госбюджетной НИР №12450 “Исследование и разработка гибридных логико-математических и нечетко-лингвистических моделей задач искусственного интеллекта, информационного поиска и распознавания образов” и учебном процессе по дисциплине “Организация электронных архивов данных” магистерской программы “Интеллектуальные системы” по направлению 230100 “Информатика и вычислительная техника” факультета автоматики и вычислительной техники Таганрогского технологического института Южного федерального университета.
Апробация результатов работы. Основные результаты работы неоднократно докладывались и обсуждались на конференциях и семинарах различного уровня, в том числе:
VIII Всероссийской научной конференции студентов и аспирантов "Техническая кибернетика, радиоэлектроника и системы управления (КРЭС'06)" (Таганрог, ТРТУ, 2006г);
Всероссийской научной школе-семинаре молодых ученых, аспирантов и студентов "Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки" (Таганрог, ТТИ ЮФУ, 2007г);
Всероссийской научной школе-семинаре молодых ученых, аспирантов и студентов "Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки" (Таганрог, ТТИ ЮФУ, 2008г);
VI Всероссийской научной конференции молодых ученых, аспирантов и студентов "Информационные технологии, системы анализ и управление" (Таганрог, ТТИ ЮФУ, 04-05 декабря 2008г).
Публикации. По материалам диссертации автором опубликовано 7 печатных работ, в том числе одна статья в издании из списка, рекомендованного ВАК, в которых отражены основные результаты диссертационного исследования.
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения и приложений. Текст изложен на 136 страницах, содержит 24 рисунков, 13 таблицы, список литературы из 75 наименований.