Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка и исследование методов построения атрибутного тематического классификатора документов Ха Ти Чунг

Разработка и исследование методов построения атрибутного тематического классификатора документов
<
Разработка и исследование методов построения атрибутного тематического классификатора документов Разработка и исследование методов построения атрибутного тематического классификатора документов Разработка и исследование методов построения атрибутного тематического классификатора документов Разработка и исследование методов построения атрибутного тематического классификатора документов Разработка и исследование методов построения атрибутного тематического классификатора документов
>

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Ха Ти Чунг. Разработка и исследование методов построения атрибутного тематического классификатора документов : диссертация ... кандидата технических наук : 05.13.17 / Ха Ти Чунг; [Место защиты: Юж. федер. ун-т].- Таганрог, 2009.- 138 с.: ил. РГБ ОД, 61 09-5/2535

Введение к работе

Актуальность темы. В настоящее время объем электронных изданий и документов в интернет, локальных сетях, электронных библиотеках, электронных каталогах и др. по некоторым оценкам удваивается каждый год. Однако ограниченные возможности инструментариев поиска и классифицирования информации существенно затрудняют пользователю доступ к релевантной его запросам информации. Проблема разработки эффективных подходов тематической классификации документов стала сегодня объектом серьезных исследований. Для решения этой проблемы были разработаны и предложены ряд подходов, связанных с выделением и извлечением информационных объектов, определением их статистических, лингвистических и семантических характеристик, построением семантико-тематической структуры документов и тематик, тематической фильтрацией и пр. Этой проблеме также посвящен ряд международных научных конференций и семинаров.

Как показывает анализ подходов в области классификации документов, каждый из них обладает определенными достоинствами и недостатками, а также областью эффективного использования. Однако, ни в одном из этих методов для повышения эффективности классификации не используется явное выделение функциональных областей в документах. В то же время, использование разнородной информации из данных областей может существенно улучшить результаты классификации документов. Поэтому, несмотря на то, что существует много работ по тематической классификации, на сегодня в общем виде данная проблема до сих пор еще не решена. Таким образом, разработка методов и систем автоматической тематической классификации документов остается одной из актуальных проблем в области информатики и имеет как теоретическую, так и практическую значимость.

Настоящее диссертационное исследование выполнено в рамках данной проблематики и направлено на разработку и исследование моделей и методов атрибутной тематической классификации документов.

Объект исследований. Методы построения атрибутного тематического классификатора документов.

Цели и задачи работы. Разработка и исследование методов построения атрибутного тематического классификатора документов.

Для достижения поставленной цели исследования были решены следующие основные задачи:

  1. Построение и исследование моделей атрибутного описания документов и тематик, отличающихся от известных моделей тем, что традиционная совокупность классификационных признаков дополнена атрибутными функциональными характеристиками.

  2. Разработка способов построения классифицирующей функции на основе частичных функций близости атрибутных множеств документов и тематик.

  3. Разработка методов построения обучающих выборок, методов обучения и настройки атрибутного классификатора для тематической классификации документов.

  4. Построение программной модели для экспериментального исследования атрибутного классификатора и апробации теоретических выводов результатов.

  5. Проведение экспериментального моделирования и исследования разработанного атрибутного классификатора.

Методы исследования. Для решения выше перечисленных задач использованы методы математического и комбинаторного анализов, методы нечеткой логики, методы оптимизации, методы статистического анализа, методы лингвистического анализа, технология программирования.

Научная новизна работы. Состоит в следующем:

  1. Разработана модифицированная модель описания документа, которая отличаются от известных моделей тем, что наряду с описанием основного текста содержит ряд дополнительных атрибутов, таких как описания названия, авторов, аннотации, глоссарии и пр., а также таких атрибутов, как УДК, ISBN и пр., которые соответствуют данному типу документов.

  2. Разработана модифицированная модель описания тематики, атрибутивно согласованная с предложенной моделью описания документа, что позволяет устанавливать между документами и тематиками степень близости по однотипным атрибутам описаний.

  3. Разработана классифицирующая функция на основе частичных функций близости по типу “текст”“текст”, “текст”“экспертное знание”, “экспертное знание”“экспертное знание”, “описательные атрибуты”“описательные атрибуты”, которая в отличие от известных позволяет учитывать информацию из дополнительных атрибутов документов и тематик.

  4. Сформулированы в виде лемм требования к структуре правильно построенной обучающей выборки, правила и процедура обучения классификатора путем настройки коэффициентов доверия и порогов классифицирующей функции в виде решения оптимизационной задачи и разработаны методики коррекции обучающей выборки, что позволяет организовать обучение и настройку разработанного атрибутного классификатора.

  5. Предложено представлять классифицирующую функцию в виде лингвистической переменной, а построенные правила нечеткого логического вывода использовать для классификации, что позволяет существенно упростить переобучение атрибутного классификатора путем коррекции нечетких переменных и/или правил логического вывода.

Основные положения, выносимые на защиту. На защиту выносятся следующие научные положения и результаты, полученные в диссертационном исследовании:

  1. Атрибутные модели описания документа и тематики.

  2. Классифицирующая функция на основе частичных функций близости по типу “текст”“текст”, “текст”“экспертное знание”, “экспертное знание”“экспертное знание” и “описательные атрибуты”“описательные атрибуты”.

  3. Методы построения правильной обучающей выборки, правила и процедура обучения классификатора путем настройки коэффициентов доверия и порогов классифицирующей функции в виде решения оптимизационной задачи, методика коррекции обучающей выборки на основе решения оптимизационной задачи.

  4. Представление классифицирующей функции в виде лингвистической переменной и системы правил нечеткого логического вывода.

Теоретическая и практическая значимость результатов исследования.

  1. Разработанная модифицированная модель описания документа позволяет наряду с характеристиками основного текста включить в описание документа информацию из дополнительных функциональных областей (атрибутов) таких, как названия, авторы, аннотация, глоссарий, УДК, ISBN и пр., которые соответствуют данному типу документов.

  2. Разработанная модифицированная модель описания тематики атрибутивно согласована с предложенной моделью описания документа и позволяет устанавливать между документами и тематиками степень близости по однотипным атрибутам описаний.

  3. Разработанная классифицирующая функция на основе частичных функций близости по типу “текст”“текст”, “текст”“экспертное знание”, “экспертное знание”“экспертное знание”, “описательные атрибуты”“описательные атрибуты” позволяет интегрально учитывать информацию из дополнительных атрибутов документов и тематик.

  4. Сформулированные в виде лемм требования к структуре правильно построенной обучающей выборки, правила и процедура обучения классификатора путем настройки коэффициентов доверия и порогов классифицирующей функции в виде решения оптимизационной задачи, а также разработанные методики коррекции обучающей выборки позволяют организовать обучение и настройку разработанного атрибутного классификатора.

  5. Разработанное представление классифицирующей функции в виде лингвистической переменной и построенные правила нечеткого логического вывода позволяют существенно упростить переобучение атрибутного классификатора путем коррекции нечетких переменных и/или правил логического вывода.

Разработанные методы, способы и алгоритмы дополняют существующие теоретические разработки в данной области и подтверждают их теоретическую значимость, а их практическая значимость подтверждается результатами экспериментального моделирования и возможностью их применения в системах информационного поиска документов, электронных библиотеках и библиотеках различных учреждений.

Достоверность результатов. Вытекает из их математического обоснования, корректного использования методов математического и комбинаторного анализов, нечеткой логики, оптимизации, статистического и лингвистического анализов, технологии программирования, а также подтверждается результатами проведенных модельных экспериментов.

Использование результатов работы. Результаты диссертационного исследования используются в ряде работ, выполненных в международной лаборатории ELDIC, и в учебном процессе, что подтверждается актами о внедрении результатов исследования в рамках работ по госбюджетной НИР №12450 “Исследование и разработка гибридных логико-математических и нечетко-лингвистических моделей задач искусственного интеллекта, информационного поиска и распознавания образов” и учебном процессе по дисциплине “Организация электронных архивов данных” магистерской программы “Интеллектуальные системы” по направлению 230100 “Информатика и вычислительная техника” факультета автоматики и вычислительной техники Таганрогского технологического института Южного федерального университета.

Апробация результатов работы. Основные результаты работы неоднократно докладывались и обсуждались на конференциях и семинарах различного уровня, в том числе:

VIII Всероссийской научной конференции студентов и аспирантов "Техническая кибернетика, радиоэлектроника и системы управления (КРЭС'06)" (Таганрог, ТРТУ, 2006г);

Всероссийской научной школе-семинаре молодых ученых, аспирантов и студентов "Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки" (Таганрог, ТТИ ЮФУ, 2007г);

Всероссийской научной школе-семинаре молодых ученых, аспирантов и студентов "Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки" (Таганрог, ТТИ ЮФУ, 2008г);

VI Всероссийской научной конференции молодых ученых, аспирантов и студентов "Информационные технологии, системы анализ и управление" (Таганрог, ТТИ ЮФУ, 04-05 декабря 2008г).

Публикации. По материалам диссертации автором опубликовано 7 печатных работ, в том числе одна статья в издании из списка, рекомендованного ВАК, в которых отражены основные результаты диссертационного исследования.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения и приложений. Текст изложен на 136 страницах, содержит 24 рисунков, 13 таблицы, список литературы из 75 наименований.

Похожие диссертации на Разработка и исследование методов построения атрибутного тематического классификатора документов