Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методы кодирования текстовой информации для построения нейросетевых классификаторов документов Корж, Василий Вадимович

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Корж, Василий Вадимович. Методы кодирования текстовой информации для построения нейросетевых классификаторов документов : диссертация ... кандидата технических наук : 05.13.06.- Москва, 2000.- 161 с.: ил. РГБ ОД, 61 01-5/833-9

Введение к работе

Актуальность темы

Диссертационная работа посвяіденг. актуальной теме — разработке эффективного математического и программного инструментария для решения задачи классификации текстов на основа комбинаторного анализа частотных свойств информационных признаков классов текстов.

Задача классификации ставится следующим образом. Многомерное пространство признаков разделено на несколько областей, называемых классами. Область, 'соответствующая каждому классу, может иметь произвольную форму. Для некоторых объектов' этого пространства (обучающей выборки) известна принадлежность к классам, а для других ее требуется определить, используя данные обучающей выборки.

Классифицируя документ, человек (автор или эксперт), как правило, прочитывает документ, проводит индексацию текстов, составляет списки ключевых, слов, заполняет архивные поля (автор, атрибуты изданий и другие информационные параметры документов), осуществляет предобработку документов для последующего анализа текста. Практика изучения процессов, связанных с классификацией текстов, показала, с одной стороны, необходимость выделения информационных признаков классов текстов, с другой стороны, необходимость разработки математических моделей и вычислительных процедур, позволяющих построить оптимальный классификатор текстов.

Существующие подходы к решению задачи классификации предполагают наличие в системе обработки текстов автоматического словаря, отражающего предметную область. Специфика объекта исследования и сформулированные в работе принципы построения системы классификации налагают ограничения на использование традиционных словарей при автоматической классификации текстов.

Эффективность решения задачи классификации может быть существенно повышена За счет сопряжения классических методов и алгоритмов обработки текстов с методами нойрокомпьютинга. Нейрокомпьютеры, классическое программирование которых заменяется обучением, обнаружили высокую производительность, а также помехо- и отказоустойчивость получаемых с их помощью решений для широкого ряда

многомерных нелинейных задач. Эффективность нейрокомпьютеров связана с тем, что обученные нейронные сети представляют собой вычислительную среду, являющуюся одновременно и коллективным процессором, и ассоциативной памятью, хранящей обобщенный опыт решения задач, приобретенный в процессе обучения.

Объект исследования
Объектом исследования данной диссертации являются большие опе
ративные потоки короткой неструктурированной. текстовой информации
на русском языке, такие как сообщения информационных агентств, ин
формация Internet {FAQ, Chat и т.п.), статьи иэ периодической пе
чати, телеграфные и телетайпные сообщения и т.п. Такие сообщения
могут содержать сленг, орфографические ошибки, неологизмы, различ-
норусифицированныа иностранные термины, технические искажения и
т.д. . -

Цель работы

Целью проведения научных исследований является создание математического и программно-алгоритмического обеспечения процедур кодирования текстов, а также применение разработанных процедур для решения практических задач текстовой классификации.

Для достижения поставленной цели с работе:

исследованы классические и нейросетевые методы обработки текстовой информации;

предложены оригинальные методы кодирования текстовых документов .для их последующей классификации; .

создано программно-алгоритмическое обеспечение решения задачи классификации текстов;

решена задача классификации русскоязычных текстов.

Методы исследования -При разработке математического и программно-алгоритмического обеспечения в диссертационной работе используются методы нелинейной оптимизации, теории функций, теории чисел, классические методы обработки текстовой информации и классификации, методы" обучения нейронных сетей.

4 '

Научная новизна Новизна заключается в следующем:

показано, что эффективность решения задачи класс-лфикации текстов может быть существенно повышена за счет сопряжения классических алгоритмов с методами нейросетевого моделирования;

предложены и разработаны оригинальные методы кодирования текстовых документов множествами и кортежами, выделяющие п текстах характсріша классификационные признаки, что позволило построить нейросетевыо способы решения задачи классификации.

Практическая ценность Выполнен анализ исследований и разработок в области использования нейрокомпьютеров в задаче обработки и классификации текстов, в результате чего:

предложена и разработана методика построения адаптируемых нейросотевых классификаторов текстов ;

решены практические задачи классификации русскоязычных текстов .

По тематике диссертационной работы выполнялись исследования по темам № 96-3-022-738 и К' 99-2-503-400 в МИФИ (ТУ) . Эти исследования подробно описаны в соответствующих отчетах о НИР. Разработанные инженерные решения были использованы в МИФИ

при выполнении договорных работ "Разработка нейросетевых подходов для poiL-ения задач информационного поиска и комбинаторной оптимизации" между ВЧ № 54939 и МИФИ (ТУ) по теме № 96-3-022-738,

при выполнении работ "Системы контроля и управления процессами п атомной энергетике и при разработка газовых месторождений" по теме № 99-2-503-400.

НА задиту выносятся:

теоретическое обоснование методики кодирования текстовой ин
формации множествами и кортежами, позволяющей применять ней
росетевыо способы решения задачи классификации текстов;

интерактивная процедура решения практических задач классифи
кации текстов с использованием нейронных сетей.

Теоретические положения и практические результаты были доложены на сладуксц-іх конференциях и семинарах:

VII Международный научно-технический семинар "Современные технологии в задачах управления, автоматики и обработки информации", Алушта, МАИ, сентябрь 1998;

Всероссийская научно-техническая конференция "Нейроинформатика-99", Москва, МИФИ, январь 1999,-

VIII Международный научно-технический семинар "Современные технологии в задачах управления, автоматики и обработки мн-формации", Алушта, МАИ, сентябрь 1999;.

Всероссийская научно-техническая конференция "Нейроинформатика-2000", Москва, МИФИ, январь 2000.

Раскрытие результатов Результаты диссертационной работы были раскрыты в б печатных работах и 7 отчетах о научно-исследовательских работах.

Достоверность результатов . Достоверность научных положений, выводов и рекомендаций подтверждена результатами опытной эксплуатации, апробацией работы на научных семинарах и конференциях.

Структура и объем работы Диссертация содержит 4 главы, введение и заключение, 5 приложений, 19 рисунков, 18 таблиц.

Похожие диссертации на Методы кодирования текстовой информации для построения нейросетевых классификаторов документов