Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка и исследование модели нейросетевого метода анализа текстовых документов Шеменков Павел Сергеевич

Разработка и исследование модели нейросетевого метода анализа текстовых документов
<
Разработка и исследование модели нейросетевого метода анализа текстовых документов Разработка и исследование модели нейросетевого метода анализа текстовых документов Разработка и исследование модели нейросетевого метода анализа текстовых документов Разработка и исследование модели нейросетевого метода анализа текстовых документов Разработка и исследование модели нейросетевого метода анализа текстовых документов
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Шеменков Павел Сергеевич. Разработка и исследование модели нейросетевого метода анализа текстовых документов : диссертация ... кандидата технических наук : 05.13.18 / Шеменков Павел Сергеевич; [Место защиты: С.-Петерб. гос. ун-т телекоммуникаций им. М.А. Бонч-Бруевича].- Санкт-Петербург, 2009.- 153 с.: ил. РГБ ОД, 61 10-5/60

Введение к работе

Актуальность работы. Наиболее распространенной формой представления знаний являются естественно-языковые тексты. Текстовая форма знаний естественна для человека, такие знания легко воспринимаются, порождаются, тиражируются и модифицируются. Новые возможности позиционирования текстов, связанные с масштабным использованием компьютерной техники, а также доступность методов записи и хранения информации, привели к бурному росту количества информационных ресурсов. Необходимость изучения и осмысления все возрастающего объема неструктурированной текстовой информации на естественном языке актуализирует проблему анализа.

Теоретическое обоснование методов анализа рассмотрено в работах В.А. Ддова, Т.М. Дридзе, А.Р. Лурия, М. Шлика, Р. Карнапа, О. Нейрата. Вышеупомянутые работы, в основном, посвящены рассмотрению смежных проблем анализа текстовых документов. Основным из направлений данной диссертационной работы рассматривается проблема кластеризации и систематизации текстовых документов информационного ресурса

Задача анализа текстовых документов ориентирована на извлечение знаний и является в настоящее время актуальной проблемой, затрагивающей различные сферы человеческой деятельности, поскольку ее решение позволит полностью автоматизировать процесс обработки, классификации и систематизации информационного ресурса Процесс аналитической обработки текстов требует создания принципиально новых моделей, методик и систем, которые следует отнести к разряду систем искусственного интеллекта - систем обработки знаний. Задача автоматического анализа естественных текстов, в определенной степени формируется при участии эксперта Надо отметать, что для экспертной оценки нет необходимости в построении модели естественного текста, реализующей глубинный семантический анализ текста. Одной из актуальных задач, решаемых экспертами, является определение отношений между объектами, которыми являются области знаний. Наиболее адекватно отношения между объектами представляются семантическими сетями. Традиционная интерпретация семантической сети позволяет получать только представление о структуре отношений между объектами, которой недостаточно для проведения полноценного аналитического исследования. Поэтому в работе предлагается расширение семантической сети для представления информации о классификации отношений между объектами и о принадлежности объектов к классам предметной области. В основе модели знаний находится семантическая сеть, узлы которой сопоставляются с областями знаний, а связи соответствуют отношениям между ними.

Цели и задачи исследования. Целью диссертационной работы является разработка и исследование модели нейросетевого метода автоматического анализа текстовых документов на естественном языке для формирования семантической базы знаний и повышения эффективности работы эксперта по знаниям. Для достижения поставленной цели последовательно решены следующие задачи исследования:

  1. Рассмотрены известные модели и методы анализа документов;

  2. Разработан алгоритм формирования информационных образов электронных текстовых документов, включающий механизм сокращения признаков, основанный на предложенном подходе к оценке тематической значимости признаков документов;

  3. Разработан метод нейросетевого анализа коллекции текстовых документов, основанный на самоорганизующихся картах Кохонена;

  4. Разработан метод самокоррекции системы путем автоматического вычисления внутренних показателей распределения;

  5. Разработана структура информационно-аналитической системы (ИАС) автоматического анализа полнотекстовых документов, реализующей предложенные методы;

  6. Реализован алгоритм представления результата анализа в виде семантической сети;

  7. Осуществлено исследование разработанного алгоритма и проведена проверка предложенного метода анализа коллекций документов.

Объект и предмет исследования. Объектом исследования являются документы на естественном языке, как форма представления предметной области. Предметом исследования являются процессы автоматизированного выявления и формализации знаний, представленных в форме онтологии.

Методы исследования. В диссертационной работе использованы модели и методы искусственного интеллекта, лингвистики, математической статистики, кластерного анализа, теории множеств, метод экспертных оценок, теории информации, теории баз данных и программирования.

Обработка текстов, нейросетевое моделирование процессов, а также оценка качества извлечения знаний производились автором с помощью самостоятельно разработанной ИАС. При разработке ИАС применялись методы объектно-ориентированного программирования с использованием среды разработки Borland Delphi 7 Enterprise.

Научная новизна. Проведенные исследования позволили создать модель нейросетевого метода к содержательному анализу неструктурированных текстов на естественном языке для произвольных массивов документов без ограничений на тематику и объем при отсутствии априорной информации формализации их содержания.

Предложен подхода к решению задачи анализа текстовых документов, который состоит в использовании единой методологии, основанной на концептуальной модели

эксперта, для реализации всего цикла извлечения знаний, с возможностью интерактивного участия эксперта в процессе.

Предложен подход к оценке тематической близости документов с использованием метода сокращения пространства признаков, составляющих информационные образы, что позволило повысить качество и скорость выполнения анализа коллекции текстов.

Предложен метод кластерного анализа, включающий механизмы самокоррекции и саморегуляции в процессе построения онтологии предметной области.

Разработана структура НАС «NeuroText», представляющая собой целостною интерактивную систему, состоящую из взаимосвязанных компонентов, позволяющих осуществлять построение онтологии коллекции документов.

Достоверность научных положений и выводов диссертационной работы подтверждена практической реализацией разработанных моделей и методов, а так же результатами проведенных экспериментов.

Практическая ценность работы. Предложенный подход к автоматическому анализу документов позволяет решить проблему содержательного анализа информации, как по всей коллекции документов, так и по ее подмножествам, отражающий семантические связи между областями знаний и позволяющий автоматически получать вербальные описаниями областей знаний. Практическим результатом применения метода извлечения структурных знаний из текстов на основе нейросетевой модели является разработка ИАС «NeuroText». НАС включает три основных компонента: информационная часть, компонент импортирования данных (интегратор), модуль работы с искусственной нейронной сетью (ИНС). Информационная часть обеспечивает накопление, хранение и предоставление информации, и реализует интерфейс пользователя. Компонент импортирования данных обеспечивает импортирование накопившихся данных из базы данных в модуль работы с нейронной сетью. Компонентом реализуется подготовка данных для сети. Модуль работы с ИНС обеспечивает автоматическое построение нейронной сети на основе множества входных параметров решаемой задачи с соответствующими выходными состояниями, способной классифицировать поступающую информацию. В основу работы компонента положен алгоритм самоорганизации. Результатом работы компонента является граф - образ интеллектуальной модели решаемой задачи.

Граф - образ, дополненный семантическим набором отношений элементов, позиционирует модель знаний, что позволяет перейти на более высокий уровень представления информации (естественный для мышления человека), и одновременно с этим ввести качественные и количественные категории. В модели осуществляется извлечение ассоциаций подграфа семантической сети и формируется матрица отношений, отражающая

связь между элементами графа. Такой подход позволяет эксперту осуществлять сопоставление фрагмента семантической сети с естественными текстами, в которых встречается подобные отношения.

Сфера применения разработанной модели анализа текстовых документов обширна: информационно-поисковые системы, системы автоматической классификации, биб-лиотечно-справочные системы, поисковые роботы, системы обработки информации.

Апробации результатов и публикации. Основные положения и результаты работы были доложены автором и обсуждались в период с 2006 по 2009 годы на научно-технических конференциях профессорско-преподавательского состава, научных сотрудников и аспирантов ГУТ им. проф. М. А. Бонч-Бруевича: №59 2007г., №61 2009г., 2-ом международном конгрессе «Нейробиотелеком-2006», 3-ем международном научном конгрессе «Нейробиотелеком-2008».

Реализация результатов работы. Основные теоретические и практические результаты диссертационной работы использованы в госбюджетной научно-исследовательской работе «Нейросемантический интерактивный анализатор информационного ресурса» /Санкт Петербургский государственный университет телекоммуникаций им. проф. М.А. Бонч-Бруевича, 2009г., per. № 080-09-054/5/

Основные положения, выдвигаемые на защиту:

Модель нейросетевого метода автоматического анализа коллекции полнотекстовых документов, отражающая деятельность эксперта по знаниям;

Алгоритм выделения информативных признаков коллекции документов и формирования информационных образов документов;

Компьютерная модель и алгоритм анализа коллекции полнотекстовых документов;

Алгоритм оптимизации ассоциаций подграфа семантической сети;

Результаты экспериментальных исследований, полученные посредством ИАС, характеризующих адекватность экспертного и компьютерного анализа коллекций документов.

Личный вклад автора. Основные научные положения, теоретические выводы и рекомендации, анализ результатов поставленных экспериментов, содержащихся в диссертационной работе, получены автором самостоятельно.

Публикации. По теме диссертации опубликовано 6 научных работ, в том числе 1 в издании, рекомендованных ВАК науки России.

Структура и объем диссертации. Диссертация состоит из введения, 4 глав, заключения, списка литературы, включающего 120 наименований, и приложения. Работа содержит 144 страницы текста, 51 рисунок и 9 таблиц.

Похожие диссертации на Разработка и исследование модели нейросетевого метода анализа текстовых документов