Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Исследование и разработка инфологического подхода для построения тематических антологий при мониторинге интернет-среды Кокорин Павел Петрович

Исследование и разработка инфологического подхода для построения тематических антологий при мониторинге интернет-среды
<
Исследование и разработка инфологического подхода для построения тематических антологий при мониторинге интернет-среды Исследование и разработка инфологического подхода для построения тематических антологий при мониторинге интернет-среды Исследование и разработка инфологического подхода для построения тематических антологий при мониторинге интернет-среды Исследование и разработка инфологического подхода для построения тематических антологий при мониторинге интернет-среды Исследование и разработка инфологического подхода для построения тематических антологий при мониторинге интернет-среды
>

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Кокорин Павел Петрович. Исследование и разработка инфологического подхода для построения тематических антологий при мониторинге интернет-среды : диссертация ... кандидата технических наук : 05.13.11 / Кокорин Павел Петрович; [Место защиты: С.-Петерб. ин-т информатики и автоматизации РАН].- Санкт-Петербург, 2010.- 149 с.: ил. РГБ ОД, 61 10-5/2959

Введение к работе

Актуальность темы диссертации. Информационные Интернет-технологии - инструмент управления знаниями. Однако основной ресурс знаний представляется в традиционной форме текстов, лингвистические законы которых ориентированы для удобства и адекватности их восприятия и понимания содержания человеком.

Существующие Интернет-технологии автоматизируют процесс накопления, распространения и обработки данных, представленных в различных текстовых форматах. Для анализа текстов рекламируются различные сервисные и интерфейсные компьютерные программы информационного поиска для осуществления интеллектуальных функций: самообразования («аутопедия», e-learning), аналитического исследования, составления аннотаций и рефератов, а также установления семантической, ассоциативной и понятийной эквивалентности текстов.

В действительности же известные информационно-поисковые системы и технологии (Web 3.0, Semantic Web и пр.) ориентированы лишь на те функциональные расширения, которые вытекают из возможностей Интернет и компьютерных технологий. Они в большей степени занимаются компьютерной обработкой документов, атрибутикой внешней стороны текстов, а не работают с семантическим содержанием текстов.

Понятия семантики и онтологии применительно к Web 3.0 и Semantic Web имеют отношение к сугубо утилитарным сервисным функциям компьютерной программной реализации - разметке текстов метками. Суть концепции Web 3.0 - дополнение текстовых данных (текстов) компьютерно-читаемой разметкой (метками). Концепция Web 3.0 описывает подход (Resource Description Framework, Web Ontology Language) и формат разметок, позволяющие автору текста снабдить документ специальной разметкой, упрощающей его компьютерную обработку.

Указанные системы принципиально не способны реализовать перечисленные выше интеллектуальные функции. Wikipedia- система накопления и поиска текстов по запросу не отвечает за достоверность информации и представления знаний. Возникшее понятие «корпуса текстов» вызывает хаотизацию построения словарей и глоссариев. Так как глоссарий и тезаурус - язык тематического описания и кластеризации предметной области, основа интерфейсного понимания и однозначной семантико-смысловой интерпретации текстов.

В данной диссертационной работе используется инфологический подход, основа которого состоит в итерационном процессе формирования тематических знаний посредством выявления тематических антологий (предметно-ориентированных корпусов текстов), выявлении их тезаурусов и глоссариев, а также построении иерархий онтологических понятий и составлении семантического окружения содержания выбранных текстов. Изменение словарного состава тезауруса и семантического окружения заданной

предметной области является критерием адекватности и кластеризации тематического знания. Развитие проблемно-ориентированного (тематического) знания рассматривается как итерационный процесс интерпретации пользователем отклика системы («аутопедия») на запрос и поступающие данные (тексты).

Анализ существующих исследований выявил крайне незначительное число готовых и апробированных методов и программ выявления семантико-смыслового содержания текстов. Причиной этого является отсутствие эффективных методов представления семантико-смыслового содержания текстовых данных в компьютере. Решение указанных задач, применительно к реализации аналитического мониторинга Интернет-среды, и составляет суть диссертационной работы.

Целью работы является разработка методов и программ итерационного формирования тематических антологий (топиков) и выявления их понятийных ядер. Для достижения поставленной цели в диссертационной работе поставлены и решены следующие задачи:

  1. Анализ основных подходов к извлечению, представлению и обработке тематических знаний проблемно-ориентированных предметных областей.

  2. Разработка итерационного процесса адаптивного формирования тематических антологий, основанного на инфологическом подходе.

  3. Разработка метода структурной декомпозиции текстов тематических антологий на основе рейтинго-рангового распределения связей между словами и совокупностью слов.

  4. Разработка алгоритма формирования понятийного ядра (иерархии онтологических понятий) тематических антологий.

  5. Проектирование и разработка комплекса программ, реализующих указанные методы и алгоритмы.

Основные методы исследования. Для решения поставленных задач в работе используются методы компьютерной лингвистики, логистические методы, теория множеств, теория графов, реляционная алгебра. При разработке архитектуры программного комплекса применены объектно-ориентированный и компонентно-ориентированный подходы.

Положения, выносимые на защиту. На основе проведенных теоретических работ и их экспериментальной апробации на защиту выносятся следующие положения:

  1. Адаптивный метод итерационного формирования тематических антологий.

  2. Алгоритм преобразования текстов в нормальную форму и формат представления текста в этом виде.

  3. Метод структурной декомпозиции текстов тематических антологий на основе рейтинго-рангового распределения связей между словами и совокупностью слов.

  1. Формат компактного представления семантики тематических текстов в виде понятийной иерархии.

  2. Алгоритм формирования понятийного ядра тематической антологии.

  3. Архитектура и программная реализация программного комплекса итерационного формирования тематических антологий для аналитического мониторинга Интернет-среды.

Научная новизна предлагаемой диссертации состоит в следующем:

  1. Предложен подход для тематической кластеризации текстов, выявления и выбора предметно-ориентированных антологий, являющийся развитием инфологического подхода, отличающийся от традиционных способов работы с текстами представлением текста в виде системы идентификаторов, а не синтаксических конструкций.

  2. Предложен иерархический рангово-рейтинговый метод выявления понятийного ядра, онтологического глоссария и тезауруса тематической совокупности текстов. Предложен и разработан формат TNF -представления текстов в нормализованном виде, сохраняющий семантику текстов. По сравнению с традиционным текстовым форматом содержит компрессированную семантическую основу документа (сообщения), а также сокращает сложность компьютерной обработки семантики текстов.

  3. Разработаны алгоритмы и программы построения тезаурусов и глоссариев тематических текстов для выявления анахронизмов и диахронизмов терминологического и семантического окружения.

  4. Разработан метод структурной декомпозиции текстов тематических антологий на основе иерархических уровней рангового распределения связок слов в нормализованном тексте. В отличие от методов, основанных на использовании семантических словарей, он позволяет производить декомпозицию текстов, содержащих большое количество новых терминов или узкоспециализированные тематические тексты.

  5. Разработана архитектура и реализован программный комплекс итерационного формирования тематических антологий для аналитического мониторинга Интернет-среды, реализующий визуальный интерфейс для быстрого ознакомления пользователя с содержанием проблемно-ориентированных предметных областей, ассоциативный поиск, аннотирование текстов.

Обоснованность и достоверность научных положений, основных выводов и результатов диссертации обеспечиваются тщательным анализом состояния исследований в данной области на сегодняшний день. Корректность предложенных методов и алгоритмов подтверждается согласованностью результатов, полученных при практической реализации этих методов и алгоритмов, а также апробацией основных теоретических положений диссертации в печатных трудах и докладах на научных российских и международных научных конференциях.

Практическая ценность работы заключается в создании программной системы, реализующей теоретические результаты работы, которая может использоваться в системах самообразования, семантического поиска, тематической кластеризации и автоматического реферирования текстов, аналитического мониторинга и ранней понятийной идентификации возникающих тенденций в проблемно-ориентированных предметных областях, заданных антологическими текстами.

Предложенные в диссертационной работе подходы, методы и алгоритмы позволяют значительно повысить качество предоставляемых интеллектуальных функций тематической кластеризации, автоматического реферирования текстов, семантического поиска.

Реализация результатов работы. Представленные в работе методы и алгоритмы были реализованы в программном исполнении в виде объектно-ориентированной библиотеки классов на языке Java и других вспомогательных программ. Библиотека нашла применение в подсистеме обработки новостных сообщений поисковой системы для ассоциативного поиска по новостям, тематической кластеризации сообщений в компактные новостные топики, визуализации семантического содержания топика, а также для построения глоссария и визуализации их скрытых связей на корпусе антологии. Результаты работы были использованы в рамках госконтракта с ЦИПБ РАН №14/08-07 НИР «Определение необходимого состава функциональных программных компонент автоматизированной системы учета музейных предметов (АС учета МПр) в рамках обеспечения безопасности хранения и использования культурных ценности в Российской Федерации», грантов РФФИ ОИТВС РАН, проектов СПбНЦ РАН, 2007-2010.

Апробация результатов работы. Научные результаты и основные
положения работы представлялись на конференциях: Distributed Intelligent
Systems and Technologies Workshop (Санкт-Петербург, 2009); Distributed
Intelligent Systems and Technologies Workshop (Санкт-Петербург, 2008); XI
Санкт-Петербургская международная конференция «Региональная

информатика-2008» (Санкт-Петербург, 2008).

Публикации. Автором опубликовано по теме диссертации 9 печатных работ, среди них 6 работ в журналах из перечня ВАК.

Структура и объем диссертационной работы. Диссертация объемом 130 машинописных страниц содержит введение, 5 глав и заключение, список литературы (142 наименования), 33 рисунка, 3 таблицы и 2 приложения.

Похожие диссертации на Исследование и разработка инфологического подхода для построения тематических антологий при мониторинге интернет-среды