Введение к работе
Актуальность темы диссертации. Информационные Интернет-технологии - инструмент управления знаниями. Однако основной ресурс знаний представляется в традиционной форме текстов, лингвистические законы которых ориентированы для удобства и адекватности их восприятия и понимания содержания человеком.
Существующие Интернет-технологии автоматизируют процесс накопления, распространения и обработки данных, представленных в различных текстовых форматах. Для анализа текстов рекламируются различные сервисные и интерфейсные компьютерные программы информационного поиска для осуществления интеллектуальных функций: самообразования («аутопедия», e-learning), аналитического исследования, составления аннотаций и рефератов, а также установления семантической, ассоциативной и понятийной эквивалентности текстов.
В действительности же известные информационно-поисковые системы и технологии (Web 3.0, Semantic Web и пр.) ориентированы лишь на те функциональные расширения, которые вытекают из возможностей Интернет и компьютерных технологий. Они в большей степени занимаются компьютерной обработкой документов, атрибутикой внешней стороны текстов, а не работают с семантическим содержанием текстов.
Понятия семантики и онтологии применительно к Web 3.0 и Semantic Web имеют отношение к сугубо утилитарным сервисным функциям компьютерной программной реализации - разметке текстов метками. Суть концепции Web 3.0 - дополнение текстовых данных (текстов) компьютерно-читаемой разметкой (метками). Концепция Web 3.0 описывает подход (Resource Description Framework, Web Ontology Language) и формат разметок, позволяющие автору текста снабдить документ специальной разметкой, упрощающей его компьютерную обработку.
Указанные системы принципиально не способны реализовать перечисленные выше интеллектуальные функции. Wikipedia- система накопления и поиска текстов по запросу не отвечает за достоверность информации и представления знаний. Возникшее понятие «корпуса текстов» вызывает хаотизацию построения словарей и глоссариев. Так как глоссарий и тезаурус - язык тематического описания и кластеризации предметной области, основа интерфейсного понимания и однозначной семантико-смысловой интерпретации текстов.
В данной диссертационной работе используется инфологический подход, основа которого состоит в итерационном процессе формирования тематических знаний посредством выявления тематических антологий (предметно-ориентированных корпусов текстов), выявлении их тезаурусов и глоссариев, а также построении иерархий онтологических понятий и составлении семантического окружения содержания выбранных текстов. Изменение словарного состава тезауруса и семантического окружения заданной
предметной области является критерием адекватности и кластеризации тематического знания. Развитие проблемно-ориентированного (тематического) знания рассматривается как итерационный процесс интерпретации пользователем отклика системы («аутопедия») на запрос и поступающие данные (тексты).
Анализ существующих исследований выявил крайне незначительное число готовых и апробированных методов и программ выявления семантико-смыслового содержания текстов. Причиной этого является отсутствие эффективных методов представления семантико-смыслового содержания текстовых данных в компьютере. Решение указанных задач, применительно к реализации аналитического мониторинга Интернет-среды, и составляет суть диссертационной работы.
Целью работы является разработка методов и программ итерационного формирования тематических антологий (топиков) и выявления их понятийных ядер. Для достижения поставленной цели в диссертационной работе поставлены и решены следующие задачи:
Анализ основных подходов к извлечению, представлению и обработке тематических знаний проблемно-ориентированных предметных областей.
Разработка итерационного процесса адаптивного формирования тематических антологий, основанного на инфологическом подходе.
Разработка метода структурной декомпозиции текстов тематических антологий на основе рейтинго-рангового распределения связей между словами и совокупностью слов.
Разработка алгоритма формирования понятийного ядра (иерархии онтологических понятий) тематических антологий.
Проектирование и разработка комплекса программ, реализующих указанные методы и алгоритмы.
Основные методы исследования. Для решения поставленных задач в работе используются методы компьютерной лингвистики, логистические методы, теория множеств, теория графов, реляционная алгебра. При разработке архитектуры программного комплекса применены объектно-ориентированный и компонентно-ориентированный подходы.
Положения, выносимые на защиту. На основе проведенных теоретических работ и их экспериментальной апробации на защиту выносятся следующие положения:
Адаптивный метод итерационного формирования тематических антологий.
Алгоритм преобразования текстов в нормальную форму и формат представления текста в этом виде.
Метод структурной декомпозиции текстов тематических антологий на основе рейтинго-рангового распределения связей между словами и совокупностью слов.
Формат компактного представления семантики тематических текстов в виде понятийной иерархии.
Алгоритм формирования понятийного ядра тематической антологии.
Архитектура и программная реализация программного комплекса итерационного формирования тематических антологий для аналитического мониторинга Интернет-среды.
Научная новизна предлагаемой диссертации состоит в следующем:
Предложен подход для тематической кластеризации текстов, выявления и выбора предметно-ориентированных антологий, являющийся развитием инфологического подхода, отличающийся от традиционных способов работы с текстами представлением текста в виде системы идентификаторов, а не синтаксических конструкций.
Предложен иерархический рангово-рейтинговый метод выявления понятийного ядра, онтологического глоссария и тезауруса тематической совокупности текстов. Предложен и разработан формат TNF -представления текстов в нормализованном виде, сохраняющий семантику текстов. По сравнению с традиционным текстовым форматом содержит компрессированную семантическую основу документа (сообщения), а также сокращает сложность компьютерной обработки семантики текстов.
Разработаны алгоритмы и программы построения тезаурусов и глоссариев тематических текстов для выявления анахронизмов и диахронизмов терминологического и семантического окружения.
Разработан метод структурной декомпозиции текстов тематических антологий на основе иерархических уровней рангового распределения связок слов в нормализованном тексте. В отличие от методов, основанных на использовании семантических словарей, он позволяет производить декомпозицию текстов, содержащих большое количество новых терминов или узкоспециализированные тематические тексты.
Разработана архитектура и реализован программный комплекс итерационного формирования тематических антологий для аналитического мониторинга Интернет-среды, реализующий визуальный интерфейс для быстрого ознакомления пользователя с содержанием проблемно-ориентированных предметных областей, ассоциативный поиск, аннотирование текстов.
Обоснованность и достоверность научных положений, основных выводов и результатов диссертации обеспечиваются тщательным анализом состояния исследований в данной области на сегодняшний день. Корректность предложенных методов и алгоритмов подтверждается согласованностью результатов, полученных при практической реализации этих методов и алгоритмов, а также апробацией основных теоретических положений диссертации в печатных трудах и докладах на научных российских и международных научных конференциях.
Практическая ценность работы заключается в создании программной системы, реализующей теоретические результаты работы, которая может использоваться в системах самообразования, семантического поиска, тематической кластеризации и автоматического реферирования текстов, аналитического мониторинга и ранней понятийной идентификации возникающих тенденций в проблемно-ориентированных предметных областях, заданных антологическими текстами.
Предложенные в диссертационной работе подходы, методы и алгоритмы позволяют значительно повысить качество предоставляемых интеллектуальных функций тематической кластеризации, автоматического реферирования текстов, семантического поиска.
Реализация результатов работы. Представленные в работе методы и алгоритмы были реализованы в программном исполнении в виде объектно-ориентированной библиотеки классов на языке Java и других вспомогательных программ. Библиотека нашла применение в подсистеме обработки новостных сообщений поисковой системы для ассоциативного поиска по новостям, тематической кластеризации сообщений в компактные новостные топики, визуализации семантического содержания топика, а также для построения глоссария и визуализации их скрытых связей на корпусе антологии. Результаты работы были использованы в рамках госконтракта с ЦИПБ РАН №14/08-07 НИР «Определение необходимого состава функциональных программных компонент автоматизированной системы учета музейных предметов (АС учета МПр) в рамках обеспечения безопасности хранения и использования культурных ценности в Российской Федерации», грантов РФФИ ОИТВС РАН, проектов СПбНЦ РАН, 2007-2010.
Апробация результатов работы. Научные результаты и основные
положения работы представлялись на конференциях: Distributed Intelligent
Systems and Technologies Workshop (Санкт-Петербург, 2009); Distributed
Intelligent Systems and Technologies Workshop (Санкт-Петербург, 2008); XI
Санкт-Петербургская международная конференция «Региональная
информатика-2008» (Санкт-Петербург, 2008).
Публикации. Автором опубликовано по теме диссертации 9 печатных работ, среди них 6 работ в журналах из перечня ВАК.
Структура и объем диссертационной работы. Диссертация объемом 130 машинописных страниц содержит введение, 5 глав и заключение, список литературы (142 наименования), 33 рисунка, 3 таблицы и 2 приложения.