Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методы пространственного представления и анализа текстовых описаний для информационно-поисковых систем Бруттан Юлия Викторовна

Методы пространственного представления и анализа текстовых описаний для информационно-поисковых систем
<
Методы пространственного представления и анализа текстовых описаний для информационно-поисковых систем Методы пространственного представления и анализа текстовых описаний для информационно-поисковых систем Методы пространственного представления и анализа текстовых описаний для информационно-поисковых систем Методы пространственного представления и анализа текстовых описаний для информационно-поисковых систем Методы пространственного представления и анализа текстовых описаний для информационно-поисковых систем Методы пространственного представления и анализа текстовых описаний для информационно-поисковых систем Методы пространственного представления и анализа текстовых описаний для информационно-поисковых систем Методы пространственного представления и анализа текстовых описаний для информационно-поисковых систем Методы пространственного представления и анализа текстовых описаний для информационно-поисковых систем Методы пространственного представления и анализа текстовых описаний для информационно-поисковых систем Методы пространственного представления и анализа текстовых описаний для информационно-поисковых систем Методы пространственного представления и анализа текстовых описаний для информационно-поисковых систем
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Бруттан Юлия Викторовна. Методы пространственного представления и анализа текстовых описаний для информационно-поисковых систем : диссертация ... кандидата технических наук : 05.25.05 / Бруттан Юлия Викторовна; [Место защиты: С.-Петерб. гос. ун-т вод. коммуникаций].- Псков, 2008.- 215 с.: ил. РГБ ОД, 61 09-5/223

Содержание к диссертации

Введение

1 Исследование вопроса представления текстовых описаний с сохранением семантики для его использования в информационно-поисковых системах 14

1.1 Исследование вариантов построения современных информационно-поисковых систем 15

1.2 Обзор языковых средств концептуального уровня, используемых в информационно-поисковых системах 17

1.3 Исследование задач и проблем, которые возникают при реализации семантической компоненты современных информационно-поисковых систем 23

1.4 Исследование возможностей существующих вариантов формализованного представления естественного языка для моделирования смысла текстовых описаний 31

1.5 Выводы по главе 46

2 Разработка метода пространственного представления текстовых описаний на основе нового варианта клеточного автомата 48

2.1 Формализованное представление текстовых записей в возможной степени сохраняющее семантику текста на естественном языке 49

2.2 Разработка нового варианта клеточного автомата на основе использования языка предикатов 72

2.3 Описание метода пространственного представления текстовых описаний на основе нового варианта клеточного автомата 76

2.4 Практическое применение метода пространственного представления текстовых описаний 85

2.5 Выводы по главе 94

3 Разработка метода распознавания семантического образа текстового описания 96

3.1 Разработка подхода к распознаванию семантического образа текстового описания 97

3.2 Пример распознавания семантического образа лингвистически заданного объекта, принадлежащего некоторой предметной области 106

3.3 Практическое применение метода распознавания семантического образа текстового описания 114

3.4 Выводы по главе 118

4 Проектирование информационно-поисковой системы, идентифицирующей текстовые описания, используя метод пространственного представления текстовых описаний на основе нового варианта клеточного автомата и метод распознавания семантического образа текстового описания 120

4.1 Определение требований к информационно-поисковой системе, которая выполняет смысловой поиск текстовых описаний из заданного набора 120

4.2 Разработка когнитивной модели информационно-поисковой системы нового типа 122

4.3 Основные этапы построения информационно-поисковой системы на основе разработанной модели 124

4.4 Разработка алгоритмов функционирования информационно-поисковой системы 138

4.5 Выводы по главе 142

Заключение 143

Библиографический список 146

Приложения 155

Введение к работе

Представляемая работа посвящена разработке и исследованию методов и средств пространственного представления и сравнения текстовых описаний для их использования в информационно-поисковых системах (ИПС).

Актуальность темы. В настоящей работе рассматриваются проблемы ориентации и навигации в мире вербального представления научного знания, решение которых в настоящее время затруднено отсутствием информационно-поисковых систем, позволяющих сравнивать описания различных научных работ на уровне совпадения смысловых ситуаций, а не ключевых слов.

Так как естественный язык человека является контекстно-зависимым (КЗ), а компьютеры классической фон Неймановской архитектуры по основному принципу своего устройства могут работать только с контекстно-независимыми языками, поэтому требуется найти возможность представления в ЭВМ смыслового содержания текстовых записей на контекстно-зависимом языке пусть и с искажениями, но допустимыми для конкретных поисковых образов, для решения задач классификации по требуемым параметрам.

Можно утверждать, что человечество в настоящий момент не решило глобальную задачу распознавания семантики текстов, для организации качественного поиска и сравнения текстовых описаний. Конечно, решение такой задачи в полной мере, привело бы к подлинному научному прорыву, но даже и решение этой задачи не в полном объеме представляется весьма актуальной проблемой научного исследования.

Основы методик представления семантики текстов были заложены в публикациях Поспелова Г.С., Поспелова Д.А. (1981) [53,54 и др.], Белоногова Г.Г. (1983) [5], Апресяна Ю.Д. (1967) [2-3], Минского М. (1979) [45], ХомскогоН. (1961-1962) [68, 69], Попова Э.В. (1982) [52], МильчукаИ.А. (1982) [42-44, 73]. Результаты их развития излагались в работах Полякова А.О. (1985) [1, 26, 51], Кузнецова И.П. (1986) [34], Леонтьевой Н.Н.

7 (1986) [36-39], РубашкинаВ.Ш. (1989-2005) [57-60], Хорошевского В.Ф. (2002), Емельянова Г.М. (1998-2003).

Интерес к разработке систем общения с ЭВМ на ЕЯ проявляется как со стороны научных дисциплин, так и со стороны технических, связанных с разработкой и программной реализацией широкого класса информационно-поисковых систем. Алгоритмически разрешимые процедуры распознавания смысловых образов текстовых описаний на ЕЯ, а также способы представления этих образов, допускающие корректно описываемые процедуры их обработки, позволяют программно реализовать информационно-поисковые системы нового типа (интеллектуальные ИПС). Среди наиболее известных работ, посвященных интеллектуализации информационно-поисковых систем можно выделить публикации Поспелова Д.А. [54 и Др.], Финна В.К. [66], РубашкинаВ.Ш. [57].

Однако, механизм учёта семантической составляющей в публикациях по этой тематике обычно не даёт возможности использования даже широко известных методов для сравнительного анализа текстовых описаний, поэтому предлагаемая работа, направленная на решение проблем семантического поиска, представляется актуальной.

Целью диссертационной работы является разработка и исследование методов пространственного представления и сравнительного анализа текстовых описаний с целью их использования в информационно-поисковых системах для повышения эффективности функционирования этих систем за счёт частичного сохранения семантики исходных текстовых описаний.

Достижение сформулированной цели предполагает решение следующих основных задач:

Обзор языковых средств концептуального уровня, используемых в информационно-поисковых системах

Теперь рассмотрим подраздел, посвященный проблеме формализации языковых данных в информационно-поисковых системах. Заметим, что это единственный тип систем, где в течение многих лет производилась массовая обработка текстовой информации, накапливался огромный по объему набор текстов, имелись возможности широко экспериментировать с семантикой текстов, продвигаясь при этом от простого к сложному.

В ИПС методы представления и анализа смысла текстов с самого начала находились в центре внимания. Развитие языковых средств ИПС может быть охарактеризовано следующем перечнем [57]: унитермные системы, дескрипторные системы «без грамматики», системы с «ручным» индексированием с использованием разного рода грамматических средств,, системы с автоматическим индексированием документов, не использующие средства распознавания текстуальных отношений между дескрипторами, системы с автоматическим индексированием, использующие линейную грамматику.

С точки зрения возможностей автоматического анализа текста с индексированием выделяются четыре уровня формальных моделей ЕЯ [56, 57, 61]: 1. Элементарная теоретико-множественная модель. Текст представлен неупорядоченным множеством лексических единиц. Смысловое соответствие текстов запроса и документа моделируются отношением включения множеств. Текстуальные отношения отсутствуют. 2. Линейные модели. Текст представлен линейно упорядоченным множеством лексических единиц и естественных разделителей. Эта модель различает порядок следования слов (А предшествует В), расстояние между словами (число слов в тексте, разделяющих А и В), а также позволяет фиксировать факт совместного вхождения нескольких слов в один и тот же отрезок текста (предложение, алгоритмически различимые части предложения, абзац и т.п.). Формулировка критериев смыслового соответствия допускает здесь определённое разнообразие. При этом могут использоваться либо жёсткие, либо гибкие критерии. 3. Синтаксические модели. Текст представлен множеством предложений, каждое из которых изображается деревом синтаксических зависимостей. В рамках синтаксических моделей можно предложить много разных критериев смыслового соответствия. Однако без опоры на семантику они будут в той или иной степени произвольными. Из элементарных критериев наиболее естественными представляются два: а) дерево запроса целиком входит в дерево, представляющее любое из предложений документа; б) слова, находящиеся в запросе в отношении непосредственного синтаксического подчинения («ХОЗЯИН1 - слуга »), должны находиться в том же отношении и в документе (условие соответствия парных связей) [32]. 4. Семантические модели. Семантические модели по форме представления текста могут быть подобны синтаксическим (дерево зависимостей либо граф более общего вида), но должны фиксировать собственно смысловые отношения между словами. Общий подход к построению правил смыслового соответствия в языках такого типа демонстрируется в логических исчислениях [54, 61, 62].

Перечисленные в [57] модели с разной степенью точности способны передавать смысл исходного текста на ЕЯ. Их можно считать последовательными уровнями приближения к смыслу текста. А поскольку предполагается, что все они могут, в принципе, оперировать одним и тем же словарём [58], то различие их в этом плане сводится к различной точности в передаче смысловых связей между словами текста. Кроме того, названные модели [57] должны различаться и уровнем учёта употреблённого контекста. В теоретико-множественной модели эти связи вообще отсутствуют. В линейной модели они отображаются очень грубо: близость или даже соседство двух слов в тексте не гарантирует наличия непосредственной смысловой связи между ними, а лишь делает эту связь наиболее вероятной. То же можно сказать и о порядке следования слов. Синтаксические модели занимают промежуточное положение: смысловые связи в них отражены, но не однозначно и не полностью. С одной стороны, синтаксическая связь неоднозначна: даже полное тождество ее грамматической формы не гарантирует тождества содержания. С другой стороны, заданное смысловое отношение между двумя словами может быть выражено существенно разными способами: лексически либо грамматически, разными грамматическими формами. Всё это делает синтаксические модели не слишком пригодными для целей формального представления смысла [57].

Семантические модели [3, 34, 38, 44] должны обеспечивать вполне адекватную передачу смысла. В этих моделях синонимия и омонимия атомарных единиц считаются принципиально недопустимыми, а правила построения выражений и правила вывода должны быть точно определены. Именно в этом и заключается основное отличие семантических моделей от синтаксических [57].

С алгоритмической точки зрения теоретико-множественная модель тривиальна, а линейная модель достаточно проста. Машинный поиск в терминах этих двух моделей может быть реализован достаточно эффективно [56, 57].

Синтаксические модели [32, 50] разрабатываются уже в течение нескольких десятилетий, методы синтаксического анализа теоретически и алгоритмически достаточно хорошо проработаны. Алгоритмически синтаксические модели много сложнее линейных, как в плане реализации критериев смыслового соответствия, так и в плане перевода с ЕЯ на язык модельного представления.

С алгоритмической точки зрения семантические модели из всех вариантов являются самыми трудно реализуемыми, поэтому и в настоящее время они даже теоретически проработаны явно недостаточно [57]. В развитых информационно-поисковых системах автоматизируются две основные процедуры: перевод (частичный) содержания документов на информационный язык и сравнение документов и запросов при поиске. Соответственно в таких системах используются словари двух типов [58]: словари индексирования, назначение которых — обеспечить перевод с ЕЯ на ИЯ; словари-тезаурусы, обеспечивающие установление (в некоторых элементарных ситуациях) смыслового соответствия между лексически нетождественными текстами, представляющими документы и запрос. Первые называют словарями перевода, вторые - словарями вывода [57, 58, 73].

Для индексирования обычно используется система словарей, обеспечивающих реализацию двух функций: грамматическую нормализацию лексики документа (морфологический анализатор) и собственно перевод на ИЯ [58]. Перевод в настоящее время реализуется, как правило, лишь на уровне лексики: слово (словосочетание) заменяется дескриптором либо набором дескрипторов с сохранением позиционных характеристик исходных лексических единиц в тексте.

Так в системе автоматического индексирования «Скобки» [35] используется пять словарей: словарь основ, словарь флексий, словарь префиксов, словарь словосочетаний и словарь единиц измерения. При этом первый словарь содержит как грамматическую, так и семантическую информацию. Система помимо средств морфологического анализа и распознавания словосочетаний включает средства распознавания окказиональных сокращений и средства индексирования числовых параметров.

Разработка нового варианта клеточного автомата на основе использования языка предикатов

Вспомним, что собой представляют клеточные автоматы классического («фон Неймановского») варианта представления [48]. Рассмотрим предложенные автором клеточные автоматы [10, 11], клетки которых могут находиться более чем в двух состояниях. При этом каждой клетке соответствует целочисленная переменная, кодирующая её состояние в данный момент времени. Вспомним, что цвет в компьютерных системах представлен целым числом. Таким образом, каждому состоянию клетки автомата может быть поставлен в соответствие цвет спектра.

Связь между цветами и целыми числами обеспечивается разными способами, например, /?Сг#-кодированием, при котором число, соответствующее цвету составляется из трёх последовательных байт (дескриптор цвета), показывающих насыщенность красного (Red), зелёного (Green) и синего (Blue) цветов.

Для хранения дескриптора требуется 24 бита (3 байта), но представляющий его тип данных занимает 32 бита (4 байта). Это отчасти связано с выравниванием адресов по степеням 2 [28]. Четвёртый байт называют «байтом прозрачности» при предложенном варианте представления.

Таким образом, получен «цветной» клеточный автомат, множество состояний которого теоретически может быть равно множеству значений цветового дескриптора. Это означает, что теоретически любая клетка может находиться в одном из 224 состояний закодированных числами от 0 до 224-1. Практически для отображения отношений между терминами конкретной науки требуется множество состояний клеток КА значительно меньшее множества значений цветового дескриптора, потому функция переходов такого КА может быть задана с помощью набора из нескольких условий.

Предложенный в диссертации вариант клеточного автомата (или псевдоклеточного автомата) имеет оси с упорядоченными по алфавиту терминами тезауруса рассматриваемой научной области. Цвет клетки -отображает её состояние и обозначает отношение между этими терминами. Поведение клеток КА (изменение цвета уже существующих клеток, исчезновение существующих клеток, появление новых) отображает состояние рассматриваемой науки (развивается или стабильна), т.е. нам предоставляется возможность работать с интегрированным представлением о науке в динамике и следить за тем, что происходит в ней. Начальное "состояние КА определяется на основе исходных текстов характеризующих конкретную науку или предметную область. Закон разработанного автором варианта клеточного автомата - закон развития науки за счёт появления новых работ (статей) и выявленных связей терминов этой научной области, описанной в нашем случае на русском языке. Функция переходов рассматриваемого КА в следующее новое состояние задана в виде набора условий на основе формальных преобразований исходных предложений на языке предикатов и поступления новых текстов: 1)переход на основе видов связей бинарных отношений (предикатов): граф переходов; 2)переход за счёт учёта связей с соседними предложениями, т.е. учёт выполнения логических выводов; 3)переход за счёт поступления новых сообщений после их учёта в предикатном виде, т.е. по мере поступления новых текстов ведется проверка логических выводов, следующих из них по имеющемуся набору правил вывода. Пример условия перехода клеточного автомата в новое состояние: Если клетка находится в состоянии 0 и одна из окрестных клеток (отображающая соседнее предложение) находится в состоянии 1, то она переходит в состояние 2. Переход рассмотренного варианта клеточного автомата в новое состояние изображён на рис. 2.5. В открытой системе с внешним потребителем сообщений (например, человеком) критерием правильности логических выводов и необходимости их текущих изменений является, естественно, согласие или несогласие потребителя сообщения с утверждениями, полученными в системе путем логического вывода. В рассматриваемом нами варианте клеточного автомата таким критерием может являться только базовый набор правил проблемной области, нарушение которых по какой-либо причине недопустимо.

Таким образом, разработан новый вариант клеточного автомата, заданный языком предикатного представления, который может быть реализован в N мерном модельном пространстве. В простейшем случае (при N=2, т.е. пространство вырождено в плоскость), когда одни и те же пары терминов связаны одним типом отношений.

Таким образом, можно сделать вывод, что получена уникальная пространственная конфигурация, которая преобразуется в следующие воплощения под действием законов связи предикатов, а не под действием законов территориальной близости клеток. Это другая форма жизни клеточного автомата в определенном пространстве терминов и связей конкретного раздела науки, занимающего в пространстве терминов и их отношений вполне определенную нишу. 2.3 Описание метода пространственного представления текстовых описаний на основе нового варианта клеточного автомата

Рассмотренный в разделе 2.2 вариант клеточного автомата предназначен для представления текстовых описаний в модельном пространстве. Опишем метод, позволяющий построить модель текстовых описаний на основе использования нового варианта клеточного автомата. Цель этого метода — построение формальной модели ЕЯ. Формальные модели языка рассматриваются как компоненты различных прикладных систем.

Определение 2.3.1 Компонента системы, реализующая формальную лингвистическую модель и способная работать с естественным языком во всём его объёме, называется лингвистическим процессором (ЯП).

Со стороны своего внутреннего устройства лингвистический процессор представляет собой многоуровневый преобразователь, состоящий из трёх уровней пофазного представления текста — морфологического, синтаксического, семантического [3]. Каждый из уровней обслуживается соответствующим компонентом модели - массивом правил и словарями. На каждом из уровней предложение имеет формальный образ, именуемой в дальнейшем структурой - морфологической, синтаксической и семантической структурами [3].

Под морфологической структурой понимается последовательность входящих в анализируемое предложение слов с указанием части речи и морфологических характеристик (падежа, числа, рода, одушевлённости и т.п.).

Под синтаксической структурой понимается дерево зависимостей, в узлах которого стоят слова данного ЕЯ с указанием части речи и грамматических характеристик, а дуги соответствуют специфичным для данного языка отношениям синтаксического подчинения.

Под семантической структурой чаще всего понимается дерево зависимостей, в узлах которого стоят либо предметные имена, либо слова универсального семантического языка, а дуги соответствуют универсальным отношениям семантического подчинения. Существенным компонентом семантической структуры является информация о кореферентности узлов, т.е. информации о том, в каких случаях речь идет об одном и том же объекте, а в каких случаях - о разных. Автором диссертации предложена семантическая структура, рассмотренная в подразделе 2.1. Эту структуру можно назвать «семантическим образом» текстового описания, т.к. она одновременно является графической моделью ТО и содержит в себе семантику исходного текстового описания.

Пример распознавания семантического образа лингвистически заданного объекта, принадлежащего некоторой предметной области

Пусть нам дано: 1) семантический образ текстового описания неизвестного геологического объекта, полученный в результате применения метода, рассмотренного в главе 2. 2) 2 семантических образа текстовых описаний эталонных объектов, принадлежащих разным классам геологических объектов, полученных в результате применения метода, рассмотренного в главе 2. 3) семантические образы и распознаваемого объекта, и эталонных объектов представлены в 3-х-мерном модельном пространстве (7V=3) в плоскостях Р12 и Р32.

Определить принадлежность неизвестного объекта к одному из имеющихся классов объектов. Допустим, что тезаурус данной предметной области состоит из 9 терминов (т.е. Т=9). Эти термины могут быть связаны между собой 8 бинарными отношениями, поэтому для графического отображения отношений достаточно 8 цветов.

На основе вышеизложенного можно сделать вывод, что метод распознавания семантического образа текстового описания может быть использован в системах, осуществляющих поиск текстовых документов (описаний), для реализации поиска и сравнительного анализа текстов на более качественном уровне (т.к. сравнение и поиск ведётся не по классической схеме - по ключевым словам, а по совпадению смысловых ситуаций). Практическое применение этого метода совместно с методом пространственного представления текстовых описаний на основе нового варианта клеточного автомата предоставляет пользователю возможность находить требуемые документы даже при несовпадении слов запроса со словами текста документа. Отсюда и вытекают конкретные варианты применения метода распознавания семантического образа текстового описания.

Предположим, что под знанием обучаемого по конкретной дисциплине будем понимать его ответ на экзаменационный билет в письменной форме [15].

Исследуем этот вопрос более подробно. При организации моделирования процесса оценки знания студента по учебной дисциплине в многомерном модельном пространстве на основе метода распознавания семантического образа [15] необходимо решить следующие задачи:

1) Создать словари дескрипторов и предикатов по учебной дисциплине, по которой собираемся оценивать знание студентов.

2) В результате применения метода пространственного представления текстовых описаний на основе нового варианта клеточного автомата, описанного в главе 2 диссертации, необходимо получить представление правильных ответов на вопросы экзаменационных билетов в многомерном модельном пространстве. Таким образом, каждый правильный ответ на вопрос по предмету будет представлен семантическим образом в многомерном пространстве.

3) Ответ каждого студента по выбранной учебной дисциплине также необходимо формализовать по методу пространственного представления текстовых описаний на основе нового варианта клеточного автомата. В результате указанных преобразований будет получен семантический образ ответа студента в том же многомерном модельном пространстве.

4) Далее, используя метод распознавания семантического образа текстового описания, рассмотренный в подразделе диссертации, необходимо сравнить полученные семантические образы (правильных ответов на вопросы- экзаменационных билетов и ответов студентов на эти вопросы) и определить процент их соответствия;

Таким образом, в результате распространения полученного в диссертации метода распознавания семантических образов и на учебный процесс (достаточно трудно формализуемой его части - оценки знания студентов- по учебным предметам), возможно достаточно эффективно (с точки зрения скорости и качества обработки результатов) сравнивать знание студента с «идеальным» знанием по данному предмету (формируется по материалам лекций или учебнику), оценить процент освоения обучающимися той или иной учебной дисциплины (на основе результатов сравнения семантических образов ответов студентов с семантическими образами эталонных ответов), а также получать визуальное представление знания каждого студента (или всего потока) по этой дисциплине.

Применение данного инновационного подхода к оценке знания студентов по учебным дисциплинам позволит определить степень подготовки обучающихся в конкретных предметных областях, применять задания открытой формы при дистанционном обучении, а также, что не мало важно, существенно увеличить скорость обработки результатов аттестации студентов ВУЗа.

В главе 2 было рассмотрено применение метода пространственного представления текстовых описаний на основе нового варианта для формирования семантических образов рефератов книг и запросов пользователей на поиск той или иной книги. В рамках данной главы остановимся на применении метода распознавания семантического образа текстового описания при построении того же самого варианта библиотечного классификатора - «Библиотечного классификатора с автоматическим порождением семантической составляющей» [8, 14]. Этот метод используется для организации поиска и сравнительного анализа семантического образа запроса с имеющимися в Хранилище классификатора семантическими образами рефератов книг (представляющие собой классификационные записи). Вывод об успешности поиска делается на основе выполнения заданных пользователем критериев поиска (например, процентное соотношение).

Стандартная поисковая машина ничего «не знает» о русском языке, поэтому русский текст для нее представляет собой просто цепочки символов, разделенных пробелами. Именно по таким "словам", заранее выделенным из текста и занесенным в поисковый индекс, и позволяет искать документы поисковая машина. При этом язык запросов хорошего поисковика разрешает задавать различные ограничения на искомые комбинации слов в документе, что позволяет в принципе формулировать очень сложные запросы, описывая искомый в тексте смысл.

Однако проблема создания хороших информационно-поисковых систем на базе стандартных поисковых машин заключается в том, что пользователь желает сформулировать свой запрос в виде простого набора слов или словосочетаний на русском языке, ожидая от машины понимания хотя бы элементарных способов того, как эти слова могут быть написаны в тексте. В такой ситуации при несовпадении слов запроса со словами искомого текста практически невозможно будет найти требуемый документ.

Поэтому в работе [19] автором диссертации предложен подход к построению информационно-поисковой системы, которая осуществляет поиск не по ключевым словам, а по совпадению смысловых ситуаций. Как уже отмечалось в главе 2 такая ИПС будет формировать семантические образы аннотаций документов и хранить их вместе с самими документами в своей БД (или Хранилище). Эти образы информационно-поисковая система строит, используя метод пространственного представления текстовых описаний на основе клеточного автомата нового вида. А поисковая машина ИПС такого типа построена на основе использования метода распознавания семантического образа текстового описания. Она будет сравнивать семантический образ поискового запроса пользователя (сформированного на основе применения метода, описанного в главе 2) с семантическими образами имеющихся в БД ИПС текстовых документов, а затем, на основе предварительно заданного критерия успешного поиска, выводить список документов, релевантных запросу (если таковые были найдены). Следует отметить, что запрос представляет собой аннотацию к искомому документу.

Разработка когнитивной модели информационно-поисковой системы нового типа

Структура Sim подсистемы формирования семантического образа представлена блоком синтаксического анализа PsrLNK, блоком перевода в предикатное представление PsrPRD, блоком формирования предикатного расширения исходного описания РЕХт и блоком представления текстового описания в модельном пространстве ТГ/СА- Математически это можно записать в следующем виде.

На основе рассмотренной модели можно спроектировать информационно-поисковую систему нового типа, которая будет формировать семантические образы текстовых описаний, а затем будет предоставлять возможность их поиска даже при несовпадении слов запроса со словами текста или поиск текстовых документов по заданной тематике. Тем самым, ИПС нового типа осуществляет смысловой поиск текстовых описаний на естественном языке при произвольной формулировке запроса, т.к. в неё заложены механизмы сохранения и «понимания» смысла текста.

Сформулируем основные этапы реализации информационно-поисковой системы на основе разработанной в разделе 4.2 когнитивной модели: 1. Формирование Хранилища данных ИПС, которое включает базу данных текстовых документов с их семантическими образами, орфографические, морфологические, дескрипторные словари, а также базу данных предикатов. 2. Построение блока регистрации. 3. Построение блока режима работы ИПС. 4. Построение подсистемы формирования семантических образов текстовых документов (или поисковых запросов). 5. Построение подсистемы поиска для сравнения семантических образов текстовых документов с семантическим образом запроса и вывода документа (документов), семантический образ, которых совпадёт с семантическим образом запроса.

Блок регистрации записывает новых пользователей системы в БД пользователей. Пользователь с правами администратора может добавлять новые документы с их семантическими образами в Хранилище данных ИПС. Обычный пользователь может осуществлять поиск документов в Хранилище данных по введенному запросу (который вводится в форме простых предложений).

Блок режима работы ИПС проверяет, в каком режиме находится в текущий момент информационно-поисковая система: если в режиме поиска, то передает управление поисковой подсистеме; если в режиме записи, то добавляет образ, сформированный подсистемой формирования семантического образа, и соответствующий ему документ в Хранилище данных ИПС.

Подсистема формирования семантического образа реализует построение семантического образа поискового запроса (если ИПС находится в режиме поиска) или аннотации документа (если информационно-поисковая система находится в режиме записи).

Подсистема поиска реализует поиск документов в Хранилище данных информационно-поисковой системы, у которых семантический образ совпадает (в соответствии с введенным критерием поиска) с семантическим образом запроса (который построен подсистемой формирования семантического образа). А затем осуществляет вывод найденного документа (или документов) либо выдает сообщение об отсутствии документов, релевантных поисковому запросу.

Большое значение при построении Хранилища ИПС имеет сбор опытных информационных массивов, которые должны отражать всё терминологическое и ситуационное разнообразие, встречающееся в той или иной предметной области, которой принадлежат текстовые описания. На основе статистического анализа информационного массива (ИМ) какой-либо тематической области должна быть выбрана рациональная структура подразделения тезауруса на смысловые поля (термины и их сочетания). Они записываются в соответствующие дескрипторные словари предметных областей, которые могут пополняться новыми терминами в процессе функционирования информационно-поисковой системы в полуавтоматическом режиме. Для каждого термина (или их сочетания) в словарь должны быть также включены эквивалентные термины и термины, связанные с ним по иерархическому дереву.

Одной из самых важных задач при подготовке информации для Хранилища данных информационно-поисковой системы является проведение анализа информационных массивов на предмет выделения набора наиболее часто встречающихся глаголов русского языка, их синонимов и соответствующих им видов бинарных отношений (предикатов). Необходимо также найти область применения каждого отношения и отделить ее от области применения других отношений.

Затем следует установить стандартный вид прямого и обратного высказывания на основе соответствующего бинарного отношения, его формально-логические свойства (рефлексивность, транзитивность, симметричность) и принадлежность к более общей группе (порядкам и эквивалентностям и т.п.), а также элементарные преобразования простых высказываний, моделирующие умозаключения. Бинарные отношения с их формально-логическими свойствами записываются в базу данных предикатов.

Для построения подсистемы формирования семантического образа текстового описания необходимо: 1) Воспользоваться уже разработанным синтаксическим анализатором -парсером (например, Link Parser for Russian) - для построения функционального дерева фраз текстового описания. На вход парсера будут поступать предложения текста на ЕЯ, представляющие собой либо аннотацию документа, либо запрос пользователя на поиск документов, релевантных введенному запросу. Результатом работы синтаксического анализатора будет синтаксическая структура предложений исходного текста с морфологическими и синтаксическими характеристиками каждого члена предложения. 2) Разработать новый вариант парсера (для перевода текстового описания на естественном языке в предикатное представление), необходимый для реализации предложенного в диссертации метода представления текстовых структур. Предикатный парсер будет использовать структуру, полученную синтаксическим анализатором, которая хранится в «Синтаксическая БД». Используя дескрипторные словари и словарь предикатов, в каждом предложении текстового описания парсер переведёт подлежащее в компоненту А предикатной формы, сказуемое - в отношение R, а дополнение - в компоненту

Похожие диссертации на Методы пространственного представления и анализа текстовых описаний для информационно-поисковых систем