Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка и программная реализация метода семантически-ориентированного поиска информации в электронных документах Люстиг Инга Владимировна

Разработка и программная реализация метода семантически-ориентированного поиска информации в электронных документах
<
Разработка и программная реализация метода семантически-ориентированного поиска информации в электронных документах Разработка и программная реализация метода семантически-ориентированного поиска информации в электронных документах Разработка и программная реализация метода семантически-ориентированного поиска информации в электронных документах Разработка и программная реализация метода семантически-ориентированного поиска информации в электронных документах Разработка и программная реализация метода семантически-ориентированного поиска информации в электронных документах Разработка и программная реализация метода семантически-ориентированного поиска информации в электронных документах Разработка и программная реализация метода семантически-ориентированного поиска информации в электронных документах Разработка и программная реализация метода семантически-ориентированного поиска информации в электронных документах Разработка и программная реализация метода семантически-ориентированного поиска информации в электронных документах Разработка и программная реализация метода семантически-ориентированного поиска информации в электронных документах Разработка и программная реализация метода семантически-ориентированного поиска информации в электронных документах Разработка и программная реализация метода семантически-ориентированного поиска информации в электронных документах
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Люстиг Инга Владимировна. Разработка и программная реализация метода семантически-ориентированного поиска информации в электронных документах : диссертация ... кандидата технических наук : 05.13.11.- Москва, 2007.- 170 с.: ил. РГБ ОД, 61 07-5/3731

Содержание к диссертации

Стр.
ВВЕДЕНИЕ 7

1. ОСНОВНЫЕ ПОДХОДЫ К ПОИСКУ ИНФОРМАЦИИ В ЭЛЕКТРОННЫХ
ДОКУМЕНТАХ 12

1.1. Способы поиска информации в электронных документах 12

1.1.1. Анализ электронных документов, основанный на их содержании 12

  1. Анализ отдельных электронных документов, основанный на содержании.... 13

  2. Анализ коллекций электронных документов, основанный на содержании ....14

  3. Контекст информации 14

  4. Внутренние ярлыки документов 17

1.1.2. Анализ документов, основанный на исследовании поведения отдельных
пользователей 17

1.2. Семантические аннотации информационных ресурсов 19

  1. Язык расширенной разметки XML 20

  2. Язык описания метаданных об информационных ресурсах RDF 20

  3. Онтологии 21

  4. Основные схемы метаданных 23

1.3. Методы построения семантических представлений текстов на естественном
языке 24

  1. Теория концептуальных графов 25

  2. Компьютерная семантика русского языка 27

  3. Расширенные семантические сети 31

  4. Неоднородные семантические сети 32

  5. Эпизодическая логика 33

  6. Теория К-представлений 34

  7. Выбор теории К-представлений в качестве методологической основы диссертационного исследования 38

  1. Медико-биологические информационно-поисковые системы 39

  2. Выводы по материалам главы 1 42

2. ПОСТАНОВКА ЗАДАЧИ ДИССЕРТАЦИОННОГО ИССЛЕДОВАНИЯ И РАЗРАБОТКА
ЛОГИЧЕСКОЙ СТРУКТУРЫ ЛИНГВИСТИЧЕСКОЙ БАЗЫ ДАННЫХ 43

  1. Постановка задачи диссертационного исследования 43

  2. Краткие сведения о модели для описания системы первичных единиц концептуального уровня, предложенной в теории СК-языков 46

  1. Общая характеристика модели 46

  2. Основные идеи определения класса сортовых систем 47

  3. Типы, порождаемые сортовыми системами, и конкретизации типов 49

  4. Концептуально-объектные системы 50

  5. Система кванторов и логических связок 52

  1. Формализация дополнительных предположений о рассматриваемых первичных единицах концептуального уровня 52

  2. Модель лингвистической базы данных в теории К-представлений 55

  3. Разработка структуры лингвистической базы данных 58

  1. Объединенный словарь предложных и глагольно-предложных фреймов как новый компонент лингвистической базы данных 58

  2. Формальное определение единого словаря предложных и глагольно-предложных фреймов 59

  3. Примеры статей единого словаря предложных и глагольно-предложных фреймов 60

  1. Общая логическая структура лингвистической базы данных 62

  2. Выводы по материалам главы 2 62

3. РАЗРАБОТКА МЕТОДА СЕМАНТИЧЕСКИ-ОРИЕНТИРОВАННОГО ПОИСКА
ИНФОРМАЦИИ В ЭЛЕКТРОННЫХ ДОКУМЕНТАХ 64

  1. Основные предположения о рассматриваемом классе электронных документов 64

  2. Описание алгоритма нахождения документов, в которых реализуется смысловое отношение в сочетаниях с лексической единицей, имеющей заданную базовую форму 64

  3. Описание предлагаемого метода поиска смысловых отношений 68

  1. Поиск участников смыслового отношения 68

  2. Проверка отсутствия слов-отрицаний 70

  3. Детализация метода и описание алгоритма поиска смысловых отношений 71

  1. Детализация метода поиска смысловых отношений 71

  2. Описание алгоритма поиска смысловых отношений 73

  1. Описание метода семантически-ориентированного поиска 80

  2. Пример применения семантически-ориентированного поиска 81

  3. Выводы по материалам главы 3 81

4. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ РАЗРАБОТАННОГО МЕТОДА СЕМАНТИЧЕСКИ-
ОРИЕНТИРОВАННОГО ПОИСКА ИНФОРМАЦИИ ДЛЯ РЕШЕНИЯ ЗАДАЧИ ПОИСКА

ЛЕКАРСТВЕННЫХ ПРЕПАРАТОВ 83

  1. Основные направления доработки метода семантически-ориентированного поиска с целью его применения для поиска лекарственных препаратов 83

  2. Получение списка объектов, оказывающих воздействие на некоторый фактор...83

  3. Получение списка объектов, оказывающих воздействие на некоторый фактор, с учетом способа достижения результатов этого воздействия 85

  4. Описание основных подсистем проектируемой системы 86

  5. Разработка метода и алгоритма построения семантического представления основной цели лечения заболевания, сформулированной на ограниченном русском языке 87

  1. Структура семантического представления для описания основной цели лечения заболевания 87

  2. Метод и алгоритм преобразования выражения об основной цели лечения заболевания, сформулированного на ограниченном русском языке, в его семантическое представление 88

  1. Описание метода преобразования выражения об основной цели лечения заболевания, сформулированного на ограниченном русском языке, в его семантическое представление 88

  2. Описание алгоритма преобразования выражения об основной цели лечения заболевания, сформулированного на ограниченном русском языке, в его семантическое представление 89

  1. Выбор средств для программной реализации поисковой системы «СЕМПМЕД» 91

  2. Словари морфологии 93

  1. Морфологический анализ и способы его реализации 93

  2. Словари морфологии проекта «ДИАЛИНГ» 95

  3. Словари морфологии в системе «СЕМПМЕД» 97

  1. Логическая структура лексико-семантического словаря 99

  2. Реализация единого словаря предложных и глагольно-предложных семантико-синтаксических фреймов 100

  1. Предложные и глагольно-предложные семантико-синтаксические фреймы... 100

  2. Структура единого словаря предложных и глагольно-предложных семантико-синтаксических фреймов 101

  1. Вариант структуры для хранения текстов описаний объектов 104

  2. Метод получения обобщенных параметров для параметра запроса пользователя

  1. Выявление разделов текста описания объекта для поиска данных 107

  2. Поиск параметра запроса в текстах описаний объектов 108

  1. Цель осуществления поиска параметра запроса в текстах описаний объектов 108

  2. Компонент Russian Context Optimizer компании «Гарант-Парк-Интернет» для СУБД Oracle 108

  1. Алгоритм определения целесообразности семантического анализа фрагмента текста ПО

  2. Извлечение предложения из фрагмента текста 111

  3. Связь смысловых отношений с видами пользовательских запросов 112

  4. Поиск смысловых отношений 113

  1. Поиск участников смыслового отношения ....114

  2. Проверка отсутствия слов-отрицаний 115

  3. Детализация метода и алгоритма поиска смысловых отношений с учетом предлагаемой структуры лингвистической базы данных 116

  1. Детализация метода поиска смысловых отношений с учетом предлагаемой структуры лингвистической базы данных 116

  2. Детализация вычисления значений основных вспомогательных структур для алгоритма поиска смысловых отношений с учетом предлагаемой структуры лингвистической базы данных 119

4.18. Использование семантического представления выражения об основной

цели лечения заболевания для поиска лекарственных препаратов 122

  1. Общая логическая структура лингвистической базы информационно-поисковой системы «СЕМПМЕД» 122

  2. Сведения об информационно-поисковой системе «СЕМПМЕД» 123

  3. Анализ возможностей адаптации к другим предметным областям 124

  1. Анализ возможностей и способы адаптации к другим предметным областям, в том числе в области косметологии 124

  2. Анализ возможностей применения разработанного метода семантически-ориентированного поиска в области юриспруденции 127

4.22. Применение результатов диссертационного исследования на предприятии ....129

  1. Информация о предприятии 129

  2. Цели внедрения ИПС «СЕМПМЕД» на предприятии 129

  3. Результаты применения 130

4.23. Выводы по материалам главы 4 130

ЗАКЛЮЧЕНИЕ 132

СПИСОК ЛИТЕРАТУРЫ 134

Приложение 1. Акт внедрения 146

Приложение 2. Фрагмент таблицы кодов для программы морфологического анализа русского

языка 147

Приложение 3. Листинг информационно-поисковой системы «СЕМПМЕД» 149

Введение к работе

Актуальность темы исследования. Проблема информационного поиска, вставшая особенно остро из-за постоянно растущего объема электронных документов в разного рода информационных системах, электронных библиотеках, а также в сети Интернет, обусловлена функциональной ограниченностью разработанных поисковых систем. Большинство поисковых систем не позволяет учитывать в работе семантику естественного языка, а использование метода поиска по ключевым словам приводит к выводу большого объема нерелевантных данных. Системы семантически-ориентированного поиска развиты недостаточно: используемые в них модели представления конструкций естественного языка весьма ограничены и не претендуют ни на универсальность, ни на инвариантность относительно выбора предметной области.

Семантически-ориентированный поиск информации предоставляет более широкие возможности по сравнению с традиционными поисковыми системами, где поиск ведется по ключевым словам, вводимым пользователями. Это обусловлено тем, что система, обладающая данными о синтаксисе и семантике естественного языка (в частности, русского языка), может осуществлять поиск с учетом его особенностей. В частности, вместо простой проверки наличия определенных слов в тексте в заданной форме (как при поиске по ключевым словам), может производить поиск смысловых отношений между словами текста, выражающих искомую информацию. Словами-участниками смыслового отношения могут оказаться любые слова естественного языка, удовлетворяющие семантическим и грамматическим ограничениям, являющимся необходимыми условиями реализации рассматриваемого смыслового отношения.

Важной областью применения информационно-поисковых систем является здравоохранение. Это связано со сложной структурой и многообразием форм медико-санитарной информации, которая включает трудно формализуемые понятия и категории, а также зачастую значительные по объему массивы подлежащих учету данных.

Анализ ограничений информационно-поисковых компьютерных систем, в том числе информационно-поисковых систем в области медицины, описанных в доступной научной литературе, позволяет сделать вывод об актуальности разработки новых подходов к автоматическому поиску информации, учитывающих значения лексических единиц и существование определенных смысловых отношений между лексическими единицами в текстах электронных документов.

Описаний программных систем, осуществляющих поиск медикаментов для лечения заболеваний с учетом синтаксиса и семантики русского языка, в доступной литературе обнаружить не удалось.

В связи со сказанным цель данной диссертационной работы заключалась в разработке принципов и метода семантически-ориентированного поиска, а также в программной реализации информационно-поисковой системы «СЕМПМЕД», осуществляющей поиск информации с применением разработанных принципов и метода по текстам описаний лекарственных препаратов на русском языке.

Для достижения данной цели потребовалось решить следующие задачи:

выбрать наиболее адекватную (с практической точки зрения) методологическую основу для осуществления семантического анализа и представления семантико-синтаксической информации о лексических единицах русского языка;

формально описать структуру семантико-синтаксических данных, предполагаемых к использованию при поиске;

выделить пласт медицинских знаний, который должен войти в базу знаний информационно-поисковой системы «СЕМПМЕД»;

предложить способ представления знаний о медицине, в том числе информации об основных целях при лечении заболеваний.

В процессе поиска методологической основы для осуществления лингвистического анализа текстов анализировались наиболее известные в настоящее время подходы к формализации естественного языка: теория концептуальных графов, эпизодическая логика, теория представления дискурсов, компьютерная семантика русского языка, теория расширенных семантических сетей, теория неоднородных сетей, а также теория К-представлений. Выбор был сделан в пользу теории К-представлений, поскольку в этой теории сформулирована гипотеза о возможности построения концептуальных структур, выражающих смысл произвольных предложений и дискурсов на естественном языке, относящихся к любым областям деятельности человека; кроме того, данная теория предлагает формальный аппарат для использования при разработке лингвистических процессоров.

Научная новизна результатов диссертационного исследования определяется:

  1. разработкой новых принципов семантически-ориентированного поиска информации, направленных на создание теоретической основы для достижения разумного компромисса между поиском по ключевым словам и поиском информации, предусматривающим полный семантико-синтаксический анализ текстов электронных документов;

  2. разработкой формальной модели лингвистической базы данных (ЛБД), обладающей рядом преимуществ по сравнению с ЛБД, предложенной в теории К-представлений

В. А. Фомичевым;

3) разработкой метода семантически-ориентированного поиска информации, являю
щегося инвариантным по отношению к выбору предметной области (в частности, примени-

мого к поиску медикаментов, в области юриспруденции и в области косметологии);

4) разработкой алгоритмов, детализирующих отдельные шаги метода семантически-ориентированного поиска информации в текстах электронных документов на русском языке.

Положения, выносимые на защиту. На защиту выносятся следующие укрупненные научные результаты.

  1. На основе анализа наиболее известных подходов к автоматическому поиску и оценке информации в электронных документах предложены новые принципы построения информационно-поисковой системы, предназначенной для семантически-ориентированного поиска информации в электронных документах. Цель разработки этих принципов состояла в создании теоретической основы для достижения разумного компромисса между поиском по ключевым словам и поиском информации, предусматривающим полный семантико-синтаксический анализ текстов электронных документов.

  2. Разработана формальная модель лингвистической базы данных (ЛБД), представляющая собою определение класса формальных объектов, называемых проблемно-ориентированными лингвистическими базисами. Главными отличиями понятия проблемно-ориентированного лингвистического базиса от введенного В. А. Фомичевым понятия лингвистического базиса являются:

рассмотрение понятия проблемно-ориентированного концептуального базиса вместо понятия концептуального базиса (преимуществами нового понятия является возможность отражения иерархии понятий и возможность выделения подкласса информационных единиц.);

разработка и определение единого словаря глагольно-предложных и предложных семантико-синтаксических фреймов; в предложенной модели ЛБД такой словарь используется вместо двух словарей — словаря глагольно-предложных фреймов и словаря предложных фреймов, являющихся компонентами ЛБД в формальной модели ЛБД, предложенной В. А. Фомичевым.

  1. Разработан предметно-независимый алгоритм (названный Поиск Текстов) нахождения всех электронных документов рассматриваемой базы данных, содержащих предложения на естественном языке, в которых реализуется некоторое смысловое отношение (из заданной группы смысловых отношений) в сочетаниях с лексической единицей, имеющей заданную базовую форму (лексему). Этот алгоритм использует информацию семантико-синтаксического характера, представленную проблемно-ориентированным концептуальным базисом.

  2. Разработана система алгоритмов, создающих предпосылки применения алгоритма Поиск^Текстов к поиску лекарственных препаратов, применяемых для лечения заданного

заболевания.

5. Программно реализована информационно-поисковая система «СЕМПМЕД», использующая предложенные в работе алгоритмы и метод семантико-синтаксического поиска информации в задаче нахождения лекарственных препаратов по текстам их описаний на русском языке.

Практическая ценность и предложения по использованию результатов. Практическую ценность представляют, во-первых, предложенные в работе формальное описание структуры лингвистической базы данных, метод и алгоритм реализации семантически-ориентированного поиска. Эти результаты могут быть использованы разработчиками лингвистических процессоров для создания систем с похожей функциональностью в других предметных областях. Во-вторых, разработанная информационно-поисковая система (ИПС) «СЕМПМЕД» может использоваться на практике фармацевтами, медицинскими сотрудниками в клиниках, а также применяться в учебных заведениях медицинского профиля в ходе учебного процесса— для пополнения знаний студентов о лекарственных препаратах, поскольку реализация в ИПС «СЕМПМЕД» предложенных в работе принципов и метода семантически-ориентированного автоматического поиска информации в текстах медицинской тематики улучшает качество поиска нужных лекарственных препаратов. Это обусловлено тем, что появляется возможность ухода от типичных проблем, возникающих при работе с традиционными поисковыми системами. Пользователю не требуется вводить ключевые слова для поиска по тексту: система выбирает искомые смысловые отношения для каждого типа запроса, а также набор допустимых лексических единиц для участников отношения и их возможные морфологические характеристики. Наличие базы знаний об основной цели лечения заболевания не только расширяет функциональные возможности системы по поиску лекарств, но и дает возможность использовать систему в качестве программного средства для подготовки студентов-медиков и фармацевтов.

Апробация работы и публикации. Результаты работы докладывались на ряде научных конференций, в том числе на международной конференции InterSymp по системным исследованиям, информатике и кибернетике (Германия, 2001); научно-технических конференциях студентов, аспирантов и молодых специалистов МИЭМ (2002-2005); Международной научной конференции «Гагаринские чтения» (Москва, «МАТИ»— Российский государственный технологический университет им. К. Э. Циолковского, 2001, 2002, 2004, 2005); XIV международной конференции «Проблемы теоретической кибернетики» (Пенза, 2005); международных научных конференциях «Компьютерная лингвистика и интеллектуальные технологии. Диалог'2004» и «Диалог'2005».

По теме диссертационного исследования автором опубликовано 17 научных работ. В

двух работах, выполненных в соавторстве, не менее половины результатов получены автором данной диссертации.

Структура работы. Диссертационная работа содержит 170 страниц, состоит из введения, четырех глав, заключения, списка использованной литературы из 115 наименований и трех приложений; включает 20 таблиц и 11 рисунков.

В первой главе содержится обзор основных подходов к поиску информации в электронных документах и в их коллекциях, применяемых в нашей стране и за рубежом. Во второй главе сформулирована постановка задачи диссертационного исследования, включающая задачу апробации результатов исследования для предметной области, связанной с поиском лекарственных препаратов. Во второй главе предложена новая логическая структура лингвистической базы данных для реализации информационно-поисковых систем, предназначенных для семантически-ориентированного поиска информации, в частности, для поиска информации о лекарственных препаратах для лечения заболеваний. В третьей главе осуществляется разработка метода и алгоритма выявления смысловых отношений между словами в русскоязычных текстах и предложен метод семантически-ориентированного поиска информации в электронных документах на русском языке. Четвертая глава включает описания алгоритмов, принципов и программных средств, использованных для реализации информационно-поисковой системы «СЕМПМЕД», и сведения технического характера о разработанной системе. В приложении 1 приведен акт внедрения результатов диссертации на предприятии. В приложении 2 в качестве примера приведен фрагмент таблицы кодов словоформ русского языка, используемых лингвистическим процессором системы. Приложение 3 содержит программный код информационно-поисковой системы «СЕМПМЕД» на языке PL/SQL для СУБД Oracle 9.2.0.1, а также сценарии создания объектов базы данных этой системы.

Выражаю благодарность моему научному руководителю, доктору технических наук Владимиру Александровичу Фомичеву за оказанную помощь в определении целей и корректировке задач диссертационного исследования, а также кандидату биологических наук Людмиле Дмитриевне Удаловой за многочисленные консультации по процессам лечения различных заболеваний.

Похожие диссертации на Разработка и программная реализация метода семантически-ориентированного поиска информации в электронных документах