Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Исследование и разработка моделей и методов поиска информационных образовательных ресурсов в электронной библиотеке Аюшеева Наталья Николаевна

Исследование и разработка моделей и методов поиска информационных образовательных ресурсов в электронной библиотеке
<
Исследование и разработка моделей и методов поиска информационных образовательных ресурсов в электронной библиотеке Исследование и разработка моделей и методов поиска информационных образовательных ресурсов в электронной библиотеке Исследование и разработка моделей и методов поиска информационных образовательных ресурсов в электронной библиотеке Исследование и разработка моделей и методов поиска информационных образовательных ресурсов в электронной библиотеке Исследование и разработка моделей и методов поиска информационных образовательных ресурсов в электронной библиотеке Исследование и разработка моделей и методов поиска информационных образовательных ресурсов в электронной библиотеке Исследование и разработка моделей и методов поиска информационных образовательных ресурсов в электронной библиотеке Исследование и разработка моделей и методов поиска информационных образовательных ресурсов в электронной библиотеке Исследование и разработка моделей и методов поиска информационных образовательных ресурсов в электронной библиотеке Исследование и разработка моделей и методов поиска информационных образовательных ресурсов в электронной библиотеке Исследование и разработка моделей и методов поиска информационных образовательных ресурсов в электронной библиотеке Исследование и разработка моделей и методов поиска информационных образовательных ресурсов в электронной библиотеке
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Аюшеева Наталья Николаевна. Исследование и разработка моделей и методов поиска информационных образовательных ресурсов в электронной библиотеке : Дис. ... канд. техн. наук : 05.13.11 : Улан-Удэ, 2004 228 c. РГБ ОД, 61:05-5/1589

Содержание к диссертации

Введение

1. Введение в проблему и анализ моделей поисковых систем 10

1.1. Описание проблемной ситуации 10

1.2. Обзор информационно-поисковых систем 14

1.3. Обзор методов индексирования 19

1.4. Обзор методов поиска и ранжирования документов 28

1.5. Обзор методов и средств создания метакаталогов 37

1.5.1. Обзор методов создания метакаталогов 37

1.5.2. Краткий обзор средств 41

1.5.3. Средства и технологии хранения 44

1.6. Выводы по главе и содержательная постановка задачи 44

2. Модель метакаталога информационных образовательных ресурсов 48

2.1. Схема спецификаций метаданных 48

2.1.1. Классификация ИОР 48

2.1.2. Обзор существующих спецификаций метаданных 58

2.1.3. Метаданные ИОР 65

2.2. Логическая модель данных 76

2.2.1. Именование объектов логической модели 76

2.2.2. Сущности 78

2.2.3. Атрибуты 79

2.2.4. Связи (отношения) 80

2.2.5. Нормализация 82

2.2.6. Методы обеспечения целостности данных 83

2.3. Традиционные методы поиска 85

2.3.1. Атрибутный поиск 85

2.3.2. Контекстный поиск по ключевым словам 87

2.3.3. Атрибутно-контекстный поиск 88

2.6. Выводы по главе 88

3. Модель поиска 90

3.1. Структурная схема модели поиска 91

3.2. Построение поискового образа документа 96

3.2.1. Препроцессорная обработка полнотекстового документа 97

3.2.2. Индексирование полнотекстового документа 108

3.3. Определение релевантности и ранжирование коллекции документов 126

3.3.1. Распознавание запроса и построение поискового образа запроса 126

3.3.2. Формирование множества релевантных документов 129

3.4.1. Кластеризация множества релевантных документов 133

3.4. Выводы по главе 135

4. Описание программного обеспечения 137

4.1. Программа Metacatalog по работе с метакаталогом 137

4.2. Программа IndexingPro 142

4.2.1. Краткое описание алгоритма 143

4.2.2. Экспериментальная проверка метода построения поискового образа документа в виде его семантической сети 146

4.3. Программа KohonenNet 150

4.4. Выводы по главе : 156

Выводы по работе 157

Заключение 158

Список литературы 159

Введение к работе

Актуальность темы диссертационного исследования. Исследования в области информационного поиска ведутся уже более тридцати лет. За это время из узкоспециализированной тематики он превратился в одну из ключевых областей информатики. Основоположником теории информационного поиска по праву считается Дж. Солтон [80, 151, 152, 153]. Основные концепции этой теории, изложенные им в 70-х гг. XX века, считаются канонами информационного поиска и нашли применение в большинстве существующих поисковых систем.

При накопленных теоретических знаниях и практическом опыте необходимость исследований в области информационного поиска постоянно сохраняется вследствие происходящих изменений в экономической и социальной жизни страны. В настоящий момент система образования переживает процесс модернизации, который частично осуществляется посредством исполнения утвержденных Федеральных Целевых Программ (ФЦП). Одной из таких программ, связанной с внедрением информационных и телекоммуникационных технологий в образовательную деятельность, является ФЦП «Развитие единой образовательной информационной среды (на 2001-2005гг.)». В рамках данной ФЦП выделены следующие основные направления информатизации образования: электронные образовательные ресурсы, подготовка кадров для информационного общества, компьютеризация и коммуникационное обеспечение образования, поддержка региональных программ информатизации, развитие информационных систем управления образованием. Для реализации мероприятий программы созданы и создаются федеральные и региональные ресурсные центры. По направлению информатизации «Электронные образовательные ресурсы» региональными ресурсными центрами выполняются работы по разработке информационных образовательных ресурсов (ИОР), системы образовательных порталов, электронных библиотек (депозитариев) и т.п.

Необходимость разработки электронных библиотек обуславливается тем, что с появлением и активным использованием глобальной сети Интернет задачи информационного поиска несколько видоизменились: стало необходимым учитывать природу сети Интернет, которой свойственны огромный объем доступной информации, её разнородность, высокий процент временной информации, отсутствие контроля за качеством информации. Все это явилось предпосылками того, что процессы перевода традиционных источников информации в форму ресурсов Сети получили новое «звучание» в плане организации учета (хотя бы частичной), которая присуща традиционным библиотекам.

Актуальность исследований в области информационного поиска также обусловлена тем, что при поиске информации в сети Интернет мощность множества документов, составляющих отклик на запрос, как правило, получается очень большой за счет огромного числа «шумовых» документов, попавших в отклик. Это обуславливает необходимость повышения качества методов информационного поиска. Для сравнения эффективности различных методов необходимо определить, какие критерии будут использованы для оценки эффективности. Конечно, вычислительная производительность метода является одним из критериев оценки эффективности, но гораздо более важными показателями обычно являются критерии, характеризующие качество результатов поиска. К таким показателям зачастую относят два параметра:

  1. точность (precision) - доля релевантного материала в ответе поисковой системы;

  2. полнота (recall) - доля найденных релевантных документов в общем числе релевантных документов коллекции.

Очевидно, что хорошая поисковая система должна иметь как можно большие полноту и точность, желательно - 100%, т.е. находить все нужные документы и ни одного лишнего. Однако стопроцентное качество поиска невозможно, поэтому необходимо разработать методы, позволяющие

повысить данные характеристики. Повышение качества поиска напрямую зависит от полноты элементов спецификации метаописания информационных образовательных ресурсов и степени интеллектуализации методов поиска.

Вышеизложенное позволяет сделать заключение о необходимости проведения исследований по вопросам повышения качества информационного поиска, которые важны для создания метакаталога и поисковой системы депозитария информационных образовательных ресурсов.

Целью исследования является исследование и разработка методов поиска информационных ресурсов, учитывающих их образовательную направленность, а также позволяющих разработать эффективную поисковую систему депозитария.

Для достижения поставленной цели исследования проводились по следующим основным направлениям:

выбор базовой схемы метаописания ИОР и разработка модели данных метакаталога информационных образовательных ресурсов;

исследование и разработка метода индексирования полнотекстового документа, содержащего научные, учебные и учебно-методические материалы;

исследование и разработка метода информационного поиска на основе семантического анализа полнотекстового документа.

Объектом исследования является информационный образовательный ресурс в виде полнотекстового документа.

Предмет исследования составляют методы и алгоритмы информационного поиска.

Методологической и теоретической основой исследования послужили математический аппарат теории множеств, теории графов, теории искусственных нейронных сетей, искусственного интеллекта. Достоверность научных выводов и практических рекомендаций основывается на теоретических и методологических положениях, сформулированных в исследованиях российских и зарубежных ученых, таких как Д.Г.Лахути,

И.И.Попов, В.Н.Решетников, А.И.Черный, Э.Э.Гасанов, Ю.А.Шрейдер, И.С. Некрестьянов, И.Е. Кураленок, В.Ю. Добрынин, А.Г. Дубинский, А.Е. Ермаков, М.Р. Когаловский, А.В. Сокирко, G. Salton, К. Sparck-Jones, S.E. Robertson, G.K.Zipf, A. Singhal, M. Mitra, S. Lawrence, P. Foltz, E. Fox, J. Cho, R. Baeza-Yates, K. Tajima, C. Van Rijsbergen, L. Gravano, J. Kleinberg и др.

Наиболее существенные результаты и научная новизна диссертационной работы состоят в следующих результатах, содержащих, по мнению автора, элементы научной новизны:

  1. Разработан метод индексирования полнотекстового документа, основанный на оригинальном способе построения семантической сети, позволяющей учитывать семантику документа при формировании его поискового образа.

  2. Разработан метод информационного поиска, основанный на сопоставлении графов запроса и поискового образа документа для выявления степени релевантности документа, и позволяющий уменьшить мощность множества релевантных документов, образующих отклик на затребываемую в запросе информацию, за счет применения кластеризации этого множества.

  3. Получена модель метакаталога, спецификация которого учитывает образовательную направленность информационных ресурсов, также создана модель поисковой системы, позволяющая повысить точность результатов поиска.

Практическая значимость исследования состоит в том, что полученные результаты могут быть применены при разработке двух компонентов регионального депозитария информационных образовательных ресурсов: метакаталога и поисковой системы, удовлетворяющие требованиям, предъявляемым к их разработке, среди которых важнейшим является получение отклика, включающего документы действительно релевантные запросу пользователя.

Апробация результатов исследования. Результаты исследования выносились на обсуждение международной научной конференции

«Информация-Коммуникация-Общество» (Санкт-Петербург, 11-12 ноября

  1. г.), международной научной конференции «VI Энгельмейеровские чтения» (Москва, 2003 г.), Всероссийской научно-практической конференции «Российская школа и Интернет» (Санкт-Петербург, 2002 г.), Всероссийской научно-технической конференции «Теоретические и прикладные вопросы современных информационных технологий» (Улан-Удэ, 2002-2004 гг.), Третьей Всероссийской научно-практической конференции-выставке «Единая образовательная информационная среда: проблемы и пути развития» (Омск,

  1. г.), Всероссийской научно-практической конференции «Проблемы качества, безопасности и диагностики в условиях информационного общества» (Сочи, 2004 г.). Материалы диссертации были использованы при подготовке учебного курса «Основы интернет-технологий» и нашли применение в учебном процессе ВСГТУ.

Результаты работы в виде разработанного программного и лингвистического обеспечения используются в Межотраслевом НИИ «Интеграл». Некоторые результаты исследования были использованы при выполнении госбюджетной НИР «Теоретические и прикладные вопросы разработки интегрированных интеллектуальных информационных систем. Этап: Основные аспекты методологии построения интеллектуальных информационно-поисковых систем» (ГР№ 01.200.205060; Инв.№ 02.200305099) [69], проекта «Разработка республиканской электронной библиотеки публикаций научных и образовательных учреждений на базе портала Регионального ресурсного центра информатизации образования Республики Бурятия» (ФЦП «Развитие информационных ресурсов и технологий», подпрограмма «Оптимизация ресурсного обеспечения системы образования. Индустрия образования»), а также в рамках НИР «Исследование и разработка методов и алгоритмов полнотекстового поиска информации в системе образовательных порталов», выполненной в 2002 году по гранту Правительства Республики Бурятия для молодых ученых.

Публикации. По теме диссертации опубликовано 10 печатных работ, объемом 5,75 п.л.

Структура и объем диссертации. Работа состоит из введения, четырех

глав, заключения, библиографии и пяти приложений.

В первой главе работы приведены описание проблемной ситуации, анализ состояния современных информационно-поисковых систем, классификация существующих информационно-поисковых систем, выполнен обзор методов индексирования, методов поиска и ранжирования полнотекстовых документов, рассмотрены методы создания метакаталогов. В результате анализа определен тип разрабатываемой системы поиска, выделены ее основные функции и сформулирована постановка задачи.

Во второй главе описана модель данных, лежащая в основе метакаталога информационных образовательных ресурсов, описаны классификация ИОР и модель данных, приводится структура поискового образа полнотекстового документа. Описываются основные функции метакаталога ИОР, в том числе традиционные методы поиска по метакаталогу: атрибутный, контекстный и их комбинация.

Третья глава диссертации посвящена вопросам разработки методов и алгоритмов индексирования и поиска полнотекстовых документов. Рассмотрены препроцессорная обработка документа, включающая морфологический и лексический анализ полнотекстового документа, семантический анализ документа, результаты которого являются основой поискового образа индексируемого документа. Описан метод ранжирования, базирующийся на кластеризации коллекции документов.

В четвертой главе приведено описание программного обеспечения, разработанного для экспериментальной проверки предложенных в работе методов. Результаты апробации позволили подтвердить достоверность основных положений работы.

Заключение по работе содержит перечень научных и практических результатов, полученных автором при решении поставленной в работе задачи.

В приложениях приведены проанализированные спецификации метаданных, лингвистическое обеспечение морфологического анализа, основные результаты экспериментальной проверки разработанных методов.

1. Введение в проблему и анализ моделей поисковых систем

Обзор методов поиска и ранжирования документов

Индексный (или двоичный) поиск применяется главным образом при работе со структурированными базами данных. В таких методах слова интерпретируются как последовательности закодированных символов. Используя формальный синтаксис, или язык запросов, система двоичного поиска выбирает точное соответствие для отдельного слова, цепочки слов или слов, связанных логическими операторами. Применение искусственного языка запросов приводит к необходимости обучения пользователей двоичной логике, которая не является интуитивно понятной и трудна в использовании.

Системы двоичного поиска имеют ограничения по точности, влияющие на возможность нахождения всей относящейся к запросу информации. В методах двоичного поиска не учитываются различные формы и значения слов: пользователю непросто угадать точные слова и фразы, которые были использованы авторами в документах. Системы двоичного поиска не могут также ранжировать документы по степени соответствия запросу, поэтому пользователь вынужден читать каждый документ, чтобы определить степень соответствия запросу.

Статистические методы основываются на расчете различных частотных характеристик: частоты вхождения слова в документ, взвешенной частоты вхождения и частоты совместного вхождения нескольких слов. При этом предполагается, что чем чаще встречается то или иное слово запроса в документе, тем в большей степени данный документ соответствует введенному запросу. Основной единицей информации, которой оперируют статистические методы, является отдельное слово, однако связи между словами рассматриваются исключительно с математической, а не с лингвистической точки зрения. В отличие от методов двоичного поиска статистические методы не требуют применения жесткого формального языка запросов. Они позволяют проводить ранжирование документов по степени соответствия запросу, что существенно повышает эффективность работы с поисковыми системами (ПС). Однако такие методы не всегда позволяют получить желаемые точность и полноту ответов, поскольку важность того или иного термина не напрямую связана с частотой его использования в документе.

Системы, основанные на базах знаний, занимаются поиском информации на основе некоторых внешних знаний. Они используют концептуальные отношения, которые не применяются при статистическом поиске. Одним из наиболее простых и распространенных способов представления знаний является файл синонимов. Использование синонимов позволяет при ответе на запрос учитывать не только те термины, которые непосредственно указаны в запросе, но и все другие слова, близкие к ним по значениям. Эти системы гораздо удобнее тех, которые базируются на двоичном поиске. Однако в настоящее время они практически не используются, возможно, из-за сложности их реализации.

Применяемые в системах поиска методы соответствуют той или иной модели информационного поиска. Все многообразие моделей информационного поиска (ИП) принято делить на три вида [18, 30, 70, 77, 81, 112]: - теоретико-множественные (булева, нечетких множеств, расширенная булева); - алгебраические (векторная, обобщенная векторная, латентно-семантическая, нейросетевая); - вероятностные. По популярности использования в различных ПС на первом месте находятся алгебраические модели, на втором - теоретико-множественные и менее всех встречаются вероятностные модели.

Булева модель является старейшей и наиболее широко используемой моделью информационного поиска. Ее распространение связано в первую очередь с простотой реализации, позволяющей индексировать и выполнять поиск в электронных коллекциях большого объема. В настоящее время популярным является объединение булевой модели с вероятностной моделью, что обеспечивает, с одной стороны, быстрый поиск и, с другой стороны, более качественное ранжирование документов.

Пусть множество документов di, ...., dn образует коллекцию D из п документов. Каждый документ содержит множество различных термов T(d). Под термом понимается единица поискового образа документа. Объединение всех множеств термов T(dj) образует словарь коллекции Т:

Поиск необходимого документа основан на использовании логических операций AND, OR, NOT над множествами. Чаще всего по умолчанию все термы поискового запроса объединены логической операцией AND. В этом случае в отклик поисковой системы включаются те документы, которые содержат все термы поискового запроса. Документы, попавшие в отклик, сортируются по количеству вхождений термов поискового запроса в текст документа. Этот параметр ранжирования интерпретируется как вес документа и образуется суммированием количеств вхождений термов запроса в документ. Однако если данный параметр будет равным для нескольких документов, правильное ранжирование практически невозможно.

Эта модель информационного поиска используется поисковой системой Yandex (www.yandex.ru), а также другими поисковыми системами, поддерживающими поиск с использованием языка запросов. В случаях, когда необходимо усложнить запрос логическими операциями OR или NOT, требуется знание основ вычисления логических выражений. Это обстоятельство, а также большая ресурсоемкость и невозможность ранжирования результатов, привели к разработке других моделей ИП.

Именование объектов логической модели

Одна из наиболее мощных возможностей ERWin - способность создать связи на основе внешних ключей, обеспечивая этим свойство целостности модели базы данных. При перемещении внешних ключей, ERWin применяет сложную логику, управляя наследованием и унификацией. Модель данных метакаталога ИОР полностью поддерживает технологию внешних ключей.

Наследование относится к автоматическому процессу перемещения внешних ключей между связанными сущностями. Это является существенной возможностью любого инструмента моделирования данных, поскольку это гарантирует ссылочную целостность в логических и физических проектах. Два типа связей распространяют внешние ключи: идентифицирующая и неидентифицирующая. Идентифицирующая связь переносит первичный ключ родительской сущности как атрибут первичного ключа дочерней сущности. Неидентифицирующая связь переносит первичный ключ родительской сущности как неключевой атрибут дочерней сущности (рисунок 2.4).

Поскольку идентифицирующая связь перемещает внешние ключи как первичные ключи, существует возможность создавать длинную цепочку связей, которые располагают каскадом первичные ключи на много уровней вниз. ERWin правильно обрабатывает наследование для обоих типов связей. При создании новой связи ERWin располагает каскадом внешние ключи на один или большее количество уровней в зависимости от типа связи и длины цепочки связей. И наоборот, ERWin удаляет все внешние ключи во всех дочерних сущностях в случае удаления связи из родительской сущности. В модели используются только неидентифицирующий тип связию позволяющий не загромождать список атрибутов сущностей.

Поскольку траектории, отображающие связи могут разветвляться, а затем вновь пересекаться, возникают ситуации, когда один и тот же внешний ключ достигает сущности различными путями. Для удаления повторяющихся внешних ключей, ERWin использует несколько правил.

Правило унификации. Повторяющиеся внешние ключи объединяются в одиночный внешний ключ, если для этих внешних ключей не назначены функциональные имена (роли), которые отличали бы их. Правило старшинства. Если сущность одновременно наследует один и тот же внешний ключ как атрибут первичного ключа, и как неключевой атрибут, то приоритет достается атрибуту первичного ключа. Нормализация Основной целью проектирования БД является сокращение избыточности хранимых данных, а следовательно, экономия объема используемой памяти, уменьшение затрат на многократные операции обновления избыточных копий и устранение возможности возникновения противоречий из-за хранения в разных местах сведений об одном и том же объекте. Так называемый, "чистый" проект базы данных (БД) - каждый факт в одном месте, можно создать, используя методологию нормализации отношений. И хотя по некоторым методологиям проектирования нормализация должна использоваться на завершающей проверочной стадии проектирования БД, было принято решение об ее использовании с самого начала разработки логической модели данных с целью сокращения общего этапа проектирования. Нормализация - это разбиение таблицы на две или более, обладающих лучшими свойствами при включении, изменении и удалении данных. Окончательная цель нормализации сводится к получению такого проекта БД, в котором каждый факт появляется лишь в одном месте, т.е. исключена избыточность информации. Это делается не столько с целью экономии памяти, сколько для исключения возможной противоречивости хранимых данных.

Теория нормализации основывается на наличии той или иной зависимости между полями таблицы, в ней известны к настоящему времени пять нормальных форм. Во многих источниках, описывающих процесс и результаты нормализации, указывается, что полная нормализованность таблиц в сложных проектах является идеалом. Т.е. ее нужно стремиться достичь, но при этом необходимо учитывать, что чрезмерное увлечение нормализацией может приводить к усложнению логики в обрабатывающих SQL-кодах. Такое не всегда желательно, т.к. оптимизатор кода СУБД будет затруднен в выборе оптимального графика запуска.

Разработанная модель удовлетворяет третьей нормальной форме и не имеет двойных связей между таблицами. декларативный и процедурный. При декларативной ссылочной целостности критерии, которым должны соответствовать данные, задаются непосредственно в определении объекта. После этого объявления ссылочной целостности автоматически обеспечивается соответствие данных указанным параметрам. Декларативная целостность является частью определения данных и реализуется при помощи ограничений. При процедурной ссылочной целостности создаются сценарии, которые одновременно и определяют критерии, и обеспечивают их выполнение. Процедурная целостность применяется, когда требуется описать довольно сложные логические правила и исключения. Эта целостность реализуется при помощи значений по умолчанию, правил, триггеров и хранимых процедур.

В представленной работе использованы как декларативный, так и процедурный способы обеспечения целостности. Все основные логические правила целостности данных, отвечающие за проверку значений в полях таблиц и поддержку связей между таблицами, реализованы в виде ограничений. Ограничения определяются при создании таблицы и проверяют данные перед началом транзакции, что повышает производительность. Кроме ограничений, для обеспечения целостности использована процедурная целостность. Каскадные операции (когда при удалении записей одной таблицы автоматически удаляются связанные с ними записи других таблиц), реализованы с использованием триггеров, так как они обладают большей функциональностью. Триггеры не срабатывают до момента изменения данных, проверка ошибок производится после выполнения оператора, и если триггер выявляет нарушение, он отказывается от изменений, отменяя текущую транзакцию.

Препроцессорная обработка полнотекстового документа

Словарь готовых (неизменяемых) словоформ - это упорядоченный по алфавиту перечень лексем-существительных, неизменяемых в зависимости от грамматической формы. Словарь наречий - упорядоченный по алфавиту перечень наречий со слитным написанием.

Словарь окончаний существительных - это перечень всех возможных окончаний имен существительных. Структура словарей окончаний прилагательных, окончаний глаголов аналогична структуре словаря окончаний существительных. Словарь основ существительных, прилагательных, глаголов имеет структуру вида: [номер основы] [номер флективного класса] [основа]. Пример словаря основ существительных представлен в таблице 11.

Номер флективного класса - трехзначный: первая цифра означает часть речи (1- существительное, 2 - прилагательное), две последующие цифры -порядковый номер флективного класса в пределах одного грамматического класса слов. Таблица флективных классов Sn составлена согласно [9] и приведена в Приложении В.

Для определения необходимой морфологической информации, а именно числа и падежа для имен существительных и прилагательных, необходима таблица соответствия флективного класса и окончания Sj2 (таблица 12).

На вход морфологического анализатора поступает выделенная на первой фазе лексического анализа словоформа Word. Для определения части речи этой словоформы выполняется проверка ее присутствия в словарях готовых (неизменяемых) словоформ, наречий, местоимений, числительных, предлогов, союзов, междометий и частиц. Классификация словоформы на существительное, прилагательное или глагол осуществляется сопоставлением окончания словоформы с допустимыми для данной части речи окончаниями. Выделение окончаний позволяет параллельно выделить основу слова, т.е. нормализовать ее. Будем считать, что основа является нормальной формой словоформы. Структурно словоформа представляет собой конкатенацию двух строк: Base (основа) и Ending (окончание). Вначале Ending - пустая строка, a Base = Word\ Ending - Word. Успешный поиск в словарях основ существительных, прилагательных, глаголов основы Base и успешный поиск в соответствующих словарях окончаний окончания Ending позволяют выделить основу слова / и определить ее часть речи т. Успешным считается поиск, в результате которого найдена одна основа в одном из трех указанных словарей основ и одно окончание в соответствующем словаре окончаний. Окончание Ending и основа Base формируются итеративно путем присоединения к Ending крайнего правого символа анализируемой словоформы. На каждой итерации осуществляется поиск основы и окончания в словарях. В случае если поиск оказывается нерезультативным, и при этом длина Ending становится меньше длины исходной словоформы, то словоформа считается нераспознанной.

Определив основу слова, ее флективный класс, часть речи и зная окончание можно определить морфологическую информацию этой лексемы, т.е. такие грамматические формы, как, число и падеж для класса существительных. Таким образом, в результате выполнения морфологического анализа будут известны основа слова /, класс лексемы т, морфологическая информация с, содержащая возможные пары (падеж, число), местоположение лексемы в предложении и и в документе вообще. Эта информация позволяет сформировать векторы p,s и ptv, описывающие лексему. Вектор Р- формируется для каждой новой выделенной основы. Вектор р формируется для каждой выделенной в документе словоформы. Это означает, что количество векторов Pi будет равно числу словоформ N в документе. После обработки всех словоформ документа осуществляется «упорядочивание» векторов Pi множества її по элементам п, nf, nf, nf, nf, nj, которое фиксируется значениями элементов pi векторов p,v. В этом случае несколько векторов Pi с подряд идущими значениями pi описывают все случаи использования лексемы /„. Их количество представляет собой частоту встречаемости /п данной лексемы в документе. Наименьший номер р, векторов Pi , описывающих лексему /„, является указателем рп вектора р„ . В Приложении С приведены пример фрагмента документа и результаты его лексического и морфологического анализов. Таким образом, результаты лексического анализа полнотекстового документа будут представлены множествами L, L и L . Для задания лексического анализатора, как правило, используется либо регулярное выражение, либо праволинейная грамматика, либо конечный автомат. Все три формализма имеют одинаковую выразительную мощность. В частности, по регулярному выражению или праволинейной грамматике можно сконструировать конечный автомат, распознающий тот же язык. Для формального описания лексического анализа используем регулярные множества и выражения. Введем понятие регулярного множества, играющего важную роль в теории формальных языков. Регулярное множество в алфавите Т определяется рекурсивно следующим образом (пустое множество) - регулярное множество в алфавите Т; 2) {є} - регулярное множество в алфавите Т(є- пустая цепочка); 3) {а} - регулярное множество в алфавите Г для каждого аЬТ; 4) если Р и Q - регулярные множества в алфавите Т, то регулярными являются и множества.

Экспериментальная проверка метода построения поискового образа документа в виде его семантической сети

Выбор указанных в таблице видов информационных образовательных ресурсов обуславливается наличием характеристик документа, которые могут, но не должны оказывать влияние на результаты индексирования. Для оценивания результатов индексирования важными на наш взгляд являются объем индексируемого полнотекстового документа и его логическое построение, которое может быть выражено таким параметром, как распределение ключевых слов по документу. При равномерном распределении ключевых слов, когда частота их встречаемости в разных структурных единицах текста приблизительно одинакова, ключевые слова, чаще всего, действительно отражают семантический аспект содержания индексируемого документа. Этот вид логического построения наблюдается в полнотекстовых документах, содержащих различные отчеты, например отчеты о НИР. Другой вид логического построения, когда наблюдается локальный характер распределения ключевых слов по разным структурным единицам текста, обычно встречается в учебниках и учебных пособиях, иногда в монографиях.

Для выполнения эксперимента были приняты следующие условия и ограничения: возможно индексирование текстовых документов, представленных в формате txt; язык представления документов - русский; индексируемые документы должны быть представлены только текстовой составляющей документа.

Описание выполнения эксперимента. Согласно поставленной задаче двухкомпонентный поисковый образ ИОР должен создаваться только для подкласса ИОР «Электронное представление бумажных изданий и документов» класса «Информационные продукты». Такие ИОР относятся к полнотекстовым документам. В связи с этим при выполнении экспериментов рассмотрены следующих виды ИОР: монографии, диссертации, отчеты о НИР, учебно-методические пособия, конспекты лекций. Они были поделены на три группы в зависимости от объема, который принадлежит одному из диапазонов: 10-20, 20-50, 50.

Рассмотрим пример индексирования годового отчета о НИР, фрагмент которого приведен в Приложении С. На вход программы построения поискового образа документа IndexingPro поступает текст документа, который в результате лексического и морфологического анализов преобразуется в поток основ слов L, сопровождаемый совокупностью характеристик L и Полученные результаты препроцессорной обработки позволяют выделить термы документа, выраженные именными словосочетаниями и подсчитать частоту их встречаемости в документе. Выходная информация модуля выделения термов документа, представленная совокупностью словосочетании приведена для рассматриваемого примера в таблице 45.

Для формирования фрагментов семантической сети в каждом словосочетании выделяем несущее слово, и затем группируем во фрагменты словосочетания, имеющие единое несущее слово. В таблице 46 отражены результаты модуля формирования фрагментов семантической сети, а на рисунке СЛ отображено визуальное представление одного фрагмента семантической сети рассматриваемого примера.

Удаляем фрагменты, содержащие термы с частотой встречаемости равной единице. Затем в каждом фрагменте семантической сети определяем словосочетание с наибольшей частотой встречаемости и включаем его в список ключевых слов индексируемого документа (табл. 47). Для каждого сформированного фрагмента семантической сети вычисляем силу связи между словосочетаниями. В таблицах 48-55 приведены массивы информации о фрагментах семантической сети. Рассчитаем матрицу инцидентности, отражающую семантическую сеть документа, и которая для рассматриваемого примера приведена в таблице 56. Второй компонент поискового образа, отражающий семантику проиндексированного фрагмента документа Годовой отчет о НИР сохраняется в выходном файле, приведенном в Приложении D. Аналогичным образом, были проведены эксперименты для следующих видов ИОР: монография О.А.Новоковской «Методологические основы управления человеческими ресурсами в предпринимательстве (региональный аспект)», учебное пособие «Технология разработки программного обеспчения» коллектива авторов, конспект лекций Литвинова Д.Г. «Операционные системы», диссертация Чугреева В.Л. «Модель структурного представления текстовой информации и метод ее тематического анализа на основе частотно-контекстной классификации». Всего каталог содержит 54 поисковых образа. предложенного в п.3.3 метода ранжирования документов, принадлежащих сформированному множеству релевантных документов. Программа реализована на языке Java в среде разработки Java 2 SDK, Standard Edition. Функционал программы KohonenNet включает: ввод поискового запроса, индексирование поискового запроса, вычисление степени релевантности, кластеризацию множества релевантных поисковому запросу документов, определение кластера документов с наибольшими значениями степени релевантности, представление пользователю результатов поиска.

Похожие диссертации на Исследование и разработка моделей и методов поиска информационных образовательных ресурсов в электронной библиотеке