Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Математическая модель семантического поиска с использованием онтологического подхода Захарова Ирина Викторовна

Математическая модель семантического поиска с использованием онтологического подхода
<
Математическая модель семантического поиска с использованием онтологического подхода Математическая модель семантического поиска с использованием онтологического подхода Математическая модель семантического поиска с использованием онтологического подхода Математическая модель семантического поиска с использованием онтологического подхода Математическая модель семантического поиска с использованием онтологического подхода
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Захарова Ирина Викторовна. Математическая модель семантического поиска с использованием онтологического подхода : диссертация ... кандидата физико-математических наук : 05.13.18 / Захарова Ирина Викторовна; [Место защиты: Челяб. гос. ун-т].- Челябинск, 2010.- 120 с.: ил. РГБ ОД, 61 10-1/763

Содержание к диссертации

Введение

1 Информационный поиск 10

11 Информационный поиск 10

1.1.1 Модели информационного поиска //

1.12 Булевское семейство моделей 12

1.13 Векторные модели 14

11.4 Вероятностные модели 18

12 Релевантность 20

13 Онтологии как интеллектуальные средства представления знаний 22

13.1 Онтологии — определения и возникновение 23

132 Типы онтологии 26

133 Разработка онтологии 28

134 Применение онтологии 31

1.4 Поиск по контексту или сьмантаческий поиск 37

2 Формальная модель семантического поиска 40

21 Формальные модели онтологии 40

2 2 Модель онтологии, специализированной для задач полнотекстового поиска 42

2 3 Функция мперпреталии терминов 43

2 4 Функция ингерпретацииконцегпдип 46

2 5 Матемагическая модель поисковой системы 47

2 6 Пример работы алгоритма 49

Глава. Метод построения онтологии на основе ББД 55

3 1 Логическое представление библиографических баз данных 55

3.1.1 Система классификации УДК 55

3 1.2 Описание библиографической записи 57

3 2 Математическая модель библиографических баз данных 59

3 3 Метод построения онтологии 59

3.4 Структура библиографических баз данных и распределенный поиск по ним 61

3 4 1 Физическая структура ББД. 62

3 4 2 Управление доступе \t к информационным ресурсам протокол Z39.50 67

3 4 3 Особенности существующих систем распределенного поиска 72

3.4.4 Техническая реализация поддержки протокола 74

3 5 Архитектура предлагаемого решения

3.5.1 Общая логика работы системы 77

3.5.2 Структуры данных и алгоритм работы клиентской программы 79

3.4.3. Проблемы распределенного поиска 81

3.6 Описание полученной онтологии 83

Глава 4. Архитектура, реализация и тестирование экспериментальной системы семантического поиска 85

4.1 Описание ипс, участвующих в тестировании 85

4.2 Архитектура и ре ализация системы 88

4.2.1 Архитектура системы 89

4.2.2 Реализация алгоритма семантического поиска с использованием онтологии 91

4.3 Оценка эффективности модели 95

4.3.1 Метод оценки 95

4.3.2 Описание тестов. 97

4.3.3 Сравнительная характеристика эффективности модели 102

Заключение 107

Список литературы

Введение к работе

Актуальность исследования

Развитие индустрии систем электронного документооборота, сопровождающееся ростом массивов обрабатываемых полнотекстовых документов, требует новых способов доступа к информации, многие из которых следует отнести к разряду систем искусственного интеллекта — систем обработки знаний.

Основной задачей, возникающей при работе с полнотекстовыми базами данных, является задача поиска документов по их содержанию. Однако, ставшие традиционными средства контекстного поиска по вхождению слов в документ, представленные, в частности, информационно-поисковыми системами в Интернет, не всегда обеспечивают адекватного выбора информации по запросу пользователя. Это может быть связано с рядом причин такими, как недостаточное знание пользователем терминологии предметной области, наличие в языке многозначных и синонимичных слов.

В ходе развития информационно-поисковых систем было предложено достаточно много моделей информационного поиска, повышающих его релевантность. Еще в 1957 году Joyce и Needham предложили учитывать частотные характеристики слов и векторная модель была с успехом реализована в 1968 году основателем науки об информационном поиске Джерардом Солтоном в поисковой системе SMART (Salton's Magical Automatic Retriever of Text). В 1977 году Robertson и Sparck-Jones обосновали и реализовали вероятностную модель, также положившую начало целому семейству.

Одно из перспективных направлений развития информационно-поисковых систем — построение моделей «семантического», т. е. «смыслового» поиска — поиска ресурсов, наиболее релевантных запросу, а не просто содержащие слова из запроса.

Попытки реализации семантического поиска начались в конце XX века, как зарубежными, так российскими учеными. В 2000 году P. Vakkari предложил способ поиска схожих по семантике документов на основе сопоставления их лексических векторов. В трудах Т. А. Гавриловой, В. Ф. Хорошевского исследуется вопрос о применении онтологического подхода для информационного поиска. В России информационная-поисковая система с использованием онтологии была впервые реализована авторами Б. В. Доброе, Н. В. Лукашевич, С. В. Сыромятников, Н. Г. Загоруйко в информационно-поисковой системе УИС «Россия». И. В. Смирнов, И. В. Со-ченков, В. В. Муравьев, И. А. Тихомиров предложили собственную модель семантического поиска, в которой объединены статистические и лингвистические методы поиска, реализовав ее в информационно-поисковой системе «Exactus». Основная проблема при реализации данного подхода —

отсутствие достаточно больших и качественных онтологии предметных областей, особенно на русском языке.

Онтологии включают доступные для компьютерной обработки определения основных понятий и объектов предметной области, свойства объектов и связи между ними, при этом онтологии обычно формируются экспертами в данной предметной области, преимущественно вручную. Последние несколько лет в работах Н. Г. Загоруйко, А. М. Налетов, А. А. Соколова рассматриваются различные методы для автоматического формирования онтологии, для чего используется лексический и синтаксический анализ документов. Но релевантность полученных онтологии достаточно низкая, и вопрос автоматического построения онтологии остается актуальным.

Цель работы

Основной целью диссертационного исследования является разработка математической модели семантического полнотекстового поиска на основе онтологии предметной области, автоматически построенной на базе информационных библиографических коллекций с классификационными кодами.

Для достижения этой цели необходимо решить следующие задачи:

  1. Провести анализ различных моделей информационного поиска, использующих, в том числе семантические методы;

  2. разработать модель онтологии, способной отражать понятия и структуры, свойственные текстам естественного языка;

  3. предложить алгоритмы для создания подобной онтологии на основе распределенных информационных коллекций с классификационными кодами;

  4. разработать математическую модель семантического поиска, использующую созданную онтологию;

  5. реализовать систему формирования обобщенной онтологии на основе распределенных информационных коллекций по протоколу Z39.50;

  6. разработать информационную систему «semanticSearch», осуществляющую семантический поиск ресурсов по запросу пользователя в больших электронных коллекциях полнотекстовых документов.

Научная новизна и практическая ценность диссертационного исследования:

1. Построена новая расширенная модель онтологии предметной области, в которой определены формальные функции интерпретации концепций

  1. Построена математическая модель семантического поиска использующей расширенные функции интерпретации онтологии предметной области, что обеспечивает увеличение коэффициента полноты информационного поиска.

  2. Предложен новый метод автоматического построения онтологии на основе информационных библиографических коллекций, распределенных в сети Интернет, позволяющий сформировать более релевантную онтологию, базирующуюся на результатах работы экспертов.

Основными практическими результатами исследования является следующее:

  1. Разработаны алгоритмы построения онтологии на основе распределенных библиографических баз данных с использованием протокола z39.50.

  2. Разработаны, реализованы и внедрены в рамках библиотечной информационной системы ЧелГУ алгоритмы семантического поиска на основе полученной онтологии.

Методы исследований

При решении задач использовался математический аппарат теории множеств, теории вероятности, когнитивные модели представления знаний.

Основные научные результаты, полученные автором:

  1. Математическая модель семантического поиска на основе онтологического подхода, учитывающая все виды отношений в онтологии и функции интерпретации.

  2. Расширенная математическая модель обобщенной онтологии, специализированной для задач информационного поиска с формализованными функциями интерпретации концепций и интерпретации терминов.

  3. Новый метод автоматизированного построения обобщенной онтологии на основе библиографических баз данных, распределенных в сети Интернет.

  4. Практическое применение предложенного метода для создания обобщенной онтологии с использованием возможностей протокола Z39.50.

  5. Предложен ряд алгоритмов на основе модели семантического поиска для практической реализации в информационно-поисковой системе.

Апробация работы

Основные результаты работы были представлены на следующих конференциях:

  1. Международная конференция «Компьютерные науки и информационные технологии CSIT2005» — Уфа, 2005.

  2. Всероссийская конференция «Математика. Механика. Информатика», Челябинск, ЧелГУ, 2006.

  3. Международная конференция «Компьютерные науки и информационные технологии CSIT2007» — Уфа, 2007.

  4. Международная конференция «ИТ-технологии в образовании». — Москва, МГУ, 2006.

  5. Международная конференция «Компьютерные науки и информационные технологии CSIT2006» — Karlsruhe, Germany, 2006.

  6. Международная конференция «Информационно-математические технологии в экономике, технике и образовании» — Екатеринбург, 2007.

  7. Международная конференция «Компьютерные науки и информационные технологии CS1T2008» — Antalya, Turkey, 2008.

  8. 4-я региональная зимняя школа-семинар аспирантов и молодых ученых. — УГАТУ, Уфа, 2007.

  9. 10-я Международная конференция «Компьютерная лингвистика и интеллектуальные технологии» — Москва, 2009.

Публикации

Основные материалы диссертационной работы были опубликованы в 12 работах, в том числе одна статья в издании, рекомендованном ВАК, 11 — в материалах и трудах конференций.

Структура и объем диссертации

Булевское семейство моделей

Способность находить и ранжировать документы, не содержащие слов из запроса, часто считают признаком искусственного интеллекта или поиска по смыслу и относят к преимуществам модели.

В теории информационного поиска данную модель принято называть латентно-семантическим индексированием (иными словами, выявлением скрытых смыслов) [9]. Эта алгебраическая модель основана на сингулярном разложении прямоугольной матрицы, ассоциирующей слова с документами. Элементом матрицы является частотная характеристика, отражающая степень связи слова и документа, например, TF IDF. Вместо исходной миллионно-размерной матрицы авторы метода [49] предложили использовать 50-150 «скрытых смыслов», соответствующих первым главным компонентам ее сингулярного разложения.

Сингулярным разложением действительной матрицы А размеров m n называется всякое ее разложение вида А = USV, где U - ортогональная матрица размеров m m, V - ортогональная матрица размеров n n, S диагональная матрица размеров m n, элементы которой StJ =0, если

Величины S. называются сингулярными числами матрицы и равны арифметическим значениям квадратных корней из соответствующих собственных значений матрицы ААТ. В англоязычной литературе сингулярное разложение принято называть SVD-разложением.

Доказано [50], что если оставить в рассмотрении первые к сингулярных чисел (остальные приравнять нулю), мы получим ближайшую из всех возможных аппроксимацию исходной матрицы ранга к (в некотором смысле ее «ближайшую семантическую интерпретацию ранга к»). Уменьшая ранг, мы отфильтровываем нерелевантные детали; увеличивая, пытаемся отразить все нюансы структуры реальных данных.

Операции поиска или нахождения похожих документов резко упрощаются, так как каждому слову и каждому документу сопоставляется относительно короткий вектор из к смыслов (строки и столбцы соответствующих матриц). Однако по причине малой или осмысленности «смыслов», или по какой иной, но использование LSI в лоб для поиска так и не получило распространения. Хотя во вспомогательных целях (автоматическая фильтрация, классификация, разделение коллекций, предварительное понижение размерности для других моделей) этот метод находит применение.

Наконец, в 1977 году Robertson и Sparck-Jones (Робертсон и Спарк-Джоунз) [38,51] обосновали и реализовали вероятностную модель, также положившую начало целому семейству. Релевантность в этой модели рассматривается как вероятность того, что данный документ может оказаться интересным пользователю. При этом подразумевается наличие уже существующего первоначального набора релевантных документов, выбранных пользователем или полученных автоматически при каком-нибудь упрощенном предположении. Вероятность оказаться релевантным для каждого следующего документа рассчитывается на основании соотношения встречаемости терминов в релевантном наборе и в остальной, «нерелевантной» части коллекции.

Недостатки рассмотренных моделей: Булева модель - невысокая эффективность поиска, жесткий набор операторов, невозможность ранжирования. - Векторно-пространственная модель связана с расчетом массивов высокой размерности, малопригодна для обработки больших массивов данных. - Вероятностная модель характеризуется низкой вычислительной масштабируемостью, необходимостью постоянного обучения системы. к результатам работы поисковой системы и экспертной системы — степень соответствия запроса и найденного, то есть уместность результата.

Это понятие появилось из философских теорий, объясняющих относительную связь между источниками информации, и изучается многими направлениями науки [10,11].

В первые годы развития области информационного поиска рассматривался ряд альтернатив понятию релевантность, например, популярное в экспертных системах понятие неопределенность (uncertainty). Обсуждение понятия релевантности в контексте информационно-поисковых систем ведется уже около полувека, но его детального общепринятого определения все еще нет [11].

Функция мперпреталии терминов

В настоящее время в России в библиотечном сообществе широко распространена идея создания сводных каталогов, объединяющих отдельные библиотечные каталоги участников либо в единый физический каталог (путем копирования данных на один сервер), либо в распределенный каталог (поиск и работа с которым осуществляется распределенно). Это позволяет заинтересованным пользователям использовать объединенные результаты трудов участников консорциума.

В результате работ по созданию корпоративных библиотечных систем в России за последние 5 лет было создано 13 региональных консорциумов, объединяющих каталоги местных библиотек и предоставляющих бесплатную возможность поиска по ним. Однако возможность одновременного поиска по нескольким каталогам всегда ограничивается рамками одного консорциума. В 2002 году была организована ассоциация российских библиотечных консорциумов — АРБИКОН, основной задачей которой является дальнейшее развитие библиотечных консорциумов. Одним из нововведений является возможность одновременного поиска по всем существующим в России библиотечным каталогам. [70]

Для создания подобных консорциумов необходимы средства для интеграции разнородных библиотечных систем и средств поиска. В первую очередь, это включает в себя стандартизацию процесса описания книг и стандартизацию протоколов поиска и извлечения информации из библиотечных каталогов.

Библиографическая база данных предназначена для хранения библиографических записей, которые могут быть представлены в различных форматах семейства MARC. Основным форматом библиографических записей, используемым в России, является RUSMARC[56], Российский коммуникативный формат предоставления библиографических записей в машиночитаемой форме. RUSMARC представляет собой адаптацию Международного коммуникативного формата UNIMARC к российской нормативно-методической базе и практике каталогизации.

Коммуникативный формат не оговаривает форму, содержание или структуру записи локальных систем, он содержит рекомендации по форме и содержанию данных, предназначенных для обмена. Запись коммуникационного формата не предписывает локальной системе необходимые формы вывода, но должна обеспечивать достаточный набор данных для генерации видов описаний, принятых в данной системе. В целом библиографическое описание представляет собой совокупность библиографических сведений о документе, приведенных по определенным правилам, устанавливающим порядок следования областей и элементов, и предназначенных для идентификации и общей характеристики документа.

Итак, рассмотрим общую структуру библиографической записи, которую можно представить в следующем виде: маркер Справочник переменные разделитель записи поля записи

Таким образом, каждая запись должна содержать: Маркер записи, состоящий из 24-х символов. Он содержит данные, относящиеся к структуре записи и предназначенные для ее обработки. Справочник, каждая статья которого состоит из трех частей: 3-х цифровая метки для каждого поля данных, длина поля и позиция начального символа, относящегося к первому полю данных. Поля данных переменной длины, отделенные друг от друга разделителем поля. Поле - определенная строка символов, идентифицированная меткой, содержащее одно или более подполей. Это часть записи, соответствующая одной области библиографического описания, одной предметной рубрике, одному шифру хранения и т.д.

В библиотечном сообществе, да и не только в нем, существует огромное количество информационно-поисковых систем, электронных каталогов, систем автоматизации, которые поддерживают абсолютно различные формы представлении информации. В этой большой проблеме можно выделить несколько составных частей. Во-первых, очевидно, что различные базы данных имеют различную структуру хранения информации. Это означает, что записи базы данных (документы) могут иметь разные наборы полей, в каждом конкретном случае поля могут трактоваться по-разному, а, следовательно, и наполняться данными по-разному в различных системах. Для примера рассмотрим поле, встречающееся в любой библиографической базе данных, - поле АВТОР. В связи с тем, что в различных базах данных информация хранится в соответствии с разными стандартами (а иногда и вовсе без всяких стандартов, просто так, как сочли удобным разработчики), в этом поле могут содержаться совершенно разные значения. Например, если документ базы данных состоит из полей, соответствующих полям записи MARC, то в этом поле, скорее всего, будет содержаться фамилия первого автора и источника. Однако возможна такая ситуация, когда поля базы данных сформированы исходя из других соображений, и в поле АВТОР могут содержаться повторяющиеся значения, т.е. фамилия не только первого автора, а все фамилии авторов источника вместе. Подобная ситуация происходит с другими полями, например, когда выделяется основное заглавие документ, все остальные (подзаголовок, альтернативные заглавия и т.д.) заносятся в одно поле. Все это вносит определенные неудобства, как при поиске информации, так и на.этапе ее выдачи пользователю.

Структура библиографических баз данных и распределенный поиск по ним

История создания и цели разработки протокола доступа к распределенным ББД. Управление доступом к распределенным информационным ресурсам и взаимодействие ЭБ осуществляется по принципу распределенных систем на базе открытых стандартов обмена данными. Для реализации ЭБ используются в основном два протокола: Z39.50 и HTTP. Протокол Z39.50[3], изначально ориентированный на информационно-поисковые задачи, функционально обеспечивает поддержку поисковой сессии.

Разработка стандарта, обеспечивающего взаимодействие поисковой программы-клиента с удаленной ИПС с поддержкой необходимого для поиска сервиса (в виде протокола уровня приложения) началась в начале 80-х годов под руководством Библиотеки Конгресса США. В 1984 г. была подготовлена предварительная версия стандарта, обеспечивавшая поиск только библиографических данных, а в 1988 г. -версия 1 протокола Z39.50 (по названию рабочей группы), формально обеспечивающая поиск и данных других типов (не только библиографии). Эта версия протокола к настоящему времени окончательно устарела. В 1992 г. была утверждена вторая версия, соответствующая расширениям протокола, появившимся в процессе его доведения до уровня стандарта ISO.

Разработка действующей версии ста нд а рта [Z3 9.5 0-1995] была начата в декабре 1991 г. на базе Агентства по сопровождению Z39.50, образованного при Библиотеке конгресса США и проводилась по апрель 1995 г., причем каждая черновая версия проекта проходила обсуждение на совещаниях специальной Группы ZIG, через списки рассылки и экспертизу Агентства Z39.50. Результаты этой работы учитывались в последующих версиях стандарта, которые позволили в 1995 г. создать ныне действующий стандарт Z39.50-1995. В настоящее время ведется разработка четвертой версии стандарта, наиболее значительные отличия которой от предыдущих версий включают поддержку SQL в качестве одного из допустимых языков запросов и регулярных выражений в качестве локальных критериев других языков запросов.

Стандарт[59] определяет протокол типа клиент/сервер для информационного поиска. Он включает процедуры и структуры для поиска в разнородных базах данных для клиентов, обеспечиваемых сервером. Поддерживаются контроль доступа, удаленное обслуживание и средства помощи. Протокол определяет форматы и процедуры, управляющие обменом сообщениями типа запрос/ответ между клиентом и сервером, необходимыми при выполнении поиска в базах данных и идентификации записей, которые отвечают заданным критериям, а также получения (извлечения) некоторых или всех идентифицированных записей.

Клиент может инициировать запрос в интересах пользователя, протокол адресует передачи между соответствующими приложениями информационного поиска клиента и сервера, которые могут быть реализованы на разных компьютерах. Взаимодействие между [программой-]клиентом и пользователем лежит вне рамок протокола Z39.50. Протокол включает в себя понятие Z-ассоциации - сессии (сеанса), постоянно поддерживаемой между клиентом и сервером, и разрываемой только при помощи специальной службы.

Таким образом, все взаимодействия между клиентом и сервером происходят только в рамках установленной Z-ассоциации, что обеспечивает протоколу наличие памяти и позволяет избежать явного сохранения промежуточных данных в процессе взаимодействия. Протокол предусматривает существование различных наборов атрибутов для поиска и синтаксисов описания записей. Агентство по і сопровождению Z39.50 ведет реестр наборов атрибутов. Основные службы протокола Z39.50 В самом протоколе объявлены 11 сервисов, которые и выполняют весь спектр действий предусмотренных в протоколе[59]: Служба Init: инициализирует Z-ассоциацию, и позволяет клиенту и серверу обменяться информацией о поддерживаемых службах.

Служба Search: создает результирующее множество в соответствии с заданными клиентом критериями поиска. В качестве терминов используется текст, сопряженный с произвольным набором атрибутов, несущих как служебную, так и поисковую информацию. В качестве результата служба возвращает идентификатор результирующего множества и его мощность.

Служба Present: отвечает за передачу записей между клиентом и сервером. Передача предусматривает выбор синтаксиса (если это необходимо), также возможна сегментация результирующего множестваи/или отдельных документов.

Служба Scan: осуществляет сканирование базы данных с целью извлечения терминов для поиска и предоставления их списка клиенту. В качестве параметров принимает термин-шаблон, размер шага, количество возвращаемых терминов.

Служба Explain: позволяет клиенту получать с сервера необходимую для поиска и настройки вспомогательную информацию. В протоколе существуют специализированные форматы, призванные описывать синтаксисы поддерживаемых форматов, подключенные к серверу базы

Реализация алгоритма семантического поиска с использованием онтологии

Для практической проверки предложенных алгоритмов семантического поиска на основе онтологической модели в рамках диссертационной работы было предложено использование существующей ИПС с ее расширением на основе семантической интерпретации запроса. Рассмотрим основные особенности наиболее известных ИПС для выбора наиболее эффективной для поиска документов, соответствующих расширенному запросу.

Название системы: Служба индексирования и поиска Windows Indexing Services. Назначение системы: Система индексирования, текстов, содержащихся на компьютере в файлах почти всех известных форматов, и быстрого морфологического поиска по текстовым запросам различного вида по всему проиндексированному тексту.

Отличительные черты программы: Встроена в операционную систему. Процесс индексирования осуществляется в промежутках бездействия компьютера.

Программные требования: ОС Windows ХР Professional, Vista Пользовательский интерфейс: Позволяет проводить два вида поиска. Один для простого контекстного поиска по текстовому запросу, другой для поиска по индексированному массиву файлов. Индексированный поиск также имеет два уровня сложности: стандартный поиск и расширенный. Расширенный поиск включает множество различных функций поиска и язык запросов, позволяющий управлять этими функциями. Язык запросов достаточно сложен для неподготовленного пользователя.

При поиске используются несколько типов запросов, в том числе текстовые запросы в свободной форме; запросы фраз; запросы по шаблонам, векторные запросы с использованием весовых коэффициентов.

Поиск с учетом морфологии русского языка. Поиск с учетом расстояния между словами, в том числе в пределах абзаца и на точное совпадение фразы. Возможно использование логических операторов. Ранжирование найденных документов по релевантности.

Базовое ПО (СУБД): Собственная разработка. Стандартное программное ядро поисковой системы работает во всех вариантах системы. Лингвистическое обеспечение: Морфологический словарь русского языка GOOGLE

Программное обеспечение, которое лежит в основе технологии поиска Google, производит серии одновременных расчетов, которые занимают лишь доли секунды. Традиционные поисковые серверы в большой мере исходят из того, насколько часто слово появляется на веб-странице. Google использует PageRank для изучения всей структуры ссылок Интернета и определения, какие страницы являются наиболее важными. Затем выполняется анализ сопоставления гипертекста для определения, какие страницы являются релевантными для данного поиска. Сочетание показателей общей значимости и релевантности для конкретного запроса позволяет Google размещать на первых местах наиболее релевантные и надежные результаты.

Технология PageRank. PageRank[85,86] выполняет объективную оценку значимости веб-страниц путем расчета уравнения с более 500 переменными и 2 миллиардами терминов. Вместо подсчета прямых ссылок PageRank интерпретирует ссылку страницы А на страницу В как голос страницы А в пользу страницы В. Затем PageRank оценивает значимость страницы по числу полученных голосов. PageRank также учитывает значимость каждой отдавшей голос страницы, так как голоса некоторых страниц имеют больший вес и, тем самым, повышают ценность страницы, на которую они ссылаются. Такие важные страницы получают более высокую оценку PageRank и отображаются на первых местах результатов поиска. Технология Google использует коллективный интеллект Интернета для определения значимости страницы. Человек не принимает участия в обработке результатов, именно поэтому пользователи стали доверять поисковой системе Google, которая предоставляет объективную информацию, не искаженную платой за позицию в результатах поиска.

Google использует показатель PageRank найденных по запросу страниц, чтобы определить порядок выдачи этих страниц посетителю в результатах поиска.

Поисковый сервер Google также анализирует содержание страниц. Однако вместо простого сканирования текста на странице (которым могут манипулировать издатели сайта с помощью метатегов) выполняется анализ полного содержания страницы и таких факторов, как шрифты, подразделы и точное местоположение каждого слова. Google также анализирует содержание соседних веб-страниц, чтобы обеспечить максимальную релевантность результатов поиска по запросу пользователя.

Наш выбор был обусловлен, прежде всего, ценой продукта и простотой разработки дополнительного интерфейса к готовой И ПС. Поскольку применение алгоритма PageRank на локальной коллекции документов не имеет смысла, был выбран продукт Яндех.Standard компании Яндекс.

Похожие диссертации на Математическая модель семантического поиска с использованием онтологического подхода