Введение к работе
Актуальность темы исследования
В связи с резким ростом объемов информации, циркулирующей в современных телекоммуникационных системах, появился ряд новых задач поиска и анализа полуструктурированной информации. Среди них следует отметить задачи повышения эффективности алгоритмов поиска информации, повышение их степени универсальности (независимости от предметных областей), полноты и точности. Существующие методы поиска способны предоставить большие списки более или менее релевантных документов в ответ на запросы пользователей, однако в действительности интерес для пользователя представляют лишь очень немногие документы из этих списков. Хорошо известно, что среди найденных поисковыми системами документов достаточно большое число последних имеют слабое отношение к запросу пользователя, а ряд документов представляет собой шум. Совершенствование методов, применяемых современными поисковыми машинами, ограничено использованием в качестве запроса набором ключевых слов. Таким образом, весьма актуальным является разработка новых методов поиска, обладающих высокой степенью точности и использующих в качестве запроса связный текст на естественном языке.
Цели н задачи исследования
Целью диссертационной работы является разработка основных архитектурных и научно-технических решений построения поисковых систем нового поколения.
Для достижения поставленной цели в работе решены следующие задачи:
1. Выполнен анализ существующих поисковых систем и применяемых в них методов поиска,
2. Предложена модель текста для задачи поиска полуструктурированной информации.
3. Исследованы семантические структуры естественно-языковых высказываний с точки зрения коммуникативной грамматики.
4. Применен ДСМ-метод машинного обучения для решения задачи распознавания интерфейсов поисковых ресурсов.
5. Разработан ряд архитектурных решений системы семантического метапоиска.
6. Разработана методика оценки качества работы поисковой системы на основе использования понятия семантической релевантности поиска.
Методы исследованная
В диссертационной работе использованы методы математической логики» системного анализа, теория множеств, теория представления знаний, теория коммуникативной грамматики русского языка, теория неоднородных семантических сетей.
Результаты, выносимые на защиту применение теории коммуникативной грамматики русского языка для задач информационного поиска.
2. Модель текста, ориентированная на решение задач информационного поиска, на основе семантической сети.
3. Применение ДСМ-метода машинного обучения для решения задачи распознавания интерфейсов поисковых ресурсов.
4. Методика оценки качества работы поисковой системы на основе использования понятия семантической релевантности поиска.
5. Программная реализация предложенных методов и алгоритмов.
Научная новизна работы
Для выражения поисковых потребностей пользователя следует предоставить ему адекватные средства. К таковым относится, в частности, использование естественного языка для написания запросов. Отсюда следует необходимость анализа (в том числе семантического) текста запроса и текстов искомых документов. Это означает, что для повышения точности поиска требуется привлечение новых методов компьютерной лингвистики и искусственного интеллекта.
В существующих системах имеются серьезные ограничения по полноте и релевантности поиска. Ограничения по полноте поиска связаны с тем, что недостаточно используются лингвистические знания (расширение запроса синонимами и синонимическими именными группами, кореферентными конструкциями, конверсивами и т.д.). Ограничения по точности (релевантности поиска) связаны с тем, что используемые средства написания запроса (набор словоформ) не позволяют отразить действительные поисковые потребности пользователя и смысл его запроса. Существуют веские соображения в пользу того, что решение подобных задач можно получить на пути применения методов искусственного интеллекта, в частности, использования методов семантического анализа информации. Однако при решении указанных задач приходится иметь дело с полуструктурированной информацией, например, с текстами на естественном языке, html-документами и т. д. Это, в свою очередь приводит к отсутствию замкнутых постановок и корректных алгоритмов решения.
Разрешение этих проблем возможно на пути взаимодействия механизмов увеличения полноты и релевантности поиска с методами метапоиска, машинного обучения и лингвистической семантики. Применение указанных методов и их взаимодействие целесообразно не только для выполнения семантической фильтрации информации, но и для обнаружения и автоматического анализа интерфейсов поисковых ресурсов.
Настоящая работа посвящена применению методов метапоиска, искусственного интеллекта и лингвистической семантики к задачам увеличения полноты и релевантности поиска, что свидетельствует о ее научной новизне.
Практическая ценность работы.
Разработанный прототип системы семантического метапоиска может быть использован как в качестве корпоративной поисковой системы» так и в качестве системы глобального поиска с функциями семантической обработки текстов и анализа естественно-языковых запросов.
Реализация результатов работы
Методы и алгоритмы реализованы в виде независимых программных модулей и используются в следующих проектах;
«Разработка программных средств смыслового поиска и анализа материалов научных исследований в области наук о жизни, опубликованных на естественных языках в научной печати и в Интернете» шифр ИТ-13.5/001» выполняемого в рамках федеральной целевой научно-технической программы «Исследования и разработки по приоритетным направлениям развития науки и техники» на 2002-2006 годы,
2. Государственный контракт № 10002-251/ОЙТВС-01/097-П1/210503-178 от 6 мая 2003 п
3. Программа фундаментальных исследований отделения информационных технологий и вычислительных систем РАН (ОИТВС РАН) "Фундаментальные основы информационных технологий и систем", проект № 2,9.
4. Проект Российского Фонда Фундаментальных Исследований № 04-07-90097.
Апробация работы
Основные положения работы докладывались и обсуждались на следующих научных конференциях:
1. IV российско-украинский научный семинар "Интеллектуальный анализ
информации" (Киев 2004). 2- Международная конференция "Программные системы: теория и приложения" (Переславль-Залесский 2004).
3, Всероссийская научно-техническая конференция "Моделирование и обработка информации в технических системах" (Рыбинск 2004).
4, Шестая международная конференция по программированию на основе знаний JCKBSE 2004 (Протвино 2004),
5 9-я национальная конференция по искусственному интеллекту с международным участием (Тверь 2004).
6. Компьютерная лингвистика и интеллектуальные технологии. Международная конференция Диалог 2005 (Звенигород 2005).
7. V международная конференция "Интеллектуальный анализ информации" (Киев 2005).
8. Российский семинар по Оценке Методов Информационного Поиска (Ярославль 2005).
9. VI международная конференция "Интеллектуальный анализ информации" (Киев 2006). Публикации
Основные результаты, полученные по теме диссертационной работы, опубликованы в 11 печатных работах {в том числе 1 публикация в ведущем рецензируемом научном издании, рекомендованном ВАК, 10 публикаций в трудах научных конференций) Личный вклад соискателя
Результаты, выносимые на защиту, получены автором самостоятельно. Личный вклад соискателя в совместно опубликованных работах составляет 2 пл.
Структура н объем работы
Диссертация состоит из введения» четырех глав, основных выводов и результатов, списка литературы и приложений. Работа изложена на 170 стр. машинописного текста, содержит 4 таблицы, 16 рисунков, 4 приложения, библиография включает 90 наименований.