Содержание к диссертации
Введение
ГЛАВА 1. Формы информационного обслуживания специалистов и научных работников информационными ресурсами сети Internet 14
1.1 Анализ существующих систем документально-фактографического поиска в WAN Internet, средств доступа к ним и проблем их использования 14
1.2 Принципы организации технологии избирательного распределения информации 21
ГЛАВА 2. Модель системы ИРИ на базе информационных ресурсов сети Internet
2.1 Системы избирательного распределения информации на базе информационных ресурсов сети Internet. Формирование критериев отбора информационных ресурсов на базе модели, построенной на основе информационного подхода Денисова 28
2.2 Анализ принципов формирования информационно-поисковых языков 34
2.3 Построение системы автоматического индексирования на базе анализа текста с использованием концепции неоднородных семантических сетей 41
2.4 Формирование логики системы при применении информационно-поискового языка, построенного на концепции неоднородных семантических сетей 51
2.5 Обобщенная теоретико-множественная модель дескрипторного поиска, основанная на концепции неоднородных семантических сетей 57
ГЛАВА 3. Управление в системах избирательного распределения информации 62
3.1 Модель управления информационным поиском в системах избирательного распределения информации на базе ресурсов Internet 62
3.2 Применение метода управления на знаниях для принятия решений в системах ИРИ 67
3.3 Анализ принципов оценки эффективности избирательного распределения информации 75
3.4 Разработка алгоритмов принятия решений на знаниях в системах избирательного распределения информации на базе информационных ресурсов сети Internet 83
3.5 Управление информационным поиском на основе идеи последовательного снижения семантической силы информационно-поискового языка 85
3.6 Управление информационным фондом системы ИРИ 90
ГЛАВА 4. Реализация систем ИРИ на базе информационных ресурсов сети Internet 94
4.1 Разработка структуры системы ИРИ на базе информационных ресурсов сети Internet 94
4.2 Спецификации встроенного Web - браузера и подсистемы интерпретации документов в формате HTML 101
4.3 Спецификации модуля формирования поискового образа документа в виде неоднородной семантической сети при анализе натурального текста информационного ресурса Internet 105
4.4 Спецификации модуля поиска информации в иерархических неоднородных семантических сетях 112
4.5 Выбор средств реализации системы ИРИ 122
ГЛАВА 5. Экспериментальное оценка вариантов системы ИРИ для специалиста в области информационных технологий 127
5.1 Анализ информационных потребностей абонентов системы ИРИ и свойств информационных ресурсов из области информационных технологий на основе расширенных законов Ципфа с учетом информационных оценок Денисова 127
5.2 Экспериментальная оценка качества избирательного распределения информации при использовании различных вариантов системы ИРИ
на базе информационных ресурсов сети Internet 135
Заключение 142
Список использованных источников 143
Приложения:
- Анализ существующих систем документально-фактографического поиска в WAN Internet, средств доступа к ним и проблем их использования
- Системы избирательного распределения информации на базе информационных ресурсов сети Internet. Формирование критериев отбора информационных ресурсов на базе модели, построенной на основе информационного подхода Денисова
- Модель управления информационным поиском в системах избирательного распределения информации на базе ресурсов Internet
- Разработка структуры системы ИРИ на базе информационных ресурсов сети Internet
Введение к работе
Актуальность темы исследования. Существует достаточно большое количество программных продуктов и сервисов для обеспечения доступа к многообразию информационных ресурсов, предоставляемых сетью Internet. К сожалению, данные разработки обладают рядом недостатков, связанных со сложностью их настройки на нужды конкретного потребителя. Проблемы такого рода призваны решать системы избирательного распределения информации (ИРИ), учитывающие состав потребностей пользователей, свойства текста в процессе информационного обслуживания.
В связи с этим, возникает задача управления в системах избирательного распределения информации на базе информационных ресурсов сети Internet, заключающаяся в принятии решений по выбору технологий информационного обслуживания для удовлетворения потребностей абонентов.
Моделирование процесса принятия решений при управлении в системах ИРИ - одна из наименее исследованных проблем в теории управления.
С учетом вышесказанного проблема управления ИРИ является актуальной, что и обусловило выбор темы: «Управление в системах избирательного распределения информации на базе ресурсов сети Internet".
Цель диссертационной работы - исследование и разработка методов и моделей для принятия решений при управлении в системах избирательного распределения информации на базе информационных ресурсов сети Internet.
В соответствии с этой целью задачами диссертационной работы являются: разработка и исследование моделей управления в системах избирательного распределения информации, включающих анализ и разработку системы критериев качества информационного обслуживания в системах ИРИ; исследование и разработка методов и моделей информационного по- иска в системах ИРИ; v 3) исследование свойств информационных ресурсов и потребностей або- нентов системы ИРИ, включающих формирование критериев отбора информационных ресурсов для удовлетворения этих потребностей.
Объект исследования: процесс управления в системах избирательного распределения информации на базе информационных ресурсов сети Internet.
Предмет исследования: методы управления в системах избирательного распределения информации на базе информационных ресурсов сети Internet
Методы исследования. Для решения поставленных задач, формирования и исследования предложенных моделей был использован комплекс методов: методы и алгоритмы управления на знаниях; методы математической лингвистики, теории формальных грамматик и языков по Хомскому; методы представления знаний в системах искусственного интеллекта; информационный подход к моделированию систем А.А.Денисова; подходы и методы структуризации и системного анализа сложных проблемных ситуаций с неопределенностью.
Методологическая основа и источники исследования:
Теоретическую основу исследования составили труды и работы ведущих отечественных и зарубежных ученых: в области управления на знаниях - Д.А. Поспелова, Г.С. Клыкова, Л.С. Загадской и др.; в области теории информационного поиска - С. Вермера, Р.С. Гилярев- ь- сокого, Х.П. Луна, Ч. Мидоу, А.И. Михайлова, Б.Р. Певзнера, Г.Сэлтона, А.И.
Черного и др.; в области теории формальных языков и лингвистических представлений - Е.И. Красильниковой, А.Р. Лурия, Н. Хомского и др.; в области теории систем с искусственным интеллектом - М.А. Комаро- ва, Г.С. Осипова, Э.В. Попова, А.А. Смольянинова и др.; в области исследования информационных потребностей и обработки натурального текста - С.Брэдфорда, Б.Викери, В.И. Горьковой, Т.И.Гусевой, Б.Мандельброта, Р.Г.Пиотровского, Г.Ципфа и др.; в области теории систем и системного анализа - В.Н. Волковой, А.А. Денисова, М.Д. Месаровича, Ф.И. Перегудова, Г.С. Поспелова, Ф.П. Тарасен-ко, Ф.Е. Темникова, Ю.И. Черняка, В.З. Ямпольского, С. Янга и др.
Среди источников исследования, на которых основывались эмпирические и теоретические выводы, были также: документация фирмы ШМ по заданной области исследования; RFC 1180 «A TCP/IP Tutorial», RFC 1738 «Uniform Resource Locators, URL».
Научная новизна и теоретическая значимость исследования заключается в следующем: задача управления в системах избирательного распределения информации, предоставляемой информационными установками сети Internet, решается на основе предложенной модели, базирующейся на представлении процесса поиска в ИРИ в терминах теории управления на знаниях; предложен и реализован принцип формирования системы оценок качества избирательного распределения информации на ряде страт (от информационной емкости ресурсов до качества информационного поиска). исследованы и разработаны алгоритмы информационного поиска и индексирования, обладающие различными смысловыражающими характеристиками (от простейшего языка ключевых слов без базисных отношений до ИПЯ, построенного на принципе неоднородных семантических сетей) с точки зрения применимости в процессе принятия решений в системе ИРИ; предложен принцип отбора информационных ресурсов для индексирования путем использования информационных моделей Денисова в развитие существующих статистических методов (Ципфа, Мандельброта, Брэдфорда и др.).
Практическая значимость исследования заключается в разработке и использовании автором системы ИРИ на базе информационных ресурсов сети Internet в двух вариантах, ориентированных на различные подходы к построению поисковых языков и индексированию. Содержащиеся в работе положения и выводы применяются при проектировании и разработке систем ИРИ.
Обоснованность и достоверность результатов исследования обеспечены соблюдением методологических принципов системного подхода к изучению проблемы, применением комплекса методов исследования, соответствующих объекту, цели, задачам и логике исследования, экспериментальной реализацией предложенных подходов и моделей на примере информационных потребностей специалиста в области информационных технологий.
Внедрение и апробация работы имели следующие формы: основные положения и результаты исследования внедрены в НЛП "Спектр" и в ISB GmbH, Karlsruhe, Germany для организации информационного обслуживания специалистов ресурсами сети Internet; основные положения теоретической части и практические результаты диссертационной работы были представлены автором и получили одобрение на 8 международных, всероссийских, региональных научных и научно-практических конференциях: Третья Международная Конференция Студентов и Аспирантов им. Л.В. Канторовича "Предпринимательство и реформы в России", Санкт-Петербург, 1997г.; научно-практическая конференция "Экономико-организационные проблемы анализа, проектирования и применения информационных систем", Ростов-на-Дону, 1997г.; международная научно-практическая конференция "Системный анализ в проектировании и управлении", Санкт-Петербург, 1998г.; научно-техническая конференция "Релейная защита и автоматика энергосистем - 98", Москва, 1998г.; конкурс молодых ученых Вольного экономического общества России "Россия на пороге XXI века", Москва, 1998г.; научно-техническая конференция "Современные научные школы: перспективы развития", Санкт-Петербург, 1998г.; международная научно-практическая конференция "Системный анализ в проектировании и управлении", Санкт-Петербург, 1999г.; международная научно-практическая конференция "Системный анализ в проектировании и управлении", Санкт-Петербург, 2000г.
Публикации. По материалам диссертации опубликовано 11 работ.
Структура диссертации. Диссертация состоит из введения, пяти глав, выводов по каждой главе, заключения, списка литературы из 123 наименований и трёх приложений. Общий объём диссертации составляет 172 страницы машинописного текста, который включает 35 рисунков и 21 таблицу.
В первой главе показаны особенности развития сети Internet, приведены существующие сервисы доступа, распределенные поисковые системы, комплексы программ доступа к ним и проблемы их использования. Сделан вывод о необходимости управления выбором технологий информационного обслуживания для удовлетворения потребностей абонентов в системах ИРИ на базе ресурсов сети Internet.
Во второй главе изложены теоретические основы построения систем избирательного распределения информации на базе информационных ресурсов сети Internet. Рассмотрены различные методы анализа информационных потребностей, изложены рекомендации по их применению в различных ситуациях. Рассмотрен вопрос отбора информационных ресурсов для индексирования. В главе также рассмотрены требования и существующие подходы к реализации основных компонент информационно-поисковой системы - информационно-поискового языка, системы индексирования и логики поиска.
Третья глава посвящена вопросам управления в системах избирательного распределения информации. Сформулирована задача управления в системах ИРИ. В главе рассмотрены основные характеристики абонентов системы, информационных областей и гипертекстовых ресурсов сети Internet, информационных ресурсов, влияющих на процесс принятия решений.
В четвертой главе проведен анализ подходов к программной реализации системы избирательного распределения информации, разработаны два её варианта с различными уровнями смысловыражающих характеристик с целью выявления оптимальных областей их применения. Особое внимание уделено рассмотрению вопросов проектирования информационного обеспечения задачи. Рассмотрены алгоритмы построения неоднородных семантических сетей на базе метода Попова, расширены существующие методы поиска в семантических сетях для случая иерархических семантических сетей. В качестве основной операционной системы предлагается использовать ОС Windows NT, в качестве основной среды интерфейсной разработки выбран MS Visual Basic 6.0, с использованием клиент-серверных разработок вида MS SQL server 7.0.
Пятая глава посвящена экспериментальному использованию системы и ее оценке. В ней приведены результаты: исследования свойств информационных ресурсов, необходимых для удовлетворения ИП специалистов в области информационных технологий на основе статистического анализа научно-популярных изданий, что позволило сделать вывод о линейной форме и определить значения параметров функции информационной емкости; исследования информационных потребностей специалистов в области ИТ; сравнительной оценки качества информационного обслуживания двух вариантов реализации системы ИРИ на базе информационных ресурсов сети Internet на основе полученных экспериментальных данных по классам оценок скорости ответа и качества поиска.
Полученные результаты позволяют сделать вывод о повышении вероятности удовлетворения пользователя при использовании ИПЯ с большей семантической силой, что позволяет говорить о существовании аналогии между предложенной идеей управления последовательным информационным поиском путем ослабления смысловыражающих характеристик языка и методом управления с подкреплением Джонса и Фу.
В заключении диссертации подведены общие итоги исследований и сформулированы основные результаты.
Приложения включают инструкции для пользователей автоматизированных процедур и акты внедрения основных результатов работы.
Анализ существующих систем документально-фактографического поиска в WAN Internet, средств доступа к ним и проблем их использования
В настоящее время одним из наиболее удобных способов получения и передачи разнообразной информации является WAN Internet.
Вследствие децентрализованноети нельзя точно сказать, каковы ее размеры сегодня, но, по оценкам Network Wizards (http://www.wizards.gov), количество компьютеров, полноценно подключенных в эту сеть, последние три года ежегодно удваивалось и в июле 1998 года составило 40,6 миллионов. Многие компании вкладывают деньги в развитие сети и сервисов, ею представляемых. Если в 1996 году в компании, работающие с Internet, было вложено 52 миллиона долларов США, то уже в первом квартале 1997 года эта цифра составила 57 миллионов. Коммерциализация сети - это, возможно, самый важный аспект развития ее сегодня. Долгое время, до весны 1995 года, основные каналы связи и административные структуры Internet финансировались Национальным научным фондом США, но теперь финансирование прекращено и развитие сети происходит на коммерческой основе.
С возрастанием количества доступной информации способы ее обнаружения и доступа к ней усложняются (от e-mail, FTP в начале ее существования до WWW и Hyper-G) . В рамках WWW (как наиболее удобного способа навигации) существуют десятки служб, облегчающих поиск необходимой ин формации. Одни выполняют поиск ключевых слов только в заголовках страниц, другие - по всему тексту, третьи - по собственным специализированным каталогам (подобным нашей УДК) [111,114,123].
1. Сервер Netscape. Адрес http://home.netscape.com/home/intemet-search.html. В предложенном поле вводится ключевое слово или группа ключевых слов, разделенных логическими символами (конкатенация, дизъюнкция). Например, указав Visul Basic & source, можно найти список страниц, где есть упоминание об исходных текстах на Visual Basic.
2. Open Text Index. Выполняет поиск по всем словам на всех Web -страницах - среди более чем 21 млрд. слов и фраз. Считается одним из крупнейших доступных поисковых индексов. Возможно указание запросов практически неограниченной длины. Адрес службы: http://www.opentext.com/omw/f-omw.html.
3. Lycos (66 млн. ссылок). Одно из лучших средств поиска, позволяющее искать не только текст, но и графику, звуки и видеофрагменты с использованием сложных грамматик. Адрес службы: http://www.lycos.com Является одной из старейших и отличается полнотой результатов поиска. Ориентацию в системе облегчает наличие карты узла.
4. Magellan. Помимо непосредственного поиска представляются обзоры Web-страниц, а также FTP и Gopher- архивов и групп Usenet. Адрес службы: http://www.mckinley.com.
5. Excite. Выполняет концептуальный поиск, а не только поиск по ключевым словам. Содержимое базы данных обновляется еженедельно. В базе данных, как утверждают, содержится информация по более чем 1,5 млн. Web-страниц, обзоры более чем 50 000 Web - страниц и новости Usenet. Также предоставляется доступ к City .Net и новостям Reuters. Адрес данной службы: http://www.excite.com.
6. Alta Vista [39]. Предоставляет несколько способов поиска по более чем 8 млрд. ключевых слов на 31 млн. Web - страниц. Также доступен индекс более 13000 групп новостей. Адрес: http://altavista.digital.com. В запросах различаются прописные и строчные буквы, для поиска однокоренных слов используется знак " ". Запрос может быть детализирован специальными символами "+" и "-", указывающими на соответственно обязательное присутствие и отсутствие слова в искомом документе. Словосочетания заключаются в кавычки, для уточнения запроса введен механизм логических грамматик на операторах NOT, AND, OR. Указанные операторы дополнены указателем NEAR для поиска близко расположенных в тексте аргументов.
7. Yahoo! Эта служба - пионер среди поисковых систем. Содержит все необходимые средства для поиска с возможностью фильтрации. Адрес: http ://www.yahoo .сотЛшк/netdirsearch.html.
8. Система Hot Bot (проиндексировано 54 млн. страниц). В основе создания системы лежит технология фирмы Inktomi, позволяющая организовывать виртуальный параллельный суперкомпьютер на пространстве вычислительных машин, объединенных в сеть. Многочисленные средства Hot Bot дают возможность удобно и просто организовать самые сложные запросы (даже поиск документа по дате публикации), сохраняя при необходимости настройку опций. Одна из самых быстрых и удобных машин поиска.
9. Русская машина поиска (более 200 тыс. обращений ежемесячно). Учитывает правила словообразования, принятые в русском языке, и отказ от опции "Точное соответствие заданным ключевым словам", а также задание допустимого количества ошибок частично снимают проблему многообразия языка. Результаты поиска сопровождаются различными (по выбору пользователя) фрагментами текста; при этом количество ссылок на странице может устанавливаться от 10 до 1000.
Системы избирательного распределения информации на базе информационных ресурсов сети Internet. Формирование критериев отбора информационных ресурсов на базе модели, построенной на основе информационного подхода Денисова
Система избирательного распределения информации на базе информационных ресурсов сети Internet рассматривается как набор Ssdi = R,I,IPSdef , где I - хранимая и получаемая из Internet информация, IPSdef - информационно поисковая система, R - множество информационных потребностей абонентов. На анализе технологий построения информационно-поисковых систем мы остановимся позднее.
Под информацией понимается только научно-техническая информация, внутреннюю структуру которой можно достаточно четко установить. В противном случае было бы необходимо учитывать информативные абстракции, описанные в опытах Е.И.Красильниковой (о влиянии звуков на семантику художественного текста) [18, 31]. Ясно, что разного рода формы воздействия на чувственность человека при восприятии текста принципиально не могут быть перенесены на случай вычислительной техники.
Научно-техническая литература свободна от подобных приемов и, таким образом, при разработке системы нет необходимости учитывать такого рода особенности.
Все методы, которые используются специалистами для изучения информационных потребностей (ИП), подразделяют на две группы [21,40,42].
1) косвенные (базируются на изучении мнения специалистов, потреб v ляющих информацию): запросы, интервью, экспертные оценки, анкетирова ние. Ясно, что ИП определяется таким образом субъективно в зависимости от уровня информированности того или иного специалиста;
2) прямые (базируются непосредственно на анализе конкретного объек та, задачи или предметной области) - позволяют в некоторой степени выявить объективные потребности, независимо от того, запрашивает эту информацию специалист или нет.
Следует отметить, что в любом случае при оценке ИП возникает отклонение между объективно необходимой информацией и тем субъективным представлением о потребностях в информации, который складывается у специалиста.
Кроме дефицита информации, который связан с проблемной ситуацией и порождает ИП, существует еще и так называемая ситуативная информационная потребность, т.е. потребность, которая возникает в рамках исполнения функционально-должностных обязанностей специалиста.
В рамках косвенных и прямых методов существуют еще два подхода выявления информационной потребности [9,10]:
1) методы, основанные на анализе проблемной ситуации - обеспечивают поддержку знаний специалистов при решении какой-либо задачи (на первом этапе осуществляется структуризация проблемной ситуации по одной из известных методик ПАТТЕРН, Ю.И. Черняка и др., далее для полученного списка подзадач (программ в терминах методики ПАТТЕРН) осуществляется изучение ИП по одному из указанных выше методов);
2) метод, основанный на анализе функционально-должностных обязанностей - формулирует знания о той информации, которая необходима для исполнения служебных обязанностей. В рамках данного подхода осуществляется построение структуры целей и функций специалиста по одной из известных методик системного анализа (методика, базирующаяся на двойственном опре v делении системы; методика, основанная на концепции системы, учитывающей среду и целеполагание; методика, базирующаяся на концепции деятельности; методика структуризации целей системы, стремящейся к идеалу), далее для каждой из полученных целей определяется та информация, которая необходима для ее достижения.
Вопросом, требующим здесь своего решения, является выработка критериев соответствия информационных ресурсов указанным потребностям - решение задачи отбора информационных ресурсов.
В классических подходах (табл. 2.1) при его решении базировались в основном на статистических особенностях анализируемого текста (закон Ципфа) [2, 17, 18, 19, 20, 43]. Проблема применения данного подхода заключается в том, что указанные подходы рассматривают всю систему в статике, полностью абстрагируясь от ее динамики (старения информации). Устаревание информации, особенно в последнее время и особенно в области информационных технологий, происходит со все большими темпами. Так, например, сейчас мало уже кого заинтересует статья о возможностях операционных систем Windows 3.1, которая была некоторым стандартом еще 7 лет назад, но в настоящее время практически не используется.
Таким образом, помимо статической составляющей информационной емкости информационного ресурса необходимо использовать и его динамическую составляющую. Для оценки информационного ресурса можно воспользоваться выражением, выведенным на основе информационных моделей А.А.Денисова [10]:
Модель управления информационным поиском в системах избирательного распределения информации на базе ресурсов Internet
Традиционная теория управления в технических системах имеет дело с такими объектами, для которых процедура управления в самом общем виде представляется так, как показано на рис. 3.1.
Информационные потребности абонента (он же, в частном случае, может быть и лицом принимающим решение) X поступают на вход системы. Результат их обработки в виде списков документов и, возможно, некоторых показателей качества (вектор Y) поступают в систему управления и непосредственно ЛПР. На результат выдачи, кроме собственно вида информационной потребности, оказывает влияние множество факторов W, являющихся для системы информационного поиска внешними (сложность естественного языка, не достаточность КСС и т.п.). В процессе эксплуатации система управления оказывает на объект (система ИРИ) некоторые управляющие воздействия U, заключающиеся в выборе методов поиска и индексирования, управлении профилями абонентов и т.п. В случае необходимости, ЛПР оказывает корректирующее воздействие Z в виде модификации словаря системы, задания уточненных парадигматических отношений, изменения правил управления и т.п.
Применение тех или иных методов информационного поиска и индексирования (см. разделы 2.2 и 2.3) оправдано в определенных ситуациях. Так, например, в простейшей ситуации применения систем ИРИ в узко специализированной области со слабой полисемией слов нет смысла использовать мощные алгоритмы, построенные на семантических сетях. В этом случае простейшие языки поиска (например, перечисления дескрипторов без учета базисных отношений) дали бы более удовлетворительные результаты.
С другой стороны, при эксплуатации системы множеством людей с различными информационными потребностями в различных областях знания с сильной корреляцией терминов, применение простейших языков значительно снижает качество поиска.
Сказанное позволяет сформулировать задачу управления в системах избирательного распределения информации [84], которая заключается в выборе алгоритмов индексирования, поиска, а также представления полученных данных в зависимости от информационной потребности абонента, сложности его запроса, спектра его интересов, его индивидуальных особенностей (рис. 3.2).
Информационная потребность абонента формулируется в терминах языка системы в виде запроса.
При этом при выявлении новой информационной области, в которой для абонента существуют ИП, производится корректировка его профиля.
В зависимости от вида запроса, предпочтений и вида пользователя принимается решение (основываясь на знаниях и опытных результатах, несложно оказать конкретное управляющее воздействие) о выборе метода поиска (непосредственный поиск в Internet (см. раздел 1.1), поиск по ключевым словам (УНИТЕРМ, язык неоднородных семантических сетей и др. - см. разделы 2.2 и 2.3) с различной глубиной и шириной поиска (см. раздел 2.4) - см. блоки 1 и 3 схемы управления.
При осуществлении поиска с помощью одного из поисковых сервисов Internet (см. глава 1), найденные документы должны быть проиндексированы в базу (см. раздел 3.4) с использованием одного или нескольких алгоритмов в зависимости от свойств индексируемого текста в диалоге с пользователем или полностью автоматически (см. раздел 2.3) - см. блок 2 модели управления (см. рис. 3.2). О появлении новых поступлений в базу оповещаются все абоненты системы, имеющие в данной области информационные потребности.
В случае, если информационная потребность не удовлетворена, пользователь может выбрать другой алгоритм, сервис или параметры поиска либо внести коррективы в запрос (см. блоки 5 и 6 в модели на рис. 3.2) - управление с контуром обратной связи.
Основным критерием эффективности информационного обслуживания необходимо принять способность системы удовлетворять пользователя. Другими словами, система должна действовать главным образом как устройство для оказания помощи абонентам при удовлетворении их информационных потребностей (см. раздел 3.3).
В работах Мидоу, Ланкастера, Сэлтона выделяются ряд факторов, каждый из которых влияет на оценку систем [3,4, 52]: 1) потребители: профессиональный уровень, вид запросов и пр.; 2) фонд: охват фонда, типы пригодных для ввода документов, достоверность рефератов и т.д.; 3) индексирование: тип индексаторов, уровень и точность индексов, требуемая глубина индексирования, сложность языка индексирования и т.д.; 4) анализ и поиск: тип поиска, «мощность» и сложность поискового механизма, число поисковых попыток, точность поиска и т.д.; 5) оборудование и ввод-вывод: способы хранения, тип устройств ввода-вывода, тип и форма выдачи; 6) эксплуатационная эффективность: Стоимостные факторы, вопросы обслуживания, временной интервал, время ответа.
Таким образом, задача управления в системах избирательного распределения информации на базе ресурсов сети Internet поставлена следующим образом:
Пусть S = {si} - множество информационных областей (смыслов), U= {ц} - множество пользователей (абонентов) системы, имеющих в этих областях интересы.
Пусть f 1, j-й абонент имеет интересы в і-й области, Ри (0 = 10 , j-й абонент не имеет интересов в і-й области. Пусть D(a) сг S - функция, определяющая принадлежность информационного ресурса а (а є А, где А - множество научно-технических информационных ресурсов на поддерживаемом языке) - критерий отбора информационных ресурсов (см. раздел 5.1); {1к(а)} - множество методов индексирования (см. раздел 2.3); {Fs(r)} - множество методов информационного поиска (см. раздел 2.2), г є R, где R - множество допустимых запросов;
Разработка структуры системы ИРИ на базе информационных ресурсов сети Internet
Основываясь на анализе подходов к созданию ИПС вообще (см. раздел 2.2) и систем ИРИ в частности (см. раздел 1.2), система в своей реализации должна включать (рис. 4.1) следующие модули:
1. Модуль анализа документа на языке HTML и индексирования информации. Вообще говоря, настоящая задача требует знаний не только в области собственно гипертекстового формата, но также и определенных наработок в области распознавания образов и звуков, поскольку документы WWW являются полимедийными. Указанные вопросы не являются предметом данного исследования и поэтому в дальнейшем следует ограничиться лишь рассмотрением текстового содержания Web страниц. Данный подход является полностью оправданным, т.к. в виде разного рода текстов хранится более чем 90% информации, распределенной в Internet. Разного рода картинки обычно содержат лишь ссылочную и рекламную информацию, которая носит, вообще говоря, второстепенный характер.
2. Модуль модификации знаний системы, обеспечивающий поддержание словаря системы на актуальном уровне, задания классов смыслового соответствия, модификации информации о пользователях системы и информационных областях (см. раздел 3.2).
3. Web - браузер, для обеспечения движения по страницам сети WWW и визуального отображения информации, поддерживаюпщй стандарт HTML 4.0.
Раннєє в разделе 3.2 уже кратко говорилось о принципе реализации базы знаний в ИРИ в виде наборов модулей. В качестве основной программной технологии здесь следует принять ActiveX технологию [116], позволяющую организовывать взаимодействие между отдельными компонентами системы на некоторой стандартной основе. Управляемые по порожденному из IDispatch интерфейсу [73] СОМ объекты правил (см. рис. 3.4) вызывают также по IDispatch отдельные блоки из модулей поиска индексирования (см. рис. 4.1), модифицируют базу данных (см. далее в этом разделе) и т.п.
Важной задачей в рамках разработки структуры системы ИРИ на базе информационных ресурсов сети Internet является разработка структуры информационного обеспечения, которая бы обеспечила решение задач, сформулированных во 2 и 3 главах.
Остановимся более подробно на отдельных компонентах структуры базы данных (рис. 4.2), которая наиболее подходит к выше перечисленным требованиям, их назначении и вариантах использования.
Можно выделить следующие ключевые понятия, которыми оперирует система: абоненты, их свойства и поданные ими запросы; ключевые слова и выражения со всеми их значениями; индексированные документы, т.е. документы и страницы, посещённые пользователем в процессе движения по страницам Internet; информационные области и их свойства.
Таблица WERB содержит полную информацию о типе слова (существительное, глагол и т.п.), необходимую при проведении грамматического разбора предложения и формирования графа внутреннее структуры последнего, а также вид самого слова в его нормальной форме (для глаголов - инфинитив и т.п.).
Все возможные вариации вида слова при его изменении по числам, родам, склонениям, падежам (естественно те из них, которые поддерживаются данным видом слова) сохраняют в таблице APPEARENCE. Система построена таким образом, чтобы в процессе задания нового слова в словаре запомнить максимально возможное число его видов для снижения числа достаточно ненадежных и сложных для реализации случаев морфологического разбора слова в процессе индексации документа.
Другой таблицей, хранящей вспомогательную информацию о ключевых словах в системе, является WERBRELATION. В настоящее время она используется только лишь для целей заданий связей "слово" - "образованное слово" (например, глагол - деепричастие, образованное от этого глагола: описывать - описывая), что важно при построении графа поискового образа документа.
Центральным понятием в системе является "значение слова" (см. таблица MEANING). Как уже говорилось выше, для увеличения качества поиска будет учтен принцип полисемии. Следует также учесть здесь и принцип иерархии значений слов, т.е. необходимость определения такой связи между значениями слов, как "значение" = "обобщающее понятие". Например, "медведь" с "зверь" с "животное". Для этих целей и используют обратный набор по таблице MEANING (см. рис. 4.2). Имея такую информацию, несложно увеличить качество поиска в том случае, например, когда пользователь запрашивает информацию о всех документах о зверях, и вернуть в числе указанных также и те, где речь идет о спячке медведей.
Как уже говорилось в разделе 3.2, выделяется ряд информационных областей, для которых характерны некоторые общие характеристики (см. табл. 3.2), учет которых важен в процессе управления информационным поиском и индексированием (см. раздел 3.4) - таблица AREA. Для хранения свойств этих областей применяется таблица AREAPROP. Области организованы в дерево (см. обратную связь в таблице AREA), в результате чего можно достаточно точно и объемно описать оттенки применимости слов.