Автоматизация мониторинга и системного анализа распределенной проблемно-ориентированной информации в среде Интернет Рощин Сергей Михайлович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Рощин Сергей Михайлович. Автоматизация мониторинга и системного анализа распределенной проблемно-ориентированной информации в среде Интернет : Дис. ... канд. техн. наук : 05.13.01 Брянск, 2005 197 с. РГБ ОД, 61:05-5/3067

Содержание к диссертации

Введение

Глава 1. Анализ проблем разработки и применения методов системного анализа обработки распределенной проблемно-ориентированной информации в среде Интернет 14

1.1. Роль мониторинга и системного анализа информации 14

1.2. Формализованное описание и классификация методов мониторинга и системного анализа информации 18

1.3. Анализ подходов к организации хранилищ данных 34

1.4. Обзор существующих систем автоматизации мониторинга и системного анализа распределенной информации 37

1.5. Выводы по главе. Цель и задачи диссертационной работы 48

Глава 2. Постановка и анализ задачи мониторинга и системного анализа распределенной проблемно-ориентированной информации в среде Интернет 50

2.1. Обоснование выбора и анализ свойств объекта исследования 50

2.2. Система формирования знаний 54

2.3. Структура и обобщенный алгоритм работы системы формирования знаний 58

2.4. Общие принципы математического моделирования системы формирования знаний 67

2.5. Модель предметной области 71

2.6. Выводы по главе 75

Глава 3. Исследование системных связей и закономерностей функционирования процессов мониторинга и анализа распределенной проблемно-ориентированной информации 77

3.1. Мониторинг распределенной проблемно-ориентированной информации в среде Интернет 77

3.2. Системный анализ распределенной проблемно-ориентированной информации 84

3.3. Построение хранилище данных 96

3.4. Выводы по главе 108

Глава 4. Разработка программного комплекса автоматизирующего мониторинг и системный анализ распределенной проблемно-ориентированной информации 110

4.1. Архитектура программного комплекса 110

4.2. Функциональная схема программного комплекса 112

4.3. Выбор и обоснование языка программирования 114

4.4. Разработка структуры хранилища данных 116

4.5. Конструирование пользовательского интерфейса программного комплекса 118

4.6. Схема поиска информации пользователем 122

4.7. Функциональная схема аппаратных средств 124

4.8. Выводы по главе 126

Глава 5. Применение программного комплекса автоматизирующего мониторинг и системный анализ распределенной проблемно-ориентированной информации в среде Интернет 128

5.1. Применение программного комплекса при инновационной деятельности на промышленном предприятии 128

5.2. Применение программного комплекса в образовательном процессе 132

5.3. Применение программного комплекса в системе здравоохранения.. 136

5.4. Применение программного комплекса при проведении мониторинга общественного мнения 138

5.5. Оценка эффективности системы 139

5.6. Выводы по главе 153

Заключение 154

Литература 157

Формализованное описание и классификация методов мониторинга и системного анализа информации
Обоснование выбора и анализ свойств объекта исследования
Мониторинг распределенной проблемно-ориентированной информации в среде Интернет
Конструирование пользовательского интерфейса программного комплекса

Введение к работе

В развитых странах мира за последние десятилетия создана мощная информационная структура и высокими темпами осуществляется формирование единого информационного пространства. В России на современном этапе также успешно решаются эти задачи. Единое информационное пространство способствует тесному международному сотрудничеству и ведет к экономическому росту.

В настоящее время в России принимаются законы, регулирующие действия с информацией. Правительство РФ придает огромное значение научно-техническому прогрессу. Первостепенной задачей становится, прежде всего, его дальнейшее ускорение, направленное на повышение эффективности производства и достижение высокой производительности труда.

Вследствие этого во многих сферах деятельности (промышленности, медицине, образовании и др.) начался процесс освоения новых информационных технологий (технологии Интернет/интранет, OLAP, Data mining и др.), в которых компьютерные средства используются не столько для вычислений, сколько для систематизации информации, ее хранения и обеспечения доступа к ней. При этом помимо традиционно представляемой в компьютерах символьной информации (числовой и текстовой) все шире используются другие ф ормы представления информации (media): графики и чертежи, карты, рисунки и снимки, видеофильмы, звуковая информация и т.п.

Организации создают информационные системы, переводят информационные ресурсы в электронную форму и устанавливают связи в массиве информации. Электронные информационные ресурсы ежегодно создаются, приобретаются и накапливаются, образуя большие объемы неструктурированной информации.

Созданные информационные системы должны обеспечивать пользователям следующие возможности:

Обмен видеоинформацией. Роль базового элемента в обмене играет сеть Интернет.

Повышение интеллекта аппаратно-программных средств. Сайты Интернет - своего рода интеллект существующих телекоммуникационных сетей.

Предоставление услуг с учетом индивидуальных требований абонентов. Эксплуатируемые сети связи можно рассматривать как один из важнейших аспектов поддержки персональных требований потенциальных абонентов [121].

Использование электронной информации требует решения проблемы поиска нужных пользователю сведений в большом объеме неструктурированной информации, хранящейся в компьютерах и компьютерных сетях.

Одной из главных особенностей развития образования, промышленности, медицины и др. сфер деятельности в последние годы является использование информационных ресурсов доступных через сеть Интернет.

Интернет - это глобальная компьютерная сеть, которая объединяет тысячи региональных сетей. Она охватывает все страны мира и все области знаний общества. Объем Сети - около 600 миллиардов документов [54]. Использование сети Интернет в образовании, промышленности и др. сферах ведет к сокращению издержек на обработку информации, повышению качества предоставляемых услуг, ускорению обмена, накопления, распространения и использования информации.

Интернет в значительной степени изменил способы создания, публикации, поиска и хранения информации. Пользователь, работающий в сети Интернет, имеет широкие возможности для получения разнообразной экономической, социальной, технологической, технической, научной, а также текущей информации. Интернет предоставляет доступ к сотням тысяч электронных каталогов, баз данных, архивов технической и программной

документации, библиотек программ, научно-технических справочников, электронных газет и журналов, бюллетеней новостей и многих других информационных материалов, которые можно получить из Сети непосредственно на рабочее место пользователя. При этом пользователь компьютерной Сети, отыскивающий нужные ему данные, легко сканирует информационное пространство, вне зависимости от территориального размещения информации. Практически мгновенно и единообразно он может получить как данные с сервера, соседнего отдела организации, в которой он работает, так и данные с сервера, расположенного на противоположной стороне земного шара. Благодаря возможностям оперативного взаимодействия технологии Интернета быстро проникают во все сферы человеческой деятельности, становясь стандартом делового взаимодействия.

Наиболее распространенной и популярной службой в Интернете является WWW (World Wide Web). Она использует Интернет для передачи разнообразных по тематике гипермедиа-документов (Web-страниц, т.е. документов, содержащих не только текстовую, но графическую и музыкальную информацию) от сервера, на котором эти документы находятся, к компьютеру пользователя. Информация в WWW представляется в виде документов, организованных адекватно ассоциативному мышлению - каждый из документов WWW может содержать как внутренние перекрестные ссылки, так и ссылки на другие документы, хранящиеся на том же самом или на любом другом сервере Сети. Такие ссылки называют гиперссылками, а текст, который включает ссылки - гипертекстом.

Работа в WWW происходит посредством навигации: просмотрев один из документов, пользователь активизирует какую-либо из его ссылок и тем самым вызывает для просмотра другой документ, связанный с данным.

Однако поиск информации посредством навигации нельзя признать эффективным. При наличии большого количества ссылок пользователь теряет ориентацию в гипертексте. Изначально выбрав неверный путь, можно не найти

ни одного релевантного документа. Даже если такой документ найден, пользователь может на этом остановиться и тем самым получить неполную информацию. Необходимость просмотра большого количества информации в поисках релевантной ведет к информационным перегрузкам, которые сказываются в усталости, потере внимания, поверхностном понимании информации [20].

Сейчас предпринимаются попытки исправить описанную ситуацию в WWW. Разработаны рекомендации [164] по созданию семантической Web, под которой понимается структура, наполненная информацией о смысловом содержании, понятной автоматизированным системам. Р азрабатывается Сеть знаний (Knowledge Web) с ориентацией на нужды информационных технологий в промышленности, науке и образовании.

Подобные нововведения значительно упрощают процессы обработки информации в Сети и особенно процессы поиска, тем не менее, имеющиеся сейчас в Интернете информационные ресурсы и большинство вновь создаваемых, а также программное обеспечение, осуществляющее доступ к ним, данные подходы не поддерживают.

Другой значимой и популярной службой Интернета является FTP (File Transfer Protocol). Она представляет собой обычную иерархию тематических каталогов в которых, как правило, хранятся файлы с программным обеспечением, мелодиями, документацией, текстами книг и т.п. Перемещение по FTP-ресурсам осуществляется сменой текущего каталога и просмотром содержащихся в нем файлов и подкаталогов.

Использование информации из FTP-ресурсов затруднено ввиду следующих причин. Принятая классификация файлов в каталоге может быть непонятна пользователю, не соответствовать тематике исследуемой предметной области или документы могут быть неструктурированны. FTP-ресурсы не предоставляют возможности просматривать всю иерархию. Особенности файловых систем накладывают ограничения на имена присваиваемые файлам и

каталогам, что приводит к использованию в них сокращений, аббревиатур и условных обозначений понятных только узкому кругу лиц.

Еще одной важной особенностью Интернета является, то, что она постоянно изменяется. Организации публикуют в Сети новые, удаляют устаревшие и изменяют существующие документы. Ежедневные операции по ведению и корректировке документов в Интернете проводятся в весьма больших масштабах. Указанная особенность делает невозможным проведение обработки информации Сети без использования специальных автоматизирующих этот процесс средств.

Таким образом, быстрое развитие глобальной компьютерной сети Интернет обострило проблему поиска содержащейся в ней информации. Из-за изменения информации, доступной через сеть Интернет, навигационные методы поиска быстро достигают предела своих функциональных возможностей и предела эффективности применения. Протокол HTTP, используемый в WWW, позволяет лишь проводить навигацию, которая дает возможность только просматривать страницы, но не искать их. Аналогичная ситуация обстоит и с другим основным протоколом Интернета - FTP, который предназначен для передачи файлов. Таким образом, основа Сети - протоколы, используемые для передачи информации, - не обеспечена достаточными встроенными функциями поиска. В сложившихся условиях потребность в использовании средств поиска информации при поиске документов в глобальной компьютерной сети Интернет становится особенно актуальной.

Существующие в сети Интернет средства поиска многочисленны и разнообразны как по тематике, так и по охвату информации. Наряду с преимуществами, которые они предоставляют конечным пользователям, в них содержится и ряд существенных недостатков. Ни одна из систем осуществляющих поиск информации не охватывает весь Интернет. В тоже время значительная часть информации в средствах поиска дублируется. При поиске информации на какую-либо определенную тему пользователю не только

надо знать и уметь работать со всеми возможными источниками данной информации (средствами поиска, архивами документов и др.) но и затратить значительное количество времени на систематизацию и анализ полученной от них информации, поскольку маловероятно, что в сети Интернет найдется глобальное средство поиска по выбранной теме (особенно для достаточно узких тем), которое способно предоставить всю доступную в Интернете информацию по этой теме. При этом на обработку информации может уйти значительно больше времени, чем на ее поиск. Информация из Сети, сведения о которой найдены в средстве поиска, к тому времени, когда пользователь решил ее просмотреть может быть перемещена в другое место или удалена. При использовании информации из Интернета велика вероятность заражения компьютера вирусом, что может привести к полной потере имеющейся информации.

Приведенные особенности глобальной компьютерной сети Интернет (являющейся предметом исследования данной диссертационной работы) ведут к необходимости проведения исследования процессов мониторинга и системного анализа распределенной проблемно-ориентированной информации в компьютерных сетях, а также создания программных продуктов обеспечивающих точный и легкий доступ к слабоструктурированной или неструктурированной информации.

Цель работы. Целью диссертационной работы является автоматизация мониторинга и системного анализа распределенной проблемно-ориентированной информации в сети Интернет на основе разработки новых подходов к построению методов информационного поиска, формирования и управления знаниями.

Методология и методы исследования. Для достижения поставленной

цели использованы теория поиска и классификации информации; теория систем

и системного анализа; математическое моделирование; теория графов;

математический аппарат и методы теории множеств, в том числе и нечетких;

теория и методы построения экспертных оценок. В разработанном программном обеспечении использовались технологии реляционных баз данных, а также методы структурного и объектно-ориентированного подхода для проектирования и реализации программных систем. Научная новизна работы состоит в следующем:

Предложены модель и алгоритм мониторинга распределенной, проблемно-ориентированной информации в сети Интернет, которые основаны на комплексном анализе рассматриваемых информационных ресурсов.
Разработаны и применены методы системного анализа (индексирование, классификация и кластеризация) для обработки проблемно-ориентированной информации в среде Интернет.
Предложены модель и алгоритмы автоматизации системного анализа проблемно-ориентированной информации.
Введены инвариантные понятия и структура системы формирования знаний, показаны пути их использования в различных предметных областях.

Практическую ценность работы составляют:

Создан программный комплекс для автоматизации мониторинга и системного анализа распределенной проблемно-ориентированной информации в среде Интернет, позволяющий реализовать доступ к большим неструктурированным массивам информации, обеспечивая пользователю удобные средства анализа информации всего информационного массива.
Разработанное программное обеспечение было проверено при решении задач на машиностроительном предприятии и в медицинских учреждениях, о чем имеются соответствующие акты внедрения. Его применение при поиске и анализе информации Интернета позволило сократить время, затрачиваемое на выполнение этих

операций и тем самым ускорить процесс получения информационных ресурсов специалистами и снизить стоимость данной работы.

Цель и поставленные задачи определили следующую структуру работы:

В первой главе анализируются проблемы разработки и применения методов системного анализа обработки распределенной проблемно-ориентированной информации в среде Интернет. Рассматривается роль мониторинга и системного анализа информации в среде Интернет. Приводятся примеры типовых задач мониторинга, часто возникающие в организациях. Рассматриваются подходы к структурированию информации.

В главе приводится подробное формализованное описание и классификация методов мониторинга и системного анализа информации. Даются определения основных понятий предметной области. Системный анализ рассматривается как совокупность процессов индексирования, классификации и кластеризации. Приводится анализ представления результатов поиска пользователю.

Подходы к организации хранилищ данных, рассматриваемые в этой главе затрагивают вопросы построения хранилищ, доступ к данным из них с использованием технологий OLAP и Data Mining.

В обзоре существующих систем автоматизации мониторинга и системного анализа распределенной информации в среде Интернет рассматриваются службы поиска: каталоги, информационно-поисковые системы и метапоисковые системы, а также системы управления знаниями.

На основании проведенного анализа литературы сделан вывод об актуальности проблемы автоматизации мониторинга и системного анализа распределенной проблемно-ориентированной информации.

Сделан вывод о целесообразности создания и использования систем автоматизирующих мониторинг и системный анализ информационных ресурсов среды Интернет.

Во второй главе рассматриваются вопросы, связанные с постановкой задачи мониторинга и системного анализа распределенной проблемно-ориентированной информации в среде Интернет. Приводится обоснование выбора и анализ свойств объекта исследования. Вводится новый тип систем -системы формирования знаний и делается обоснование его необходимости. Дается принцип работы данного типа систем, которые автоматизируют процесс сбора и анализа информации из сети Интернет, что значительно облегчает работу пользователя. Завершается глава описанием модели предметной области, на которую ориентирована система.

Третья глава посвящена исследованию системных связей и закономерностей функционирования процессов мониторинга и анализа распределенной проблемно-ориентированной информации в среде Интернет. Представлены математические модели и алгоритмы работы блоков мониторинга, индексирования, поиска и классификации информации, а также блока кластеризации информационных ресурсов. Рассмотрен подход к представлению результатов поиска с использованием технологий когнитивной графики. Подробно описано хранилище данных.

В четвертой главе рассматриваются вопросы разработки программного комплекса автоматизирующего мониторинг и системный анализ распределенной проблемно-ориентированной информации в среде Интернет. Требования к программному комплексу формируются с учетом разработанных математических моделей и общих принципов построения распределенных информационных систем. Приводятся архитектура и функциональная схема программного комплекса. Делается выбор языка программирования. Рассматриваются вопросы организации хранилища данных. Излагается пользовательский интерфейс системы формирования знаний и схема поиска информации с использованием данной системы пользователем. В завершении главы приводится функциональная схема аппаратных средств, необходимых

для функционирования разработанной системы. В главе анализируются возможные направления развития и пути применения программного комплекса.

В пятой главе освещаются вопросы, связанные с применением программного комплекса автоматизирующего мониторинг и системный анализ распределенной проблемно-ориентированной информации в среде Интернет. Рассматривается практическое применение разработанной системы при инновационной деятельности на промышленном предприятии, в образовательном процессе, в системе здравоохранения и при проведении мониторинга общественного мнения.

Кроме того, рассматривается оценка экономической эффективности системы формирования знаний при решении отдельных прикладных задач.

Результаты исследований позволили сформулировать следующие положения, выносимые на защиту:

Модель и алгоритм мониторинга распределенной, проблемно-ориентированной информации для сети Интернет, основанный на комплексном анализе всех ресурсов Интернета.
Метод комплексного исследования информационных ресурсов Интернета.
Модель и алгоритмы системного анализа проблемно-ориентированной информации.
Понятие и структура системы формирования знаний.
Структура хранилища данных системы формирования знаний.
Представление информации пользователю в системе формирования знаний с использованием технологий когнитивной графики.
Структура программного комплекса для автоматизации мониторинга и системного анализа распределенной проблемно-ориентированной информации в среде Интернет.

Формализованное описание и классификация методов мониторинга и системного анализа информации

Мониторинг - специально организованное, систематическое наблюдение за состоянием объектов, явлений, процессов с целью их оценки, контроля или прогноза [35].

В данной работе рассматривается мониторинг информационных ресурсов. В связи с этим под мониторингом будем понимать процесс сбора необходимой для организации информации из различных источников с целью их оценки и контроля.

Вопросом мониторинга информационных ресурсов занимались ученые СВ. Кузнецов [81], Б.Г. Левинский, О.Б. Сладкова, С.К. Дулин [53], Т.Я. Ашихмина, Б.А. Баллод [24], А.А. Белов [24], П.А. Цуканов [24], Л.И. Калакутский, Э.С. Манелис и др. Условно, задачи мониторинга можно разделить на два класса: внутренний и внешний мониторинг [53].

Первый класс задач связан в большей степени с мониторингом внутренних параметров деятельности, например, с постоянным контролем за функционированием сложного оборудования, передвижением товара и пр. В качестве примера можно привести сложные системы управления электростанциями, системы обеспечения транспортных перевозок и т.д. Характерной особенностью таких задач можно считать относительно постоянный набор параметров, по которым оценивается текущее состояние производственного или иного процесса (физические параметры оборудования и пр.). Данный класс задач в работе не рассматривается.

Внешний мониторинг в отличие от внутреннего в большей степени связан с оценкой состояния внешней среды и внешних условий, в которых осуществляется деятельность организации. Примеры такого мониторинга были приведены в п. 1.1.

При мониторинге рассматриваются взаимосвязанные объекты (документы) О = {о,} с заданной функцией сходства /, удовлетворяющей условию Определим числовое значение а как нижний порог сходства объектов, удовлетворяющий условию Документы со значением функции сходства 0 / (о, , of) а считаются не проблемно-ориентированными, тогда как документы, удовлетворяющие условию а f(oit of) 1 проблемно-ориентированы.

Мониторинг информации определенной направленности, является частью любого средства информационного поиска Интернета. Ограничения на выборку искомых документов, при мониторинге проблемно-ориентированной информации могут быть разнообразны: по тематике документов, по территориальному признаку, по языковому признаку и т.д.

Среди существующих подходов к мониторингу проблемно-ориентированной информации в сети Интернет можно выделить следующие: Отбор документов путем самостоятельного исследования всего информационного массива сети Интернет посредством навигации и анализа документов на предмет соответствия их заданной предметной области. Не автоматизированный вариант данного метода не эффективен ввиду особенностей строения Интернета. Автоматизированной вариант метода представляет собой подходы рассматриваемые далее. Отбор документов с использованием знаний об информационных ресурсах Интернета, которые предоставляют такие средства информационного поиска как каталоги. Данный способ отбора информации достаточно прост и позволяет определить наиболее значимые ресурсы в заданной предметной области. Отбор документов путем составления запросов существующим в сети Интернет средствам информационного поиска (информационно-поисковым системам и метапоисковым системам) с включением в них ключевых слов предметной области и последующего анализа отклика этих систем. Данный метод более эффективен, чем предыдущий, так как он осуществляет значительно больший охват информационных ресурсов Сети. Другим важным этапом, при формировании корпоративных знаний является системный анализ отобранной из сети Интернет информации. Системный анализ - совокупность методов и средств исследования сложных, многоуровневых и многокомпонентных систем, объектов, процессов, опирающихся на комплексный подход, учет взаимосвязей и взаимодействий между элементами системы [35]. Системный анализ информационных ресурсов изложен в трудах В.Н. Волковой [32], А.А. Денисова [32], О.Г. Тайца [126], С. Оптнера, Д. Клиланда, Н.Н. Моисеева, Ю.И. Черняка, Ф.И. Перегудова, В.Н. Саготовского, В.З. Ямпольского, А.И. Башмакова [26], В.А. Старых [26] и др. Системный анализ информационных ресурсов включает процессы индексирования, классификации и кластеризации. Анализ информационных ресурсов, методы классификации и кластеризации информации, а также предварительной ее обработки (очищение, согласование, агрегирование) рассмотрены в работах ученых А.В. Андрейчикова [18, 19], Андрейчиковой О.Н. [18, 19], С.К. Дулина [53], И.А. Киселева [53], А.В. Заболеевой-Зотовой [57], Т.А. Гавриловой [23], В.Ф. Хорошевского [23], СМ. Дукарского [36, 50-52]. Вопросы информационного поиска, в том числе методов индексирования и реферирования информации, организации эффективного хранения данных излагают ученые Дж. Солтон [123], К. Спарк-Джоунз, Р. Биза-Ятс, Б. Рибейро-Нето, И.И. Попов [104], А.Г. Романенко [107], О.Ф. Самойлкж [107], В.А. Копылов [78], Ю.И. Шемакин [147], П.Б. Храмцов [139-141].

Обоснование выбора и анализ свойств объекта исследования

Данные средства в значительной степени позволяют автоматизировать процесс поиска информации, однако при их использовании можно выделить следующие особенности: Так на практике часто возникает необходимость классификации источников информации не по признакам, определенным для каталога, а в соответствии с логикой решаемой задачи. Например, если в организации выполняются исследования в области финансов (мониторинг предложений кредитных организаций, грантодателей, благотворительных фондов, спонсоров, властей), то необходимо просмотреть информацию, как правило, относящуюся к разным разделам каталогов: «Кредитные организации», «Грантодатели», «Благотворительные фонды» и др. Эти разделы могут не иметь перекрестных ссылок и находиться в различных, достаточно удаленных друг от друга, местах в иерархии каталога. Кроме того, во многих каталогах таких разделов просто не существует, хотя каталог может включать требуемую информацию, а если они присутствуют, то включают дополнительную информацию, которая не относится к теме поиска. Чтобы перестроить имеющиеся электронные каталоги в соответствии с логикой решаемой задачи потребуется затратить большое количество времени, это связано, прежде всего, и с тем, что непосредственно в каталогах хранятся только описания (аннотации) документов, а не сами документы. Особенность существующих каталогов также состоит и в том, что даже если документы включают необходимые пользователю сведения и информация о них находится в каталоге, но она не содержит ключевых слов относящихся к решаемой задаче-они будут не найдены пользователем.

При использовании информационно-поисковых систем и метапоисковых систем охват информационных ресурсов на определенную тему может оказаться неполным (кода будет найдена только часть документов из их общего количества) ввиду отсутствия глобальной системы поиска соответствующей выбранной теме или той особенности данных систем поиска, что они хранят сведения только о текущем состоянии Сети. Охват информационных ресурсов может быть неточным (в результатах поиска систем будет мало релевантных документов) в связи с тем, что используемое для поиска средство может быть ориентировано на широкий круг предметных областей, и не включать механизмы уточнения запроса на основании смысла его терминов.

Системы управления знаниями позволяют работать только с уже известными им знаниями, т.е. информация о них, их источниках и методах управления ими должна быть формализована в системе. Указанная характеристика данных систем не позволяет их применять в задачах внешнего мониторинга.

Ввиду изложенного усовершенствование современных систем автоматизации мониторинга и системного анализа и используемых в них подходов к обработке информации является одной из важнейших задач использования ресурсов сети Интернет в организациях. Необходима разработка методов мониторинга документов во всем информационном массиве Интернета и анализа их на предмет соответствия заданной предметной области, а также систематизации отобранной информации. Проведенный анализ существующих подходов к автоматизации мониторинга и системного анализа информации выявил значительный разрыв между системами, автоматизирующими эти процессы в Интернете (системы информационного поиска Интернета) и корпоративными системами, выполняющими автоматизацию их в рамках отдельной организации (системы управления знаниями). Системы информационного поиска в Интернете (каталоги, информационно-поисковые системы, метапоисковые системы), дополнительно, к проведенным ранее недостаткам, не включают механизм анализа результатов поиска, ориентированы на широкий круг предметных областей и не позволяют уточнять специфику конкретной задачи. В тоже время, в них слабо реализованы механизмы взаимодействия друг с другом, что не позволяет эффективно выполнять метапоиск и эта проблема возлагается не конечного пользователя, использующего их. Пользователю, для обеспечения приемлемой полноты и точности результата (отклика системы), надо формулировать запрос в каждой из систем [9, 16]. В тоже время системы управления знаниями, используемые в организациях (порталы знаний), хотя и включают процессы выявления информационных источников и получение из них информации, но эти процессы слабо автоматизированы или не автоматизированы. Выявление новых знаний в таких системах ведется через механизмы приобретения знаний (способ автоматизированного построения базы знаний посредством диалога эксперта и специальной программы, которая, как правило, ориентирована на конкретную предметную область) или извлечения знаний (путем непосредственного контакта инженера по знаниям и источника знаний -эксперта) (рис. 2.1) [60]. В этих процессах задействованы люди (эксперт и инженер по знаниям), что определяет такие особенности систем как длительность периода получения знаний; инертность - невозможность быстро настроить систему на другую предметную область, ввиду длительного периода изменения базы знаний или необходимости дополнительно модифицировать программное обеспечение; потеря информации при общении [60]. Таким образом, процесс формирования знаний [60] (получение знаний на основе моделей, методов и алгоритмов анализа данных) в существующих системах автоматизирующих мониторинг и системный анализ отсутствует.

Мониторинг распределенной проблемно-ориентированной информации в среде Интернет

Эффективным методом систематического обхода вершин (документов) в ориентированном графе (службе WWW) является метод называемый поиск в глубину [22].

Предположим, что есть ориентированный граф W, в котором первоначально все вершины помечены меткой unvisited (не посещалась). Поиск в глубину начинается с выбора начальной вершины D графа W, для этой вершины метка unvisited меняется на метку visited (посещалась). Затем для каждой вершины, смежной с вершиной D и которая не посещалась ранее, рекурсивно применяется поиск в глубину. Когда все вершины, которые можно достичь из вершины D будут просмотрены, поиск заканчивается. Если некоторые вершины остались не посещенными, то выбирается одна из них и поиск повторяется. Этот процесс продолжается до тех пор, пока обходом не будут охвачены все вершины графа W.

Согласно исследованиям Интернета,-выполненным в работах [102, 132, 153] в Сети имеется большое количество недоступных для конечного пользователя информационных ресурсов. Часть из этих ресурсов информация не видна пользователю по причине отсутствия на них ссылок, т.е. в сети Интернет существуют замкнутые массивы ресурсов, недоступные для внешних обращений по ссылкам.

Ввиду этого, для эффективного применения метода поиска в глубину с целью достижения высокой полноты охвата информационных ресурсов Сети, в системе формирования знаний необходимо наличие адресов начальных документов для всех непересекающихся информационных массивов, информация из которых может соответствовать предметной области системы. Решением этой проблемы является возможность создавать в системе списки адресов соответствующих начальных документов, которая осуществляется инженером по знаниям или администратором.

Служба FTP представима в виде леса Л\ состоящего из множества деревьев {/V, I /= 1, ..., L): Каждое из деревьев представляет отдельный FTP-pecypc. Узлами FTP-ресурса являются папки F = {Fh F2, ..., FK} и файлы (документы) D = {D/, D2, ..., D\[}. Просмотр информационных ресурсов данной службы осуществляется путем последовательного прохождения узлов деревьев одним из существующих способов обхода.

Переход от одного FTP-pecypca к другому осуществляется через список их адресов, который может быть сформирован персоналом, обслуживающим систему.

Приведенные два метода потенциально позволяют достичь максимальной полноты охвата информационных ресурсов в сети Интернет соответствующих определенной предметной области. Однако на практике в WWW часто бывает сложно выявить замкнутые информационные массивы и найти в них начальные страницы, такие, что предоставляют возможность обойти все документы отдельного массива. В качестве таких начальных страниц могут выступать главные страницы крупных информационных ресурсов (в основном глобальных, региональных, локальных и специализированных каталогов). Универсального алгоритма поиска начальных страниц нет ввиду специфики организации Интернета. Источниками адресов этих страниц могут являться периодическая печать, СМИ, пользователи Интернета и др. Сложности имеются и с выявлением отдельных FTP-ресурсов. Универсальным алгоритмом поиска таких ресурсов можно считать перебор всех возможных ІР-адресов узлов с проверкой каждого узла на поддержку протокола FTP. Данный алгоритм не приемлем ввиду большой длительности выполнения и особенностей процесса внешнего мониторинга (см. п. 2.1). Источники адресов FTP-ресурсов являются те же, что и для службы WWW. Еще одним методом мониторинга информационных ресурсов в системе формирования знаний является доступ к ним через существующие системы информационного поиска Интернета. Изложенные методы обхода информационных ресурсов Сети могут быть дополнены взаимодействием системы формирования знаний со всеми, существующими в Сети, системами информационного поиска. Данный вид доступа к информационным ресурсам является важным ввиду следующих причин: ? Система поиска информации может являться единственным средством доступа к коллекции документов (например, так осуществляется доступ к электронным каталогам библиотек, некоторым реферативным базам данных и другим ресурсам). ? Часть информационных ресурсов Интернета, при использовании приведенных методов обхода, будет не охвачена системой, в тоже время региональные и специализированные системы поиска информации в Сети в некоторых случаях позволяют полнее охватить специфические информационные ресурсы. Для взаимодействия системы формирования знаний с системами поиска информации в Сети необходимо создание интерфейсов, которые включают язык запросов к системе (набор правил для задания запроса) и структуру отклика системы на запрос. Развитые системы поиска позволяют выполнять обмен информацией с использованием специального языка разметки XML. Однако для большинства систем система формирования знаний осуществляет доступ к информации через анализ HTML-кода их отклика. Формирование запроса к системам поиска выполняется на основе перечня ключевых слов или с использованием семантической сети описывающих предметную область, на которую ориентирована система формирования знаний, и формируемых экспертом. После осуществления доступа к информационному ресурсу с использованием любого из изложенных подходов модуль мониторинга выполняет проверку на предмет отсутствия сведений о нем в системе и, если данная проверка успешна, то выполняется еще одна проверка ресурса на предмет его соответствия заданной предметной области (наличие в нем ключевых слов запроса или их синонимов). Обе проверки могут быть выполнены модулем мониторинга автоматически, т.е. без привлечения человека. Если вторая проверка пройдена успешно - документ передается модулю индексирования для последующей обработки. Обобщенно алгоритм работы модуля мониторинга может быть представлен схемой (рис. 3.4). Ввиду особенностей задач внешнего мониторинга, которые описывались ранее, особые требования должны предъявляться к информационным источникам, используемым экспертами для локализации необходимых им знаний и данных.

Конструирование пользовательского интерфейса программного комплекса

Часть общие параметры объединяет настройки, которые управляют функционированием системы в целом. Некоторые из частей интерфейса модуля управления и контроля содержат отдельные группы логически связанных параметров. Сделанное разбиение параметров автоматизированной аналитической информационной системы на части, а внутри каждой части на группы облегчает ориентацию администратора, что, в конечном счете, сказывается на легкости управления системой. Неотъемлемыми элементами интерфейса модуля управления и контроля являются также меню, включающее доступные для выполнения команды, и панель инструментов, содержащая наиболее часто используемые команды для быстрого доступа к ним.

Управление системой экспертом выполняется через интерфейс взаимодействия пользователей, однако в данном случае этот интерфейс обладает более широкими функциональными возможностями. К основным параметрам доступным в системе, при работе эксперта является редактирование семантической сети, описывающей предметную область, изменение и ранжирование перечня найденных документов, включение в систему сведений о новых документах релевантных предметной области и удаление нерелевантных документов.

Информация о пользователях программного комплекса хранится в виде учетных записей, управлением которыми занимается администратор системы. В системе предусмотрены три вида пользователей: администраторы, эксперты и обычные пользователи, выполняющие только просмотр хранилища данных. Вход каждого из пользователей в систему выполняется на основе регистрационной информации (имени пользователя в системе и пароля). Управлением учетными записями пользователей занимается администратор системы.

Поиск информации пользователем осуществляется по схеме представленной на рис. 4.7. Начало работы пользователя с системой всегда осуществляется с формулировки запроса. Далее выполняется обработка запроса пользователя экспертом - формирование семантической сети описывающей запрос. После выполнения поиска информации в соответствии с семантической сетью выполняется просмотр, анализ и корректировка найденной информации экспертом, а затем просмотр и анализ ее пользователем. Если в результатах поиска имеются релевантные документы, то сформулированный запрос можно расширить терминами этого документа тем самым, увеличить полноту результатов поиска. В случае получения на запрос большого количества документов необходимо уточнить запрос (выполнить поиск в найденном), при этом возможно задать предметную область в которой следует искать релевантные документы.

На любом из шагов работа с системой может быть прервана по желанию пользователя. Перечень найденных документов возможно экспортировать для последующего просмотра этой информации в стандартных средствах соответствующих форматам файлов.

В основе функционирования предлагаемой системы формирования знаний ЛОЦМАН лежит архитектура «клиент-сервер». Это означает, что программное обеспечение, реализующее систему, состоит из двух компонентов: программы-клиента и программы-сервера. Первая отображает интерфейс системы и направляет запрос серверу. Программа сервер принимает запрос, обрабатывает его и отправляет результат клиенту. Пользователь взаимодействует только с программой-клиентом. Благодаря архитектуре «клиент-сервер» легко реализуется механизм доступа большого числа пользователей к информации на сервере, как это показано на рис. 4.8.

Автоматизация мониторинга и системного анализа распределенной проблемно-ориентированной информации в среде Интернет Рощин Сергей Михайлович

Формализованное описание и классификация методов мониторинга и системного анализа информации

Обоснование выбора и анализ свойств объекта исследования

Мониторинг распределенной проблемно-ориентированной информации в среде Интернет

Конструирование пользовательского интерфейса программного комплекса

Похожие диссертации на Автоматизация мониторинга и системного анализа распределенной проблемно-ориентированной информации в среде Интернет