Введение к работе
Актуальность. Современные информационные системы (ИС) получили широкое распространение во множестве предметных областей. Начиная с 60х годов прошлого века, велись активные разработки алгоритмов и методов построения интеллектуальных информационных систем исходными данными, которых являлись специализированные базы данных заполняемые экспертами предметных областей. С повсеместным распространением сети Интернет она стала основным источником информации. В результате чего возникла возможность создания интеллектуальных систем, использующих в качестве основного источника информации, получаемой из сети Интернет.
При адаптации методов искусственного интеллекта, используемых в классических ИС, к использованию в интернет-ориентированных информационных системах (ИОИС) возник широкий спектр проблем по наполнению хранилищ данных на основе Интернет. Среди таких проблем:
низкая эффективность методов наполнения хранилищ данных, отсутствие универсальных средств взаимодействия с информационно поисковыми системами;
необходимость и недостаточная эффективность существующих алгоритмов ранжирования документов по степени их качества в ограниченных предметно-ориентированных коллекциях;
большое количество информации представленной в виде медиа информации, что требует дополнительных процедур ее анализа;
общая высокая зашумленность информации в среде Интернет;
наличие в веб-документах большого количества информации его не характеризующей.
В связи с этим значительно возрастает роль качественного автоматического сбора информации, для формирования предметно-ориентированных хранилищ данных. Так как Интернет является универсальным источником информации, то для ограничения предметной области возникает необходимость предварительного отбора документов и выявления степени их соответствия предметной области информационной системы. Также не менее важным является фильтрация заведомо неперти-нентных документов, появление которых в коллекции может быть вызвано наличием большого объема поискового спама в сети. Имеется высокая зависимость качества работы всей ИС и используемых в ней методов анализа от исходной коллекции анализируемых документов. В связи с этим, данная работа, направленная на формализацию и усовершенствование методов и алгоритмов мониторинга информации из сети Интернет является актуальной и требующей решения.
Цель работы формализовать процесс мониторинга информации в сети Интернет и усовершенствовать методы анализа информации, используемые при построении предметно-ориентированных хранилищ данных с целью повышения эффективности работы Интернет-ориентированных информационных систем. Для достижения поставленной цели необходимо решить следующие задачи:
Формализовать процедуры взаимодействия подсистем сбора информации со сторонними информационно-поисковыми системами с целью эффективного наполнения предметно-ориентированного хранилища документов.
Разработать алгоритм обработки документов для выявления уникальной значимой смысловой части и определения основных параметров качества документа.
Разработать классификатор изображений используемых в документах для обнаружения иллюстраций контента и определения их типа.
Разработать методы фильтрации заведомо непертинентных документов в хранилище, с целью уменьшения его объема и повышения точности.
Создать программные средства для автоматизации мониторинга информации в сети Интернет и построения предметно-ориентированного хранилища данных.
Создать информационную систему, основанную на разработанных программных средствах автоматизации мониторинга сети Интернет с целью проверки эффективности предлагаемых методов и алгоритмов.
Методология и методы исследования. В основу исследований положены основные научные положения теории информационного поиска и искусственного интеллекта; математический аппарат и методы теории множеств и логики предикатов; теории искусственных нейронных сетей; теории нечетких множеств и лингвистических переменных. При разработке программной реализации использовалась объектно-ориентированная технология проектирования, а также теория мультиагентных систем.
Научная новизна работы состоит в разработке моделей и алгоритмов автоматизированного сбора и обработки информации для мониторинга информации в сети Интернет, и использование разработанных алгоритмов в процессе формирования предметно-ориентированных хранилищ данных, а именно:
Разработана математическая модель формализованного представления веб-сервисов поиска и ИПС в качестве внешних агентов метапоиска.
Разработаны методы анализа структуры документа для выявления семантически значимых информационных блоков.
Предложена методика предварительной семантической классификации изображений с использованием каскада простых нейронных сетей.
Предложено использование алгоритма нечеткого логического вывода типа Мам-дани для ранжирования документов в условиях ограниченности коллекции по предметной области на основе учета их информативности.
Практическую ценность работы составляют:
Разработанный универсальный программный комплекс, обеспечивающий мониторинг информации из сети Интернет и формирующий предметно ориентированное хранилище данных.
Разработанный сервис тестирования искусственных нейронных сетей классификатора и анализа коллекций изображений.
Классифицированные тестовые и проверочные коллекции изображений для исследований применения методов машинного обучения.
Реализация результатов работы. Результаты исследований и разработанный программный комплекс нашли широкое применение и были использованы в рамках исследований по следующим НИР: «Создание отраслевой системы доступа к информационным ресурсам научного и образовательного назначения по приоритетным направлениям развития науки и техники в области искусственного интеллекта и CALS-, CAD-, САМ-, САЕ-технологий» (гос. per. № 01 2006 05586); «Разработка теории построения инструментальной среды создания многоагентных систем интеллектуализации поиска и анализа данных в глобальных вычислительных сетях» (гос. per. № 01 2009 54253); «Создание информационно-аналитической системы мониторинга, анализа и прогнозирования процесса подготовки научных
кадров в вузах и научных организациях с учетом приоритетных направлений развития экономики и социальной сферы федерального округа» (гос. per. № 01 2009 54245); «Разработка математических моделей, информационного и программного обеспечения для поддержки инновационных решений в области высоких технологий наукоёмких производств» (гос. per. № 01 2009 54252).
Апробация работы. Основные научные и практические результаты работы докладывались и обсуждались на 9 различных конференциях и форумах. Работа докладывалась на международном молодежном форуме «Будущее высоких технологий и инновации за молодой Россией» проводимого в рамках XV международной выставки-конгресса «Высокие технологии. Инновации. Инвестиции» (г. Санкт-Петербург 2009г.) и были отмечены призовым 3 местом; по итогам открытого конкурса молодых ученых по тематике «Наука и образование против террора» была отмечена в номинации «Оригинальная работа» (МГТУ г. Москва 2010г.); III Международной научно-практической конференции «Достижения молодых учёных в развитии инновационных процессов в экономике, науке, образовании» и отмечены дипломом победителя программы «Участник молодежного научно-инновационного конкурса» («УМНИК») (г. Брянск 2011г.); международной научно-практической конференции «Инновации в условиях развития информационно-коммуникативных технологий» (г. Орел 2008г.); и др.
Публикации. По теме диссертации опубликовано 14 печатных работ из них 1 монография и 3 статьи в журналах входящих перечень ведущих российских рецензируемых научных журналов.
Структура и объем работы. Диссертационная работа состоит из введения,
пяти глав, заключения, списка литературы из наименований и приложений.
Основная часть работы содержит страницы машинописного текста, рисунков
и таблиц.