Введение к работе
Актуальность исследования. В настоящее время сеть Интернет является важным звеном в получении и обмене информацией в современном обществе. Благодаря широкому распространению компьютерных технологий в электронной форме находится информация большинства отраслей человеческой деятельности, таких как наука, производство, литература и др. Сеть Интернет предоставляет удобный, быстрый и относительно дешевый доступ практически к любому виду данных. В связи с этим возникает потребность в программных средствах, эффективно решающих проблемы связанные с выбором необходимой пользователю информации. Ее поиском в сети занимаются специальные веб-службы – компании (например, Яндекс и Google), имеющие свои сервера, на которых работает сложная поисковая система. Зачастую эти службы являются своего рода посредниками в передаче информации от источника до потребителя. Но по каким критериям, алгоритмам происходит выдача результатов (Интернет-ресурсов) на запрос пользователя известно лишь разработчикам данной системы.
Каждый интернет-ресурс (сайт) имеет некие параметры, влияющие на его позицию при выдаче результата в поисковой структуре на запрос пользователя. Наибольший интерес вызывает зависимость между изменением этих параметров и результатом выполнения запроса. В поисковой структуре за это отвечает алгоритм ранжирования.
В настоящее время существуют системы, способные отслеживать изменения параметров сайтов и результатов выдачи, а также собирать и анализировать статистические данные Интернет-ресурсов. Но они не могут отслеживать информацию по сторонним сайтам, в результате чего исследование алгоритмов ранжирования поисковых структур является трудоемкой задачей.
В настоящей диссертационной работе в качестве объекта исследования рассматривается процесс нахождения наилучшего результата выдачи поисковой структуры.
Предметом исследования являются модели и алгоритмы, позволяющие находить оптимальные параметры системы, а также анализировать данные, полученные из случайной среды и на их основе оценивать вероятности исследуемых событий.
В рамках данной работы разрабатывается и описывается система сбора статистических данных результатов отклика поисковой системы на запросы пользователя. Описывается система получения значений параметров объектов для их дальнейшего оценивания и анализа . Далее рассматривается задача нахождения оптимального объекта поиска и оптимального количества единовременно выдаваемых результатов при ранжировании. Строится модель оценки вероятностей исследуемых угроз на основе анализа данных (новостей), полученных из глобальной сети Интернет. Для этого разработаны и исследуются математические, стохастические и имитационные компьютерные модели процесса поиска в сети. Данное моделирование позволяет определять статистические закономерности в алгоритмах ранжирования поисковых систем и оптимальные значения параметров для эффективного поиска.
В качестве статистического материала в прикладной части диссертационной работы рассматриваются экспериментальные данные, полученные при помощи системы сбора информации, разработанной автором, а также реальные данные нагрузки на сервер, собранные за 16 дней его функционирования в рабочем режиме. Для оценивания вероятности возникновения чрезвычайных (критических) ситуаций собираются и анализируются данные из новостных информационных ресурсов в сети Интернет.
Целью и задачей диссертационного исследования является оценивание параметров поисковых структур и применение полученных результатов в прикладных областях. Разработка математических моделей и создание на их основе комплекса программ для решения следующих задач:
1. Мониторинг позиций сайтов по ключевым запросам различных поисковых систем;
2. Сокращение времени поиска путем выдачи оптимального количества результатов;
3. Нахождение момента остановки поиска, результат которого удовлетворяет ожиданиям пользователя;
4. Оценивание вероятности возникновения исследуемых угроз, информация о которых присутствует в сети Интернет.
Для решения этих задач применялись разработанные автором методы с использованием математического моделирования и современных систем компьютерной разработки.
Методы исследования. В диссертационной работе используются методы математического моделирования дискретных систем, теории случайных процессов, численные методы и методы объектно-ориентированного программирования. Задачи 2, 3 и 4 описываются и решаются с применением вероятностных методов. Для проведения большого количества экспериментов и имитационного моделирования используются методы генерации случайных данных, получаемых с использованием нормального и экспоненциального распределения.
Для создания комплекса программ применялись методы объектно-ориентированного программирования на языках высокого уровня PHP, MySQL и Delphi. В программной реализации моделей используется аппарат численного математического моделирования и библиотеки подпрограмм компьютерной математики.
Численные методы применяются при построении моделей стохастических систем с динамическим выбором шага дискретизации и модифицированный метод нахождения экстремума функций. На этапе проверки адекватности моделей вычисляются средние и среднеквадратичные отклонения теоретических данных от экспериментальных. Апробация созданных моделей проводится путём сравнения результатов их имитационного моделирования со значениями, полученными от реальных объектов.
Научная новизна заключается в том, что в работе предложены новые модели оптимального выбора параметров поиска, а также удобная система сбора и мониторинга статистики объектов поиска. Также были решены задачи оптимизации поиска, решение которых позволяет найти эффективные значения параметров поисковых систем. Разработана новая математическая и компьютерная модель оценки вероятностей возникновения чрезвычайных ситуаций на основе данных, полученных из сети Интернет. Разработан алгоритм, помогающий найти наиболее вероятный момент сбоя в работе сервера.
Основные положения, выносимые на защиту:
-
Модель формирования результатов поисковой структурой при запросах пользователей на основе заданных параметров объектов.
-
Метод нахождения момента остановки процесса сетевого поиска.
-
Математическая модель оптимизации количества результатов поиска на основе оригинального использования численного метода.
-
Комплекс программ для имитационного моделирования и численного анализа процессов поиска.
Достоверность результатов обеспечивается использованием аналитических и численных методов расчёта, методов математического моделирования и применением современных методик анализа экспериментальных данных посредством компьютерного моделирования. Для получения достоверных результатов на этапе имитационного моделирования при подборе значений параметров использовались различные нормировочные коэффициенты. Результаты имитационного моделирования привели к значениям параметров близким реальным объектам.
Теоретическая и практическая значимость диссертационного исследования заключается в том, что разработанный комплекс программ может использоваться как целиком, так и отдельно по четырем компонентам (перечисленным выше задачам). Он позволяет не только анализировать полученные данные, но и прогнозировать, моделировать различные ситуации, которые помогают пользователю принимать управленческие решения. Применение решений диссертационного исследования при поиске информации позволяет быстрее выдавать пользователю желаемый результат и, как следствие, сократить нагрузку на сервер; находить наиболее вероятный момент сбоя в его работе. Полученные теоретические результаты включают в себя метод поиска ожидаемого пользователем результата, позволяющего рассчитывать значения параметров систем такого типа. Часть комплекса была внедрена и применяется на практике в ООО «Креатер» г. Ульяновска.
Апробация работы. Материалы диссертации докладывались на X Всероссийском симпозиуме по прикладной и промышленной математике (Сочи - Дагомыс, 1-8 октября 2009 г.), XI Всероссийском симпозиуме по прикладной и промышленной математике (Кисловодск, 1-8 мая 2010 г.), VI Всероссийской открытой научно-практической конференции (Сочи, 22-27 мая 2010 г.), X Международной научно-практической конференции (Новочеркасск, 5 апреля 2010 г.), в Международной научной школе для молодежи (Москва, октябрь 2010 г.).
Личный вклад автора. Постановка задач осуществлялась научным руководителем профессором Бутовым А.А. Автором диссертационного исследования самостоятельно проведён анализ современного состояния компьютерного моделирования; разработаны программные методы для достижения поставленных задач; разработана структура базы данных, классов и объектов, на основе которых создан комплекс программ; выполнен анализ полученных результатов и сформулированы выводы.
Публикации. По теме диссертации опубликовано 10 работ, в том числе 4 работы в рецензируемых научных журналах, рекомендованных ВАК, их список помещён в конце автореферата.
Структура и объём работы. Диссертация состоит из введения, четырёх глав, заключения, списка литературы из 97 наименований источников отечественных, зарубежных авторов и электронных ресурсов, а также приложений. Общий объём диссертации составляет 126 страниц, в том числе 99 страниц основного текста и 27 страниц приложений.