Введение к работе
С каждым годом объемы и разнообразие представляемой в Интернет информации постоянной увеличивается. В результате в Интернет сегодня размещены миллионы сайтов, причем наряду с современной актуальной информацией, имеется много устаревших ресурсов, немало мусора и недобросовестной рекламы. При этом мало кто озабочен тем, чтобы избежать дублирования информации или следовать стандартам, принятым на сайте соседа. Существует мнение, что в Интернет сети есть все, но найти там требуемые данные в обозримое время практически невозможно. Так что проблема поиска информации в Интернет является одной из самых актуальных.
При этом в современной Интернет среде одной из наиболее важных проблем является перегрузка телекоммуникационной системы (каналов связи). Во многом, перегрузка обусловлена нерациональной работой клиентов Интернет, что связано с неэффективными процедурами поиска требуемой информации, которые предусматривают последовательный слабо управляемый просмотр различных ресурсов (порталов, сайтов, страниц).
На сегодняшний день задачу поиска необходимой информации в Интернете решают специальные поисковые системы. Существует достаточно большое количество таких систем, осуществляющих поиск информации как во всем пространстве Интернет ресурсов, так и в его русскоязычной части. Каждая поисковая система реализует свой уникальный поисковый алгоритм, являющийся ноу-хау разработчиков. Современные поисковые системы позволяют производить лексический разбор искомого текста, производить поиск по нескольким словоформам, находить ошибки в запросах пользователей и предлагать варианты их исправления, задавать различные режимы поиска информации. Тем не менее, принципы работы всех поисковых систем практически идентичны: в основе работы каждой из них лежит индексированный каталог или база данных, в которой собрана информация об известных поисковой машине страницах, и где, собственно, происходит поиск.
Возможно, однако, хотя бы частично разгрузить телекоммуникационную среду путем сокращения числа просматриваемых Интернет ресурсов и
упорядочения поиска за счет их предварительного анализа и ранжирования. Для этого целесообразно создавать специализированные поисковые системы и проводить поиск во множестве специализированных Интернет ресурсов, сформированных по заданным признакам, т.е. создавать тематические поисковые системы. В таких системах можно значительно повысить эффективность поиска, применяя специальные оптимизирующие алгоритмы классификации собираемых о ресурсах данных, позволяющие сократить число просматриваемых ресурсов, сделать поиск более целенаправленным.
Здесь в качестве системы специализированных Интернет ресурсов рассматривается распределенная система образовательных порталов. Система, к настоящему времени, насчитывает значительное количество реальных порталов действующих на территории России и хранящих специальную информацию, поиск которой обычными способами приводит к необходимости просматривать большое число посторонних Интернет ресурсов.
Однако, наряду с заметным сокращением числа обращений в Интернет при поиске, подготовительные процедуры для поиска в рассматриваемой системе требуют предварительного сбора и обработки значительных объемов информации, что загружает телекоммуникационную систему, поисковый сервер. Причем загрузка в значительной степени зависит от установленных критериев и алгоритмов оценки собираемой информации. Таким образом, в рамках заданной системы, необходимо организовать процедуры сбора необходимых данных с входящих в нее порталов, провести классификацию порталов по этим данным и предоставить пользователю системы возможность обращения непосредственно к наиболее ценному порталу.
Поскольку количество и объемы Интернет ресурсов постоянно возрастают, то повышение эффективности поиска требуемой информации будет актуальной задачей, как на сегодняшний день, так и на обозримую перспективу.
В связи с этим, тематика диссертационной работы, направленная на создание специализированной поисковой системы, ориентированной на поиск в ограниченной среде образовательных порталов, актуальна и имеет важное практическое значение.
Целью работы является создание моделей и алгоритмов позволяющих:
осуществлять поиск информации в сформированной системе образовательных порталов;
минимизировать загрузку телекоммуникационной сети при просмотре пользователями предлагаемых источников информации;
производить оценку каждого найденного пункта по заранее определенным критериям.
В качестве предмета поиска были выбраны образовательные ресурсы Интернет. Таким образом, основной идеей работы является разработка математического аппарата и создание на его основе программных средств, которые должны решать задачи поиска наиболее подходящего образовательного портала, обеспечивающего минимальное число обращений к телекоммуникационной сети.
Для достижения поставленной цели в работе сформулированы и решены следующие задачи:
проведен анализ современных поисковых систем, используемых в Интернет среде, выявлены их достоинства и недостатки;
разработаны алгоритмы оценки близости показателей образовательных порталов к требуемым и их ранжирования;
разработан комплекс математически моделей для вычисления близости показателей образовательных порталов к требуемым и оценки эффективности различных процедур поиска информации в системе образовательных порталов;
разработано алгоритмическое и программное обеспечение для реализации разработанных методов и моделей при создании специализированной поисковой системы.
На защиту выносятся:
Классификация основных компонент образовательных порталов.
Математические модели и алгоритмы оценки близости показателей образовательных порталов к требуемым.
Математические модели для оценки загрузки телекоммуникационной сети и длительности сеанса поиска при различных процедурах поиска образовательных порталов.
4. Разработана методика получения и обработки экспертных оценок
близости основных показателей образовательных порталов к требуемым.
5. Средства программной поддержки автоматизированной системы
ранжирования образовательных порталов.
Научная новизна полученных результатов заключается в следующем:
Разработаны базовые принципы оценки близости основных показателей образовательных порталов к требуемым.
Разработана методика получения и обработки экспертных оценок основных компонент образовательных порталов.
Разработаны математические модели оценки эффективности процедур поиска путем анализа требуемого количества запросов и длительности сеанса поиска.
Создан математический аппарат сравнительной оценки близости основных показателей образовательных порталов к требуемым. Практическая значимость работы заключается в разработке на базе
полученных теоретических результатов, алгоритмического и программного обеспечения, предназначенного для оценки основных показателей образовательных порталов и их ускоренного поиска.
Достоверность и обоснованность результатов диссертации основаны на применении математических моделей, отражающих специфику исследуемых процессов, соответствии практических и теоретических результатов, опубликованным в печати данным, и подтверждается положительными данными о практическом применении в реальной системе образовательных порталов.
Методы исследований. При решении поставленных в диссертации задач применялись методы теории систем, теории множеств, теории вероятностей, теории очередей, математического программирования, а также методы создания баз данных и разработки приложений. Реализация и внедрение результатов исследований. Результаты,
полученные в диссертации, внедрены и эффективно используются в
Федеральном государственном учреждении «Государственный научно-
исследовательский институт информационных технологий и
телекоммуникаций» (ФГУ ГНИЙ ИТТ «ИНФОРМИКА») и Пензенском государственном университете, что подтверждено актами о внедрении.
Апробация работы. Основные положения диссертации докладывались
на семинарах ФГУ ГНИЙ ИТТ «Информика», Международной конференции
«Информационные технологии и системы: наука и практика» (Владикавказ,
2002), Международной научно-технической конференции «Информационные
технологии и системы: новые информационные технологии в науке,
образовании, экономике» (Владикавказ, 2003), Всероссийской научно-
методической конференции «Телематика» (Санкт-Петербург,
2002,2003,2004,2005), Всероссийской научно-технической конференции
«Теоретические и прикладные вопросы современных информационных
технологий (Улан-Удэ, 2002.).
Публикации. Результаты диссертационной работы отражены в 9 опубликованных печатных работах.
Структура и объем диссертации. Диссертация состоит из введения, четырех глав, списка литературы и приложения. Объем диссертации 134 страницы.