Содержание к диссертации
Введение
Глава 1. Основные подходы, модели и методы Вебометрики 16
1 Вебометрика как научное направление 16
2 Основные определения вебометрики 19
3 Инструментальные средства сбора данных о Вебе 21
4 Ранжирование сайтов 25
5 Модели Веба 31
6 Классификация гиперссылок 35
7 Основные выводы из анализа научных источников 41
Глава 2. Университетский Веб Нигерии 43
1 Университеты Нигерии 43
2 Веб-пространство университетов в Нигерии 46
3 Задача ранжирования веб-сайтов университетов в Нигерии 50
Глава 3. Модель фрагмента университетского Веба Нигерии 58
1 Программные средства и методология 58
2 Исследование университетских сайтов Нигерии 61
3 Веб-графы университетского фрагмента Веба Нигерии 68
4 Связи университетского фрагмента Веба Нигерии с академическими
сайтами Англии, США и Австралии 72
Глава 4. Мотивации создания гиперссылок в университетском Вебе Нигерии 75
1 Связанные исследования, задачи и методы исследования 75
2 Классификационная схема 78
3 Статистические методы 85
4 Интерпретация результатов 90
5 Обсуждение и выводы 92
Заключение 94
Литература 99
Список иллюстративного материала 114
Приложения
- Основные определения вебометрики
- Веб-пространство университетов в Нигерии
- Исследование университетских сайтов Нигерии
- Классификационная схема
Введение к работе
Актуальность темы. Диссертационное исследование «Разработка
математических методов исследования гиперссылочных связей
информационных ресурсов университетов развивающихся стран (на примере Нигерии)» выполнено в таком относительно молодом направлении компьютерных наук, как вебометрика, в рамках которого исследуются количественные аспекты конструирования и использования информационных ресурсов, структур и технологий применительно к World Wide Web (далее – Веб).
Количество исследовательских работ, посвященных вебометрическим исследованиям сайтов университетов развивающих стран, очень мало. Существует проблема оценки качества (степени) присутствия в Вебе различных академических веб-ресурсов, особенно у развивающих стран. Причём для развивающихся стран наиболее характерно неэффективное использование внешних гиперссылок как одного из основных инструментов коммуникации в Вебе, низкая степень развитости сетевых научных коммуникаций ученых, слабое развитие университетского образовательного веб-пространства, в частности, из-за полного отсутствия сайтов научных конференций и семинаров, совместных проектов и региональных советов ректоров. При этом мы не утверждаем, что такие мероприятия и организации в развивающихся странах отсутствуют вовсе, а говорим о том, что они не находят отражения в Вебе.
Степень разработанности темы: Вышеупомянутые проблемы
практически отсутствуют у сайтов университетов в развитых странах и поэтому они не исследуются.
В современной научной литературе описаны различные подходы и методы исследования, учитывающие общие для развитых стран, стандартные параметры. Эти методы недостаточны для анализа сайтов университетов развивающихся стран.
Для анализа университетских веб-ресурсов развивающих стран и
разработки более адекватных моделей их поведения требуется выявление дополнительных признаков и параметров исследуемых сайтов, отражающих их специфику, и модификация уже имеющихся методов.
Цель и задачи исследования: Цель исследования заключается в развитии известных и разработке новых математических методов исследования официальных сайтов университетов развивающихся стран на примере Нигерии, направленных на улучшение их присутствия и взаимосвязей в Вебе.
Для достижения указанной цели решается ряд взаимосвязанных задач:
1. Исследование набора уже существующих стандартных характеристик
присутствия веб-сайтов нигерийских университетов – размер сайта (общее
количество страниц сайта), цитируемость или видимость сайта (количество
уникальных гипертекстовых ссылок с других веб-ресурсов), количество
полнотекстовых файлов, под которыми понимаются файлы с расширениями
типа *.pdf, *.doc, и т.д., научность сайта (количество статей, размещенных на
сайте и их цитирований) с использованием известных алгоритмов
ранжирования. Автором выявлен набор новых показателей характеризующих
эти сайты – возраст университета, исторические и географические аспекты,
подчинённость (федеральные, университеты штатов и частные университеты),
традиции и этно-культурные признаки региона фактического нахождения
университета;
-
Создание модифицированного алгоритма ранжирования на основе расширенного набора характеристик и исследование веб-графа, построенного на множестве сайтов нигерийских университетов с применением теоретико-графовых моделей и методов;
-
Исследование качественных характеристик внешних гиперссылок, сделанных с университетских сайтов Нигерии с точки зрения мотивации
создания таких гиперссылок с использованием методов математической статистики.
Объект исследования: официальные веб-сайты университетов в Нигерии и другие веб-сайты Нигерии, имеющие отношение к науке и образованию.
Методы исследований. В диссертационной работе используются вебометрические методы ранжирования, методы сбора вебометрической информации с помощью поисковых систем и краулеров, теоретико-графовые модели и методы математической статистики.
Основные положения, выносимые на защиту:
-
Алгоритмы извлечения вебометрических индикаторов и ранжирования веб-сайтов, ориентированные на страны, у которых веб-пространство вузов находится в начальной стадии развития, и их программная реализация с апробацией и адаптацией на примере университетов Нигерии.
-
Новые математические методы получения теоретико-графовых характеристик веб-графа реального фрагмента университетского Веба, показывающие взаимосвязь веб-сайтов как данного сообщества, так и взаимосвязь с университетскими сообществами веб-сайтов развитых стран и их содержательная интерпретация.
-
Математический метод моделирования мотиваций создания гиперссылок на университетских сайтах, представляющий собой классификационную схему и статистические методы, позволяющие получать доминирующие мотивации по географическим регионам страны.
-
Рекомендации для руководства и разработчиков веб-сайтов университетов развивающихся стран (на примере Нигерии), направленные на улучшение использования внешних гиперссылок как одного из основных инструментов коммуникации в Вебе.
Научная новизна работы заключается в следующем:
-
Впервые на примере Нигерии проведено исследование задач ранжирования и построения и анализа веб-пространства официальных веб-сайтов университетов для стран, у которых веб-пространство вузов находится в начальной стадии развития. Исследование позволило установить зависимость вебометрических рангов университетов как от их ведомственной принадлежности (федеральные, университеты штата или частные), так и от внешних ссылок на сайты, сделанных с сайтов университетов высокоразвитых стран.
-
Построенный веб-граф реального фрагмента нигерийского университетского Веба позволил установить существенную значимость веб-коммуникаторов (в случае Нигерии – это единственный веб-сайт National Universities Commission) для связности веб-графа и незначительную взаимосвязь веб-сайтов университетов между собой.
-
Разработана новая классификационная схема мотивации создания гиперссылок (на примере университетов Нигерии), позволяющая с использованием статистических методов получить разные доминирующие мотивации по различным регионам Нигерии.
Теоретическая и практическая значимость работы. Предложенные
методы позволяют дать рекомендации разработчикам веб-ресурсов
университетов (особенно университетов стран, у которых веб-пространство вузов находится в начальной стадии развития) по улучшению содержания, усилению связности посредством гиперссылок и изменению мотивации создания гиперссылок, что в целом будет способствовать улучшению присутствия веб-сайтов этих университетов в Вебе.
Апробация работы. Основные результаты диссертационного
исследования докладывались и обсуждались на 42-й и 43-й международных конференциях «Процессы управления и устойчивость» (2011, 2012 гг., г.Санкт-
Петербург), на V Всероссийской научно-практической конференции
«Информационная среда вуза XXI века» (2011 г., Петрозаводск) и на семинарах кафедры технологии программирования СПбГУ.
Личный вклад автора. Все результаты диссертационного исследования получены автором лично.
Публикации. По материалам диссертации опубликованы 6 работ, 3 из которых в журналах и сборниках, входящих в перечень изданий, рекомендованных ВАК РФ для опубликования результатов диссертаций (в том числе одна статья опубликована в журнале, входящем в базу данных Scopus), 2 – статьи материалах конференций и 1 – тезисы, опубликованные в материалах конференции. Список работ приведен в конце автореферата.
Достоверность и обоснованность полученных результатов, полученных
в диссертации, основаны на большом объеме собранного, обработанного и
исследованного фактического материала, корректно применяемых
математических методах и моделях.
Структура и объем диссертации. Диссертация работа состоит из введения, четырёх глав, заключения, списка использованных источников и литературы, включающего 138 наименований, списка иллюстративного материала, и 2 приложения. Общий объем диссертации 128 страниц машинописного текста, из них основная часть работы содержит 98 страниц и включает 7 рисунков и 11 таблиц; 1 приложение имеет объем 13 страниц.
Основные определения вебометрики
С учётом того, что вебометрика является достаточно молодым научным направлением, определим формально несколько понятий, которые потребуются для дальнейшего изложения. Веб-страница (html-страница, или просто страница) – это адресуемая единица Веба, обычно написанная на языке разметки HTML и однозначно определяемая в Вебе адресом URL. Здесь HTML (от английского HyperText Markup Language – «язык разметки гипертекста») – стандартный язык разметки документов в Вебе, а URL (от английского Uniform Resource Locator – единообразный локатор) – определитель местонахождения документа. Доступ к Веб-странице осуществляется с помощью веб-браузера [107]. Информация на Веб-странице представляется в различных формах – текст, аудио, видео, апплеты, графические изображения. Веб-сайт (сайт) – совокупность взаимосвязанных html-страниц и веб-документов, связанных внутренними гиперссылками и обладающих единством содержания, идентифицируемый в Вебе по его доменному имени [44]. В большинстве случаев в Вебе одному сайту соответствует одно доменное имя.
Например, доменные имена name1.ng и name2.name1.ng обозначают самостоятельные веб-сайты несмотря на то, что name2.name1.ru представляет собой под-сайт сайта name1.ru, а организация-владелец сайта name2.name1.ru скорее всего является подразделением организации-владельца сайта name1.ru. Доменное имя – уникальное алфавитно-цифровое обозначение, позволяющее идентифицировать веб-сайт в Вебе. Доменные имена имеют собственную иерархию уровней (домен верхнего уровня, домены второго, третьего и т.д. уровней) [44]. Пример: в доменном имени сайта Высшей Аттестационной Комиссии vak.ed.gov.ru доменом верхнего уровня является .ru, а .gov.ru, .ed.gov.ru и vak.ed.gov.ru – домены второго, третьего и четвертого уровня соответственно. Все следующие далее определения даются в соответствии с [38]. Внешней исходящей гиперссылкой веб-сайта (или просто исходящей ссылкой, в отличие от внутренней гиперссылки, соединяющей страницы этого же сайта) называется гиперссылка, сделанная с этого сайта на другой. На различных страницах одного сайта могут встречаться внешние гиперссылки на один и тот же внешний адрес, имеющие одинаковый контекст (в частном случае – анкор). Распространенный пример – ссылка на вышестоящую организацию или на сайт организации-разработчика официального сайта.
Уникальной внешней гиперссылкой называется гиперссылка из множества всех гиперссылок с одинаковым адресом и контекстом, которая находится на странице, имеющий максимальный уровень; при этом уровень начальной страницы сайта считается наивысшим. Целевым множеством проводимого вебометрического исследования называется множество исследуемых сайтов, идентифицируемых уникальными доменными именами, задаваемое прямым перечислением. Здесь следует сделать следующее примечание. Когда мы говорим об элементе целевого множества, то имеем в виду доменное имя, идентифицирующее сайт. Поэтому слова о том, что сайт принадлежит целевому множеству, подразумевают, что ему принадлежит доменное имя, идентифицирующее сайт. Веб-окрест ностью сайта целевого множества называется множество веб-ресурсов организации-владельца данного сайта, являющихся самостоятельными вебсайтами. Веб-окрест ност ь в свою очередь состоит из прямой и скрытой веб-окрестностей. Сайты, входящие в прямую веб-окрестность, являются под-сайтами сайта целевого множества, а сайты из скрытой веб-окрестности имеют доменные имена, не являющиеся таковыми. Множество веб-окрестностей – это объединение веб-окрестностей всех сайтов целевого множества. Понятно, что множество веб-окрестностей является также объединением подмножеств прямых и скрытых веб-окрестностей. Сопутствующим множеством (по отношению к заданному целевому множеству) называется множество сайтов, не входящих в целевое множество и множество веб-окрестностей, на которые существуют гиперссылки с сайтов целевого множества. Единица анализа – это множество сайтов, рассматриваемых как единое целое, один из которых принадлежит целевому множеству, а все остальные являются его веб-окрестностью. Далее в диссертационной работе используются данные понятия и термины, именно в том смысле, как они определены в этом параграфе.
Веб-пространство университетов в Нигерии
Обнаружение доменных имен официальных сайтов этих университетов оказалось непростой задачей. Вследствие того, что список доменных имен, указанных в [90], являлся неполным и неточным, он был принят лишь в качестве основы и многократно дополнялся и уточнялся в процессе исследования. В случае отсутствия на сайте NUC данных о доменном имени сайта университета, выполнялся поиск в поисковых системах Google, Yahoo и Bing по его названию. Каждый найденный веб-адрес несколько раз проверялся на работоспособность.
В случае наличия у университета нескольких сайтов, в целевое множество включался сайт, с наибольшими значениями веб-индикаторов, описанных в следующим разделе. В этом параграфе диссертации мы остановились на целевом множестве, содержащем 99 доменных имен официальных сайтов университетов Нигерии. Из этих 99 университетов 29 федеральных университетов, 30 университетов штатов и 40 частных университетов. Большинство веб-сайтов целевого множества имеют доменные имена в зоне edu.ng (75 университета), семь сайтов на домене net, два – на домене edu.net, пять – на домене org, один – на домене edu.org, восемь – на домене com и один – в зоне gov.ng. Каждый сайт целевого множества однозначно определяется своим уникальным доменным именем.
Появление и развитие вебометрических ранжирований университетов является результатом необходимости измерения степени принятия веба университетами в своих деятельностях. Те университеты, имеющие наивысший ранг, по-видимому, являются теми, которые активно используют веб в своих деятельностях. Как правило, они имеют больше ресурсов в вебе, а также больше исходящих и входящих ссылок. Это увеличивает и улучшает их активность и видимость в вебе и, следовательно, есть большая вероятность, что такие университеты будут восприняты заинтересованными сторонами положительно.
Низкое ранжирование может привести к снижению достоинства университета в глазах заинтересованных сторон, особенно потенциальных студентов и финансирующих учреждений. Академический обмен студентов, преподавателей и ученных с авторитетными университетами из других стран мира может также пострадать. Основываясь на подходах Cybermetrics Lab, автор диссертации в работе [18] провел самостоятельное исследование официальных сайтов университетов, указанных в параграфе 2 этой главы. Это исследование позволило выявить ряд интересных моментов, касающихся как способов измерения основных индикаторов Интернет-ресурсов, так и подходов к ранжированию сайтов и отраженных в данной работе. Cybermetrics Lab [105] предлагает использовать следующие четыре индикатора, описанные ранее в параграфе 4 первой главе этой диссертации для построения алгоритма ранжирования сайтов университетов: общее количество страниц сайта (S - size, размер); количество уникальных гипертекстовых ссылок с других веб-ресурсов, обнаруживаемых поисковыми системами (V - visibility, цитируемость или видимость); количество полнотекстовых файлов, под которыми понимаются файлы с расширениями pdf, ps, .doc, .docx, .xls, .xlsx, .ppt, pptx и .rtf (R -Rich files); количество статей, размещенных на сайте и их цитирований (Sc -scholar, «научность сайта»). В результате проведенного предварительного анализа из известных поисковых машин были выбраны Google, Yahoo!Search и Bing. Известная поисковая машина Яндекс не была выбрана, так как она в основном индексирует русскоязычную часть Веба [46]. Для измерения так называемой «научности» сайтов используется Google Scholar, не имеющая работоспособных аналогов. В Google, индикатор S измеряется на странице www.google.com, в строке поиска вводится site:доменное имя сайта. Результаты поиска выводятся под строкой поиска в виде «About S results (T seconds)», где T – время поиска. Индикатор V измеряется на странице http://www.google.com, в строке поиска вводится link:доменное имя сайта. Результаты поиска выводятся под строкой поиска в виде «About V results (T seconds)». Индикатор R измеряется на страницеwww.google.com, в строке поиска вводится filetype:тип site:доменное имя сайта. В позиции «тип» поочередно выбираются .pdf, .ps, .doc, .docx, .xls, .xlsx, .ppt, .pptx и .rtf. Для каждого типа файла результаты выводятся под строкой поиска в виде «About R results (T seconds) », результаты по всем типам суммируются. Индикатор Sc измеряется на странице scholar.google.com, в строке поиска вводится site:доменное имя сайта, слева выбрать соответствующие опции. Результаты поиска выводятся под строкой поиска, их количество также выводится – сразу под строкой поиска в виде «About Sc results (T sec)». В Yahoo!Search, параметра S измеряется на странице search.yahoo.com, в строке поиска вводится site:доменное имя сайта. Результаты поиска выводятся под строкой поиска в виде «S results)». Параметра R измеряется на странице search.yahoo.com, в строке поиска вводится filetype:тип site:доменное имя сайта. Последующие действия – как и в случае Google. Для каждого типа файла результаты выводятся под строкой поиска в виде «R results». Результаты по всем типам суммируются. В Bing, индикатор S измеряется на странице www.bing.com, в строке поиска вводится site:доменное имя сайта. Результаты поиска выводятся под строкой поиска в виде «S RESULTS». Параметра V измеряется на странице www.bing.com, в строке поиска вводится inbody:доменное имя сайта. Результаты поиска выводятся под строкой поиска в виде «V RESULTS». R - измеряется на странице www.bing.com, в строке поиска вводится filetype:тип site:доменное имя сайта. Последующие действия – как у Google. Для каждого типа файла результаты выводятся под строкой поиска в виде «R RESULTS», результаты по всем типам суммируются.
Стоит отметить, что поисковые машины Bing и Yahoo!Search в 2008г. и 2011г. соответственно отключили в своих системах возможность измерения индикатора V. Результирующие значения для S и V определяются как сумма результатов измерений. В первом случае минимальное и максимальное значение отбрасываются. По каждому индикатору сайты ранжируются по убыванию их значений. Для обозначения ранга по заданному индикатору используем обозначения RankV, RankS, RankR и RankSc соответственно (наивысший ранг равен 1).
Так как содержание веба очень часто меняется, а также учитывая постоянную деятельность роботов поисковых машин, следует отметить, что измеренное значение индикатора – это значение, полученное данной поисковой машиной в конкретный момент времени. Измерения индикаторов S, V, R и Sc проводились в январе-феврале 2011 г.
Как уже отмечено в параграфе 4 первой главы, за период с 2006 по настоящее время у Cybermetrics Lab время от времени изменялись не только значения измеряемых индикаторов, но и подходы к определению критериев ранжирования. Эти изменения не имеют влияния на концептуальные подходы и результаты, формулируемые в этой работе.
Исследование университетских сайтов Нигерии
Как уже было сказано, Нигерия состоит из 36 штатов и одной федеральной столичной территории, которые по географическим и этно-культурным признакам составляют в 5 регионов: Север, Юго-Запад, Юг, Юго-Восток и так называемый Центральный пояс. Распределение исследуемых в диссертации университетов по 4 регионам достаточно равномерное. Исключением является в Юго-Западный регион, в котором есть огромное количество университетов.
Обнаружение доменных имен официальных сайтов 129 университетов, указанных в первом параграфе этой главы оказалось непростой задачей. Вследствие того, что список доменных имен, указанных в [90], являлся неполным и неточным, он был принят лишь в качестве основы и многократно дополнялся и уточнялся в процессе исследования. Уточнение списка продолжается, а здесь мы остановились на целевом множестве, содержащем 97 доменных имен официальных сайтов университетов Нигерии. Примеры сайтов целевого множества: www.unimaid.edu.ng (University of Maiduguri), www.unilorin.edu.ng (University of Ilorin), www.wdu.edu.ng (WesternDelta University, Oghara), www.bellsuniversity.org (Bells University of Technology,Ota), www.futo.edu.ng (Federal University of Technology, Owerri), www.unizik.edu.ng (Nnamdi Azikiwe University, Awka). Из этих 97 университетов 30 федеральных университетов, 27 университетов штатов и 40 частных университетов. Большинство нигерийских университетских веб-сайтов целевого множества имеют доменные имена в зоне edu.ng. Встречаются и домена net, org, com и gov.ng. Сканирование сайтов посредством краулера BeeBot выполнялось до 5-го уровня глубины (то есть до тех страниц, до которых можно попасть за 4 клика от начальной страницы), поэтому указываемые далее количественные характеристики для некоторых сайтов являются оценками снизу. В большинстве случаев пяти уровней сканирования хватало для того, чтобы обработать все страницы, содержащие внешние гиперссылки с сайтов. Объем сайтов, определенный в результате их сканирования, достаточно невелик: 55 сайтов имеют до 200 html-страниц, 23 сайта - от 201 до 1000, 6 сайтов - от 1001 до 10000, 3 сайта имеют 10300, 14400 и 17500 страниц. Также невелико и количество исходящих внешних гиперссылок: 5 сайтов не имеют исходящих ссылок вообще, 51 сайт имеет от 1 до 10 исходящих ссылок, 28 сайтов - от 11 до 100 ссылок, 10 сайтов - от 101 до 1000, 3 сайта имеют 1100, 1900 и 2100 внешних ссылок. Указанные числовые характеристики веб-сайтов позволили сканировать каждый сайт не далее чем до 5-го уровня, поскольку на 5-м уровне внешних гиперссылок практически не обнаруживалось. База данных внешних гиперссылок, построенная в результате сканирования веб-сайтов целевого множества, содержит 9500 внешних гиперссылок, сделанных со 102000 страниц. Анализ базы данных внешних гиперссылок, построенной в результате сканирования сайтов целевого множества, позволил обнаружить 138 веб-сайтов, являющихся сайтами множества веб-окрестностей (см. 2 главы 1). Дальнейший анализ и сканирование этих сайтов привел к сокращению их числа до 127, поскольку 11 сайтов оказались неработающими. Среди 127 сайтов 74 сайта относятся к прямым веб-окрестностям, а 53 - скрытым. Например, веб-окрестность официального сайта Bayero University (www.buk.edu.ng) содержит 4 сайта: Advancement Office (alum.buk.edu.ng), Student Union Government (www.sug.buk.edu.ng), E-Learning (elearning.buk.edu.ng), и Central Online Information Management System (www.bukportal.edu.ng). Первые три сайта составляют прямую веб-окрестность, а последний - скрытую. Ещё пример - веб-окрестность официального сайта University of Agriculture, Abeokuta содержит 5 сайтов: Admission office (admission.unaab.edu.ng), Careers (www.careers.unaab.edu.ng), Nimbe Adedipe library (www.unaablibrary.org), MyPortal (uam.mycportal.com), и Alumni (www.uamalumni.org). Первые два сайта составляют прямую веб-окрестность, а остальные - скрытые. Объем сайтов, входящих во множество веб-окрестностей, следующий: 103 сайта имеют до 200 html-страниц, 19 сайтов - от 201 до 1000, 5 сайтов - от 1001 до 10000. Количество исходящих внешних гиперссылок: 25 сайтов не имеют исходящих ссылок, 86 сайтов имеют от 1 до 10 таких ссылок, 26 сайтов - от 11 до 100 ссылок, 12 сайтов - от 101 до 1000, 3 сайта имеют 1690, 2810 и 2860 внешних ссылок.
Переход от официальных сайтов нигерийских университетов к единицам анализа представляет собой агрегирование веб-ресурсов каждого университета. Очевидным представляется тот факт, что числовые характеристики единиц анализа, как правило, больше, чем официальных сайтов. Например, официальный сайт уже упоминавшегося Bayero University содержит 1010 страниц и имеет 36 исходящих гиперссылок, а все 4 сайта из веб-окрестности имеют 295 страниц и 11 исходящих внешних гиперссылок. Таким образом, единица анализа Bayero University имеет общий объем 1305 страниц и 47 исходящих гиперссылок, т.е. показатели официального сайта прирастают примерно на треть. Для 50 нигерийских университетов такого прироста не происходит, поскольку у них не найдено веб-окрестностей. Вместе с тем веб-окрестности остальных 47 официальных сайтов существенно увеличивают общую базу для анализа. В таблице 3.1. приведено среднее количество html-страниц и исходящих ссылок с официальных сайтов и единиц анализа с разбивкой по трем группам (федеральные университеты, университеты штатов и частные университеты).
Классификационная схема
Из 6358 исследованных ссылок эксперты расходились во мнениях по их классификации в 699 случаях. Это несогласие зачастую было обусловлено существованием частичного совпадения между определенными мотивациями. Приведём несколько примеров: ссылку (зачастую оформленную как баннер), отсылающую к товарам или услугам, предоставляемым компанией, можно интерпретировать как ссылку на информацию о товарах, услугах (мотивация - «Рекламные ссылки»), либо как ссылку на информацию об отдыхе и туризме (мотивация - «Информация об отдыхе и туризме»), либо даже как ссылку на веб-ресурс организации, для которой коммерческая деятельность является основной (мотивация - «Коммерческая организация»); ссылка со страницы сайта библиотеки одного университета на книгу, находящую на странице сайта библиотеки другого университета, может быть классифицирована как ссылка на подобную организацию (мотивация - «Подобная по виду деятельности организация»), либо как ссылка на учебные материалы для обучающихся (мотивация - «Учебные материалы для обучающихся») или как ссылка на ресурсы поддержки исследований (мотивация - «Ресурсы поддержки научных исследований»); ссылка с сайта одного университета на сайт другого университета, выступающего как один из спонсоров конференции, проходящей в первом университете, может быть рассмотрена как ссылка на веб-ресурсы спонсоров мероприятий (мотивация - «Веб-ресурсы спонсоров мероприятий») или как ссылка на подобную организацию (мотивация -«Подобная по деятельности организация»); ссылка с сайта исследовательской группы в одном университете на группе людей в другом университете с теми же исследовательскими интересами может быть классифицирована как ссылка на поддержку для научных исследований (мотивация - «ресурсы поддержки научных исследований») или ссылка на подобную организацию (мотивация «подобная (по деятельности) организация»); ссылка, ссылающая на электронные учебники. Эти учебники могут быть использованы студентами при подготовке к экзамену или при подготовке домашнего задания, то есть мотивация - «учебные материалы для обучающихся». Однако, эти электронные учебники могут быть использованы аспирантами как помощь для своих исследований, то есть мотивация - «ресурсы поддержки научных исследований». Вследствие этого классификационная схема была упрощена путем объединения столбцов и строк классификационной схемы таблицы 4.1. При объединении столбцов все исследуемые университеты были собраны по регионам в 5 указанных групп (Север, Юго-Запад, Юг, Юго-Восток и Центральный пояс) с соответствующим суммированием количества гиперссылок. Цель такого действие - сократить количество нулей в таблице 4.1. и сделать объем данных более компактным для изучения.
Количество мотиваций (строк таблицы 4.1.) было сокращено с 24 до 9. Это сделано, во-первых, и по такой же цели, как в случае столбцов, а во-вторых (и это главное) - чтобы минимизировать количество совпадений мотиваций. Результаты указанных действий приведены в таблице 4.2. Общая цель таких действий - сократить количество нулей в таблице 4.1. и сделать объем данных более компактным для исследования. В таблице 4.2 мотивы «Учебные материалы для обучающихся», «Информации для обучающихся и поступающих», «Неклассифицированный сайт», и «Неработающая ссылка» остаются такими же, как и в таблице 4.1. Мотив «Поддержка научных исследований» в таблице 4.2 является объединением мотивов «Ресурсы поддержки научных исследований», «Публикации сотрудников», «Библиотеки и электронные журналы», и «Цитируемая статья» таблицы 4.1. Мотив «Вышестоящая организация» является объединением мотивов «Вышестоящая организация» и «Органы государственной власти». Далее, мотив «Подобная по деятельности организация и нижестоящая организация» является объединением следующих мотивов: «Подобная по виду деятельности организация», «Нижестоящая организация», «Организация-партнер» и «Альтернативный сайт». Мотив «Служебный сайт» является объединением мотивов «Служебный сайт», «Личные страницы», «Новостная лента», «Научное мероприятие». Наконец, мотив «Организации сферы бизнеса» объединяет мотивы «Доступ к программному обеспечению», «Веб-ресурсы спонсоров мероприятий», «Коммерческая организация», «Рекламные ссылки и баннеры», «Информацию об отдыхе и туризме», «Сайт разработчиков данного сайта». И без статистической обработки данных таблицы 4.2 можно заметить, что на Юго-Востоке почти не обращают внимания на ссылки на учебные материалы для обучающихся, на Севере большое внимание уделяется поддержке научных исследований, а на Юго-Западе много неклассифицированных гиперссылок. Отметим, однако, что мы анализируем неравные по количеству университетов регионы. В Юго-Западном регионе имеется наибольшее количество университетов, и, следовательно, потенциально значения величин в таблице 4.2 в столбце «Юго-Запад» должны быть большими. Отметим также, что ссылки, имеющие мотивацию «Поддержка научных исследований», занимают 37% от общего количество исследуемых ссылок, а ссылок с мотивацией «Вышестоящая организация» всего лишь 2%.
Статистический метод проверки независимости номинальных переменных на основе статистики хи-квадрат был применен к результатам классификации для того, чтобы получить более четкую картинку мотиваций для создания внешних гиперссылок. Решение вопроса о том, случайно ли отклонение фактически полученных данных от теоретически рассчитанных, возможно только в результате применения методов математической статистики. Самым простым и удобным методом является критерий хи-квадрат, предложенный английским математиком К. Пирсоном в 1900 году. Он позволяет проверить соответствие эмпирических данных предполагаемой нулевой гипотезе о законе распределения генеральной совокупности при большом объеме выборки. Если нулевая гипотеза является простой, то речь идет о проверке соответствия эмпирического распределения и теоретического распределения, для случая сложной нулевой гипотезы речь идет о проверке некоторых свойств распределения генеральной совокупности. Суть метода хи-квадрат сводится к расчету статистики 2 и выбора критической точки по таблицам распределения хи-квадрат [12]. Нулевая гипотеза (Но) проверяется на согласованность с имеющимися выборочными (эмпирическими) данными. В качестве нулевой гипотезы часто выступают гипотезы об отсутствии взаимосвязи между исследуемыми качественными переменными, принимающими конечный набор возможных значений. Проверка гипотезы осуществляется на основе выявления согласованности эмпирических частот с теоретическими частотами, вычисляемыми в предположении истинности нулевой гипотезы [8]. При этом предполагают, что справедлива нулевая гипотеза и имеющиеся различия носят случайный характер. Гипотеза подтверждается, если расхождение между сравниваемыми величинами не выходит за пределы, определяемые критической точкой, которая выбирается по таблицам распределения хи-квадрат по уровню значимости критерия или, другими словами, по величине ошибки первого рода. Нулевая гипотеза отвергается в тех случаях, когда по выборке получается результат, который при истинности выдвинутой нулевой гипотезы маловероятен. Границей мало вероятного обычно считают 0,05, 0,01 и 0,001. Это и есть уровни значимости (обозначаемые ).
Если рассчитанный 2 будет больше или равен критического значения, указанного в таблице распределения хи-квадрат и выбираемого в соответствии с уровнем значимости критерия, то это означает, что различия между сравниваемыми величинами нельзя считать случайными, и нулевую гипотезу следует отвергнуть. Нулевая гипотеза подтверждается, если рассчитанное значение 2 меньше критического значения. Таблица 4.2 является таблицей сопряженности и поэтому статистический метод хи-квадрат [3,128] применим к ней. Однако до применения этого метода требуется обработка таблицы 4.2. Как уже указано, исследуются 86 университетских сайтов. Из них 13 сайтов – с севера Нигерии, 16 – с центрального пояса, 28 – с юго-запада, 14 – с юго-востока, и 15 сайтов – с юга страны. Чтобы было одинаковое условие в анализе этих сайтов, выбирается одинаковое количество сайтов (13 сайтов) с каждого региона. Берем 13, потому что это наименьшее количество среди регионов, и оно наблюдается у севера. Теперь возникает вопрос о том, по какому принципу будем осуществлять отбор. Роналд Фишер (Ronald Fisher) – выдающийся английский статистик и генетик – предложил идею рандомизации, для того чтобы избежать необъективного (предубеждённого) отбора, приводящего к неточным данным или к данным, вводящим в заблуждение [74].
В качество инструмента для осуществления рандомизированного отбора использовался простой интерактивный генератор случайных чисел [10]. С помощью этого генератора, были выбраны 13 сайтов от каждого региона. То есть случайным образом были удалены из статистического исследования 3, 15, 1 и 2 сайта из центрального пояса, юго-запада, юго-востока, и юга соответственно. В итоге получились 65 сайтов для дальнейшей статистической проверки независимости. Результат этого случайного выбора привел нас к таблице 4.3 (полученной из таблицы 4.2). В таблице 4.3 общее количество исследуемых гиперссылок сокращено до 2832 ссылок.