Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Адаптивные гипермедиа издания, интегрированные в Интернет Зайцев Илья Борисович

Адаптивные гипермедиа издания, интегрированные в Интернет
<
Адаптивные гипермедиа издания, интегрированные в Интернет Адаптивные гипермедиа издания, интегрированные в Интернет Адаптивные гипермедиа издания, интегрированные в Интернет Адаптивные гипермедиа издания, интегрированные в Интернет Адаптивные гипермедиа издания, интегрированные в Интернет Адаптивные гипермедиа издания, интегрированные в Интернет Адаптивные гипермедиа издания, интегрированные в Интернет Адаптивные гипермедиа издания, интегрированные в Интернет Адаптивные гипермедиа издания, интегрированные в Интернет
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Зайцев Илья Борисович. Адаптивные гипермедиа издания, интегрированные в Интернет : Дис. ... канд. техн. наук : 05.13.06 Москва, 2005 150 с. РГБ ОД, 61:06-5/416

Содержание к диссертации

Введение

Глава I. Вопросы адаптивного представления информации в гипермедиа изданиях 9

1.1 Анализ проблем эффективного доступа к информации в традиционных гипермедиа изданиях 9

1.2 Выделение класса адаптивных электронных изданий, интегрированных в Интернет 15

1.3 Обзор современных форм и видов адаптации в гипермедиа системах 22

1.4 Анализ подходов к адаптации в гипермедиа системах 29

1.5 Выбор характеристик пользователя для осуществления адаптации 34 Выводы по главе 41

Глава II. Разработка методик совместной фильтрации в адаптивных гипермедиа изданиях (АГИ) 43

2.1 Особенности совместной фильтрации и систем рекомендаций 43

2.2 Постановка задачи 45

2.3 Разработка модифицированного алгоритма классификатора «К-ближайших соседей» 52

2.4 Разработка модифицированного алгоритма «наивного» Байесовского классификатора 59

2.5 Разработка модифицированного алгоритма кластеризации «К-медиан» 66

Выводы по главе 72

Глава III. Моделирование предпочтений пользователя на основе скрытых марковских цепей 73

3.1. Обоснование выбора индикаторов предпочтений пользователя 73

3.1.1. Анализ ограничений временных индикаторов предпочтения: 76

3.1.2. Оценка эффективности индикаторов предпочтения, основанных на взаимодействии пользователя с интерфейсом АГИ 83

3.1.3. Предположение о скрытых состояниях пользователя 86

3.2 Оценка релевантности гипермедиа страниц с помощью скрытых марковских моделей (СММ) 89

3.2.1. Обозначения дискретной СММ 89

3.2.2 Выбор СММ для описания интерфейсных наблюдений 92

3.2.3 Декодирование и определение индексов предпочтения 94

3.2.4 Особенности обучения СММ для гипермедиа страниц по критерию релевантности 96

3.3 Анализ практической применимости разработанной методики и выявление ограничений 100

Выводы по главе 102

Глава IV. Реализация адаптивного модуля для осуществления рекомендаций в АГИ 104

4.1 Особенности интеграции разработанного АГИ в Интернет 104

4.2 Разработка архитектуры модуля адаптации 110

4.3 Оценка эффективности предложенных методов совместной фильтрации Ї14

Выводы по главе 120

Заключение 122

Список используемой литературы 125

Приложения 138

Введение к работе

Среди прочих средств массовой информации (телевидение, радио, печатные издания) Интернет становится равноправным источником, и его роль в современном обществе увеличивается с каждым днем. По оценкам Роспечати интернет-СМИ сегодня выходят на второе место после телевидения, при этом число постоянных пользователей глобальной сети в России в настоящее время превысило 18 млн, человек. Популярность информационных интернет-изданий за- последние пять лет возросла десятикратно, что явилось причиной усиления конкуренции на рынке онлайн-периодики. Все больше традиционных печатных СМИ вынуждены развивать интернет подписку и делать электронные версии собственных печатных изданий; на данный момент раздел российского сегмента «СМИ-Периодика» уже насчитывает более 1700 web-ресурсов. Прогнозируется, что среди прочих ресурсов именно электронные версии периодических изданий в ближайшее время будут занимать лидирующие позиции по посещаемости.

С каждым днем объем информации, хранящийся на web-серверах, увеличивается, внедряются все новые технологии. Увеличение функциональности гипермедиа систем приводит к усложнению интерфейсов, логической структуры, а также информационной «перегруженности» визуальных макетов. В такой постоянно развивающейся среде как Интернет, конечному пользователю становится все сложнее ориентироваться в гиперпространстве и осуществлять доступ к информационным архивам. В результате возникает чрезвычайно актуальная проблема, связанная с неэффективным использованием web-ресурсов (увеличение временных затрат на поиск релевантных гипермедиа документов, досрочное прекращение сеанса работы и т.д.). Решение данной проблемы может быть найдено в разработке интеллектуальных механизмов прогнозирования предпочтений конечных пользователей и представление информации в форме, отвечающей их текущим потребностям.

Использование методов и подходов из различных областей искусственного интеллекта и математической статистики дает возможность построения, так называемых, адаптивных гипермедиа систем, способных динамически изменять свою структуру и формат представляемых данных в ответ на действия пользователя, который взаимодействует с данной системой. Таким образом, наряду с интерактивными и статическими гипермедиа изданиями, которые предоставляют однотипную информацию для всей аудитории, можно говорить о появлении-нового класса адаптивных электронных изданий, целью которых является персонализация содержимого (текстовой и мультимедиа информации), навигационной структуры или формата отображаемых данных.

Очевидно, что адаптивная гипермедиа система должна обеспечивать идентификацию конечного пользователя и производить адаптацию в соответствии с пользовательской моделью. При этом могут учитываться различные характеристики пользователя: интересы, знания, предпочтения, опыт и т.д. Вместе с тем адаптивная система должна также фиксировать навигационные переходы (пользовательские сессии или сеансы), анализировать гипермедиа содержимое, различные индикаторы предпочтения (интерфейсные, временные наблюдения, пользовательские оценки значимости информационных страниц и т.д.).

Технологии адаптивного представления информации могут применяться как в случае небольших гипертекстовых изданий с фиксированным набором страниц (или обновляемых в определенные промежутки времени), так и в сложных, распределенных системах, хранящих содержимое в реляционных базах данных и генерирующих страницы динамическим образом в режиме реального времени.

По мере развития информационных технологий, гипермедиа издания, интегрированные в Интернет, становятся все более доступными и

функциональными. Широкое распространение электронных изданий, а также возрастающие требования современного пользователя в получении актуальной и релевантной информации с минимальными временными затратами, явилось, причиной снижения популярности традиционных гипермедиа систем. Чтобы предоставить пользователю максимум возможностей и удобства доступа к информации, при этом оказаться конкурентоспособным на рынке онлайн-периодики,, разработчики web-ресурсов вынуждены использовать новые технологии с целью персонализации информации конечному пользователю.

Следует отмстить, что в настоящее время российский сегмент адаптивных изданий. практически не выражен. Существуют попытки персонализации навигационной структуры, в частности, размещение в макете издания дополнительного, навигационного блока, связывающего текущую страницу с другими релевантными документами, то есть, документами, представляющими для конечного пользователя наибольший интерес. Однако подобная рекомендация носит статический характер и не учитывает характеристики конечного пользователя. Подходы к информационной фильтрации для выделения коррелированных гипермедиа страниц нашли применение в системах электронной коммерции и в отношении информационных изданий, в частности, электронных версий периодических изданий практически не рассматривались. По этой причине разработка эффективных методик прогнозирования предпочтений пользователей в рамках информационной фильтрации видится чрезвычайно актуальным вопросом.

Актуальность

Итак, выделим наиболее значимые предпосылки, определяющие актуальность данной тематики исследования:

Значительный рост популярности информационных интернет-изданий за последние пять лет-

Рост посетителей сети Интернет и конкуренции на рынке онлайн-периодики.

Необходимость традиционных печатных СМИ развивать интернет подписку и осуществлять публикацию в глобальных сетях электронных версий изданий.

Малая развитость сегмента адаптивных электронных изданий при
увеличении функциональности традиционных гипермедиа систем.

Увеличение объемов доступной информации, неэффективное использование информационных архивов,

Отсутствие эффективных механизмов прогнозирования предпочтений пользователей, ориентированных на долгосрочное использование электронных изданий.

Цель исследования

Разработка методик адаптации навигационной структуры гипермедиа изданий, интегрированных в глобальную сеть Интернет, для обеспечения эффективного поиска, просмотра и доступа к информации конечного пользователя.

Задачи исследования

Обобщение опыта теоретических и практических разработок в области адаптивных гипермедиа систем.

Выбор подхода к адаптации, учитывающий специфику класса электронных изданий.

Разработка модифицированных алгоритмов адаптации в рамках выбранного подхода и пользовательской модели.

«

Разработка методики определения релевантности гипермедиа страниц для конечного пользователя.

Практическая реализация модуля адаптации с помощью выбранных аппаратных и программных средств,

Оценка действенности и практической пригодности предложенных методик на примере интеграции электронной версии печатного издания в адаптивную гипермедиа систему.

Объект исследования

Объектом исследования в данной диссертационной работе- выбраны гипермедийные электронные издания, интегрированные в глобальную сеть Интернет,

Предмет исследования

В качестве предмета исследования выступает процесс адаптации навигационной структуры сетевых электронных изданий для конечного пользователя.

Структура и объем диссертации

Диссертационная работа состоит из введения, четырех глав, выводов, двух приложений, списка литературы из 92 наименований, содержит 150 страниц машинописного текста, в том числе 6 таблиц и 35 рисунков.

Анализ проблем эффективного доступа к информации в традиционных гипермедиа изданиях

В настоящее время гипермедиа системы в целом и гипертекстовые системы (ГС)5 интегрированные в Интернет, в частности, становятся наиболее распространенным средством доступа пользователей к информации в рамках электронных изданий. Механизм гиперссылок, лежащий в основе, таких систем, предоставляет огромную навигационную свободу (свободу перемещения в информационном пространстве), С увеличением объема и потока информации, публикующейся на web-порталах, электронных периодических изданиях, рядовому пользователю с каждым днем становится все сложнее сориентироваться в таком многообразии документов и извлечь наиболее релевантную информацию. К сожалению, подобные традиционные системы не способны учесть индивидуальные особенности своих посетителей, предугадать их цели и пути навигации, поэтому предоставляют одинаковые интерфейсы для всех категорий пользователей. Б связи с этим, эффективность доступа к информации существенно снижается [23]. Под традиционной гипермедиа системой мы понимаем интерактивное электронное издание, распространяемое через Интернет, и содержащее статические или динамические гиперсвязи.

Архитектура динамической гипермедиа системы показана на рис. 1.1.1. Пользователь через программу просмотра web-страниц («браузер») запрашивает у web-сервера гипермедиа страницу. Сервер вызывает интерпретатор серверного языка сценариев, которому передаются указанная страница и параметры (адрес клиента, cookies, различные переменные и т.д.). Интерпретатор выполняет расчет, содержащийся в сценарии, при этом в зависимости от полученных переменных, выполняется следующие действия: Чтение или запись информации в файловую систему сервера; Обращение к базам данных в локальной или глобальной сети; Обращение к локальным или глобальным web-серверам для получения или передачи информации. В результате интерпретатор генерирует гипермедиа страницу и через web-сервер возвращает ее клиентской части. Следует отметить, что, несмотря на наличие динамических гиперсвязей, форма представления информации в традиционных системах остается неизменной для всех пользователей, а навигационная структура фиксирована. Поэтому для поиска релевантных документов пользователь вынужден взаимодействовать с навигационным интерфейсом, предусмотренным разработчиками системы.

Появление класса адаптивных гипермедиа систем связано с новым витком развития интернет-технологий, в частности, областей искусственного интеллекта: человеко-машинного взаимодействия (human-computer interaction), адаптивных интерфейсов (adaptive interfaces), моделирования пользователя (user modeling), интеллектуального анализа данных (data&web mining). Функциональность и объемы современных web-сайтов возросли настолько, что появилась острая необходимость в упорядочивании и систематизации доступной для пользователя информации.

Коммерческие web-сайты стали заинтересованы, в предоставлении контекстной рекламы и интеллектуальной рекомендации товаров как инструмент для решения своих маркетинговых задач; порталы - в систематизации тематических разделов и персонализации визуального макета, поскольку ориентированы на долгосрочное взаимодействие с пользователем и расширение своей web-аудитории; информационные сайты и электронные версии печатных изданий стали заинтересованы в более эффективных механизмах навигации с целью обеспечения удобства использования обширных информационных архивов [26].

Адаптивные гипермедиа системы используют модель пользователя и учитывают информацию о его знании, целях, опыте и прочие характеристики для того, чтобы адаптировать содержимое и навигационную структуру ГС [36].

Разработка модифицированного алгоритма классификатора «К-ближайших соседей»

Среди рассмотренных навигационных проблем для неориентированной стратегии взаимодействия конечного пользователя с АГИ выделены те, которые связанны с группировкой совместной информации.

Среди множества существующих методов совместной фильтрации в качестве базиса для разработки адаптивного гипермедиа издания выбраны - традиционные методы регрессии, классификации и кластеризации, а также сформулированы решения, учитывающие ограничения каждого из методов:

Для методики классификатора «К-ближайших соседей» предложен механизм проверки значимости расчетного коэффициента корреляции, а также введены дополнительные критерии для формирования множества ближайших пользователей,

Для методики «наивного» Байесовского классификатора предложен модифицированный алгоритм, позволяющий производить обучение классификатора только для сильно связанных пользовательских сессий по отношению к целевой странице,

Для методики кластеризации «К-медиан» на этапе инициализации предложен механизм формирования множества пользовательских сессий на основе коэффициента взаимозависимости, уменьшающий влияние исходного выбора центров кластеров на результирующие данные.

Моделирование предпочтений пользователя на основе скрытых марковских цепей посвящена анализу традиционных индикаторов предпочтения и разработке нового индикатора, основанного на интерфейсных наблюдениях. В разделе 3 Л дается классификация существующих индикаторов, используемых, в современных адаптивных гипермедиа системах, проводится анализ ограничений временных и одиночных интерфейсных индикаторов с использованием коробчатых диаграмм, " Предлагается новая методика нормализации временных индексов предпочтения с учетом объема гипермедиа страниц. Раздел 3.2 посвящен разработке методики оценки релевантности конечных страниц на основе скрытых марковских моделей (СММ). Описываются этапы и алгоритмы для вычисления индексов предпочтения. Особое внимание уделяется особенностям обучения СММ, а также вопросам инициализации процедуры Баум-Велча. В заключении производится оценка эффективности предложенной методики, и формулируются соответствующие ограничения (раздел 3-3).

Основными данными, которыми оперируют методы совместной фильтрации, являются навигационная история пользователя и соответствующие оценки релевантности для каждой из просмотренных гипермедиа страниц. Таким образом, учитываются целевые характеристики (краткосрочные и среднесрочные информационные потребности),.а также характеристики состояния (текущая релевантность). Текущая релевантность может быть.определена явным или скрытым образом (раздел 1,5) на основе выбранных индикаторов предпочтения и представляет собой индекс предпочтения (релевантности) для конкретной гипертекстовой страницы, выраженный в числовой форме. Под индикатором предпочтения мы понимаем некоторый класс событий или явлений, который характеризует степень заинтересованности Пользователя в размещенной на странице информации. Ниже приведены основные индикаторы предпочтения, которые позволяют делать заключения о текущей релевантности гипермедиа страниц. Явные индикаторы предпочтения

Пользовательские оценки. Предоставляются непосредственно пользователем путем голосования и заполнения экранных форм [59]. Индексы предпочтения принимают безразмерные значения в соответствие с дискретной шкалой оценок, В некоторых случаях используется бинарные значения, когда релевантность страницы очевидна (сохранение на диск, распечатка, добавление в закладки браузера, детализация информации и т.д.). Преимущество пользовательских оценок заключается в том, что мы получаем достоверные оценки релевантности, однако в этом случае необходимо наличие стимула у конечного пользователя для интерактивного взаимодействия с системой- Поскольку пользователь обычно предоставляет оценки только для одной или нескольких страниц из всего множества востребованных страниц, Б результате мы получаем слабое покрытие объема обучающей выборки. Неявные индикаторы предпочтения

Фактические наблюдения. Самое простое допущение, которое предполагает, что каждая востребованная страница является релевантной. То есть, мы рассматриваем идеальный случай, когда пользователь никогда не ошибается и посещает исключительно страницы, совпадающие с его информационными потребностями. Агрегатная релевантность при этом максимальна- Индексы релевантности принимают бинарные значения {0,1}, Временные наблюдения. Наиболее распространенный неявный индикатор предпочтения, который предполагает наличие зависимости между релевантностью и временем пребывания пользователя на конкретной странице [43,92]. Интерфейсные наблюдения. Индикатор, отражающий зависимость релевантности от одиночных или комбинированных интерфейсных событий в процессе взаимодействия пользователя с гипермедиа изданием, В данной диссертации мы оцениваем релевантность исходя из совокупности отдельных интерфейсных наблюдений, и: представляем эффективную методику, позволяющую рассчитать.индексы предпочтения в зависимости от интерфейсной активности пользователя.

Оценка эффективности индикаторов предпочтения, основанных на взаимодействии пользователя с интерфейсом АГИ

Результаты, полученные в ходе исследования временных и интерфейсных индикаторов предпочтения, показали, что на релевантность страницы конечному пользователю оказывает влияние множество факторов, учесть многие из которых затруднительно или вовсе невозможно.

Как было показано ранее, несмотря на присущие ограничения, временные наблюдения являются весьма надежным индикатором предпочтения, более эффективным, чем отдельные интерфейсные наблюдения. Последние, используемые в отдельности друг от друга, едва служат мощным инструментом для решения задачи определения индексов релевантности. Тем не менее, мы предполагаем, что комбинация интерфейсных индикаторов может обеспечить лучшие результаты в сравнении с временными индикаторами.

К примеру, пролистывание страницы само по себе еще не означает, что страница представляет для пользователя интерес, ведь в одном случае пользователь может внимательно читать, а в другом - бегло просматривать содержимое. Однако если мы знаем, что вместе с пролистыванием пользователь использует компьютерную «мышь» для выделения или наведения ее на определенные фрагменты текста, то мы более уверенно можем сказать, что данная страница является релевантной. Таким образом, мы предполагаем,-что. компьютерная «мышь» является прототипом глаз, имитируя их траекторию движения [31]. Более того, многие пользователи проявляют схожее поведение, используя «мышь» для сосредоточения (фокусирования) на определенных информационных фрагментах. Особенно часто это наблюдается в процессе выбора гиперссылки для последующего навигационного перехода. Движение «мыши» и ее сосредоточение на текущем фрагменте помогает глазу ориентироваться в гипермедиа пространстве издания, а также позволяет сократить время для активации ссылки.

В связи с этим, мы выдвигаем предположение о том, что в процессе использования гипермедиа издания пользователь пребывает в одном из нескольких состояний, которые могут сменяться в случайные отрезки времени. Данные состояния являются скрытыми, то есть их нельзя однозначно распознать или зафиксировать на стороне сервера, однако с использованием математического аппарата скрытых марковских цепей (раздел 3.2) мы можем смоделировать цепочку данных состояний на основе наблюдаемых интерфейсных событий Мы выделили три основных скрытых состояния пользователя в ходе взаимодействия с адаптивным гипермедиа изданием [19]. Беглый просмотр. Данное состояние характеризуется попыткой пользователя ознакомиться с содержимым страницы, прежде чем он начинает более детальное изучение. В коде беглого просмотра пользователь обычно пытается найти релевантные информационные фрагменты. Чтение, В данном состоянии пользователь читает или внимательно просматривает отдельные фрагменты гипермедиа страницы. Мы считаем, что чтение является базовым индикатором предпочтения, и не рассматриваем ситуацию, при которой после прочтения пользователь остается неудовлетворенным пребыванием на данной странице Игнорирование, Данное состояние характеризуется желанием пользователя уйти со страницы или найти альтернативные пути навигации. Игнорирование - очень непродолжительное состояние, которое, в конечном счете, сводится к переходу на другую страницу, тематический раздел, нажатию кнопки «back» или окончанию сеанса работы с гипермедиа изданием; На вход АГИ мы получаем набор интерфейсных наблюдений, задача состоит в прогнозировании скрытых состояний. Итак, для осуществления адаптации сформулируем ряд допущений, идеализирующих модель взаимодействия пользователя с АГИ: Пользователь использует неориентированную стратегию взаимодействия с ГИ (раздел 1.4). Для задач адаптации отбираются только конечные гипермедиа страницы (исключая индексные). Каждая конечная гипермедиа страница содержит информационную статью с некоторым минимальным объемом S. Каждая страница может содержать мультимедиа объекты (графические, аудио, видео) с преобладанием гипертекстовой информации. Релевантность гипермедиа страницы определяется количеством состояний, характеризующих «чтение» данной страницы. Случайная последовательность данных обладает марковским свойством, если ее распределение определяется исключительно текущим состоянием [4], Мы считаем, что генерация состояний пользователя - марковский случайный процесс. Если состояния возможно определить, то это ведет к марковской модели (марковской цепи), если состояния не наблюдаемы, то мы имеем скрытую марковскую модель (скрытая марковская цепь) [78]. Для адаптивного гипермедиа издания внутренние состояния пользователя неизвестны, следовательно, мы должны моделировать процесс с помощью СММ. Термин «скрытый» означает, что мы можем делать выводы, только исходя из наблюдаемых символов. Наблюдаемые символы составляют цепочку внешних интерфейсных наблюдений, которую возможно однозначно распознать и обработать на стороне сервера. Поскольку из любого состояния возможно оказаться в любом другом за один шаг и число наблюдаемых символов конечно, то мы имеем эргодическую дискретную модель. Внешние наблюдения также являются марковским случайным процессом. Таким образом, мы имеем два вложенных друг в друга случайных процесса,

Особенности интеграции разработанного АГИ в Интернет

Интеграция адаптивного гипермедиа издания в глобальную сеть Интернет предполагает размещение контентной и программной части издания на web-сервере, имеющего доступ к системе управления базами данных, а также к интерпретатору серверного языка сценариев, посредством которого исполняется программный код, и генерируются конечные гипертекстовые страницы.

На web-сервере баз данных хранится информационное содержимое (контент), а также модель пользователя (обучающая выборка), необходимая для реализации методов совместной фильтрации. Данная модель содержит только те характеристики пользователей, которые учитываются в процессе адаптации, а именно: среднесрочные интересы и характеристики состояния (текушая релевантность)- В адаптивной системе перечисленные характеристики выражаются в форме истории навигации (множества востребованных страниц) и соответствующих им индексов предпочтения. Осуществление адаптации, в частности, алгоритмов совместной фильтрации, возможно лишь в том случае, когда сформирована достаточно полная и корректная обучающая выборка прошлых взаимодействий пользователей с ГИ [55,68] Сначала, необходимые данные о конечном пользователе записываются в серверный журнал (server log) или отдельную базу данных. Затем накопленные данные проходят несколько этапов предварительной обработки, в результате которой происходит идентификация сеансов и удаление малоинформативных записей, В нашем случае формирование обучающей выборки на основе стандартных серверных журналов не представляется возможным, поскольку для расчета индексов предпочтения 1 мы используем интерфейсные наблюдения, которые в журналах не фиксируются. Поэтому запись пользовательских данных производится в специализированную таблицу БД структура которой показана в таблице 4.1.1. Данная таблица содержит ір-адрес конечного пользователя, время, просмотра предыдущей страницы time (находится как разность между текущим временем и временем последней записи, соответствующей данному ір-адресу), идентификационный номер текущей страницы ра (только для конечных страниц), идентификатор страницы-источника р0 (страницы, с которой осуществляется переход), а также последовательность внешних интерфейсных наблюдений О и индекс предпочтения для страницы-источника га.

Таким образом,- в таблицу заносятся записи, соответствующие предыдущему шагу навигации- Следует отметить также, что данные записываются только для конечных гипермедиа страниц и корректных входных данных (раздел 4,2). Поскольку одновременно с АГИ могут работать несколько пользователей, приведенная таблица содержит неупорядоченные записи, относящиеся к различным пользовательским сеансам. Дальнейшая обработка данных предполагает следующие этапы: 1, Идентификация отдельных сеансов (новый сеанс создается при разнице во времени между запросами с одного ір-адреса более 30 мин, [84,92]). Следует отметить, что адаптивная система не учитывает повторные посещения, а, следовательно, предыдущие результаты адаптации для одного и того же пользователя- Каждый новый сеанс, даже для одинаковых ір-адресов, сопоставляется с новым пользователем. 2, Фильтрация конечных страниц (удаляются запросы к страницам с датой размещения более 6 месяцев и долей просмотров менее 0,1%). 3. Фильтрация сеансов (удаляются сеансы, содержащие менее двух просмотров конечных страниц или более 20 просмотров). 4. Формирование матрицы [гд] посредством Л/-разрядных векторов, содержащих индексы предпочтений для 1-ого сеанса. Для проведения экспериментальной части работы мы интегрировали электронную версию периодического издания «Мир печати» в адаптивную гипермедиа систему и осуществили сбор навигационной информации в период с сентября 2004 г. по август 2005 г. После предварительной обработки была сформирована обучающая выборка со следующими параметрами: Количество пользовательских сеансов - 8533; Количество индексов предпочтения - 56269; Количество конечных гипермедиа страниц - 242; Средняя длина пользовательского сеанса - 7 просмотров; Исходное количество пользовательских сеансов - 14265; Исходное количество гипермедиа страниц-361; Разряженностъ матрицы [г ] - 74%. Для конечной реализации разработанной адаптивной системы нам потребовалось выбрать аппаратное обеспечение для web-сервера, операционную систему, программное обеспечение web-сервера, систему управления базами данных -и язьпс программирования для -создания серверных сценариев. Следует отметить, что выбор перечисленных компонентов напрямую зависел от конфигурации исходной системы. В диссертационной работе мы разрабатывали адаптивную систему на основе существующего электронного издания «Мир печати», которое интегрировано в Интернет на базе сервера Apache под управлением операционной системы Linux- Изначально разрабатываемый по лицензии GNU, Apache в настоящее время стал самым популярным сервером. Более 60% узлов, поставляющих информацию в Интернет, используют в качестве web-сервера именно Apache, В данный момент это один из самых надежных и непрерывно развивающихся web-серверов. Он поддерживает все самые современные технологии и позволяет расширять свои функции за счет подключения внешних модулей.

Исходя из заданного программного и аппаратного обеспечения, следующий этап состоял в выборе языка серверных сценариев и СУБД. В настоящее время существуют две технологии, успешно работающие под Apache — это web-ориентированные языки программирования Perl и РНР [25].