Содержание к диссертации
Введение
ГЛАВА 1. Анализ методов и технологий построения ИПС 13
1.1. Анализ информационного обеспечения участников процесса обучения в вузе 13
1.1.1. Выбор целевой функции для системы информационного обеспечения участников процесса обучения в вузе 16
1.1.2. Выбор режима доступа к данным для ИПС обеспечения участников процесса обучения в вузе 20
1.1.3. Видовые характеристики ИПС обеспечения участников процесса обучения в вузе - 23
1.1.4. Выбор программного обеспечения для ИПС- 24
1.2. Выбор математической теории для формализации процессов ИПС 28
ГЛАВА 2. Разработка метода создания математических моделей ИПС, основанного на алгебрах Халмоша 37
2.1. Инфологическая модель ресурсов процесса обучения и схема информационного обеспечения пользователей 37
2.2. Алгебраическая модель информационно-поисковой системы 43
2.2.1. Гомоморфизм алгебры запросов и алгебры ответов 50
2.2.2. Построение автомата двух алгебр Халмоша (алгебры запросор и алгебры ответов) 52
2.3. Кластеризация ресурсов на тематические разделы для ИПС 53
2.3.1. Постановка задачи - 54
2.3.2. Построение критерия кластеризации множества ресурсов на тематические разделы 58
2.3.3. Выбор алгоритма для кластеризации ресурсов на тематические разделы - 68
ГЛАВА 3. Построение математической модели ИПС на основе алгебр Халмоша 72
3.1. Модель тематических разделов исследуемой ИПС 72
3.2. Модель поисковых образов ресурсов, участвующих в процессе обучения 78
3.3. Алгебры запросов и ответов для математической модели ИПС обеспечения участников процесса обучения в вузе необходимыми ресурсами 82
3.3.1. Информационное обслуживание первого пользовательского подзапроса 84
3.3.2. Информационное обслуживание второго пользовательского подзапроса 89
3.3.3. Оптимизация запросов. Технология построения ответа на запрос 91
3.4. Построение тематических разделов для ИПС 98
3.4.1. Модификация алгоритма KRAB. Этапы построения тематических разделов 99
3.4.2. Применение алгоритма KRAB для кластеризации ресурсов электронного каталога библиотеки 105
Заключение 115
Литература 118
- Анализ информационного обеспечения участников процесса обучения в вузе
- Инфологическая модель ресурсов процесса обучения и схема информационного обеспечения пользователей
- Построение критерия кластеризации множества ресурсов на тематические разделы
- Модель поисковых образов ресурсов, участвующих в процессе обучения
Введение к работе
Актуальность. Одним из перспективных направлений в развитии информационного обеспечения любой сферы деятельности (медицина, образование, промышленность и т.д.) является использование эффективных технологий информационного поиска; для этих целей разрабатывается специальный класс информационных систем - информационно-поисковые системы (ИПС). Как правило, информация, которая может быть получена в результате поиска, хранится в базе данных ИПС, доступ к которой может быть получен посредством СУБД и специального программного обеспечения системы.
Недостатки и низкая эффективность существующих ИПС связаны с отсутствием этапа математического моделирования при их проектировании. Многими исследователями разработка ИПС рассматривается в узком смысле создания базы данных и примитивного программного обеспечения к ней. Это приводит к игнорированию вопросов, связанных с целостностью используемых данных, их полнотой и непротиворечивостью, построением эффективной структуры для их хранения и поиска.
Специфика построения математических моделей ИПС (К. Дейт, В.М. Дрибас, С. Д. Коровкин, М.Ш. Цаленко) заключается в разработке специального интерфейса для перевода пользовательских потребностей с естественного языка на информационно-поисковый язык и обратно. Сложность информационно-поискового языка существенно снижает эффективность функций, выполняемых системой. Применение теории алгебр Халоша для математического моделирования ИПС позволяет согласовать структуру формируемых пользователями запросов со структурой хранимых системой данных, и тем самым существенно упростить правила перевода и информационно-поисковый язык (Б.И. Плоткин, СМ. Розенберг, М.Ш. Цаленко). Моделирование ИПС с согласованными структурами хранимых и запрашиваемых данных является перспективным направлением, требующим теоретических и практических исследований.
Построение моделей ИПС невозможно без классификации видов формальных
признаков опік систем, которые привязаны к предметной области исследования. Вме
сте с тем в рамках исследования ограничимся рассмотрением систем, предназначен
ных для информационного обеспечения участников процесса обучения в вузе. Такие
ИПС обладают типичной для рассматриваемого класса систем структурой ресурсов и
выполняют типичные для этого класса систем функции. Задача построения математи
ческой модели ИПС, которая обеспечивает участников процесса обучения в вузе не
обходимыми информационными ресурсами, является актуальной сама по себе. От
сутствие единой системы формализации информационных ресурсов, участвующих в
обучении, зачастую приводит к дублированию исследовательских работ и не способ
ствует принятию правильных решений.
Таким образом, можно сделать вывод, что выбраяная^^ц^фйдоденл* являет-ся актуальной.
СПетербург ^..^
СПетсрбург 09 ЮО^мг
Цель исследования: разработать метод создания математических моделей ИПС, основанный на универсальной алгебре и алгебраической логике, который позволяет повысить эффективность систем за счет согласованности структур хранимых и запрашиваемых данных.
Объект исследования: информационно-поисковая система, обеспечивающая участников процесса обучения в вузе необходимыми информационными ресурсами. Прикладные исследования проводились на примере ИПС, используемых в учебном процессе Алтайского госуниверситета.
Предмет исследования: математическое моделирование информационно-поисковых систем с согласованными структурами хранимых и запрашиваемых данных.
Задачи исследования:
анализ существующих методов и технологий построения ИПС применительно < к информационному обеспечению участников процесса обучения в вузе;
разработка метода создания математических моделей ИПС, основанного на алгебрах Халмоша;
построение математической модели ИПС с согласованными структурами хранимых и запрашиваемых данных на основе разработанного метода;
апробация разработанного метода на реальных данных.
Методы исследования. Методологической основой диссертационной работы является системный анализ, математическое моделирование, синтез, сравнение, конкретизация и обобщение. В диссертационной работе использовались методы функционального и кластерного анализа, алгебраические методы исчисления высказываний (методы булевых алгебр) и исчисления предикатов 1-ой ступени (методы полиадических алгебр Халмоша), выборочный метод статистического анализа данных. Научная новизна исследования
-
Разработан метод создания математических моделей ИПС, позволяющий повысить эффективность систем за счет согласованности структур хранимых и запрашиваемых данных. Построение моделей на основе разработанного метода закладывает в системе возможности совместного использования документального и фактографического видов обслуживания, физического и логического видов поиска.
-
Цостроены следующие модели:
модель тематических разделов (Я,*?,/), где П - комплект множеств, описывающий свойства тематических разделов; *F - множество отношений; F - множество состояний ИПС, /eF.
модель поисковых образов ресурсов (Д,Ф,/), где Д - комплект множеств, характеризующий поисковые образы ресурсов (сами ресурсы); Ф - множество отношений.
3. Доказано, что композиция отображений f{g)f:W^>M(D) двух алгебр Халмоша является гомоморфизмом, где W - алгебра запросов для модели тематических разделов, M(D) - алгебра ответов на запросы для модели поисковых образов ресурсов. Согласованность алгебры запросов и алгебры ответов позволяет любой ответ на запрос выражать на языке запросов.
-
Теоретически обосновано применение гипотезы Л - компактности для представления множества информационных ресурсов в признаковом пространстве ключевых слоз. Разработан новый подход построения тематических разделов, основанный на применении итеративного метода кластеризации, который позволяет формировать «непохожие» тематические разделы с «близкими» по содержанию информационными ресурсами.
-
Обоснована необходимость использования промежуточных звеньев (тематических разделов, поисковых образов ресурсов) в классической технологии информационного обслуживания («запрос-ответ») применительно к предметной области исследования.
Практическая значимость исследования
-
Применение разработанного метода к моделированию ИПС позволяет любой пользовательский запрос представлять в нормальной канонической форме, что соответствует логической оптимизации множества запросов.
-
Предлагаемая модификация алгоритма кластеризации KRAB позволяет разбить множество информационных ресурсов на разделы по их смысловому содержанию, не используя числовой матрицы данных, и увеличить скорость сходимости алгоритма за счет разрыва нескольких «напряженных» ребер за один шаг кластеризации.
-
Предлагаемый способ формализации ресурсов информационного пространства вуза позволяет предоставлять доступ к ресурсам с различными свойствами (структурированным, неструктурированным, слабоструктурированным) из различных информационных источников и на различных носителях.
Основные положения, выносимые на зашиту
-
Предлагаемый метод математического моделирования информационно-поисковой системы, основанный на алгебрах Халмоша, позволяет проектировать модели систем, для которых согласованы структуры хранимых и запрашиваемых данных.
-
Математическая модель ИПС обеспечения участников процесса обучения в вузе может быть представлена двумя алгебраическими системами (моделями): моделью тематических разделов {П,^,/) и моделью поисковых образов ресурсов
3. Предлагаемый способ кластеризации множества информационных ресурсов на основе алгоритма KRAB, позволяет формировать тематические разделы с близкими по смысловому содержанию ресурсами.
Апробация и внедрение в практику результатов исследования
Основные положения и отдельные результаты исследования докладывались и обсуждались на научно-практической конференции «Наука - городу Барнаулу» (Барнаул, 1999), международной научно-технической конференции «Информационные технологии и системы в образовании, науке и бизнесе» (Пенза, 1999), Всероссийской научной конференции «Организационно-управленческие инновации в системе педагогического образования» (Барнаул, 1999), Всероссийской научно-практической конференции «Информационные технологии в экономике, науке и образовании» (Бийск, 2000), краевой конференции «Математическое образование на Алтае» (Барнаул, 2001), Всероссийской научно-технической конференции «Теоретические и прикладные вопросы современных информационных технологий» (Улан-Удэ, 2002), третьей, четвертой, пятой и шестой краевых конференциях по математике (Барнаул, 2000, 2001,2002,2003).
На основе^ построенной модели ИПС разработана и используется прикладная программа с web-интерфейсом для библиотечного электронного каталога Алтайского госуниверситета, реализующая модифицированный алгоритм KRAB, и информационно-справочный банк данных детских конкурсных работ регионального центра Федерации Интернет Образования.
Публикации. По теме диссертации опубликовано 14 печатных работ.
Структура и объём работы. Диссертация состоит из введения, трёх глав, заключения, списка литературы из 121 источников, приложения. Общий объем работы составляет 140 страниц.
Анализ информационного обеспечения участников процесса обучения в вузе
Функциональные задачи и условия выполнения процессов информационного обслуживания зависят от особенностей конкретной предметной области. Задача информационного обслуживания (информационного сервиса) - это формирование информационной среды, которая является не чем-то внешним по отношению к пользователю, а сферой, включающей и формирующей самого пользователя. Информационный сервис включает операции оформления, сбора, аналитико-синтетической переработки, поиска л распространения информации, выполняемые информационными работниками с использованием программно-аппаратных средств. Нарис. 1.1 отображены связи между основными понятиями, которые используются для определения информационного обеспечения.
Таким образом, информационное обеспечение участников процесса обучения с учетом задач информационного сервиса для конкретной предметной области - это совокупность информационных процессов (сбора, обработки, хранения, анализа и выдачи информации), обеспечивающих формирование информационной среды (пространства) процесса обучения.
Потребителями информационного обеспечения обучения являются слушатели, учащиеся, студенты, аспиранты, преподаватели. Совокупность источников и информационно образовательных ресурсов информационного пространства учебного заведения можно представить древовидной структурой. Корневыми вершинами древовидных структур выступают источники высшего порядка (библиотеки, музеи, компьютерная сеть, фонды дистанционного образования, коллекции работ преподавателей, студентов и т.д.). На рис. 1.2 отражена древовидная структура источников, ресурсы которых необходимы для информационного обеспечения процесса обучения в учебном заведении.При работе с информацией, в контексте её создания, сбора, выдачи и потребления, особое значение имеет понятие информационный ресурс (ИР). Ф ИР предоставляет потребителям данные, которые в нем хранятся (записа ны) - текст, анимация, картинка, обучающая программа и т.д. Средством (инструментом) решения задач по информационному об служиванию являются информационные системы (ИС). ИС позволяют дос тичь максимального эффекта при решении задач, связанных с обработкой информации. Практика информационного обслуживания выработала боль шое разнообразие методов (систем) информационного обеспечения; количе ство их вариантов, описанных в литературе, исчисляется десятками. Области применения информационных систем разнообразны: банковское дело, страхование, бизнес, медицина, образование, транспорт и др. Среди множества факторов, определяющих совокупность свойств и I особенностей конкретной ИС, можно выделить три основных: целевые функ ции ИС (т.е. круг задач, для которых предназначена данная система), режимы информационного обслуживания, видовую структуру информаци онного обслуживания. Основной задачей, исследуемой ИС, является предоставление участникам процесса обучения (учащимся, студентам и т.д.) необходимых ИР, согласно их информационным потребностям. Поиск (информационный поиск)-одна из ключевых операций подобных систем. Потребитель выполняет поиск необходимых для выполнения процесса обучения ИР. ИС согласно правилам перевода с естественного языка на информационно-поисковый прообразует потребности потребителя для выполнения поиска, затем система осуществляет обратный перевод результатов поиска на естественный язык. Система информационного обслуживания процесса обучения не при звана решать управленческие и научно-исследовательские задачи, а также производить анализ и диагностику данных и ситуаций. Поэтому можно сде лать вывод, что исследуемая система относится к информационно-поисковому типу, т.е. является информационно-поисковой системой (ИПС), согласно определению этого класса систем. [8] « Выделяют два вида поиска: логический и физический информационные поиски. [77, с. 35] Логический поиск- это отслеживание потребителем информации, основанной на смысловом анализе заголовков, оглавлений и полных текстов документов, поиск пертинентных документов информаци онным потребностям потребителя. При логическом поиске пользователь просматривает и анализирует множество ссылок на источники (либо сами источники); если на глаза попадается ценная ссылка на источник (или источ 4 ники) - «срабатывает» его мотивация, и он переключает на нее (на него) свое внимание. Физический поиск - определение местонахождения ИР, о существова нии которых он уже узнал по ссылкам и описаниям. Это информационный запрос на получение ИР с указанием конкретных параметров источников. При физическом поиске потребитель точно знает, что ему необходимо ь йти (он знает, что такой источник существует).
Инфологическая модель ресурсов процесса обучения и схема информационного обеспечения пользователей
Структура данных информационно-поисковой системы определяется в процессе формализации информационных ресурсов, доступ к которым при звана обеспечить система. Результатом формализации каждого информаци онного ресурса будет создание его поискового образа, который в процессе поиска выступает заменителем ресурса. При разработке поискового образа ресурса ИПС необходимо учитывать потребности логического и физического поиска.
Поисковый образ ресурса ИПС- это совокупность свойств ресурса, необходимых пользователю системы в процессе физического или логического поиска. Поисковый образ ресурса отражает только те признаки и характеристики реального ресурса, которые актуальны для данной ИПС. Свойства ресурса, с помощью которых пользователь может выразить свои информационные потребности в режиме запросов по шаблонам, являются информационными полями запроса. При физическом поиске информационными полями могут быть автор (отв. редактор), название, год издания и другие библиографические характеристики документа. При логическом поиске пользователь просматривает ссылки, заголовки, реферативные обзоры на ресурсы, заранее не зная о библиографических характеристиках необходимых для него документов. Для обеспечения режима запроса по шаблону при логическом поиске необходимо включить в информационные элементы ресурсов (в модель данных ИПС) те их свойства, которые отражают смысл содержания ресурса. Значения этих свойств пользователь может указывать (выбирать) в процессе составления запроса. » Выделение свойств смыслового содержания каждого ресурса связано с формализацией содержания всех ресурсов ИПС. Операция индексирования позволит определить набор ключевых слов для каждого ресурса. Использование значений ключевых слов в режиме запроса по шаблону предоставляет пользователю возможность формировать критерий поиска не конкретного ресурса, а блока ресурсов определенной тематической области. Последующим запросом полученную тематическую область ресурсов можно либо конкретизировать (сужать), либо расширять. Схема получения ответа на запрос включает три этапа: на первом этапе пользователь получает блок информационных ресурсов (ИР) определенной тематической области; на втором этапе - поисковый образ конкретного ИР (который выбирает), на третьем этапе - координаты источника ИР и информационный ресурс. Тематический раздел - это совокупность информационных ресурсов, отвечающий определенным потребностям пользователей в процессе обуче ния. Ресурсы одного тематического раздела принадлежат определенной об ласти знаний и имеют близкое смысловое содержание. Для того чтобы пользователь на этапе просмотра поисковых образов ресурсов мог выбирать ресурсы, отвечающие его потребностям, следует в поисковый образ ресурса включить краткий обзор его содержания. Техноло гия аннотирования позволяет выделить основную информацию, характери зующую ресурс. Аннотации к ИР могут содержать краткие тексты миниатю S ры, кадры, структуры, которые отражают основное содержание ресурса. Решение проблем, связанных с формализацией смыслового содержания текстов на естественном языке (графических, звуковых и других объек тов), позволит частично или полностью автоматизировать операции по обра ботке и поиску. Ресурсы, участвующие в информационном обслуживании учебного заведения, отличаются разнообразием используемых источников (см. гл. 1 ч. 1), форматов и носителей информации, а также условиями доступа к данным. Формализация свойств ресурса и использование в качестве информационных полей запроса качественных (формат, носитель, место хранения, ис 39 точник, программа для просмотра и т.д.) и количественных (объем, размер) свойств ресурсов позволит расширить возможности поисковой функции ИПС. Актуализация для функционирования процесса поиска выделенных свойств ресурсов определяет необходимость отображения этих свойств в поисковом образе ресурса и в модели данных БД. Предоставление пользователям поисковых образов ресурсов является элементом фактографического обслуживания. Знакомство пользователя с со держанием поисковых образов ресурсов является промежуточным шагом на этапе получения самих информационных ресурсов, удовлетворяющих его ф потребностям.
Построение критерия кластеризации множества ресурсов на тематические разделы
При разработке критерия качества кластеризации следует учитывать следующие неформальные требования: 1. Внутри одного кластера объекты должны быть связаны между собой; Объекты из разных кластеров должны быть далеки друг от друга; При прочих равных условиях распределение объектов по кластерам должно быть равномерно. Важным свойством для кластера являются связность (близость) - эти - свойства предоставляют основу для построения функций критерия качества разбиения. Для количественного измерения сходства двух объектов необхо димо построить функцию меры близости двух объектов. От данной функции зависит выбор варианта разбиения объектов на кластеры при заданном алгоритме разбиения. Выбор варианта разбиения зависит от целей исследования, физической и статистической природы, используемой информации. Согласно алгебраической структуре представления информационных разделов «близость» можно интерпретировать как совпадение значений информационных слоев, т.е. таких свойств ресурса, как ключевых слов. Чем больше совпадений, тем ресурсы «ближе» и наоборот. Степень близости двух ресурсов призвана определять функция близости, которая отражает число совпадений. Для объектов, чьи признаки невозможно представить числовым вектором характеристик, определим такое свойство, как среднее сходство объ 57 ектов кластера. Среднее сходство объектов кластера показывает, насколько сходны между собой объекты (насколько они похожи друг на друга, насколько объекты связаны). Функция, отражающая среднее сходства объектов кластера, может быть построена как среднеарифметическая (или как среднеквадратичная) ме ра значений функции близости. Выполнение одного из неформальных требо ваний кластеризации: внутри одного кластера объекты должны быть связаны между собой, можно проверять по значениям функции среднего сходства объектов для всех построенных кластеров. . На основании анализа методологических особенностей процессов кластеризации сформируем следующие шесть этапов решения задачи разбиения ИР на тематические разделы: 1. Отбор объектов для кластеризации (определение ИР, которые подлежат кластеризации); 2. Определение множества признаков, по которым будут оцениваться ИР в выборке - признаки близости; 3. Определение меры близости между объектами и вычисление её значений для выбранных ИР; 4. Построение критерия качества кластеризации; 5. Выбор и применение одного из методов (или комбинации методов) для создания тематических разделов сходных ИР по критерию качества кластеризации; 6. Проверка достоверности результатов кластерного решения. Предположим, что для решения задачи разбиения множества ИР на тематические разделы выполнены первые два этапа кластеризации, т.е. определено множество ИР, подлежащих кластеризации. Выбор признаков ресурсов - признаков сходства, по значениям кото І рых можно судить о сходстве (близости) между ресурсами, зависит от опре деления понятия «тематический раздел». Согласно определению, ресурсы одного тематического раздела должны принадлежать одной области знаний, а значит, в качестве признаков сходства необходимо использовать наборы ключевых слов. Набор ключевых слов конкретного ресурса не обладает информацией относительно близости (или степени близости) к другим ресурсам. Нельзя поставить в соответствие каждому ресурсу значение некоторого числового эквивалента меры близости по градуированной шкале и сравнивать ресурсы на предмет их близости по этой шкале. Информацию о близости конкретного ресурса с другими можно получить только при попарном сравнении наборов ключевых слов двух ресурсов. При таком подходе каждой паре ресурсов БД ИПС можно поставить в соответствие число совпадений между значениями ключевых слов этих ресурсов, это значение будет являться значением мера близости на данной паое ресурсов. Полученная таким образом мера близости характеризует не конкретный ресурс, а пару ресурсов.
Построение критерия качества кластеризации (четвертый этап), а также выбор и применение метода кластеризации (пятый этап) следует выполнить с учетом особенностей выбранной меры близости.
Четвертым этапом решения поставленной задачи является построение критерия качества разбиения или построение целевой функции, которая позволяет установить, когда достигается желательное разбиение. Для получения подобного критерия необходимо найти меру внутренней однородности кластера и меру разнородности кластеров между собой.
Модель поисковых образов ресурсов, участвующих в процессе обучения
Характеристическая функция Z построена таким образом, что обла дает свойством инвариантности по отношению к абсолютным значениям длин ребер графа О- КНП, что позволяет сравнивать между собой качество процесса кластеризации на любом его шаге t t при разных количествах объектов s(p) в кластерах, разном числе кластеров m(t) и разном среднем О-расстоянии между объектами. Так как желательное число кластеров задано в пределах отрезка [М,М], то, оценивая значения функции Z на этапах кластеризации te[\,t ], можно в заданных пределах области определения функции Z найти число кластеров, при котором функция Z достигает максимриатроим множество номеров J: j є J, если на j -том шаге кластеризации было выполнено одно из следующих неравенств: или рГ Р, или pl Р - не выполнено основное неравенство крите рия качества разбиения; или /« М- не выполнено неравенство, определяющее количество кла стеров (нижний предел); или 5, 1Й1 S, или s,(m S - не выполнено неравенство, определяющее количество объектов в кластере. Значения piJcp,mJ,sJmin,s x соответствуют у -ым значениям множеств соответственно. Рассмотрим множество (Z } = (Z1,Z2,...rZ ,...,Z/) - множество значений функции Z на t- ом шаге кластеризации, /е[1,/ ]. Выбросим из множества {Z \ все ZJ, номера которых принадлежат множеству J. Из оставшихся элементов множества {Z } найдем элемент с наибольшим значением - Z , который соответствует значению характеристической функции на t - шаге кластеризации. Соответственно получаем максимальное количество объектов в кластерах s max, минимальное количество объектов в кластерах s mn, количе 105 ство кластеров т =t 2, среднее сходство объектов по кластерам pi , среднее расстояние между всеми построенными кластерами R . Таким образом, был описан один из возможных алгоритмов решения задачи классификации множества информационных ресурсов, участвующих в процессе обучения, на тематические разделы. Пусть р тематический раздел ИПС, р є А,. Любой тематический раздел можно представить как элемент декартово произведения р = Р\Хр2 x..-хpN или как вектор р = (pl,p2,...,pN), где /- координат вектора р являются значениями ключевых слов для данного раздела. На следующем шаге определим, какие значения могут принимать эти координаты. Каждому построенному кластеру р\ i = \..t поставим в соответствие набор ключевых слов с весовыми коэффициентами. Все ключевые слова ресурсов следует отсортировать по убыванию в зависимости от значений весовых коэффициентов, затем отбросить ключевые слова, коэффициент которых меньше 2 (ключевые слова которые, есть только в одном ресурсе). Оставшиеся / = /(/) слов будем называть ключевыми словами тематического раздела, эти ключевые слова также будут выступать значениями /-координат векторов р1, і = \./ для алгебры тематических разделов. В общем случае количество ключевых слов раздела / можно выразить функцией, зависящей от номера кластера / = l(i),i = \...t . 3.4.2. Применение алгоритма KRAB для кластеризации записей электронного каталога библиотеки Для определения объема выборки данных из электронного каталога библиотеки Алтайского госуниверситета (АлтГУ) воспользуемся практическими наработками выборочного метода [1; 116; 119; 120]. Используя датчик случайных чисел, сформируем пробную выборку записей из электронного каталога библиотеки АлтГУ и определим её характеристики. Мощность объема пробной выборки составляет 2000 ресурсов (из возможных 10000 ресурсов). Исключив из пробной выборки записи ресурсов, у которых отсутствуют поля с ключевыми словами, получим пробную выборку с мощностью 1094 записей, удовлетворяющую принятым требованиям кластеризации (10%).
В случае если объем этой выборки окажется недостаточным, можно будет впоследствии дополнить эту выборку до нужного объема. Если объем пробной выборки соответствует объёму репрезентативной выборки, то пробной выборке достаточно для проведения эксперимента, она может рассматриваться в качестве основной, и её результаты служат результатами всего выборочного исследования.