Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Моделирование и оптимизация автоматизированных информационных систем и технологий управления документальными информационными ресурсами Попов, Игорь Иванович

Данная диссертационная работа должна поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Попов, Игорь Иванович. Моделирование и оптимизация автоматизированных информационных систем и технологий управления документальными информационными ресурсами : автореферат дис. ... доктора технических наук : 05.25.05 / Российский гос. гуманитарный ун-т.- Москва, 1996.- 48 с.: ил. РГБ ОД, 9 96-2/4078-9

Введение к работе

В последние 10-летия резко возрасло общественное и экономическое значение информации и информационных технологий. Автоматизированные системы делопроизводства, телекоммуникации и системы обработки данных интегрируются в единое понятие информационных ресурсов, занимающих одинаковое положение с другими ресурсами предприятия, отрасли, национальной экономики в целом. Управление информационными ресурсами, интегрирующее организацию информации и управление процессами обработки, все более выделяется в отдельную управленческую функцию. В Проекте Закона Российской Федерации об информации, информатизации и защите информации, целью которого является регулирование правоотношений в области формирования и использования информационных ресурсов РФ, создание и использование перспективных информационных технологий, определение порядка защиты информации и прав субъектов, участвующих в информационных процессах и информатизации, установление гарантии права на информацию, значительное место уделено проблематике организации управления информационными ресурсами.

Актуальность проблемы. С наболее общих позиций информационный, ресурс (ИР) может быть определен как вся накопленная информация об окружающей действительности, зафиксированная на материальных носителях и в любой другой форме, обеспечивающей ее передачу во времени и пространстве между различными потребителями для решения научных, производственных, управленческих и других задач.

Важнейшим видом информационных ресурсов становится за последние 20 лет широкий, круг общедоступных БД, предлагаемых сегодня службами, основанными на больших ЭВМ (Host Services). При этом появление и развитие в последние 10-летия сетей таких сетей как ARPANet, NSFNet, и прежде всего, Internet, обеспечивает новые пути и средства доступа к этим БД а также другие виды услуг, которые называют сетевыми ИР - электронная почта, конференции и пр.

Выпуск БД на компакт-дисках (CD/ROM), которые появились на рынке в 1986 г.,' также образует значительный рынок ИР. Обычно БД

- 4 -на CD представляет собой интегрированный комплекс, включающий данные и программы для их поиска. Перспективность БД на CD/ROM в частности, состоит в том, что одним из препятствий, мешающих использованию сетевых ИР в развивающихся странах, является слабая инфраструктура связи. Использование БД на CD позволяет обойти это затрудение и обеспечить доступ к мировым информационным ресурсам.

Полнотекстоеые БД, доступные как в интерактивном режиме, так и на CD/ROM, начиная с 80-х годов становятся одним из основных видов ИР. Устойчивая тенденция к диверсификации носителей информации и снижению удельной стоимости хранения позволяет прогнозировать продолжение роста количества генерируемых полнотекстовых (ПТ) БД. Известно значительное количество программных средств и оболочек, ориентированных на доступ к ПТ БД, в том числе с использованием сетей: ESA-QUEST FIND/2, STAIRS/AQUARIUS, FreeBase, ViewStation Production Toolkit (Interleaf). TEXT-SR, NDLB , ADAPT, BRS/SEARCH, BASIS, AskSAM, DowQUEST, ANNLOD. IRBIS и многие другие. Среди пользовательских интерфейсов, ориентированных на работу с полнотекстовыми БД, важной компонентой становятся гипертекстовые системи. В гипертекстовых системах хранятся документы, организованные в виде сети, что позволяет связывать разные документы (или фрагменты документа). В последние годы разработано большое число коммерчески доступных гипертекстовых систем: Guide (фирма OWL International) для ПЭВМ IBM PC/AT и PS, Hyperdoc для IBM PC, Macintosh или UNIX. HyperCard для ПЭВМ Apple. Business Filevision, ArchiText, Hyperties (Hypertext Interactive Encyclopedia System), и др.

Предметом настоящей работы являются документальные информационные ресурсы, определяемые как информационные массивы и потоки полнотекстовых и близких к ним (реферативных) документов, представленные, как правило, в машиночитаемой форме, в том числе в виде баз данных (организованной совокупности файлов), рассматриваемых совместно со средствами доступа к ним.

Под информационными процессами понимаются операции по созданию и преобразованию ИР, типа объединения сообщений в потоки (массивы), преобразования потоков, сообщений. Информационная де-

- 5 -ятельность определяется как совокупность всех информационных процессов, независимо от организационных форм ее реализации, в которой можно выделить рабочие процессы и функции управления, при этом последние предполагают выработку решений по параметрам информационных процессов, что и рассматривается как технологии управления ИР. Информационные системы определяются как формы информационной деятельности, организационно обособленные от конечного потребителя ИР.

Совокупность процессов создания; модификации, распределения информационных ресурсов рассматривается на различных уровнях -макроуровне, включающем рассмотрение полного (замкнутого) цикла основной и информационной деятельности в процессе информационного обмена, среднем, описывающем отдельные звенья (незамкнутые) информационных процессов, образующих системы информационного обслуживания и на локальном (отдельный процесс, система, АИПС).

Замкнутый цикл включает использование информационного ресурса в процессе основной деятельности, создание новой информации в качестве основного или побочного продукта, а также совокупность процессов незамкнутого цикла, или следующие основные этапы и задачи:

1). производство баз данных - определение предметной области, базирующееся на анализе и классификации документов и /или потребителей информации); выбор сектора информационного рынка для приобретения и распространения ИР; определение типа БД -текстовая (в т.ч. полнотекстовая), табличная и пр.; определение структуры документа (записи) БД; выбор программных продуктов; создание массива документов в машиночитаемой форме; индексирование документов; создание дополнительных справочных информационных массивов;

2). организация интерактивных систем либо локальных БД -определение круга пользователей, координация обслуживания пользователей с другими аналогичными службами, либо разделение рынка услуг на соответствующие сектора; выбор внешней базы данных (или множества БД); выбор структуры (схемы) документов (для каждой внутренней БД); выбор и настройка, либо самостоятельная разработка программного продукта (оболочки) для реализации АИПС, вы-

бор физической структуры БД;

3). функционирование (эксплуатация) информационно-поисковой системы (систем):

задачи администратора БД: изучение информационных потребностей и корректировка предметной области, структуры документа,. логической и физической структуры внутренней (внутренних) БД, перечня используемых внешних БД; модификация (развитие, замена) программной оболочки и/или пользовательских интерфейсов к БД, внедрение дружественных пользовательских интерфейсов;

задачи конечного пользователя: изучение тематической, логической, лексической структуры внутренней БД; модификация, оптимизация запросов с целью достижения максимальной эффективности поисковых операций.

Анализ перечисленных задач показывает, что с точки зрения управления информационными ресурсами они могут быть разделены на три уровня:

выбор информационных рынков для реализации спроса или предложения информации, подключение к информационным потокам, конечным или промежуточным потребителям информации;

преобразования информационных потоков, отбор релевантных определенным информационным потребностям элементов потоков (документов, сообщений);

преобразование элементов информационных потоков (сообщений, документов, запросов).

Решение указанных задач требует разработки теоретических положений и практических рекомендаций, позволяющих описывать, анализировать, оптимизировать соответствующие информационные процессы. Необходимо учитывать наблюдающееся возрастание объема БД - количества документов, разнообразия, объема, усложнения структуры. Эти факторы предполагают повышение степени автоматизации информационной деятельности и управления ИР на всех уровнях, при этом важную роль играет моделирование.

Анализ разработанных за последние 10-летия моделей показывает, что, несмотря на множество отличий, они могут быть разбиты на два больших независимых класса - лексико-семантические модели, предназначенные для формализации процессов аналитико-синте-

- 7 -тической обработки текстов, классификации и индексирования документов , использующие лексический, синтаксический, семантический анализ, принципы математической лингвистики; и статистические модели, формализующие процессы адресации потоков документов и запросов, размещения информационных массивов, использующие методы теории массового обслуживания, стохастического математического программирования, потоков в сетях, управления запасами и т.п.. Излишняя глубина семантического моделирования в первом случае и отсутствие семантики во втором вызывает необходимость разработки некоторых общих принципов и теоретических основ се-.мантико-статистического моделирования документальных систем, которые, во-первых охватывали бы максимальное количество типов и уровней информационных процессов и технологий управления ИР, а во-вторых - были бы работоспособны с позиций инженерного применения при реализации конкретных систем.

Целью работы является создание методологии математического моделирования и оптимизации документальных информационных систем, разработка комплекса математических методов, моделей, критериев и их применение для решения практических задач проектирования и анализа информационных систем и комплексов баз данных.

Научная новизна. В результате проведенных исследований разработаны теоретические основы, модели, критерии и методы оценки и оптимизации информационных систем и технологий управления ИР.

Впервые разработаны:

- математический аппарат описания элементарных и комплексных объектов, процессов и систем документальных информационных ресурсов, использующий семантико-статистический подход, отличающийся универсальностью от ранее известных и раздельно применявшихся семантических, статистических и детерминированных линейных моделей и являющийся обобщением теоретико-множественных и линейных моделей описания информационных процессов в документальных системах. Рассмотрены пределы применимости каждого типа моделей, показана сопоставимость результатов, полученных с их использованием. Теоретико-множественные модели отличаются от ранее известных тем, что используют понятия профильного информационного потока, оператора формирования и операций над операторами, линей-

ные модели позволяют получить ранее неизвестные количественные зависимости.

Предложены формальные описания операций над информационными по токами, их элементами и процессами. Получены количественные оценки информационных потоков и процессов, позволяющие проводить их анализ, ставить оптимизационные задачи. Предложенный аппарат позволяет в рамках единых понятий описать и проанализировать такие ранее разрозненные результаты, как модель роста словаря АИПС, закономерности рассеяния документальных потоков, критерии оценки АШС и рабочие характеристики, провести оценку структур тезаурусных статей и парадигматических связей терминов, оценить различительную способность терминов и фрагментов текста документа;

модели описания элементарных и сложных информационных процессов и систем, б:- -ующиеся на.предложенном аппарате и охватывающие различные уровни: глобальный уровень - контур информационного обмена в целом, связывающий исходную информацию и результаты основной деятельности, локальный уровень - модели АИПС пакетного и диалогового поиска, модели среднего уровня, рассматривающие разомкнутые системы информационного обслуживания. Разработаны и практически апробированы модели, базирующиеся на аналитическом, вычислительном и имитационном принципах, в том числе линейные вероятностные модели диалога пользователя с системой, исследованы процессы и стратегии модификации запросов, критерии сходимости, поведение критерия качества поиска. Отличительной особенностью моделей глобального уровня является рассмотрение информационного обмена как результата взаимодействия самостоятельных организационных элементов сложной системы;

система критериев оценки эффективности информационных ресурсов и систем, отличительной особенностью которых является использование понятия экономии информационной деятельности, в то время как обычно используются меры расстояния между множествами выданных и релевантных документов, включающая частные, интегральные, рабочие и обобщенный критерии. Частные критерии рассматриваются как координаты построения рабочих характеристик АИПС, в работе предложены новые координаты. Интегральные крите-

рий подразделяются на искусственные (свертки частных критериев) и естественные; предложен новый естественный критерий.

Впервые разработана вероятностная модель информационных систем, приводящая к обобщенному критерию, который определяет поведение частных и интегральных критериев, позволяет проанализировать факторы качества информационных систем. Рабочие критерии (вероятность ответа, линеаризованные критерии) предназначены для постановки конкретных задач оптимизации.

- классификация, постановка и анализ оптимизационных задач
управления ИР на глобальном и среднем уровнях описания. Введен
ные обобщенные понятия идеальных, оптимальных, пустых информаци
онных процессов позволяют систематизировать и упорядочить опти
мизационные задачи на глобальном и среднем уровнях описания. При
этом выделены задачи оптимизации системы информационного обмена
в целом, информационной деятельности в целом, информационных
систем и потребителей-поставщиков информации. Для решения слож
ных оптимизационных задач в условиях неопределенности и большой
размерности предложено воспользоваться принципами теории иерар
хических систем, или координации информационной деятельности.
Рассмотрен ряд постановок задач координации применительно к раз
личным видам информационного обслуживания.

Достоверность полученных результатов, адекватность и применимость моделей и методов подтверждается путем сопоставления результатов моделирования с экспериментальными данными, с использованием статистических критериев, сравнительным анализом критериев, методов, моделей, алгоритмов, как разработанных автором, так и другими исследователями, положительным эффектом применения выработанных рекомендаций при разработке конкретных систем.

Методы исследования. Основные результаты получены и математически обоснованы с использованием методов конечной математики, теории вероятностей и математической статистики, линейной алгебры, теории иерархических систем, вычислительного и имитационного моделирования.

Внедрение результатов. На основе применения моделей были разработаны:

- принципы оптимизации структуры документальной БД и реше-

- 10 -ния задач администратора БД по планированию и организации работ при создании и поддержки локальной БД коллективного пользования на предприятии, методы оценки способов автоматического индексирования документов (реализовано в НЦ "Курчатовский Институт");

предложения по оптимизации структуры полнотекстовых документальных БД на логическом и физическом уровнях, созданию множества взаимодополнительных пользовательских интерфейсов к полнотекстовой БД, впервые реализованы в Интегральном банке законодательной информации JURIUS;

документально-лексическая информационная база, с впервые предложенной структурой, включающей тезаурус как БД или логический файл, что позволяет реализовывать как обычные, так и ассоциативные и гипертекстовые стратегии поиска, проводить исследования статистических закономерностей документальных информационных-ресурсов (недоступных или затруднительных для исследования в рамках БД традиционной структуры);

документально-лексическая и фактографическая отраслевая система по спецвидам (стандарты, ТУ и пр.) НТИ, используемая в отраслевом планировании и для обслуживания предприятий отрасли;

рекомендации по специализации и размещению автоматизированных информационных с " ;дов отрасли.

Указанные результ".:ы внедрены в РНЦ "Курчатовский институт", ЦНИИАтоминформе, Информэлектро, ГДИВЦ ВВЦ(ВДНХ), МИФИ. МИСИ, РГГУ

Теоретическая ценность. Разработанные модели позволяют сделать рекомендации по следующим перспективным направлениям дальнейших исследований:

  1. Разработка и исследование линейных семантико-статисти-ческих моделей, описывающих диалоговые процессы и навигацию в гипертекстовых структурах, созданных для полнотекстовых БД, , по аналогии с рассмотренными линейными моделями;

  2. Исследование динамических процессов в больших информационных системах, с использованием предложенных моделей описания глобальных систем информационного обмена, состоящих в развитии информационных профилей элементарных информационных систем.

  3. Использование принципов документально-лексических БД для повышения эффективности информационного поиска, . проведения исс-

- 11 -ледований стратегий поиска и алгоритмов навигации в БД, сравнительный анализ эффективности использования тезаурусов различной структуры для модификации запросов.

Практическая ценность. Разработанные в диссертации математические методы, критерии, модели и алгоритмы ориентированы на решение практических задач разработки документальных баз данных, выработки предложений по оптимизации структур документальных БД, их размещения и организации взаимодействия с пользователями. Указанные результаты могут быть использованы разработчиками программных оболочек информационных систем, администраторами документальных БД, пользователями систем. Разработанные на основе полученных в диссертации результатов базы данных и программные средства могут применяться при информационном обслуживании.

Результаты диссертационной работы были использованы в учебном процессе МИФИ, МИСИ, РГГУ в курсах лекций "Моделирование информационных систем", "Программирование информационных систем". "Организация и планирование НИР и НИИ", "Банки данных в САПР", "Специальные информационные системы", "Технические средства и технологии АИС", "Управление информационными ресурсами", при выполнении лабораторных работ, проведении семинарских занятий и домашних заданий, а также в курсовых и дипломных студенческих работах, отражены 5 учебных пособиях и методических разработках.

За результаты использования документально-лексических БД в учебном процессе МИФИ в составе "Учебно-научного комплекса по современным информационным технологиям", автор награжден Бронзовой медалью ВДНХ в 1985 г., за разработку и практическое внедрение Интегрального банка данных законодательной информации JURIUS - Серебрянной медалью ВДНХ в 1989 г.

Апробация работы. Результаты диссертации докладывались и обсуждались на следующих семинарах, конференциях и симпозиумах:

Конференции с международным участием "НТИ-95. Информационные продукты, процессы, технологии", Москва, ВИНИТИ, 19-20 октября 1995 г.

Всероссийской конференции "Мультимедиа и информационные системы", Москва. РГГУ, 23-26 января 1995 г.

Международной . конференции "East-West Human Computer

- 12 -Interaction 94" Царское село, август 1994 г.,

Научно-методической конференции "Buisiness Tools" (Москва, Pacific Coast University, Moscow Branch), Москва, июнь 1993 г.,

Всероссийском семинаре "Фонды и базы данных научно-технической информации", Москва, ЦНИИАтоминформ, 1993,

Международной конференции "2-nd East-West International On-line information meeting", Москва, МЦНТИ, ЗО сент.-2 окт. 1992 г.

32-й научной конференции МИФИ, Москва, 2-4 февраля 1987г.,

Научно-технической конференции "Проблемы создания и применения диалоговых систем в АСУ", г. Таллин, сентябрь 1984г.,

Московской городской школе молодых ученых и специалистов "Автоматизация информационных процессов и систем", Софрино. 22-25 мая, 1984 г.,

III-й конференции "Диалог человек-ЭВМ" ("Диалог-83"), 5-7 июля 1983г., п. Протвино.

ІХ-м, Х1-м, ХП-м, ХШ-м научных семинарах "Системные исследования ГАСНТИ", (г. Ереван, 17-20 апреля 1979г., г. Алма-Ата, 13-17 октября 1980, г. Душанбе 27-23 октября 1981, г. Тбилиси, 23-26 ноября 1982г.),

Первом Советско-Американском симпозиуме по экономической эффективности информационного обслуживания, г.Ленинград, июнь 1975г..

25-й. 26-й, 28-й научных конференциях МИФИ (г. Москва, 2-5 января 1973г., 1-7 июня 1974 г., ЗОянв.-Іфевр. 1979г.).

Публикации, отчеты. По теме диссертации опубликовано ,40 научных работ, в том числе монография, 5 учебных пособий. Результаты исследований отражены также в 5 научных отчетах, выполненных в МИФИ и 2-х отчетах ГДИВЦ ВДНХ (ВВЦ).

Структура и объем работы. Диссертационная работа состоит из введения, пяти глав, заключения и приложения и содержит 271 страниц текста, 54 рисунка, 16 таблиц. СОДЕРЖАНИЕ РАБОТЫ

Похожие диссертации на Моделирование и оптимизация автоматизированных информационных систем и технологий управления документальными информационными ресурсами