Содержание к диссертации
Введение
1. CLASS Литературный обзо CLASS р 8
1.1. Модели представления данных. 10
1.2. Типы информационных приложений 15
1.3. Базы данных по химии и смежным наукам 20
1.4. Постановка задачи 40
2. Системный анализ информации по химии и химической технологии. Расширенная модель хранения данных 41
2.1. Анализ информации предметной области: информация в химии и химической технологии 41
2.2. Характер и свойства информации предметной области. Основные типы информации 49
2.3. Возможности использования существующих моделей организации данных 56
2.3.1. Иерархическая модель 56
2.3.2. Реляционная модель 58
2.3.3. Сетевая модель 62
2.4. Расширенная модель хранения данных 64
3. Архитектура информационной системы по химии и химической технологии 68
3.1. Базовые объекты системы 68
3.2. Базовая единица хранения 69
3.2.1. Модель единицы хранения 70
3.2.2. Интеграция единицы хранения в базу данных 72
3.2.3. Связывание единиц хранения 74
3.3. Полнотекстовые индексы 75
3.4. Структура фактографической базы данных 78
3.5. Поисковая подсистема 83
3.5.1. Режимы поиска информации 84
3.5.2. Запросы и язык запросов 84
3.5.3. Интегрированный язык запросов 85
3.6. Характеристические особенности информационной системы 88
3.7. Функционирование и качественные показатели созданной информационной системы88
4. Практическая реализация . 90
4.1. Оценка эффективности разработанной информационной системы. 90
4.2. Критерии оценки. 90
4.3. Сравнительное тестирование на примерах узкоспециализированных программно-информационных решений 91
4.3.1 Электронный проспект 91
4.3.2. Электронная версия журнала. 102
4.3.3. Сборник рефератов патентов 107
4.4 Визуализация данных фактографической программно-информационной системы ИЗ
5. Выводы 117
Список литературы 119
Приложение 128
3
- Базы данных по химии и смежным наукам
- Иерархическая модель
- Структура фактографической базы данных
- Сравнительное тестирование на примерах узкоспециализированных программно-информационных решений
Введение к работе
Химия является одной из наиболее быстро развивающихся наук, поскольку ее достижения применяются практически во всех областях жизни человечества. Химические знания используются для производства энергии, получения продуктов питания, синтеза всевозможных материалов, обеспечения здравоохранения и решения экологических проблем. Развитие различных направлений химии сопровождается стремительным ростом объемов получаемой информации. Так, только число известных химических соединений удваивается каждые 6-7 лет. С появлением высокопроизводительных ЭВМ, компактных средств хранения больших объемов информации и высокоскоростных электронных сетей, связывающих ЭВМ между собой, появились реальные возможности качественного и количественного преобразования подходов в хранении и обработке информации [1-6]. Оценки тенденций развития информационных технологий свидетельствуют о перспективности создания электронных библиотек, объединяющих в единое целое:
систему создания и хранения электронных версий печатных изданий;
систему электронных каталогов, аккумулирующих данные обо всех имеющихся носителях информации (книгах, журналах, отчетах, базах данных и пр.), позволяющих осуществить быстрый поиск необходимой информации;
систему доступа к первичным носителям информации (выполнение заказов на передачу полных текстов первоисточников по электронным сетям и средствами межбиблиотечного обмена и т.п.).
Однако специфика информации, потребляемой и производимой химической отраслью, такова, что данная информация практически не имеет какой бы то ни было детерминированной структуры, то есть, массивы производимых и потребляемых данных относятся к различным типам: структурированным, слабоструктурированным и неструктурированным.
Обработка такой информации массовыми программными продуктами, предназначенными для управления информацией, крайне затруднена и является, в большинстве случаев, нетривиальной задачей. Этот факт связан с той же слабой структурированностью исходной «сырой» информации и, как следствие, с большими трудностями при переработке такой информации, при переносе ее в базы данных (БД).
Разработка новых подходов и технологий создания информационных систем (ИС) хранения и управления информацией с различной структурой, реализующая механизмы оперативного информационного обеспечения специалистов предприятий химической отрасли, является актуальной задачей.
Основные разделы диссертационной работы выполнены в соответствии с заданием Министерства образования и науки РФ «Совершенствование информационной и патентной базы, защита интеллектуальной собственности, маркетинговые исследования по промышленной реализации проектов направления» Федеральной целевой научно-технической программы "Исследования и разработки по приоритетным направлениям развития науки и техники" на 2002-2006 годы", Блок 2 "Прикладные исследования и разработки", раздел «Новые материалы и химические продукты", подраздел "Химические процессы" (протокол № 1 от 17 января 2002 г.).
Основной целью диссертационной работы являлось создание
программно-информационного комплекса, предназначенного для работы с
большими массивами данных с различной структурой по химии, химической
технологии и смежным областям. Для достижения поставленной цели
необходимо было решить следующие задачи:
Разработка подхода к созданию информационной системы обработки и
хранения больших объемов структурированной,
слабоструктурированной и неструктурированной информации.
Создание программно-информационного решения, реализующего функции накопления информации, интеграции существующих баз данных в единой системе, обеспечивающего быстрый и бесконфликтный ввод новой информации произвольной структуры.
Проектирование программной структуры, реализующей разработанную фактографическую модель и обеспечивающую объединение и совместное использование информации баз данных различными организациями.
Разработка оригинального поискового механизма.
Обеспечение различных пользователей возможностью пополнения базы данных.
Обеспечение возможности использования сторонними организациями и предприятиями информационных ресурсов, созданных при работе с системой.
Сбор и организация значительного количества информации в области химии и химической технологии в рамках предлагаемой фактографической модели.
Вышеперечисленные задачи решались в следующем порядке.
В первой главе - литературном обзоре - приведен развернутый анализ литературных источников, затрагивающих проблемы хранения и управления информацией в области химии и химической технологии. Рассмотрены основные источники информации, используемые специалистами химических предприятий в повседневной деятельности.
Приведены основные модели организации данных, применяемые в современных средствах обработки информации, рассмотрены типы и примеры приложений, используемых при обработке информации.
Проведен обзор основных БД в области химии и смежных с ней наук. В
соответствии с целью работы и на основании выводов, сделанных в
результате анализа литературы, сформулирована постановка задачи и
намечены этапы ее решения.
Во второй главе был проведен системный анализ информации предметной области. Были рассмотрены различные типы данных, используемых специалистами в области химии и химической технологии, выделены категории информации и сформулированы основные признаки принадлежности данных к той или иной категории. С учетом этих особенностей была разработана расширенная модель организации данных, представляющая собой расширенную сетевую модель, управляемую специальной информацией - метаданными, описывающими блоки хранимой информации. База данных, которая представляет собой физическое воплощение представленной модели организации данных и ориентированная на хранение большого количества информации, изначально имеющей документарную форму, будет являться фактографической.
Третья глава посвящена описанию процесса проектирования созданной системы. Рассмотрены основные объекты системы, их отношения и взаимодействия. Спроектирована структура программного комплекса и всех его составляющих, от элементарных единиц хранения данных, до особенностей и функциональности пользовательского интерфейса и методик подготовки и ввода данных в систему.
В четвертой главе диссертационной работы описывается практическая реализация спроектированной системы и ее испытаний в условиях рабочего процесса реального предприятия. Глава содержит ряд примеров практического использования разработанной системы, а также содержит количественные характеристики хранилища информации, обрабатываемого созданной системой.
Автор выражает глубокую благодарность руководителю работы профессору Меныпутиной Н.В., доцентам Гончаровой СВ. и Гусевой Е.В., научному сотруднику Шишулину Д.В. и инженеру Гордиенко М.Г. за обсуждение материалов и помощь в подготовке диссертации.
Базы данных по химии и смежным наукам
Существует большое количество различных баз данных по химии, как зарубежных, так и российских. [95, 96] Одной из самых известных является База структурных данных по химии ВИНИТИ, основанная в 1975г. [97] Эта БД обеспечивает специалистов в области химии и химической технологии сведениями о структурах химических соединений, способах их получения и химических реакциях образования, а также физиологических свойствах и областях применения веществ. Она содержит более 5 млн. химических соединений, более 15 млн. химических свойств и аспектов применения веществ, более 2 млн. химических реакций. Каждое химическое соединение характеризуется структурной формулой, систематическим названием, данными о физико-химических свойствах, химических реакциях, способах получения и применения вещества. БД формируется по материалам периодических изданий, книг, фирменных изданий, материалов конференций, тезисов, патентов, нормативных документов, депонированных научных работ, 30% которых составляют российские источники. Пополнение БД происходит 2 раза в месяц.
Существуют также специфические узкопрофильные базы данных, некоторые из которых созданы учеными МГУ и распологаются на его сайте. Например, банк данных РАДЭН, содержащий РАДиационные и Энергетические параметры двухатомных молекул [98]. Банк состоит из двух частей: Справочно-информационной системы и Системы рекомендуемых данных. Справочно-информационная система служит для компиляции экспериментальных исследований и ab initio расчетов энергетических и радиационных параметров. Фактографическая база содержит численные результаты оригинальных публикаций.
База данных «Термические Константы Веществ» [99] основана на Справочнике "Термические константы веществ", создание которого было инициировано выдающимся советским конструктором ракетных двигателей Валентином Петровичем Глушко в начале 60-х годов в Академии Наук СССР. В БД содержатся сведения о 26 976 веществ, образованных практически всеми химическими элементами. Для каждого вещества указывается его химическая формула. В БД приведены значения следующих термических констант: энтальпия образования при 0 К, AHf0; энтальпия образования при 298,15 К, AH s, изобарный потенциал образования при 298,15 К, &Gf2c 8,i5; энергия диссоциации веществ на атомы, D0; изменение энтальпии между 0 и 298,15 К, H298,i5 - Н0; ЭНТрОПИЯ ПрИ 298,15 К, S298,15 ТеПЛОеМКОСТЬ При ПОСТОЯННОМ ДаВЛеНИИ При 298,15 К, Ср298,15 а также параметры фазовых переходов: давление, при котором происходит фазовый переход; температура фазового перехода; изменение энтальпии; изменение энтропии. В базе приведены значения констант для неорганических и органических веществ в различном агрегатном состоянии с учетом модификаций. Например, по неорганическим веществам содержится информация для: растворов в воде, неорганических, а также органических растворителях (содержащих не более двух атомов углерода); радикалов; ионов в газообразном состоянии и в растворах; комплексных соединениях с лигандами, содержащих не более двух атомов углерода; t соединениях переменного состава.
Банк органических веществ включает вещества, содержащие не более двух атомов углерода, а также вещества (нециклические), в которых имеются органические группы, содержащие не более двух атомов углерода, и в которых, помимо органических групп, имеются любые элементы, кроме С, Н, О и галогенов.
Если рассматриваемое вещество находится в состоянии раствора, то в графе "состояние" указывается растворитель и концентрация раствора в виде числа молей растворителя, приходящихся на один моль растворенного вещества, например, "р-р;100Н2О" - раствор одного моля данного вещества в 100 молях воды. В тех случаях, когда нет возможности оценить зависимость энтальпии образования от концентрации раствора и отнести имеющиеся величины к раствору определенной концентрации, в графе "состояние" указывается п молей растворителя, например, "p-pjnCCU". В этих случаях приведенные значения энтальпии образования относятся к растворам любой концентрации и соответственно содержат погрешность, охватывающую весь интервал изменения энтальпии образования в зависимости от концентрации.
Банк данных «КАТАЛИЗ» [100] включает в себя следующие базы:
1. База данных "Отечественные промышленные катализаторы и процессы " интегрирует физико-химическую, патентную, конъюнктурную информацию об отечественных катализаторах, применяемых в настоящее время в промышленности.
2. База данных "Зарубежные промышленные катализаторы и процессы" содержит фактографические данные и рекламно-документальную информацию о промышленных катализаторах, выпускаемых и используемых за рубежом.
3. База данных "Важнейшие химические продукты" содержит обзорную информацию о важнейших по объему производства и скорости роста объема производства продукта в СНГ и за рубежом. В обзорах содержится также прогноз развития производства продукта на перспективу.
4. База данных "Организации, предприятия, НИИ, ВУЗы" является Базой адресных данных и содержит информацию об основных направлениях деятельности и персоналиях организаций, имеющих дело с изучением, разработкой и применением катализа.
5. База данных "Справочник фирм" содержит основные направления деятельности фирм-разработчиков, изготовителей катализаторов. В Базе данных "Справочник фирм" хранится следующая информация: название, адрес, телефон, телефакс, персоналии (должность, имя), основные направления деятельности. "Справочник фирм" программно связан с БД "Фирмы", в которую включены сведения о структуре фирм, их основных продуктах и так далее.
6. База данных "Персоналии" содержит информацию о специалистах в области фундаментального и прикладного катализа, являющихся экспертами в своих областях деятельности. В Базу включена библиографическая информация каждого специалиста за 1986 -1990 гг.
7. База данных "Оборудование" может служить справочником по оборудованию для производства и исследования катализаторов, содержащим основные технические характеристики и реквизиты, адресные данные изготовителей и поставщиков оборудования.
8. База данных "Промышленные катализаторы газоочистки" содержит фактографические данные о катализаторах, применяемых в промышленности страны в настоящее время.
Иерархическая модель
В данном параграфе рассмотрены использование существующих трех типов информационных моделей представления данных: иерархической, сетевой и реляционной.
Эти три модели различаются способами информационного отображения объектов реального мира и методикой взаимосвязи информации внутри хранилища данных.
Иерархическую модель можно использовать для хранения информации об оглавлении каталогов, книг, классов химических веществ (родоначальник класса является корневым узлом иерархии, а все производные (дериваты) являются «ветвями» и «листьями» дерева), В иерархической информационной модели объект представляется узлом, содержащим совокупность его атрибутов. Наивысший в иерархии узел, располагающийся на первом уровне модели, называется корневым.
Для данного главного типа объекта может существовать несколько подчиненных типов объектов. При этом для каждого экземпляра главного объекта может быть несколько экземпляров подчинённых объектов.
В предметной области иерархическую организацию имеют:
печатные и электронные каталоги продукции предприятий;
каталоги специализированных отраслевых выставок и тому подобные
информационные продукты. Также, иерархическую организацию может иметь внутренняя информация предприятия, характеризующая его структуру, например:
кадровая структура;
машинный парк;
структура корпоративного предприятия (предприятия, включающего в свой состав несколько филиалов, заводов, офисов и т. п.).
Таким образом, значительное количество абсолютно необходимой, часто используемой информации предметной области имеет именно иерархическую структуру. Это может характеризовать иерархическую модель данных как перспективную и подходящую для создания эффективной системы хранения и управления данными предметной области работы. Однако, данная модель обладает рядом недостатков, делающих невозможным ее применение в современной, эффективной и надежной системе хранения данных предметной области. Такими недостатками является узкая «специализация» этой модели данных, высокая ресурсоемкость поисковых механизмов и трудоемкость их программной реализации. Рассмотрим этот вопрос более подробно.
Основными методами первичной обработки данных при использовании данного метода организации являются ручной анализ первичных данных, выделение иерархии хранимых объектов и планирование структуры отдельного объекта («листа» иерархического дерева).
Трудоемкость данных процессов может варьироваться от крайне незначительной (информация по своей природе организована иерархически), до крайне высокой (задача проектирования может быть нереализуема в рамках данной модели, например, в случае, когда единицы хранения имеют перекрестные связи).
Данная модель характеризуется также крайне высокой ресурсоемко стью процесса поиска информации и относительной сложностью самих поисковых алгоритмов. Практически все существующие на текущий момент алгоритмы поиска информации в иерархических структурах являются рекурсивными, а, следовательно, ресурсоемкими и медленными.
В реляционной модели данных объекты и взаимосвязи между ними представляются с помощью плоских таблиц, имеющих заранее определенную структуру.
Каждая таблица отображает один объект и состоит из к строк и п столбцов. Данные, занесённые в строку таблицы, называются записью данных. В реляционной модели базы данных каждая таблица, как правило, имеет первичный ключевой элемент - поле или комбинацию полей, которые единственным образом идентифицируют каждую строку в таблице.
Таблицы реляционной модели могут быть взаимосвязаны друг с другом, образуя более сложные представления объекта реального мира в информационной плоскости. Кроме того, как уже было отмечено, разработчикам программного обеспечения и самих баз данных, а также конечным пользователям значительно проще отображать сущности предметной области в табличных структурах данных. Иерархическая модель организации данных может быть легко реализована в рамках реляционной модели. Обратное утверждение неверно -таким образом, реляционная модель лишена ограничений, присущих иерархической модели.
Рассматривая реляционную модель организации данных применительно к информации предметной области - химии, химической технологии и химической науки - можно отметить, что значительное количество первичных данных предметной области имеют табличную структуру изначально; это справочные данные, параметры процессов, результаты экспериментальной работы и так далее. Ввиду того, что иерархическая модель организации данных, как уже говорилось, легко реализуется в рамках реляционной, сюда же можно включить данные, изначально имеющие иерархическую структуру. То есть, фактически, реляционная модель может охватить практически весь спектр информации, порождаемой и потребляемой целевой отраслью науки и промышленности.
При всех достоинствах реляционной модели организации данных эта модель имеет и существенные недостатки. Табличная организация данных изначально порождает избыточность информации. Устранение избыточности (в терминах реляционной модели такое действие называется нормализацией базы данных) резко увеличивает трудозатраты на проектирование и снижает гибкость самой базы данных, делая ее более «предметной», узко ориентированной. Расширение такой базы данных, связанное, например, с необходимостью хранения дополнительных данных, становится крайне трудоемким процессом, снижающим надежность системы вообще и базы данных, в частности. Затраты вычислительных ресурсов при нормализации базы данных также растут, причем зависимость величины вычислительных затрат от нормализованности базы является экспоненциальной (рис, 2.4).
Структура фактографической базы данных
Разработанная фактографическая база данных по химии и химической технологии включает в себя основные разделы. необходимые для работы в рассматриваемой предметной области [109-111]. Структура базы данных включает в себя 10 разделов:
патенты РФ;
зарубежные патенты (рефераты на английском языке);
журналы (российские и зарубежные);
выставки (российские и зарубежные);
конференции (российские и зарубежные);
рефераты статей по российским источникам;
рефераты статей по зарубежным источникам;
маркетинговая информация по России и зарубежным странам;
базы данных сторонних организаций;
материалы по правовым вопросам.
Все части базы данных взаимосвязаны между собой, посредством хранящейся в структуре БД метаинформации. Подсистема интерфейса пользователя обеспечивает доступ к данным через конструкторы форм, универсальный поисковый модуль, систему выборки информации, необходимой для работы.
Панель инструментов содержит набор элементов управления и обеспечивает основными режимами работы системы (рис.3.7). Рис. 3.6. Панель управления базой данных: 1- кнопки панели инструментов системы; 2- кнопки управления БД; 3- коммандная строка ввода запросов; 4- кнопки управления режимом просмотра БД (встроенные)
За операциями закреплены элементы управления (табл. 3.1), которые действуют одинаково для любой из составных частей БД в любом режиме. После их нажатия операция либо выполняется сразу же, либо вызывается дополнительный пользовательский диалог.
Выбор необходимой операции осуществляется мышью либо нажатием клавиши с указанной латинской буквой (в любом регистре).
Размер БД может достигать сотен тысяч и миллионов документов, а объем - сотен мегабайт, поэтому особое значение при работе с БД имеет возможность нахождения документов. Именно возможность быстрого поиска документов и определяет задачу организовать множество документов в виде БД.
Когда требуется найти предприятие по номеру телефона, или по адресу, или по фамилии директора, подразумевается, что из печатного текста можно выделить телефон, адрес, фамилию и так далее. Для автоматизации поиска эти "осмысленные единицы" разумно выделить в отдельные части: например, в реферате выделить собственно текст реферата, заголовок, источник, ключевые слова и другие; патент может быть разбит на части, одна из которых содержит реферат и текст патента, а другие - библиографические реквизиты патента (номер, год публикации, класс МКИ, авторы и так далее).
Такая именованная часть документа, описывающая одно из его свойств называется фрагментом или сегментом. Выделение фрагментов производится на этапе проектирования БД и диктуется исключительно практическими потребностями - либо облегчается поиск документов, либо их представление, либо анализ результатов поиска.
Сравнительное тестирование на примерах узкоспециализированных программно-информационных решений
В качестве решения, выбранного для сравнительного тестирования. в данной категории программно-информационных продуктов, был выбран электронный проспект выставки «Химия-2001». Данный электронный проспект содержит сведения о более чем 500 фирмах-участниках выставки Химия-2001.
Для каждой фирмы в проспекте хранится карточка фирмы с указанием ее названия, адреса и предоставляемых товаров и услуг. Информация, содержащаяся в такой карточке в табличном (исходном) виде приведена в таблице 4.1.
На экране карточка фирмы показана "целиком", как очерчено рамкой; разделительные горизонтальные линии и названия секций даны для удобства.
Работа с электронным проспектом возможна как в режиме просмотра фирм одна за другой, так и в режиме поиска по названию, стране и номенклатуре их продукции и услуг.
В последнем случае на экран выводится список ключевых слов, из которого выбирается нужное слово или словосочетание, после чего производится поиск и показ найденных информационных карточек.
Прямой просмотр карточек, либо поиск по названию мало интересен. Пользователя обычно интересует список фирм по требуемой тематике - это могут быть нефтепродукты, анализаторы, удобрения и т.п.
Для поиска фирм в электронном проспекте достаточно вызвать на экран перечень ключевых слов, нажав кнопку «Поиск по ...» (продуктам, услугам) и выбрать нужное, после чего просмотреть карточки фирм.
Дальнейшее сравнение проводится по результату отработки запроса "Лакокрасочные материалы". Результат обработки запроса поисковой системой электронного каталога выставки «Химия-2001» показан на рис. 4.1.
В результате поиска было найдено 8 фирм. Результат обработки поискового запроса по ключевым словам имеет определенные недочеты: одни и те же записи включены в результат дважды, и дважды найдено присутствие ключевых слов.
По результату исполнения запроса имеется 7 фирм, в карточках которых в секции ключевых слов (КС) внесено словосочетание "Лакокрасочные материалы".
Один из важнейших критериев оценки — полнота полученных результатов. В данном конкретном случае это означает ответ на вопрос: все ли материалы, включающие ключевые слова "лакокрасочные материалы" найдены?
Вполне возможна ситуация, что в карточке фирмы ключевые слова "лакокрасочные материалы" находятся в других секциях документа, например, в секции "Текст".
Проверка "качества" электронного проспекта проводился с использованием разработанной фактографической программно-информационной системы, раздел "Материалы выставки Химия 2001",
Данная БД, вошедшая в состав информационных блоков разработанной программно-информационной системы, получена, как уже говорилось ранее, ординарной переработкой электронного проспекта. В результате данной переработки карточки фирм перенесены в единицы хранения фактографической программно-информационной системы с незначительными изменениями (убраны незначащие пробелы и проведена разбивка на строки). Специально обращается внимание на тот факт, что секция с ключевыми словами никак не редактировалась. Для проведения проверки в разработанной фактографической программно-информационной системе следует выполнить запрос: «Лакокрасочные материалы». Результаты обработки запроса поисковым механизмом показаны на рис. 4.2.
В результате было отобрано 10 документов (табл. 4.2.). Особое внимание следует обратить на выделенные жирным шрифтом предприятия, не найденные при использовании электронного проспекта.