Содержание к диссертации
Введение
ГЛАВА 1. Системный анализ проблемы компьютерного прогнозирования свойств неорганических веществ ...7
1.1. Особенности компьютерного прогнозирования свойств неорганических веществ 7
1.2. Формальная постановка задачи компьютерного прогнозирования свойств неорганических веществ 9
1.3. Применение основных принципов и методов системного анализа к проблеме компьютерного прогнозирования свойств неорганических веществ 21
1.4. Информационные системы по свойствам неорганических веществ... 26
1.5. Задача интеграции различных источников данных для обеспечения информационной поддержки компьютерного прогнозирования свойств неорганических веществ 35
ГЛАВА 2. Информационное моделирование технологий интеграции данных 37
2.1. Методы интеграции данных 37
2.2. Построение неформального описания информационных процессов, осуществляемых при интеграции данных .. 39
2.3. Моделирование потоков данных 41
2.4. Функциональное моделирование процессов обработки информации при интеграции данных 45
ГЛАВА 3. Применение технологий интеграции данных для компьютерного конструирования неорганических соединений 50
3.1. Выбор среды реализации интегрированной ИС 50
3.2. Состав и схема метабазы, соедржащей описания источников данных53
3.3. Назначение, описание и примеры адаптеров извлечения и преобразования данных 55
3.4. Разрабьотка программы-посредника 58
3.5. Защита информации при интеграции данных 62
ГЛАВА 4. Применение интегрированной информационной системы для прогнозирования свойств неорганических веществ 73
Заключение 125
Список литературы
- Формальная постановка задачи компьютерного прогнозирования свойств неорганических веществ
- Построение неформального описания информационных процессов, осуществляемых при интеграции данных
- Функциональное моделирование процессов обработки информации при интеграции данных
- Защита информации при интеграции данных
Формальная постановка задачи компьютерного прогнозирования свойств неорганических веществ
В области современного материаловедения широко используются информационные системы, как для моделирования различных физико-химических процессов, так и для хранения больших объемов информации о структуре и свойствах неорганических соединений, относящихся к различным классам. На стыке этих областей исследований в настоящее время разрабатываются методы и программные средства, предназначенные для решения задач компьютерного конструирования соединений [5].
Под компьютерным конструированием соединений (computer-assisted design) понимаются гипотезы о свойствах еще не синтезированных химических соединений, основанные на анализе взаимосвязей между их качественным и количественным составом и проявляемыми свойствами. Такой подход позволяет существенно сократить финансовые и временные затраты на поиск химических соединений с требуемыми свойствами. Термин “компьютерное конструирование” (computer-assisted design) впервые появился в 70-х годах ХХ века в работах Corey и Wipke применительно к построению структуры сложных органических соединений с помощью компьютера [6]. Задача компьютерного конструирования неорганических соединений была сформулирована чуть позднее, в 90-е годы ХХ века. Методы решения этой задачи отличаются от методов, используемых для органических соединений, поскольку для неорганических соединений правило валентности соблюдается не для всех видов химических связей между атомами.
Применительно к неорганическим соединениям компьютерное конструирование имеет ряд особенностей и позволяет строить следующие виды гипотез [7]: образование (или отсутствие образования) соединений и их количественный состав;
Применение квантовомеханического подхода к решению задач прогнозирования свойств неорганических соединений ограничено сложностью приближенного численного решения уравнения Шредингера.
К наиболее известным эмпирическим критериям образования соединений в настоящее время можно отнести критерий Маттиаса для прогноза новых сверхпроводников с кристаллической структурой типа А15, правила Юм-Розери для определения способности химического элемента растворяться в металле с образованием твёрдого раствора, диаграммы Даркена-Гурри для прогноза взаимной растворимости металлов, правило Лавеса для предсказания кристаллической структуры некоторых интерметаллических соединений [8]. Для конструирования неорганических соединений с заданными свойствами необходимо разработать новые критерии. Основным достоинством таких критериев является их простота, позволяющая построить наглядные проекции в полученном пространстве свойств. К недостаткам этого подхода следует отнести высокую трудоемкость и учет ограниченного количества признаков.
Построение сложных многомерных решающих правил является естественным развитием предыдущего подхода. Его реализация стала возможной только с использованием современных вычислительных систем, оснащенных специальными программами анализа больших массивов данных. По существу, этот подход основан на концепции «черного ящика», в рамках которой исследователь располагает только набором входных и выходных параметров, но не знает, каким образом входные параметры влияют на результат. Такие методы называют анализом данных (data analysis или data mining [9]). К недостаткам этих методов, с точки зрения любой предметной области, можно отнести не только недостаточную строгость полученных моделей, но и частую невозможность их интерпретации. Однако для многих сложно формализуемых задач эти методы являются единственным возможным способом построения некоторой модели исследуемых взаимосвязей.
Построение неформального описания информационных процессов, осуществляемых при интеграции данных
Декомпозиция используется при построении информационных систем на стадии выделения подсистем и описания их основных функций. Декомпозиция позволяет управлять степенью абстрагирования при проектировании различных компонентов информационной системы. Например, при построении моделей данных проектирование начинается с построения модели сущность-связь [30]. На первом этапе построения этой модели перечисляются самостоятельные сущности, а при помощи связей формируются зависимые сущности. Следующий шаг – более детальное описание сущностей при помощи указания их атрибутов. Переход от модели сущность-связь к реляционной модели требует выполнения нормализации данных, что по определению означает декомпозицию исходных отношений (полученных из предыдущей модели) и выделение более простых отношений, связанных между собой, для уменьшения избыточности данных при сохранении целостности данных.
Декомпозиция функциональной модели или модели потоков данных позволяет перейти от обобщенного (абстрагированного) описания соответствующей функции системы к ее более детальному (но теме не менее формализованному) описанию [31]. Естественным следствием последовательной декомпозиции процессов является их иерархическое упорядочение. Обычно визуализированным представлением иерархии объектов является граф в виде дерева. Для функциональной модели таки деревом является дерево узлов модели [32].
Абстрагирование лежит в основе выбора точки зрения при выборе той или иной информационной модели и построении ее контекстной модели. Так, в основу функциональных моделей положены функции, выполняемые информационной системой, при этом структуры хранения данных детально не рассматриваются, а представляются в виде информационных потоков. Реляционная модель данных очень подробно описывает структуру данных, но не содержит никаких средств для описания процессов их обработки [33].
Одним из инструментов поддержки абстрагирования является использование различных высокоуровневых стандартов. Стандартом структурированного языка запросов SQL задаются требования к тому, что должно быть получено в результате выполнения запроса, а не то, как это должно быть получено. Таким образом, конкретная реализация запроса абстрагирована от пользовательских приложений и возложена на систему управления базой данных.
Абстрагирование становится возможным при условии строгой формализации. В частности, формализованное описание требуется для обеспечение взаимодействия абстрагированных компонентов, например, интерфейсов управления оборудованием или интерфейсов прикладного программирования. Классическим примером формализованного представления проблемной ситуации является математическое моделирование [34].
При построении информационных моделей формализация предполагает использование стандартизованных нотаций для построения соответствующих моделей. К ним относятся методологии функционального моделирования систем IDEF0 и методология проектирования баз данных IDEF1X. Для моделирования потоков данных в рамках методологии DFD могут быть использованы разные нотации, наиболее часто используются нотации Йордана (Yourdon) [35]и Гейна-Сарсона (Gane-Sarson) [36]. Унифицированный язык моделирования UML фактически представляет собой совокупность отдельных нотаций, используемых для построения различных диаграмм и может рассматриваться как альтернативное (по отношению к методологиям семейства IDEF) средство описания информационных систем [37].
В иерархической модели данных XML наряду с графическим представлением данных используются также последовательное (serialized) текстовое представление и представление на основе объектной модели событий [38].
Рассмотрим проблему прогнозирования свойств новых неорганических соединений как задачу системного анализа [39].
Целью исследования является прогнозирование свойств новых неорганических соединений. Для достижения этой цели используются методы классификации, рассмотренные выше, среди которых можно выделить 3 группы: статистические, логические и методы, основанные на применении искусственных нейронных сетей. Исходными данными является информация о составе и свойствах соединений, объединенных в обучающую выборку. В результате формируются модели, представляющие собой классифицирующие правила, позволяющие на основе данных о составе соединения предсказать его свойства. С помощью методов скользящего контроля на различных тестовых выборках проверяются прогностические возможности моделей. Для этого с помощью различных методов строятся прогнозы, выполняется их консолидация с помощью комитетных методов и проверяется правильность прогнозов. Критерием прогностических возможностей правила является отношение количества неверных прогнозов к количеству пар, входящих в обучающую выборку. Если количество неправильных прогнозов слишком велико, проводится анализ полученных результатов. На основании такого анализа может быть изменен состав обучающей выборки, параметры методов, используемых для построения моделей, или способ консолидации прогнозов [40]. В том случае, если для ряда тестовых выборок результаты прогнозирования являются приемлемыми, полученные решающие правила могут быть использованы для прогнозирования свойств новых соединений с последующей экспериментальной проверкой.
Функциональное моделирование процессов обработки информации при интеграции данных
Способ реализации процесса в модели DFD не рассматривается, это может быть организация, сотрудник, программа и т.п. Процесс изображается в виде прямоугольника со скругленными краями, внутри которого размещается его уникальное имя.
Внешние сущности описывают источники или приемники информации, с которыми взаимодействует описываемый процесс. Внешние сущности могут представлять собой организации, физические лица, информационные системы или материальные объекты. Внешние сущности изображаются в виде прямоугольников с прямыми краями.
Потоки данных описывают передачу информации или материальных объектов. Потоки данных изображаются в виде стрелок, причем не имеет значения, с какой стороной прямоугольника связана стрелка. Стрелка может также быть двунаправленной.
Накопитель данных описывает абстрактное устройство, куда данные или материальные объекты можно поместить и из которого их можно в любое время извлечь. Накопитель может быть реализован в виде склада (для материальных объектов), файла данных на магнитном носителе, таблицы в базе данных и т.п. Накопитель изображается в виде прямоугольника с прямыми краями. Процессы, внешние сущности и накопители данных нумеруются по порядку независимо друг от друга.
Каждый процесс на диаграмме потоков данных может быть детализирован на дочерней диаграмме. Дочерняя диаграмма наследует потоки данных, которые взаимодействовали с процессом на родительской диаграмме, но может включать в себя также и другие потоки данных, внешние сущности и накопители данных.
Моделирование потоков данных начинается с построения обобщенной диаграммы. На ней представлено основное назначение информационной системы – обработка данных. Эта модель является наиболее абстрактной и содержит минимально необходимые указания на конкретную предметную область. Обычно в состав контекстной диаграммы входит единственный процесс и несколько абстрактных накопителей данных. Обобщенная диаграмма потоков данных при интеграции данных приведена на рис. 2.3.
Единственный процесс на этой диаграмме в наиболее общем виде описывает задачи, решаемые в рамках интегрированной информационной системы.
Накопитель «источники данных» представляет собой базы данных, в которых хранится первичная информация и которые подлежат интеграции. Формализованное представление в нотации Гейна-Сарсона не допускает изображения множественных прямоугольников, как это было использовано на рис. 2.1, для отражения факта множественности источников данных. Накопитель «данные для пользователя» описывает результаты выполнения внешних запросов к интегрированной информационной системе, поступивших от пользователя. Возможное дальнейшее применение полученных данных лежит за рамками ИС интеграции данных и на контекстной диаграмме не отражено.
Накопитель «метаданные» содержит описания источников данных. Назначение и особенности использования метаданных будут отражены на последующих уровнях декомпозиции.
Выделение различных накопителей данных подчеркивают различие в форматах и назначении данных.
Далее эта диаграмма детализируется. Выделяют 3 последовательных информационных процесса: извлечение, преобразование и представление данных. После проведения декомпозиции контекстной диаграммы в модель потоков данных включаются новые накопители данных и процессы их обработки. В общем случае передача данных от одного процесса к другому осуществляется через промежуточный накопитель данных. В некоторых случаях ему может не соответствовать ни одного реального физического объекта хранения (если информация обрабатывается в режиме реального времени без промежуточной записи в долговременное хранилище). Тем не менее, для обобщения представления и абстрагирования от деталей конкретной реализации на первом уровне декомпозиции в соответствии с требованиями нотации отображение промежуточного накопителя данных является обязательным. Диаграмма потоков данных первого уровня декомпозиции технологий интеграции данных, представленная на рис. 2.4, содержит более детальное представление процессов интеграции данных.
Процесс извлечения данных при федеративном подходе к интеграции выполняется адаптерами данных в ИС источников данных в режиме реального времени с предоставлением доступа к небольшому объему извлекаемых данных. Преобразование форматов данных осуществляется на основе метабазы внешних данных. Хранение преобразованных данных в реальном накопителе данных (хранилище данных) при федеративном подходе не предусматривается. Смена формата данных в ИС интеграции требует корректировки метаданных, а также внесения изменений во все модули (адаптеры) преобразования форматов. Смена формата данных в ИС источника данных может быть реализована более прозрачно для ИС интеграции, поскольку требует корректировки только адаптеров ИС источников данных и не затрагивает метаданные ИС интеграции.
Защита информации при интеграции данных
Исходя из определенных требований, наиболее оптимальным решение для защиты информационного обмена между интегрированной ИС и конечными пользователями является использование технологии SSL VPN.
Технология SSL VPN позволяет организовать защищенное соединения с использование стандартного программного обеспечения (веб-браузера), входящего в состав любой операционной системы любого устройства. Кроме того, технология SSL VPN не накладывает ограничений на способ подключения конечного пользователя к сети Интернет.
Таким образом, задача организации защищенного обмена не накладывает ограничений на удобство использования интегрированной ИС конечными пользователями. Схема защиты информационного обмена между ИС интеграции и пользователями
Использование технологии SSL VPN позволяет предотвратить ряд угроз информационной безопасности и обеспечивает: Проверку подлинности участников информационного обмена (посредством использования цифровых сертификатов); Защиту передаваемых по открытым каналам сети Интернет данных от перехвата (посредством использования алгоритмов шифрования данных); Защиту передаваемых по открытым каналам сети Интернет данных от искажения (посредством использования алгоритмов проверки целостности передаваемых данных). Использование аппаратных межсетевых экранов с функцией терминации HTTPS/SSL-соединений снижает нагрузку на сервер интегрированной ИС.
Использование предложенных технологий защиты информационного обмена обеспечивает защиту от потенциальных угроз информационной безопасности, не снижает производительность ИС интеграции и обеспечивает возможность применения различных программных средств программной реализации информационных процессов. Гл а в а 4. Применение интегрированной информационной системы для прогнозирования свойств неорганических веществ
Разработанная интегрированная ИС была использована как источник данных для прогнозирования свойств соединений состава AB2X4 (где X = S или Se или Te). Эти соединения (их часто называют халькогенидными шпинелями, т.к. халькогены – элементы главной подгруппы VI группы перидической таблицы Д.И.Менделеева, шпинель – наиболее часто встречающаяся кристаллическая структура этих соединений) в настоящее время рассматриваются как перспективные материалы, используемые для создания магнитооптических элементов памяти, сенсоров и других магнитоуправляемых устройств. Интенсивные исследования в области физики и химии халькогенидных шпинелей проводились на химическом и физическом факультетах МГУ им. М.В.Ломоносова под руководством Ю.Д.Третьякова, К.П Белова и Л.И.Королевой [70].
Халькогенидные шпинели применяются также в интегральных схемах, в которых один участок используется как активное полупроводниковое устройство, а другой – как магнитный микроволновой прибор. Эти соединения отличает уникальное сочетание магнитных, электрических и оптических свойств и сильная их взаимосвязь, обусловленная участием носителей тока в обменных взаимодействиях. Кроме того, у некоторых соединений этого класса обнаружена слабая сверхпроводимость. Халькогенидные шпинели могут быть использованы и как перспективные термоэлектрические материалы.
В настоящее время имеется информация примерно о тысяче соединений состава AB2X4 (X = S, Se, Te), примерно для восьмисот из них имеются данные о кристаллической структуре. Наиболее распространены структуры типа Th3P4, шпинели и CaFe2O4, однако возможно образование и структур других типов. Всего выделяют 15 различных типов структур, все остальные структуры относят к одному общему классу: 1. получить при нормальных условиях. Таким образом, все известные соединения разбивают на 17 классов в зависимости от типа их кристаллической структуры.
Свойства халькогенидов во многом определяются типом их кристаллической структуры, поэтому задача определения типа кристаллической структуры в зависимости от свойств элементов, входящих в состав соединения, является весьма актуальной. В качестве исходных данных рассматривались такие свойства элементов, как псевдопотенциальный радиус, ковалентный радиус, ионный радиус, температуры плавления и кипения, энтальпии плавления и испарения, электроотрицательность, потенциалы ионизации, теплопроводность. Для элементов А и В, кроме того, учитывались номер группы, количество валентных электронов, температура Дюбая. Для получения всех этих данных использовалась БД «Элементы».
Для обучения использовались данные из БД «Фазы» о 835 соединениях, для которых известен тип кристаллической структуры, и 154 составах, для которых соединение AB2X4 отсутствует. Проверка прогностических возможностей проводилась методом скользящего контроля на данных обучающей выборки.
На первом этапе выполнялось прогнозирование возможности образования соединения при нормальных условиях, то есть рассматривалось всего 2 класса соединений. Результаты прогнозирования – отношение правильных прогнозов к общему количеству соединений – представлены в табл. 4.1.
Для дальнейшей интеграции были отобраны 3 метода, которые позволили получить наибольшее количество правильных прогнозов при использовании скользящего контроля – линейный дискриминант Фишера, нейронные сети и метод ближайших соседей. Применение методов принятия коллективных решений позволили повысить отношение правильных прогнозов к общему количеству соединений до 99% [71].