Содержание к диссертации
Введение
Глава 1. Состояние и основные тенденции крупных многоаспектных баз данных (БД) в области химии 13
1.1. Проектирование и разработка крупных БД в области химии 13
1.1.1 Современные крупные БД в области химии 13
1.1.2 Основные задачи БД в области химии 20
1.1.3 Разработка БД для информационных систем (ИС) в области химии 22
1.1.4 Обзор инструментальных средств разработки БД 26
1.2 Форматы представления химической информации 32
1.3 Подходы к решению основных задач крупных БД в области химии 39
1.3.1 Поиск/идентификация химических веществ 39
1.3.2 Использование дескрипторов химических веществ 43
1.3.3 Регистрация химических веществ в современных крупных БД 45
1.3.4 Классификация химических веществ в современных крупных БД 47
1.3.5 Синтез информации в БД 48
1.4 Применение формул Маркуша в химических БД 54
1.4.1 Родовые химические структуры (формулы Маркуша) 54
1.4.2 Применение формул Маркуша в патентных БД 55
Глава 2. Программно-технологические решения регистрации и классификации химико-структурных данных для фактографической базы данных (БД) на основе применения формул Маркуша 61
2.1 Задача разработки программно-технологических средств для регистрации и классификации химико-структурных данных в химической БД 61
2.2 Программно-технологические решения для загрузки данных в БД. 63
2.3 Программно-технологические решения для идентификации/регистрации химических веществ 64
2.4 Программно - технологические решения для поиска химических веществ 66
2.5 Программно-технологические решения применения формул Маркуша 69
2.5.1 Язык описания Маркуш -радикалов 70
2.5.2 Интеграция в БД редактора MSE (Molecular Structure Editor) 71
2.5.3 Подсистема хранения формул Маркуша 73
2.5.4 Подсистема поиска по формулам Маркуша 73
2.6 Использование молекулярных фрагментов (структурных дескрипторов) химических веществ 75
2.7 Программно-технологические решения для классификации информации 76
2.7.1 Программно-технологические решения для классификации информации на основе справочников -реестров 76
2.7.2 Программно-технологические решения для классификации информации на основе количественных данных 77
2.7.3 Программно-технологические решения для классификации информации на основе молекулярной информации (дескрипторы, структуры, формулы Маркуша) 77
2.7.4 Программно-технологические решения для классификации информации на основе статистических моделей 79
Глава 3. Методы, алгоритмы и программные средства для классификации и синтеза информации 82
3.1 Методологические подходы моделирования, классификации и синтеза информации 82
3.2 Информационная классификация 83
3.3 Статистическая байесовская классификация 84
3.4 Примеры использования байесовского подхода к классификации химических веществ 88
3.5 Статистическая количественная классификация 92
Глава 4. Основные фрагменты структуры данных БД 95
4.1 Концептуальная (логическая) схема БД 95
4.2 Основные фрагменты физической структуры данных для регистрации/хранения химических веществ в БД 96
4.3 Основные фрагменты физической структуры данных для классификации химических веществ в БД 99
4.4 Основные фрагменты физической структуры данных для хранения фактографической информации в БД 101
4.5 Основные фрагменты физической структуры данных для регистрации хранения химических структур и молекулярных дескрипторов в БД 105
Глава 5. Основные формы пользовательского интерфейса БД 108
5.1 Экранная форма «Химикат» 108
5.2 Экранная форма «Поиск химикатов по структурной составляющей» 113
5.3 Экранная форма «Дескрипторы» 116
5.4 Экранная форма для классификации «Категорированные данные» 117
5.5 Экранная форма «Количественные данные» 122
5.6 Экранная форма «Обобщенный поиск» 126
5.7 Экранная форма «Обобщенный фильтр» 128
5.8 Экранная форма «Регрессионное моделирование» 130
5.9 Байесовский прогнозатор 134
5.9.1 Экранная форма «Байесовский прогнозатор» 135
5.9.2 Экранная форма «Отбор дескрипторов» 137
5.9.3 Экранная форма «Построение моделей RTECS» 139
5.9.4 Экранная форма «Построение моделей TOXIC» 140
5.9.5 Экранная форма «Прогноз» 142
Направления дальнейших применений 146
Заключение 147
Литература
- Основные задачи БД в области химии
- Программно-технологические решения для загрузки данных в БД.
- Информационная классификация
- Основные фрагменты физической структуры данных для классификации химических веществ в БД
Введение к работе
Данная работа посвящена разработке программно-технологических средств для регистрации и классификации химико-структурных данных в химической базе данных (БД) в системе информационного обеспечения по проблемам химической безопасности, в том числе по аварийно химически опасным веществам (АХОВ), психотропным / наркотическим лекарственным веществам (ПЛВ/НЛВ), сильнодействующим ядовитым веществам (СДЯВ) и их прекурсорам, химическим веществам, подпадающим под действие Конвенции о запрещении химического оружия. Специальное внимание в работе уделено использованию формул Маркуша, позволяющих реализовать достаточно эффективный алгоритм формализации, классификации и интеграции данных и знаний по их химико-структурной составляющей, ориентированный на выявление опасных химических веществ.
1. Актуальность темы
В «Основах государственной политики в области обеспечения химической и биологической безопасности Российской Федерации на период до 2010 года и дальнейшую перспективу», утвержденных Президентом РФ В.В. Путиным (Пр-21944 от декабря 2003 г.), указывается на необходимость создания государственной системы обеспечения химической и биологической безопасности Российской Федерации (как подсистемы единой государственной системы предупреждения и ликвидации чрезвычайных ситуаций), предусматривающей категорирование, прогнозирование, предупреждение и парирование угроз химической и биологической безопасности, ликвидацию последствий чрезвычайных ситуаций в результате воздействия химических и биологических факторов [24].
Одним из важных направлений, указанных в документе, является разработка и внедрение информационных аналитических систем (ИАС) в сфере математического моделирования для выявления закономерностей в области обеспечения химической и биологической безопасности [24].
Информационное обеспечение по проблемам химической безопасности непосредственно связано с формированием фактографических баз данных по токсическим химическим веществам (АХОВ, СДЯВ, ПЛВ, НЛВ и др.) и их прекурсорам, а также баз знаний - моделей для классификации,
прогноза/восстановления пропущенных данных и выявления опасных химических веществ.
В настоящее время значительная часть фактографических данных, связанных с токсическими химикатами, рассредоточена по многочисленным информационным, медицинским, химическим, биологическим и технологическим базам данных, отдельным научным отчетам, технологическим регламентам, научным публикациям, патентам и нормативно-правовым/справочным документам. Зачастую, необходимая информация в этих ресурсах плохо формализована и не верифицирована, а иногда и просто отсутствует. Также, важно отметить, что использование таких ресурсов и зарубежных интегрированных информационных систем может быть ограничено конфиденциальностью как запрашиваемой информации (по совокупности), так и содержанием самого запроса, что не может не затрагивать интересы национальной безопасности [25].
Сложившаяся в настоящее время ситуация в части доступности мировых информационных ресурсов, технологии их переработки и прогресса в программных и технических средствах позволяет поставить и быстро решить задачу создания и поддержки жизненного цикла фактографических баз данных с химико-структурными данными для информационного обеспечения по проблемам химической безопасности.
Ключевыми компонентами при создании таких многоаспектных фактографических БД являются подсистемы регистрации и классификации химико-структурных данных. Их необходимость объясняется следующими причинами:
Процедура регистрации объектов в БД решает как непосредственно задачу обеспечения уникальности (идентификации) информации (химикатов), так и задачу целостности БД.
Процедура классификации данных является необходимой для эффективного использования данных при анализе и моделировании, в том числе для задач выявления вероятных прекурсоров синтеза опасных химических агентов.
В области химии наиболее представительной и актуальной системой регистрации химико-структурных данных индивидуальных химикатов является
CAS - Chemical Abstracts Service, БД которого включает более 25 миллионов веществ (по состоянию на май 2005 года). Сложившаяся за последние годы монополия CAS на оказание платной услуги на присвоение химикату уникального номера, не несущему никакой химической информации, во многих случаях затрудняет его использование в качестве кода/указателя для обращения к информации [80]. В плане программной реализации регистрации химических структур в БД можно также вьщелить подходы, предлагаемые фирмами MDL и DayLight.
Как правило, процедура классификации в БД реализуется на основе создания системы таблиц - классификаторов (справочников, словарей, документов, каталогов, рубрикаторов и т.п.) и приписыванием на их основе химикатам определенных классов. Также данная задача может решаться на основе обработки химико-структурной составляющей химикатов.
Классификаторы БД представляют знания об информационных объектах системы, что ведет к повышению качества пространства данных (верификация данных, классификация новых объектов, восстановление пропущенных данных). Т.е. по сути дела классификаторы БД представляет собой элемент базы знаний.
Принципиально важным подходом к решению вышестоящих задач является применение так называемых формул Маркуша (обобщенных химических структур).
Формула Маркуша (обобщенная химическая структура) представляет собой молекулярную структуру, состоящую из постоянной части и переменных заместителей [34]. По сути, представляя собой обобщение индивидуальных химических структур, формулы Маркуша могут выступать в качестве:
гибких классификаторов химических веществ на основе химико-структурной информации, в том числе по списочным классам и структурным аналогам опасных химикатов;
моделей обобщения и классификации при создании базы знаний по свойствам химических веществ.
Особенно широкое применение формулы Маркуша нашли в патентной области. В настоящее время только патентные базы наиболее крупных зарубежных информационных центров (Derwent World Patents Index; INPI Merged Markush Service (MMS) в сотрудничестве с Derwent Information Ltd (Markush
DARC); Chemical Abstracts Service MARPAT) обеспечивают регистрацию формул Маркуша и организацию доступа к ним широкого круга пользователей. Подобные же отечественные ресурсы отсутствуют, а публикации на эту тему носят единичный характер. Поэтому, включение в химические БД подсистем, способных обеспечить поддержку формул Маркуша, является весьма желательным.
Более широкое распространение в информационных технологиях Маркуш - формализации химических структур в настоящее время ограничено сложностью и трудоемкостью, как самой процедуры формализации, так и программно-методологическими средствами релевантного установления структурно - подструктурного соответствия в генерируемых информационных ресурсах.
В должной степени это относится и к проблемам формирования баз знаний в области химии и релевантным ей областям науки и техники. Поэтому, необходимо уделять много внимания актуальным вопросам разработки методологических подходов и программных средств химических баз данных для классификации и синтеза информации на основе формул Маркуша.
В диссертации формула Маркуша определяется как множество, класс химических соединений, отражающий определенный способ формализации, классификации, интеграции, унификации химико-структурной составляющей информации в области химии и химической технологии, в том числе и как способ представления условий запроса на поиск химических соединений в базах данных. При этом регистрация формул Маркуша по своей сути является должным образом организованной процедурой хранения в БД соответствующих поименованных запросов.
В данной работе рассматриваются следующие направления использования формул Маркуша в базах данных, предназначенных для решения задач в системе информационного обеспечения по проблемам химической безопасности:
1) разработка новой информационно - поисковой подсистемы обработки,
хранения и манипулирования химико-структурной информацией в виде
формул Маркуша;
2) разработка информационно - моделирующей подсистемы для прогнозной
статистической классификации и оценки количественных свойств
индивидуальных и обобщенных химических структур.
Методика эффективного применения формул Маркуша иллюстрируется конкретными примерами из эксплуатируемых химических информационных систем.
Целью диссертации является разработка методов, алгоритмов и программных средств автоматизированных подсистем регистрации и классификации химико-структурных данных для решения задач в системе информационного обеспечения по проблемам химической безопасности.
2. Задачи диссертации
Исследование методов, алгоритмов, программных средств и структуры мировых информационных систем с химико-структурными данными по индивидуальным и обобщенным химическим структурам с акцентом на анализ подходов к решению задач поиска, классификации и синтеза информации;
Исследование существующих и разработка собственных форматов представления химических объектов (индивидуальных и обобщенных химических структур, а также других объектов, представимых помеченными графами);
Исследование и разработка методов, алгоритмов и программ для формализации, поиска/регистрации, классификации опасных химикатов и их прекурсоров в химических базах данных;
Разработка концептуальной схемы, проектных и программно-технологических решений по базе данных и базе знаний по опасным токсичным химикатам и их прекурсорам для ИАС по проблемам химической безопасности;
Интеграция разработанных программных средств, их тестирование/практическая апробация и исследование эффективности/полезности в ИАС для решения задач, связанных с осуществлением национального (федерального) контроля выполнения Конвенции о запрещении химического оружия [68,69].
3. Научная новизна
Разработаны структура данных и методы программной реализации регистрационной системы по химическим веществам, обеспечивающей регистрацию, хранение и поиск как индивидуальных, так и обобщенных химических структур;
Разработаны структура данных и методы для манипулирования химико-структурной и ассоциированной информацией по индивидуальным веществам и формулам Маркуша в базах данных в целях классификации и анализа/синтеза информации, в том числе для выявления потенциально опасных химикатов и их прекурсоров;
Разработаны структура данных, методы и программные средства для прогнозной статистической классификации химикатов на основе байесовского подхода и прогнозной оценки количественных свойств химикатов с использованием формул Маркуша;
Созданный программно-технологический инструментарий позволяет рассматривать задачи моделирования большой размерности (~ 105 объектов, ~104 признаков/дескрипторов) и поставить разработку моделей в химических базах данных на регулярную основу с автоматизацией отбора релевантной для построения моделей информации из (в общем случае нескольких) реляционных таблиц базы данных.
4. Практическая значимость
Разработанные методы, алгоритмы и структурные решения воплощены и оттестированы в виде программно-технологических средств для обеспечения функций регистрации и классификации индивидуальных и обобщенных химических структур в химической БД, в том числе для осуществления национального контроля выполнения Конвенции о запрещении химического оружия;
Разработанные программно-технологические средства информационного и статистического моделирования показали эксплуатационную эффективность при обработке больших массивов фактографической информации в реляционных базах данных в целях построения прогнозных моделей
классификации и количественных соотношений типа «свойство - свойства» (КССС) для оценки опасных токсических химикатов и их прекурсоров; 3) Разработанные программные средства внедрены в эксплуатируемую информационно-аналитическую систему по проблемам Конвенции о запрещении химического оружия Управления «Центр конвенционных проблем и программ разоружения» федерального агентства по промышленности (ИАС-ИМКС), интегральную химико-биологическую базу данных ЗАО ЦИНТЭНСИ, а также предложены для разработки новой регистрационной системы по химическим веществам ВИНИТИ РАН.
5. Структура диссертации
В данной работе рассматривается один из этапов формирования информационной аналитической системы в области обеспечения химической и биологической безопасности. В этот этап входит разработка системы автоматической регистрации и классификации химических веществ с использованием формул Маркуша.
Диссертация состоит из введения, пяти глав, заключения, списка литературы и приложения.
Во Введении обоснована актуальность темы диссертации, определены цель и предмет работы, перечислены основные задачи, описана научная новизна и практическая значимость работы, дана структура диссертации и краткая характеристика ее содержания.
В первой главе диссертации проводится анализ основных мировых ресурсов информационного обеспечения и банков данных химических веществ. Рассматриваются основные принципы построения и тенденции развития крупных многоаспектных БД (информационных систем) в области химии. Дается обзор основных требований к структуре подобных БД, их разработке и использованию. Обосновывается важность разработки элементов БД для регистрации и классификации информации, а также выбор средств организации их разработки. Описываются специфические особенности предметной области разработки и методов обработки информации в ней. Приводятся основные форматы представления химической информации, и производится их сравнение по степени важности, легкости описания и распространенности. Указывается, что главной
особенностью является химико-структурная информация. Рассматриваются основные этапы развития подходов к созданию эффективных алгоритмов и методов обработки химико-структурной информации. Дается описание возникновения формул Маркуша и дальнейшее применение их в патентной области. Обращается внимание на удобство использования формул Маркуша как мощных средств обобщения (классификации) информации по химическим веществам.
Во второй главе диссертации описываются основные программно-технологические решения регистрации и классификации химико-структурных данных для крупной многоаспектной фактографической базы данных (БД). Дается описание основных алгоритмов и методов для реализации функций загрузки, регистрации, формализации, поиска и классификации данных по химическим веществам.
В третьей главе диссертации описываются основные методы, алгоритмы и программные средства для классификации и синтеза информации в БД (в том числе на основе применения формул Маркуша). Приводятся примеры использования алгоритмов и сценарии решения типовых задач, стоящих перед БД.
В четвертой главе диссертации дается описание концептуальной (логической) схемы БД, а также основных фрагментов физической структуры данных БД для решения задач регистрации, поиска, хранения и классификации химико-структурной информации (в том числе с помощью формул Маркуша) с указанием таблиц, их полей данных, а также связей между ними.
В пятой главе диссертации дается описание основных форм пользовательского интерфейса БД для решения задач регистрации, поиска, хранения и классификации химико-структурной информации (в том числе с помощью формул Маркуша) с указанием экранных форм, их основного назначения, компонентов, а также функций, выполняемых ими.
В заключении сформулированы основные положения и результаты, полученные в диссертации.
Основные задачи БД в области химии
Крупные современные многоаспектные БД должны обеспечивать решение целого ряда задач, связанных как с загрузкой, регистрацией, формализацией и стандартизацией больших информационных потоков в области химии и химической технологии, так и осуществлением эффективного доступа к данным, проведением их анализа, классификации и восстановления пропущенных данных 1) Процедура загрузки информации в БД решает задачу поступления в систему, как больших потоков данных из внешних источников (оперативных БД, файлов), так и на основе реализации консольного ввода с помощью автоматизированного рабочего места (АРМ) эксперта/вводчика. 2) Процедура формализации информации в БД решает задачу представления данных о предметной области в рамках определений сущностей в системе. 3) Процедура стандартизации информации в БД решает задачу представления/преобразования данных в рамках определенных для вывода и использования правил. 4) Процедура поиска решает задачу быстрого доступа по различного рода характеристикам объектов к необходимой информации в БД. 5) Процедура регистрации/хранения информации в БД решает как непосредственно задачу обеспечения уникальности (идентификации) данных, так и задачу целостности БД. 6) Процедура классификации данных является необходимой для эффективного использования данных для целей анализа и моделирования при принятии решений. 7) Процедура синтеза решает задачу получения новой информации (восстановления «пропущенных» данных), которая является необходимой при принятии решений. 8) Процедура выгрузки информации решает задачу предоставления данных конечному пользователю, как на дисковых и бумажных носителях, так и через глобальную информационную сеть Интернет.
Подсистемы регистрации и классификации данных являются ключевыми компонентами при создании крупных многоаспектных фактографических БД. Реализация разработки подсистем поиска, анализа и синтеза информации во многом базируется на эффективном решении задач регистрации и классификации.
Необходимо заметить, что при разработке БД необходимо учитывать различные особенности форматов представления и способов обработки информации в данной предметной области. В области химии одной из главных компонент информации является информация о химическом структурном составе вещества. Соответственно, реализация функций регистрации, поиска и классификации химико-структурных данных в химических БД является важной задачей.
Данная диссертация посвящена разработке современной крупной многоаспектной фактографической БД на основе реализации функций регистрации, поиска и классификации химико-структурных данных.
Тенденции развития современных информационных технологий в научных коммуникациях приводят к необходимости разработки и практического применения сложных информационных систем (ИС). Главной целью информационной системы является обработка данных об объектах и явлениях реального мира и предоставление человеку нужной информации о них. Понятие информационной системы является многоаспектным. Современное понятие ИС включает самый широкий диапазон программно — технологических решений: ? в области способов моделирования объектов предметной области; ? в области надежного хранения и экстракции данных (от простых баз данных до достаточно сложных и многоаспектных хранилищ данных); ? в области аналитической обработки информации (Data Mining - добыча данных, OLAP -средства); ? в области выбора инструментария (средств моделирования, технологии программирования, возможностей компьютеров); ? в области мощной инфраструктуры и всевозможных сервисов для доступа к информации и ее обработки.
Разработка современной ИС представляется собой достаточно сложную задачу, подразумевающую решение всего комплекса вышеозначенных вопросов. Также важно отметить, что кроме применения некоторых общих подходов и принципов разработки необходимо учитывать и некоторые специфические особенности создаваемых ИС (например, представление химических веществ на основе химико-структурных данных).
Жизненный цикл проектирования ИС (рис. 2) - это непрерывный процесс, начинающийся с момента принятия решения о необходимости создания системы и заканчивающийся в момент ее полного изъятия из эксплуатации.
Программно-технологические решения для загрузки данных в БД.
Сложившаяся в настоящее время ситуация в части доступности мировых информационных ресурсов, технологии их переработки и прогресса в программных и технических средствах позволяет поставить и быстро решить задачу создания и поддержки жизненного цикла информационных систем/баз данных, включающих химико-структурные данные, наряду с собственными ресурсами легитимно ассимилирующих мировые информационные ресурсы по приоритетным направлениям развития химии [47-51].
При этом наряду с традиционной задачей обеспечения пользователей оперативным доступом к информации БД, эффективная эксплуатация БД должна предусматривать наличие средств поддержки принятия решения на основе классификации, структурирования, агрегирования и моделирования данных, которые обеспечиваются в результате аналитической переработки и обобщения информации [53,54].
Соответственно, важной задачей становится классификация химических веществ в БД и накопление информации по моделям, используемым в рассматриваемой предметной области. Эта информация должна быть соответствующим образом формализована для хранения в БД и рассматриваться как специфический информационный ресурс - база знаний.
В этом плане в качестве одного из методов решения удобно использовать формулы Маркуша. В диссертации формула Маркуша определяется как множество, класс химических веществ, отражающий определенный способ формализации, классификации, интеграции, унификации химико-структурной составляющей информации в области химии, в том числе и как способ представления условий запроса на поиск химических веществ в БД. При этом регистрация формул Маркуша по своей сути является должным образом организованной процедурой хранения в БД соответствующих поименованных запросов.
Структурная информация в современных БД может быть представлена как в виде обычных химических структур для индивидуальных веществ, так и в виде формул Маркуша для обобщенных структур.
В связи с этим создание БД с поддержкой, как обычных индивидуальных химических структур, так и формул Маркуша является актуальной задачей.
Важно отметить, что в рамках данной работы различаются понятия о химическом веществе (реальном объекте материальной химии) и химической структуре (идеальном объекте — факте, результате его отражения, измерения). Эта схема отражает унифицированный подход в рамках структуры БД и пользовательских интерфейсов к поиску, хранению, классификации и прогнозу свойств отдельных химических веществ и формул Маркуша.
Особенностями структуры данных и пользовательского интерфейса БД являются:
единая система регистрации и хранения химико-структурных данных для Маркуш - химикатов и отдельных веществ;
регистрация в БД формулы Маркуша и выявленных реляций к уже зарегистрированным отдельным веществам;
регистрация отдельного вещества и выявленных реляций к уже зарегистрированным, формулам Маркуша, "родовым" по его вхождению в каждую из них;
регистрация релевантных моделей информационной, байесовской классификации и соотношений количественных характеристик вещества.
Исходными данными для формирования информационного ресурса по химическим веществам являются данные, представленные в SDF-файлах определенного формата, включающих последовательные записи химических структур (MOL-представление) с набором полей релевантных данных. Также для решения задач редактирования/верификации информации в БД, помимо пакетной загрузки данных, предусмотрены функциональные интерфейсы для непосредственного ручного ввода/правки экспертом химико-структурных данных (в том числе для регистрации новых химических веществ). Основные операции, реализуемые при загрузке данных по химическим веществам в рамках разрабатываемого пользовательского интерфейса реляционной БД, включают: ? поиск веществ по идентификационным кодам (CAS, RTECS, BEILSTEIN и т.д.); ? вычисление хэш-индексов химических структур, из которых состоят вещества; ? выделение и подсчет структурных дескрипторов («отпечатки пальцев») как для целей непосредственно поиска, так и для решения задач классификации; ? подструктурный поиск по химическим структурам; ? присваивание уникального регистрационного кода; ? регистрацию данных химического вещества (регистрационных кодов, названий, синонимов, молекулярных данных), если необходимо; ? внесение записей в реестры учета фактов-данных для химического вещества (например, классов, эффектов, количественной информации и т.д.), если необходимо.
Основанием для регистрации химических веществ является запись кода ее формализованного представления в БД. Дополнительные вычисляемые атрибуты - короткий хэш-код и код молекулярных дескрипторов - служат для повышения эффективности доступа к химико-структурным данным.
Реализованный в БД формат кода химических веществ предусматривает регистрацию в этой таблице, как традиционных молекулярных объектов, так и обобщенных химических структур. Обобщенная химическая структура, например, задаваемая формулой Маркуша, рассматривается как условие запроса/объявления (например, патента) на определяемую выборку и/или класс химических веществ.
Информационная классификация
На этапе информационной классификации установление факта соответствия анализируемого химического вещества той или иной формуле Маркуша, зарегистрированной в БД, может служить основанием для прямого наследования категорированных данных и моделей соотношений количественных данных, приписанных соответственному обобщенному химикату, зарегистрированному в БД.
Например, соединение с химической структурой 1 соответствует Маркуш — формуле 2 (рис. 11) представителей класса запрещенных химикатов (списка 1), подпадающих под действие Конвенции о запрещении химического оружия (информация опубликована на официальном сайте международной Организации по запрещению химического оружия - http://www.opcw.org/docs/cwc_ru.pdf).
Основанием для использования подобных моделей служит как наличие установленных количественных зависимостей «свойство - свойства» (регрессионные модели), так и других моделей, в том числе и байесовской классификации. При этом могут использоваться как модели, построенные на массивах данных в самой базе данных, так и модели, настроенные для определенных Маркуш - классов веществ, взятых из литературных источников или внешних баз данных. Маркуш - классификация химикатов, подпадающих под действие Конвенции. Наличие противоречивых данных по уже зарегистрированным в БД отдельным веществам в рамках Маркуш - формулы (класса) служит основанием использования методов статистической классификации.
На этапе статистической классификации - установление факта соответствия анализируемого химического вещества той или иной формуле Маркуша, зарегистрированной в БД, служит основанием для использования релевантных байесовских моделей для оценки шансов правильного наследования тех или иных признаков соответствующего обобщенного химиката в БД.
Интерфейс работ по байесовской классификации химических веществ отражает (рис. 12): формирование обучающих выборок веществ по классам/Маркуш-классам и настройка моделей прогноза поиск для формулы Маркуш - релевантных моделей классификации и выдачу результатов прогноза (по классам свойств и интервалам значений количественных данных). Байесовскую классификацию задаваемого химиката проводят с использованием предварительно настраиваемых моделей, задающих дескрипторный образ той или иной категории активности веществ. Под дескрипторным образом вещества понимается наличие в нем тех или иных фрагментов молекулярной структуры. Основанием для возможности отнесения заданного химиката к той или иной категории активности являются вычисляемые шансы (интегральная составляющая эмпирической функции распределения категорированных химикатов по логарифму отношения правдоподобия) и ошибка распознавания (доля неправильно распознанных химикатов в модели). 1. Из БД извлекается информация о дескрипторах заданных типов. 2. Извлекается информация о структурах, принадлежащих заданным классам свойств. 3. Проверяется наличие дескрипторов заданных типов в структурах из противопоставляемых классов 1 и 2, с подсчетом вероятности встречаемости дескрипторов в структурах классов 1 и 2, а также определением их информационной значимости для данной модели. Для этого используется критерий дивергенции Кульбака - Лейблера [28,45]. 4. Дескрипторы, не являющиеся информативными для разделения классов 1 и 2, удаляются из выборки.
Предусматривается несколько режимов выбора информативных дескрипторов: 1) по определенному количеству наиболее информативных дескрипторов; 2) по тем дескрипторам, информативность которых выше некоторого порогового значения;
3) по дескрипторам, информативность которых выше значения, определяемого по таблице хи-квадрат соответственно допустимому уровню ошибки.
5. Для каждого химиката выборки вычисляются отношение правдоподобия, представляющее сумму логарифмов отношения вероятностей попадания дескриптора в классы 1 и 2. Суммирование проводится для всех не удаленных на шаге 4 дескрипторов данной структуры.
6. В данной работе для иллюстративных целей, использовано следующее решающее правило: порог (граница между классами) определяется из равенства относительных ошибок отнесения структур к классам 1 и 2 (ошибок первого и второго рода, критерий Неймана-Пирсона), определенных по эмпирическим функциям распределения отношений правдоподобия для классов 1 и 2.
7. Вычисляется общая ошибка модели как отношение общего количества неправильно классифицируемых структур к общему количеству структур в выборке.
Основные фрагменты физической структуры данных для классификации химических веществ в БД
Данная экранная форма (рис. 27) содержит следующие группы данных: окно «Поисковый фрагмент» для задания искомого структурного фрагмента; окно «Библиотека фрагментов» для загрузки, редактирования и выбора готовых поисковых фрагментов из библиотек; ? окно «Найденные молекулярные структуры» для демонстрации результатов поиска в виде таблицы, в ячейках которой расположены найденные структуры; ? панель «Виды поиска» с кнопками, соответствующими разным видам поиска, которые обеспечивает данная форма; ? комбо-бох «Текущие поисковые наборы» для выбора существующих фильтров для сокращения выборки при поиске; ? кнопки для пометки/снятия меток найденных молекулярных структур; ? поле, определяющее количество строк и столбцов таблицы окна «Найденные молекулярные структуры»; ? кнопка «Химикаты» для перехода на экранную форму «Химикат» и демонстрации химикатов, в которых присутствуют найденные при поиске молекулярные структуры. Основные функции Данная экранная форма (рис. 27) обеспечивает решение следующих задач: ? ввод молекулярных структур и формул Маркуша в поисковую панель; ? создание/редактирование библиотек готовых поисковых фрагментов; ? поиски на полное соответствие, подструктурный, а также с помощью формул Маркуша; ? поиск химических веществ по найденным структурам. Данная экранная форма обеспечивает поиск по молекулярным структурным данным: 1) поиск молекулярных структур по точному совпадению с заданным фрагментом; Данный вид поиска осуществляется при наличии одного или нескольких вариантов молекулярных структур, которые желательно отождествить с химикатами БД для доступа к имеющимся по ним сведениям. 2) Поиск молекулярных структур на подструктурное соответствие заданному фрагменту; Данный вид поиска осуществляется при необходимости найти химикаты БД, молекулярные структуры которых включают заданный структурный фрагмент. 3) Поиск молекулярных структур на соответствие заданной формуле Маркуша;
Подструктурный поиск в методологическом аспекте значительно разнообразнее поиска на точное совпадение структур и включает возможности как точного (однозначного) задания некоторого фрагмента молекулярной структуры (обязательная часть), так и неоднозначного задания заместителей - радикалов ее остальной части. При этом радикалам соответствующих формул Маркуша может быть присвоен статус "любого заместителя" (R0) или "заместителя заданного типа" (Rl, R2, ...), предварительно определенного в таблице радикалов БД (например, алкил, арил и др.).
В БД формулы Маркуша регистрируются как молекулярные структуры "классов химикатов". Коды регистрации списочных Маркуш-классов присваиваются им в соответствии со списками Конвенции (S1-A1, S1-A2, .... S1-B10C, .... S2-B4, ...), а для других классов (формул Маркуша) код состоит из латинской буквы М и числа (например, М020, М300).
Поиск основан на отождествлении ("вхождении") обязательной части задаваемой формулы Маркуша и выполнении условий, налагаемых на радикалы, при ее сопоставлении со структурами химикатов БД. Положительным результатом такого поиска является список "подходящих" химикатов как для доступа к имеющейся по ним в БД информации, так и для классификации-категорирования (приписывания класса свойств) по особенностям молекулярной структуры (например, отнесение химикатов БД к спискам Конвенции). 4) Поиск формул Маркуша, содержащих заданный структурный фрагмент.
Данный вид поиска осуществляется при необходимости найти имеющиеся в БД формулы Маркуша, которые включают заданный структурный фрагмент. Основные компоненты формы: Данная экранная форма (рис. 28) содержит следующие группы данных: ? окно «Типы дескрипторов» для задания необходимого типа дескрипторов; ? окно «Атомы» для реализации быстрой фильтрации дескрипторов данного типа; ? окно «Дескрипторы данного типа» для просмотра дескрипторов данного типа; ? поле «Быстрый подбор» для реализации подстрочного поиска по дескрипторам; 116 ? окно «Условия поиска» для формирования условий поиска химических веществ по дескрипторам; ? окно «Дескрипторы» для просмотра дескрипторов и их типов для данного химического вещества.
Основные функции Данная экранная форма (рис. 28) обеспечивает решение следующих задач: ? просмотр дескрипторов и их типов для заданного химического вещества; ? формирование условий поиска химических веществ по дескрипторам (отбор дескрипторов и задание логических условий между ними); ? поиск химических веществ по дескрипторам с учетом логических условий между ними.
Назначение Данная экранная форма (рис. 29,30) предназначена для поиска/классификации химических веществ в БД с помощью определенных свойств и эффектов. Система определения данных в БД Система определения категорированных данных для химических веществ включает таблицы иерархии категорирования: "Признаков" состояния "Объектов" (болезней, синдромов и др.), "Эффектов" - последствий воздействия на объект химического вещества и "Классов" свойств веществ (химико-структурных данных - по формулам Маркуша, аспектов производства и использования, механизмов взаимодействия с "Объектами", биологической активности и др.). В рамках пользовательского интерфейса БД данные по качественным свойствам обобщены в экранной форме «Категорированные данные», состоящей из нескольких вкладок.