Введение к работе
і- "^l
Актуальность проблемы
В органической химии в настоящее время синтезировано и описано около десяти миллионов индивидуальных химических соединений. Каждое соединение охарактеризовано структурной формулой, а также набором его физических и химических свойств. Активное использование всей информации о химических соединениях возможно лишь при решении вопросов её хранения в крупномасштабных банках данных и быстрого доступа к этой информации. Понятно, что для этих целей требуется разработка соответствующих способов представления структурных формул на языке ЭВМ и алгоритмов извлечения из машинного банка требуемых данных. Следует отметить, что алгоритмы для работы со структурной химической информацией неразрывно связаны со способами ее представления, и обычно и те и другие разрабатываются одновременно.
Отметим также возникшую в последние годы тенденцию создания большого числа локальных банков данных по строению и свойствам химических соединений. В таких локальных информационных системах, создающихся для решения целенаправленных прикладных задач химической информатики (биологическая активность, пестициды, токсикология, стабилизаторы полимеров и т.п.), одной из важнейших компонент является подсистема хранения, регистрации и поиска химических соединений и классов структурно родственных соединений. В связи с этим особую актуальность приобретает создание эффективных способов представления и обработки структурной химической информации.
Данная работа первоначально была ориентирована на создание программных средств манипулирования структурной химической информацией в рамках локальных информационных систем, однако разработанные в ходе ее выполнения алгоритмы и программные средства могут в равной степени использоваться и в крупномасштабных информационных системах.
Цель работы Целью диссертационной работы является разработка базовых средств эффективного манипулирования структурами химических
соединений для банков данных типа; "структура-свойство" и строящихся на' их основе прикладных автоматизированных систем химической информатики.
Научная новизна. В ходе работы для решения поставленной задачи предложены и реализованы базовые средства манипулирования структурами химических соединений, включающие в себя средства регистрации, поиска и анализа структурной родственности химических соединений в информационных системах. Разработан и программно реализован алгоритм канонизации представления структурных формул, являющийся одной из необходимых компонент для решения задач регистрации и быстрого поиска структур в машинных банках данных. Анализ критериев, определяющих структурную родственность химических соединений в привычном для химика понимании, позволил сформулировать алгоритм проверки вложения частей структуры (структурных фрагментов) в полные структурные формулы, имеющий принципиальные отличия от алгоритма изоморфного вложения графов. Предложен новый способ описания структур химических соединений с помощью спектров фрагментных составов. Его программная реализация обеспечивает эффективное построение полных наборов фрагментов заданного размера, содержащихся в структуре химического соединения. Спектры фрагментных составов использованы в качестве основы для эффективной реализации иерархического указателя вложений фрагментов, используемого для быстрого поиска классов соединений в структурной базе данных. Разработаны алгоритм и соответствующая программа выделения групп структурно родственных соединений - таксономии на графах химических структур. Спектры фрагментных составов структур использованы также для решения задачи выявления максимальных общих структурных фрагментов для заданной выборки структур - важного инструмента для выявления структурных аналогов.
Практическая значимость Выполненная работа характеризуется тем, что на основе предложенных нового способа представления структурной информации и разработанных алгоритмов обработки этой информации реализованы программы для ЭВМ, которые использована в созда-
ваемых химических информационных системах в качестве базовых элементов, реализующих основные функции обработки структурной химической информации. Разработанные базовые компоненты систем манипулирования структурной химической информацией прошли испытания и внедрены в ряде организаций, в том числе, в Новосибирском институте органической химии (в банках данных по молекулярной спектроскопии), во Всесоюзном научно-исследовательском технологическом институте гербицидов и регуляторов роста растений (г.Уфа).
Апробация работы и публикации
Результаты работы докладывались на 5-й, 6-й, 7-й и 8-й Всесоюзных конференциях по использованию ЭВМ в спектроскопии молекул и химических исследованиях (соответственно, Новосибирск, 1981, Новосибирск, 1983, Рига, 1986, Новосибирск, 1989), на 1-м, 2-м и 3-м Советско-японских симпозиумах {соответственно, Новосибирск, 1983, Тойхаши, 1985, Новосибирск, 1987), на Всесоюзной школе-семинаре по применению теории графов в химии (Иркутск, 1988).
По теме диссертации опубликовано 27 печатных работ.
Объём работы
Диссертация состоит из 4 глав, введения, заключения, списка литературы, содержащего 105 наименований и приложения. Общий обьём работы 128 страниц текста, включающего 7 рисунков.