Введение к работе
Актуальность темы обусловлена следующими обстоятельствами:
Во-первых, широким использованием метода ИК спектроскопии в самых разнообразных областях химии и неудовлетворенностью ограниченным характером информации, извлекаемой традиционными методами в практике массового анализа. Основанные на эмпирических зависимостях приемы позволяют выявлять с достаточной надежностью лишь ограниченную информацию о строении соединения, опирающуюся' на характеристические частоты колебаний ряда хорошо известных групп атомов.
Во вторых. Современные информационные технологии обеспечили создание баз данных (БД), содержащих сведения о строении и ИК спектрах десятков тысяч соединений. В то же время, поставляемые со спектральным оборудованием информационно-поисковые системы (ИПС) имеют принципиальное ограничение. Идентифицировать по спектру можно только соединения, представленные в БД. Рост объема баз данных - неизбежный процесс развития. Однако, общая тенденция отставания БД спектральных данных от числа зарегистрированных соединений на два - три порядка сохранится и в будущем. Именно поэтому расширение возможностей ИПС для целей опознания особенностей строения отсутствующих в БД соединений без дополнительных затрат способствовало бы росту результативности метода в прикладной и исследовательской практике повседневного анализа. Это особенно важно в связи с расширяющимся использованием методов хромато-ИК- и хромато-ИК-масс-спектрометрии в практике анализа малых количеств веществ природного и антропогенного происхождения.
В третьих. Доступность современных вычислительных средств и убежденность в том, что в ИК спектре в большинстве случаев содержатся исчерпывающие сведения о строении соединения, ставят задачу разработки математических приемов использования огромного потенциала информации, хранящейся в БД. Базы данных "структура-спектр" в неявной форме содержат спектроструктурные зависимости всего многообразия фрагментов, присутствующих в структурах соответствующих соединений. Есть основания полагать, что если будут созданы адекватные средства анализа и обработки этой информации, то они будут способны оказывать помощь исследователям при интерпретации ИК спектров вплоть до установления строения исследуемых веществ. Успехи в области создания экспертных систем и разработанные недавно приемы распознания крупных связных фрагментов соединения путем анализа ИК спектра с помощью БД подтверждают высказанное положение.
Наконец, эффективность современных информационно-логических и экспертных систем, анализирующих данные различных видов спектров молекул (ИК, масс-, 'Н-ЯМР, "С-ЯМР, УФ и т.п.), полностью определяется характером информации о строении соединения, извлекаемой с помощью составляющих их подсистем. Создание средств, обеспечивающих анализ ИК
спектров на качественно новом уровне и определение фрагментов молекул вне рамок известных корреляционных зависимостей, способствовало бы расширению возможностей этих систем.
Цель работы - исследование компьютерных методов выявления структурной информации об изучаемом соединении путем анализа его ИК спектра с помощью базы данных "ИК спектр - фрагментный состав соединения". Достижение поставленной цели предусматривало решение ряда подзадач:
создание базы данных "ИК спектр - фрагментный состав соединения" на основе БД вида "структура соединения - ИК спектр";
разработку методов анализа поисковых ответов с целью извлечения информации о фрагментах исследуемых веществ;
изучение соотношений корректно и ошибочно опознаваемых фрагментов, определение вероятности и достоверности распознавания фрагментов на статистически значимых выборках;
общую оценку применимости разрабатываемого подхода и достигаемых результатов. <
Научная новизна. Впервые для выявления структурных особенностей исследуемого соединения по его ИК спектру предложено использование базы данных нового вида "ИК спектр - фрагментный состав соединения". Предложены и апробированы методы выявления сведений о структурных фрагментах изучаемых соединений, а также методы построения и ранжирования вероятных структур соединения, основанные на информации, извлекаемой с помощью этой бгзы. Отличительная особенность предлагаемого подхода состоит в том, что в нем реализуется попытка опознания не конкретных фрагментов из опубликованных спектрострукгурных корреляций, а выявления практически любых, заранее не заданных фрагментов, характеризующих все представленное в БД многообразие структур органических соединений.
Практическая ценность. Полученные в работе результаты могут использоваться при разработке автоматизированных систем анализа ИК спектров. Исследованную в работе методологию можно применить и к другим методам молекулярной спектроскопии, в первую очередь, масс-спектрометрии. Сочетание предложенного подхода и выявляемых на его основе сведений с данными других видов спектроскопии молекул может оказаться перспективным при разработке комплексных систем для решения задач установления строения соединений средствами ЭВМ и оценке гипотез при генерировании структурных изомеров. Полученные сведения, несомненно, полезны для построения баз знаний и дальнейшего совершенствования экспертных систем по ИК спектроскопии молекул.
Апробация работы и публикации. Отдельные положения работы докладывались на , VII (1986) и VIII (1989) Всесоюзных конференциях "Использование- ЭВМ в спектроскопии молекул и химических исследовани-
ях", на II Международном симпозиуме (1996) "Chromatography and Spectroscopy in Environmental Analysis and Toxicology (1SCSE'96')", на V конференции " Аналитика Сибири и Дальнего Востока" (1996). По теме диссертации опубликовано 11 работ.
Структура и объем диссертации. Диссертация состоит из введения, пяти глав, заключения, выводов и списка цитируемой литературы. Работа содержит 18 рисунков, 23 таблицы и 153 ссылки на литературные источники. Общий объем диссертации - 133 страницы.