Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Применение анализа многомерных данных в аналитической химии Зернов Владимир Владимирович

Применение анализа многомерных данных в аналитической химии
<
Применение анализа многомерных данных в аналитической химии Применение анализа многомерных данных в аналитической химии Применение анализа многомерных данных в аналитической химии Применение анализа многомерных данных в аналитической химии Применение анализа многомерных данных в аналитической химии Применение анализа многомерных данных в аналитической химии Применение анализа многомерных данных в аналитической химии Применение анализа многомерных данных в аналитической химии Применение анализа многомерных данных в аналитической химии Применение анализа многомерных данных в аналитической химии Применение анализа многомерных данных в аналитической химии Применение анализа многомерных данных в аналитической химии
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Зернов Владимир Владимирович. Применение анализа многомерных данных в аналитической химии : 02.00.02 Зернов, Владимир Владимирович Применение анализа многомерных данных в аналитической химии (Поиск закономерностей в больших массивах данных по комплексообразованию, экстракции и другим свойс: Дис. ... канд. хим. наук : 02.00.02 Москва, 2004 251 с. РГБ ОД, 61:05-2/98

Содержание к диссертации

Введение

Глава 1. Теоретические подходы к описанию свойств органических растворителей 8

1.1. Параметры растворителей 9

1.1.1. Физико-химические параметры 9

1.1.2. Равновесные параметры И

1.1.3. Спектроскопические параметры 14

1.1.4. Параметры, определяемые по хроматографическим данным 19

1.2. Классификация растворителей 21

1.3. Многомерный статистический анализ параметров растворителей и классификация 25

1.4. Методы теоретической оценки коэффициентов распределения органических веществ в системах органический растворитель-вода 40

Глава 2. Константы устойчивости комплексов металлов и способы их предсказания. Классификация ионов металлов . 46

2.1. Влияние внешних факторов на величину констант устойчивости 47

2.1.1. Влияние природы растворителя 47

2.1.2. Влияние ионной силы и ионной среды на константы устойчивости 48

2.1.3. Зависимость констант устойчивости от температуры и давления 50

2.2. Зависимость устойчивости комплексов металлов от природы комплексообразователя и реагента 51

2.2.1. Связь между свойствами иона металла и константами устойчивости 51

2.2.2. Влияние электронной конфигурации комплексообразователя и атомов реагента на устойчивость комплексов 52

2.2.3. Развитие теории жестких и мягких кислот и оснований 54

2.2.4. Корреляции и корреляционные уравнения для констант устойчивости, зависимость устойчивости комплекса от структуры реагента 61

2.2.5. Корреляционные уравнения для устойчивости комплексов полидентатных лигандов 71

2.2.6. Прочие модели предсказания констант устойчивости комплексных соединений 72

Глава 3. Анализ многомерных данных 77

3.1. Предмет анализа многомерных данных 77

3.2. Предварительная обработка данных 78

3.3. Методы идентификации выбросов 80

3.4. Анализ данных с пропусками 83

3.5. Анализ главных компонент 88

3.6. Кластерный анализ 94

3.7. Нелинейное картирование 98

3.8. Метод опорных векторов 99

Глава 4. Подготовка и предварительная обработка данных

4.1. Данные по экстракции органических веществ в несмешивающиеся с водой растворители

4.2. Данные об устойчивости комплексов металлов

4.3. Программное обеспечение

Глава 5. Анализ экстракционных данных 114

5.1. Применение анализа главных компонент для изучения сходства экстракционных свойств растворителей 114

5.2. Кластерный анализ сходства экстракционных свойств растворителей и классификация растворителей 119

5.3. Наглядное представление классификации растворителей с помощью нелинейного картирования 122

5.4. Сравнение построенной классификации с известными 125

5.5. Классификация растворителей по сольватохромным параметрам 130

5.6. Оценка обобщенной погрешности экспериментально измеренных коэффициентов распределения 143

5.7. Факторы, определяющие поведение растворителей при экстракции 150

5.8. Классификация растворенных веществ 164

5.9. Экстракционные свойства ионной жидкости BMIM-PFe в сравнении с другими растворителями 166

5.10. Использование сольватохромных параметров для предсказания коэффициентов распределения в системе ионная жидкость ВМ1М-РРб/вода 170

Глава 6. Анализ данных об устойчивости комплексов металлов и классификация катионов по комплексообразующей способности 173

6.1. Анализ статистических распределений констант устойчивости 173

6.2. Применение анализа главных компонент для изучения сходства поведения катионов при комплексообразовании 175

6.3. Кластерный анализ сходства комплексообразующих свойств катионов металлов 181

6.4. Наглядное представление классификации катионов с помощью нелинейного картирования 183

6.5. Ряды сходства поведения катионов при комплексообразовании 185

6.6. Анализ сходства комплексообразовательной способности отдельных катионов между собой 186

6.7. Оценка обобщенной погрешности экспериментально измеренных констант устойчивости 190

Глава 7. Классификационные модели предсказания биологической активности веществ 194

7.1. Построение drug-likeness модели (модели потенциальной биологической активности) 195

7.2. Построение agro-likeness модели (модели потенциальной агрохимической активности) 204

7.3. Предсказание активности ингибиторов карбоангидразы II 206

Выводы 212

Список используемой литературы 214

Введение к работе

Объем накопленного исследователями экспериментального материала в аналитической химии, как и в химии в целом, растет быстро, но его распределение по множеству исследованных объектов неравномерно. Это и не удивительно: направления научного поиска определяются в первую очередь практическими потребностями прикладных исследований. Кроме того, фактический материал разнесен в научно-информационном пространстве, так как он - продукт разных исследовательских групп. «Потенциальный барьер» при обобщении данных, начиная с какого-то их количества (тысяча и более «квантов» фактического знания, экспериментально измеряемых величин), определяемый временными и информационно-транспортными издержками, до недавнего времени превышал предполагаемый выигрыш от обобщения данных и возможных результатов их последующего содержательного анализа. Лишь бурное развитие информационных технологий и компьютерных сетей в последние годы дало толчок к процессам тотального обобщения фактической информации. Для научного сообщества это отразилось прежде всего в библиографическом аспекте. Традиция публикации содержательных результатов посредством сообщения в специальной литературе, с развернутыми описаниями экспериментов, не является оптимальной для накопления однородных «голых» фактов (по большей части числовых данных, в основном - о константах равновесия) - такую информацию нужно еще извлечь из многочисленных оригинальных публикаций. Компиляции подобного рода, включающие десятки и сотни фактов, изредка встречаются в обзорных работах. Рассматривающие тысячу и более - исключительно редки.

Вместе с тем нельзя не видеть, что появление и пополнение электронных баз данных -коммерческих и общедоступных, становится универсальной тенденцией научной жизни. Дальше всего эта тенденция зашла в наиболее «математизированных» разделах химии, например, в структурной химии. Так, практически все расшифровываемые структуры веществ в кристаллическом состоянии Кембриджском банке кристаллоструктурных данных (около 300000 структур); все чаще структуры депонируют в этом банке без оформления отдельной журнальной публикации. В других областях химии столь ярких примеров пока немного, однако, несомненно, что фактические экспериментальные данные в недалеком будущем повсеместно будут конвертироваться в электронный вид и накапливаться в специализированных базах данных большого и очень большого объема.

В связи с этим возникает важнейшая для любой области химии - и аналитической химии в том числе - задача поиска, разработки и применения хемометрических методов, специально ориентированных на работу с очень большими массивами данных. Очевидно, что распространенные ныне методы (оперирующие десятками-сотнями числовых данных) здесь если не непригодны, то явно недостаточны. Один пример: даже простейший, казалось бы, этап научного исследования - визуальное представление всей совокупности данных, с тем, чтобы можно было «охватить» ее взглядом, становиться совершенно нетривиальной задачей при объеме выборки в десятки тысяч значений.

Конечно, история науки показывает, что выводы общего характера можно делать и не пользуясь тысячами фактов, а имея их всего лишь сотни, а иногда и десятки. Однако соответствующие работы в интересующей нас области, например, формулировка Периодического закона или принцип жестких и мягких кислот и оснований (ЖМКО) -штучный «товар», основывающийся на глубоком понимании (граничащим с интуицией) отдельных исследователей того, какие данные рассматривать стоит, а какие нет, и как правильно посмотреть на имеющуюся факты, чтобы увидеть закономерности.

Если не автоматизировать, то облегчить задачу поиска закономерностей, «скрытых» в больших массивах данных способны методы многомерного статистического анализа и машинного обучения, противопоставляющие интуиции исследователя «грубую силу» большого объема вычислений (последние треть века выполняемых ЭВМ), сжимающих, просеивающих, сканирующих пространство признаков исследуемых объектов. Однако существуют три трудности, осложняющие применение таких методов:

1) Для них желателен существенный объем обрабатываемых данных, а если его нет, проблема их качественного предварительно отбора на вход методам опять превращается почти в искусство; иначе вступает в силу известный принцип GIGO (garbage in garbage out, по-русски - что на входе, то и выходе).

2) Применение математических методов требует глубокого знания их «ловушек» и тонких мест; незнание последних в лучшем случае может привести к неинерпретируемым или к незаметным неопытному глазу результатам, а в худшем - к результатам неверным.

3) Правильная интерпретация полученных с помощью математических методов обобщений и моделей - нетривиальная задача, для корректного решения которой необходимо понимать границы применимости методов, уметь перевести математические модели на предметный язык (методам по большому счету все равно, с какими числами работать), в вид, пригодный для практического использования.

Тем не менее, перспективы применения математических методов многомерного анализа для поиска закономерностей в больших массивах данных очевидны. Столь же очевидна необходимость поиска и тщательного тестирования соответствующего математического «инструментария», в том числе - применительно к конкретным, практически важным задачам. Этому и посвящена данная работа.

Выбор фактического материала - использовали данные об устойчивости комплексов металлов и об экстракции нейтральных органических соединений из воды в органические растворители, а так же данные о биологической активности органических веществ -обусловлен практической важностью предмета. Кроме того, в указанных случаях имеются и доступные базы, которые можно и нужно проанализировать; при этом можно надеяться, что общее количество данных достаточно для того, чтобы глобальные тенденции, определяющие общее поведение и разнообразие свойств, «заглушили» локальные тенденции и артефакты. В рамках работы мы поставили себе следующие цели:

1) с помощью методов многомерного анализа выявить закономерности, присутствующие в исследуемых массивах данных;

2) сформулировать эти закономерности в виде химически содержательных классификационных моделей, показать их полезность и применимость для решения практических задач;

3) сделать выводы о применимости в названных задачах различных хемометрических методов (методов многомерного анализа больших массивов данных)

Классификация растворителей

Паркер [50], анализируя бимолекулярные реакции SN2 типа при насыщенных атомах углерода между анионами и незаряженными молекулами, отметил характерную особенность: такие реакции зачастую протекают быстрее в полярных апротонных растворителях и медленнее в протонных. Объяснив причину такого различия меньшей степенью сольватации анионов в апротонных растворителях, он сформулировал [51] одну из первых известных в литературе эвристическую классификацию растворителей на вышеупомянутые две группы, отметив разницу в ряде физико-химичских параметров у представителей групп: Апротонные полярные растворители (в устоявшейся терминологии, введенной в обращение Паркером; в принципе, такие растворители могут проявлять свой протонный характер в реакциях с сильными основаниями, поэтому, например, Бодуэлл [52], рекомендовал называть их негидроксильные полярные) характеризуются высокой диэлектрической проницаемостью (єг 15), заметным дипольным моментом (fi 2.5 Д) и средней величиной Et в пределах 0.3 - 0.5. Такие растворители не способны выполнять функции доноров протона в водородной связи в силу слабой поляризации внутримолекулярных С-Н связей, но могут донировать электронные пары, и, соответственно, хорошо сольватировать катионы. Сольватация анионов в них как правило слаба и обусловлена в основном ион-дипольными взаимодействиям, которые становятся заметными при наличии большого поляризуемого с низкой плотностью заряда («мягкого») полярного апротонного растворителя и такого же аниона.

В этот класс растворителей Паркером были отнесены диметилформамид, диметилацетамид, ДМСО, гексаметиленфосфорамид, ацетон, нитрометан, нитробензол, ацетонитрил, бензонитрил, серы диоксид, пропиленкарбонат, N-метил-2-пирролидон. Протонные растворители содержат сильнополяризуемые группы А-Н (в качестве А выступает атом элемента с высокой электроотрицательностью - кислород, азот, галогены), способные донировать протон в водородные связи и хорошо сольватировать анионы. Эта способность тем выше, чем больше отношение заряда к объему (плотность заряда) сольватируемого аниона, другими словами, чем выше его жесткость по концепции ЖМКО. Большинство представителей этого класса растворителей характеризуются высокой диэлектрической проницаемостью (ег 15), и большой величиной EtN (0.5-1). Сюда относятся вода, спирты, карбоновые кислоты, первичные амиды. Построенная классификация, как можно заметить (и как отмечал сам автор), является не вполне строгой в силу некоторой произвольности выбора граничных численных значений параметров, например, диэлектрической проницаемости, равной 15. С другой стороны, качественная верность вполне очевидна - в растворителях с меньшей диэлектрической проницаемостью происходит ионная ассоциация и свободно сольватированные ионы уже практически не наблюдаются. Отсутствие в рассмотренной схеме неполярных апротонных растворителей и неоднозначность отнесения некоторых химических классов (простые и сложные эфиры, амины, N-монозамещенные амиды) было позднее исправлено Райхардом [1], приведшим схему Паркера в вполне законченный вид, показанный на рис. 2, который и получил наибольшее распространение как эвристическая классификация растворителей. Расположив 81 растворитель в «треугольном» пространстве параметров селективности xn, Xd, хе, Шнайдер [48] предложил наглядное представление (solvent-selectivity triangle) растворителей в пространстве, более или менее соответствующем трем факторам, оказывающим влияние на способность растворителей сольватировать: полярность и способность донировать/акцептировать протон в водородную связь. Группируя численные сходные значения параметров селективности и параметра полярности, Шнайдер разбил растворители на 8 групп, которые объединились и на «треугольнике». Группа 7: галозамещенные и незамещенные ароматические углеводороды, нитро-соедиения, ароматические простые эфиры Группа 8: фторалкиловые спирты, мета-крезол, вода, хлороформ Из рассмотрения в этой классификации естественным образом выпали алифатические углеводороды и ССЦ как имеющие малые значения Р . Следует заметить, что, несмотря на рассмотрение растворителей в пространстве четко определенных параметров и некоторую общность растворителей в группах по химическим признакам, полученная таким образом классификация является вполне эвристической, так как отражает структуру данных, более соответствующих некоторым представлениям автора, а не «геометрической» структуре данных (точки можно было бы объединить и по-другому). Особняком стоит классификация Ивелла [53] жидкостей в соответствии с их способностью образовывать водородные связи, созданная им для описания свойств азеотропных смесей. Условно разделив водородные связи на сильные и слабые (в зависимости от функциональных групп, их образовывающих): Ивелл отнес жидкости к пяти классам: 1) Способные образовывать трехмерную решетку (network) сильных водородных связей: вода, гликоль, глицерин, аминоспирты, гидроксиламин, гидроксикислоты, полифенолы, амиды и т.д. Такие соединения как нитрометан и ацетонитрил также способны к образованию решеток, однако водородные связи, ими образуемые -слабые, и они отнесены в класс 2 2)

Другие жидкости, молекулы которых содержат водород, способный к участию в водородной связи (active hydrogen) и донорные атомы (азот, кислород, фтор): спирты, кислоты, фенолы, первичные и вторичные амины, оксимы, нитросоединения с водородом при ос-углероде, такие же нитрилы, аммиак, гидразин, HF, HCN и т.д. 3) жидкости, молекулы которых не содержат активный водород, но содержат донорные атомы: простые и сложные эфиры, кетоны, альдегиды, третичные амины (включая ароматический азот, напр. пиридин), нитро- и нитрило соединения без водорода при d-углероде, и т.д. 4) жидкости, молекулы которых содержат активный водород, но не содержат донорных атомов - имеющие 2 или 3 галогена при одном углероде, или галогены на смежных углеродах: хлороформ, дихлорметан, дихлорэтаны, 1,2,3-трихлорпропан, 1,1,2 трихлорэтан и т.д. 5) Все остальные жидкости: углеводороды, CS2, сульфиды, меркаптаны, остальные (помимо класса 4) галоуглеводороды. Эта классификация привлекла определенное внимание исследователей, занимающихся жидкостной экстракцией, хотя назвать ее общеизвестной нельзя (ни в одной работе по классификации растворителей она не упоминается). Коренман [54] дополнил полученную классификацию разбиениями: класса 3 на два подкласса - эфиры и нитросоединения (никак при этом не соотнеся остальные растворители этой группы) класса 5 на алифатические углеводороды + ССЦ и ароматические углеводороды.

Зависимость устойчивости комплексов металлов от природы комплексообразователя и реагента

Если бы взаимодействие ион металла - реагент имело бы исключительно ионную природу, то в этом случае устойчивость комплексов данного реагента и данного иона металла, имеющего ту же величину заряда, была бы обратно пропорциональна ионному радиусу. Для ионов металлов с похожей электронной конфигурацией сказанное вполне справедливо, однако такое соотношение не соблюдается для констант устойчивости комплексов металлов из разных групп периодической системы [90]. Для сравнения комплексов ионов металлов различного заряда вместо ионного радиуса, как показал Хефтер [96] для комплексных соединений с фторид-ионами, более целесообразно искать корреляции между константами устойчивости и ионным потенциалом - отношением заряда к радиусу. Также хорошо известны зависимости между ионизационным потенциалом -способностью иона металла притягивать электроны, и константами устойчивости комплексов металлов [90]. Так, например, для комплексов бидентатных аминокарбоксилатов восьми металлов Ван Панталеон [97] обнаружил линейные корреляции IgKi - второй Нибойер и МакБрайд [100] предложили для катионов металлов индекс стабильности Q = (аШм + ЬХм) / (а+Ь) где Хм и Z- электроотрицательность (по Аллреду [101]) и ионный радиус иона металла, а и Ъ - целочисленные интегральные весовые факторы (integral weighting factors), 5 - параметр, вычисляемый с помощью атомных констант Слейтера (Slater atomic shielding constants) [102], предназначенный для коррекции вклада электро-отрицательности. Три последних параметра корректируются от реагента, который «садиться» на рассматриваемые катионы.

Для 33 реагентов низкой дентатности (до 3) были получены неплохие корреляции (R = 0.98-0.99) в рядах в среднем десяти катионов. 2.2.2. Влияние электронной конфигурации комплексообразователя и атомов реагента на устойчивость комплексов Комплексообразующую способность ионов переходных металлов часто характеризуют с помощью так называемых рядов устойчивости комплексов. Наиболее известными из них являются ряды Ирвинга - Уильямса [90,103] (рис. 19), которые Авторы объяснили известную последовательность устойчивости (Mn Fe Со Ni Cu2+ Zn2+), основываясь на изменении ионных радиусов и вторых потенциалов ионизации. С позиций теории кристаллического поля ряды Ирвинга - Уильямса суть последовательность стабилизации образующихся соединений кристаллическим полем [104]. Это означает, что за исключением cf, с?\ d - конфигураций (Са2+, Mn2+, Zn2+), расщепление реагентом энергетических уровней J-электронов уменьшает общую энергию системы, то есть приводит к стабилизации, максимум которой наблюдается для комплексов Ni и Си . Энергия стабилизации кристаллическим полем может быть вычислена из спектральных данных. Часто она хорошо согласуется с энергией, рассчитанной по разности между экспериментально измеренной константой устойчивости и полученной интерполяцией между константами устойчивости для комплексов Мп + и Zn (см. рис. 19). Также следовало бы ожидать подобные зависимости и для комплексов ионов а - а переходных металлов, то есть Са2+ Sc2+ Ti2+ V2+ Сг2+ Мп2+, однако комплексообразующие свойства некоторых из них трудно изучать в водных растворах.

Данные Кэннона [105] указывают, что стабилизация комплексов Сг2 составляет примерно половину относительно Си2+ независимо от природы донорного атома реагента, за исключением некоторых хелатных реагентов с сдвоенными пятичленными циклами [106], у которых обнаруживается дестабилизация, что может быть объяснено величиной ионного радиуса Сг+. Отклонения наблюдаются не только для высокоспиновых, но и для низкоспиновых комплексов. В принципе, подобная стабилизация кристаллическим полем должна наблюдаться и для лантаноидных комплексов. Однако в них расщепление уровней f-электронов значительно меньше, и стабилизирующий эффект незначителен. В случае лантанидов наибольшее влияние на устойчивость комплексов оказывает изменение ионной конфигурации с изменением ионного радиуса (лантаноидное сжатие) и координационного числа. Из факторов электронной природы стоит упомянуть и обратную координацию катионов-комплексообразователей с тяжелыми донорными атомами реагента - фосфором, серой. Наряду с образованием сг-донорных связей указанные атомы участвуют в dn-pn-взаимодействии с электронами rf-орбиталей ионов металлов, что оказывает заметное влияние на устойчивость комплексов. Однако я-ря-взаимодействие не всегда можно приписать конкретному донорному атому, часто оно возникает как следствие подходящей структуры реагента (цианид-анион, бипиридил). Вслед за Сиджвиком, Гринбергом и другими авторами [107-109] Арланд, Чатт, Дэвис, обобщив опыт предшественников и рассмотрев дополнительные экспериментальные данные, сформулировали два правила [110]: 1. Существует большое различие в способности к комплексообразованию у первого и второго элемента в каждой из трех групп (V, VI, VII периодической таблицы) донорных атомов реагента, а именно: между N и Р, О и S, F и С1. 2. Существует два класса комплексообразующих атомов акцепторов: (а) формирующие наиболее стабильные комплексы с первым элементом указанных групп периодической таблицы (Ь) формирующие наиболее стабильные комплексы со вторым или последующим элементами указанных групп На основании этих правил авторы построили схему распределения элементов периодической таблицы (рис. 20)

Методы идентификации выбросов

Выбросом называется значение, резко выделяющееся из совокупности данных. Выбросы можно назвать таковыми, если их мало (в противном случае разумнее говорить о неоднородности в данных, предполагать, что исследуемая выборка - смесь распределений, и исследовать задачу «разделения» смеси распределений). Самый простой и вполне действенный метод идентификации выбросов - простой визуальный анализ распределения точек. Его основной недостаток - сложность применения при анализе данных большой размерности. Ниже рассмотрены несколько методов идентификации выбросов, удовлетворяющие, по нашему мнению, двум критериям: 1) они эффективны и достаточны для решения большинства конкретных задач 2) просты для их реализации в виде компьютерных программ Следует отметить, что большинство методов идентификации выбросов явно или неявно основываются на предположении о распределении данных. Как правило, таким предположением является то, что данные имеют распределение, «родственное» нормальному -как минимум в том смысле, что оно унимодально, а в большинстве случаев и симметрично. Графический метод Тьюки (box-plot) [161] - для распределения точек с граничными значениями [а,Ь] вычисляется медиана т, затем медиана ті диапазона [а,т] (первая квартиль) и медиана тз диапазона [т,Ъ] (третья квартиль), размах Н диапазона [т},тз] между ними, значения, «выходящие» за расстояние 1.5Н «вниз» и «вверх» от каждого квартиля, можно считать выбросами (outliers), за ЗН от каждого квартиля - экстремальными выбросами (extremes). Все экстремальные выбросы и выбросы можно рассматривать как кандидаты на исключение из выборки. См. рис. 30. Q-критерий

Пирсона [162] - наиболее известен в практике аналитической химии. Состоит в сравнении некоторой тестовой статистики Q(P,n) с отношением между расстоянием от подозрительного значения хі до его ближайшего соседа х2 к размаху выборки (расстоянию между минимальным и максимальным значениями выборки). Критерий исчисляется как: где п - размер выборки, xj - проверяемое крайнее значение, х„ - «противоположное» xi крайнее (или «предкрайнее» - x„.j) значение. Если вычисленное Q больше табличного Q(P,ri) при заданной вероятности Р, крайнее значение можно рассматривать как выброс. Критерий недостаточно чувствителен, если п велико, поэтому при п 10 его практически не применяют. Значения статистики Q(P,n) можно найти в монографии Дёрффеля [162] или в фундаментальном справочнике [163]. Критерий Графа-Хеннинга [162] - при числе измерений п в диапазоне 10 п 1000 по всем данным, кроме подозрительных значений, вычисляется среднее арифметическое и стандартное отклонение s. Подозрительные значения можно считать выбросами, если они удалены от среднего более чем на 4s. Критерий Смирнова-Граббса [164] - правило исключения экстремального члена ряда измерений основано на статистике Тп: где х„ - проверяемое значение, хтеап и$- среднее и стандартное отклонение по всем значениям ряда измерений. Значения статистики Тп сравниваются с табличными (см., например, [163]).

Если Т„ больше соответствующего табличного (критического) значения, то гипотеза о наличии выброса принимается. Если в выборке подозревают несколько экстремальных значений, то критерий применяется последовательно. Неустойчивость оценок среднего и стандартного отклонения ограничивает практическую ценность данного критерия выборками, в которых предполагается нормальное распределение данных. MAD где x - анализируемое значение, med(xj) - медиана по всем значениям выборки, знаменатель -медиана по всем разностям х, - medfai). Если MAD 5, анализируемое значение можно рассматривать как выброс. Граничное значение MAD = 5 взято на основе того, что в случае анализа точек, принадлежащих одному нормальному распределению, вычисленное отношение MAD с высокой вероятностью остается внутри диапазона [0,5]. Другие аналитические критерии и их подробные характеристики можно найти в широко известном сборнике Айвазяна и др.[164].

Кластерный анализ сходства экстракционных свойств растворителей и классификация растворителей

Иерархический кластерный анализ с разделением растворителей на группы провели, анализируя скорректированную корреляционную матрицу растворителей (Таблица 1 приложения) как матрицу расстояний в метрике 1-г (г- коэффициент корреляции Пирсона). Для всестороннего исследования подобной «структуры» сравнили дендрограммы, полученные с помощью трех способов кластеризации (правил, при которых точки назначаются принадлежащими тому или иному кластеру): метод полного связывания, метод Варда, метод взвешенного усреднения. На дендрограмме кластеризации методом полного связывания просматриваются четыре достаточно крупных группы растворителей: 1) кетон, сложные эфиры, диамиловый эфир, алифатические спирты, ионная жидкость. Эту группу можно разделить на три подгруппы: бутанол (S8) + пентанол (S44); остальные алифатические спирты; все остальное 2) две пары: 2-метилпропанол-1 (S1) + изобутиловый эфир (S19), диэтиловый эфир (S18) + олеиновый спирт (S41) 3) ароматические, гало- и нитроароматические углеводороды, предельные галогеноуглеводороды. Выделяются пары: бензол (S4) + бутилбензол (S10), бромоформ (S7) + хлороформ (S12), 2-нитротолуол (S2) + дихлорэтан (S17) 4) предельные углеводороды и ССЦ Группы 1+2 и 3+4 объединяются в кластеры (К1 и К2, соответственно). Три растворителя можно характеризовать как выбросы: хлорбензол (S11), более близкий к группе 1 (кластеру К1), и трибутилфосфат (S49) с додеканом (S21), более близкие к группе 4 (кластеру К2).

Ионная жидкость является членом группы 1, ее ближайшим окружением являются сложные эфиры. В случае кластеризации методом Варда выделяются четыре группы: 1) кетон, сложные эфиры, спирты, два простых эфира. В подгруппы выделяются: диэтиловый эфир (S18) + олеиновый спирт (S41); бутанол (S8) + пентанол (S44); остальные алифатические спирты; все остальное. 2) две пары: 2-метилпропанол-1 (S1) + диизопропиловый эфир (S19); нитробензол (S36) + ионная жидкость (S5) 3) ароматика, гало- и нитроароматика, предельные галогеноуглеводороды. Выделяются пары: бензол (S4) + бутилбензол (S10), бромоформ (S7) + хлороформ (S12), 2-нитротолуол (S2) + дихлорэтан (S17) 4) предельные углеводороды и ССЦ Попарно группы объединяются как: 1+2 (образуют кластер К1) и 3+4 (образуют кластер К2). Выбросами в случае кластеризации методом Варда являются хлорбензол (S11) и додекан (S21), более близкие к группе 4 (кластер К2), и трибутилфосфат (S49), одинаково более близкий к группам 3 и 4 (кластеру К2). В случае метода взвешенного усреднения выделяются четыре группы: 1) кетон, сложные эфиры, спирты, два простых эфира. В подгруппы выделяются: диэтиловый эфир (S18) + олеиновый спирт (S41); бутанол (S8) + пентанол (S44); остальные алифатические спирты; все остальное. 2) 2-метилпропанол-1 (SI) + диизопропиловый эфир (S19); ионная жидкость (S5) 3) ароматические углеводороды, гало- и нитроароматические углеводороды, предельные галогеноуглеводороды. Выделяются пары: бензол (S4) + бутилбензол (S10), бромоформ (S7) + хлороформ (S12), 2-нитротолуол (S2) + дихлорэтан (S17) 4) предельные углеводороды и ССІ4. Попарно группы объединяются как: 1+2 (образуют кластер К1) и 3+4 (образуют кластер К2). Выбросами в случае этой кластеризации являются хлорбензол (S11), одинаково более близкий к группам 1 и 2 (кластеру К1), до декан (S21), одинаково более близкий к группам 3 и 4 (кластеру К2), и трибутилфосфат (S49), одинаково далекий от обоих кластеров К1 и К2.

Суммируя результаты кластеризации, можно построить следующую классификацию рассматриваемых растворителей: 1) предельные углеводороды, ССЦ 2) ароматические углеводороды (бензол, толуол, этил- и бутилбензол, орто-, мета-, пара-ксилолы, кумол), их гало- и нитропроизводные (бром- и иодбензолы, 2-нитротолуол, 1,2-дихлорбензол, нитробензол), галопроизводные предельных углеводородов (хлороформ, бромоформ, 1,2-дихлорэтан) 3) сложные эфиры, 4-метилпентанон-2, диамиловый эфир, BMIM-PF6 , бутанол , пентанол 4) алифатические спирты (начиная с гексанола), бутанол , пентанол 5) диэтиловый эфир, олеиновый спирт 6) 2-метилпропанол-1, диизопропиловый эфир, BMIM-PF6 7) до декан 8) хлорбензол 9) трибутилфосфат Звездочками отмечены растворители, лежащие на границе двух классов (соответственно, их классовая принадлежность спорна). На более низком уровне классификации классы объединяются как 1+2 и 3+4+5+6. Из трех соединений (классы 7, 8, 9), которые стабильно классифицируются как выбросы, лишь положение додекана можно определить как более близкое к объединению классов 1+2. Экстракционное поведение и хлорбензола, и трибутилфосфата мало похоже на показываемое другими растворители. 5.3. Наглядное представление классификации растворителей с помощью нелинейного картирования Построили карту распределения растворителей в пространстве их экстракционных свойств, используя нелинейное картирование по Саммону (описание метода см. в главе 3.7). 123 В данном случае карта Саммона - двумерное распределение точек, которое с минимальными потерями отражает сходство экстракционного поведения растворителей (количественно выражаемое через коэффициент корреляции Пирсона), присутствующее в исходной 49-мерной выборке. Такое сходство определялось также попарно (pairwise deletion, см. главу 3.4). В силу особенностей применяемого программного обеспечения карта строилась не на корреляционной матрице (которую скорректировали), а на исходной матрице коэффициентов распределения, и в силу того, что множества известных lgP для некоторых пар растворителей пусты, 3 растворителя (бутанол, додекан, гексадекан) исключили из рассмотрения. Построенная карта Саммона для 46 растворителей показана на рис.42.

Похожие диссертации на Применение анализа многомерных данных в аналитической химии