Содержание к диссертации
Введение
Глава 1. Литературный обзор 7
1.1. Спектроскопия в ближнем инфракрасном диапазоне
1.2. Многомерные методы анализа спектральных данных
1.3. Применение БИК спектроскопии в аналитической химии и химической технологии
Глава 2. Объекты и методы исследования 45
2.1. Объекты исследования
2.2. Методы исследования
2.2.1. Выделение нефтяных макромолекул
2.2.3. Спектральные измерения
2.3. Обработка данных
2.3.1. Предварительная обработка спектральных данных
2.3.2. Оценка эффективности и оптимизация моделей
2.3.3. Выбор переменных и сокращение размерности
2.3.4. Регрессионные модели
2.3.5. Алгоритмы и программное обеспечение
Глава 3. Анализ бензиновых фракций и товарных бензинов на основе данных БИК спектроскопии. Сравнение линейных и нелинейных методов 72
3.1. Репрезентативность данных и ширина выборки
3.2. Построение калибровочных моделей РГК методами
3.3. Построение калибровочных моделей ПЛС методами
3.4. Построение калибровочных моделей нейронными сетями
Глава 4. Анализ нефтяных топлив, биотоплив и растворов нефтяных макромолекул на основе данных БИК спектроскопии. Сравнение нелинейных методов 85
4.1. Репрезентативность данных и ширина выборки
4.2. Построение калибровочных моделей ПЛС методами
4.3. Построение калибровочных моделей нейронными сетями
4.4. Построение калибровочных моделей МОВ-методами
4.5. Общее сравнение методов анализа БИК спектров исследованных систем
Глава 5. Выбор переменных для БИК спектроскопии нефтяных систем. Сравнение методов 95
5.1. Выбор методов и систем
5.2. Биодизельное топливо
5.3. Дизельное топливо
5.4. Растворы нефтяных макромолекул
5.5. Общее сравнение методов выбора переменных для БИК спектров нефтяных систем
Выводы 103
Список литературы 107
- Применение БИК спектроскопии в аналитической химии и химической технологии
- Построение калибровочных моделей РГК методами
- Репрезентативность данных и ширина выборки
- Биодизельное топливо
Применение БИК спектроскопии в аналитической химии и химической технологии
Как уже отмечалось во Введении, спектроскопические методы в целом, и метод ближней инфракрасной (БИК) спектроскопии в частности, являются высокоперспективными методиками для анализа промышленных продуктов [4-8]. Колебательная спектроскопия (инфракрасная или комбинационного рассеяния) позволяет получать информацию о химическом составе даже многокомпонентных систем за счет высокой чувствительности ИК спектра к химической структуре молекул, наличию и взаимоположению отдельных атомов и химических групп [6,8].
Применение методов колебательной спектроскопии в химии и химической технологии требует фундаментальных знаний в области теории колебательных спектров. На данный момент теория колебательной спектроскопии проработана достаточно для того, чтобы решать многие практически важные задачи как химии, так и химической технологии [6-8]. В этой части мы остановимся на наиболее важных моментах теории колебательной спектроскопии (прежде всего, инфракрасной) [9-15].
Колебательные энергетические уровни молекулы можно получить решением соответствующей квантовомеханической задачи [9-13]. Как известно [9,11,13], состояние молекулы как единой системы из ядер и электронов описывается полной волновой функцией Ф. При подстановки данной волновой функции в уравнение Шредингера (1.1) можно получить энергию стационарных состояний Е данной молекулы.
В приближении Борна-Опенгеймера, учитывающем большое различие масс электронов и атомных ядер (приблизительно 1 к 104), можно разделить электронное и ядерное движение. В хорошем приближении можно разделить также колебательное и вращательное движение ядерного скелета молекулы. В этом случае оказывается возможным записать три уравнения вида (1.1) для ядерного колебательного, ядерного вращательного и электронного движений. Нас будет интересовать только первое из них
Для рассмотрения колебательного движения необходимо ввести систему координат, описывающую только относительное смещение ядер. Для Л/-атомной молекулы можно ввести ЗЛ/-6 таких координат {Qk}, так что каждая их них будет полностью характеризовать смещение ядер относительно равновесных положений в каком-то одном равновесном колебательном состоянии. Данные координаты получили название нормальных координат [6]. Каждая нормальная координата является линейной функцией совокупности естественных координат молекулы -длин связей, валентных углов и т.д.
При использовании нормальных координат колебательную волновую функцию и колебательную энергию Л/-атомной молекулы можно представить как произведение и сумму, соответственно.
В гармоническом приближении чЛ и Ev являются функциями только одной координаты Qk.
Использование гармонического приближения в уравнении (1.2) приводит к уравнению Шредингера для гармонического осциллятора, решение которого может быть получено аналитически [10,11]. Выражение для собственных значений энергии в этом случае приобретает вид
Колебательная энергия многоатомной молекулы в гармоническом приближении является функцией ЗЛ/-6 (для нелинейной молекулы и ЗЛ/-5 для линейной) колебательных квантовых чисел і/
Колебательный спектр вещества наблюдается при поглощении данным веществом излучения (электромагнитной волны), при котором происходит изменение колебательного состояния, т.е. молекула переходит на иной (повышенный) энергетический уровень. Разность энергий состояний (ДЕ) между которыми происходит переход, равна (согласно соотношению Бора) где v- частота поглощаемого или испускаемого излучения.
Разные типы переходов, возможные в молекуле воды, показаны на рис. 1.2.
Следует отметить, что возможность перехода между всеми колебательными уровнями молекулы не является обязательной. Правила отбора (разрешен данный переход или нет?) для того или иного перехода определяются свойствами волновых функций соответствующих состояний и, кроме того, задаются свойствами квантовомеханического оператора дипольного момента [14].
Правило отбора в случае гармонического осциллятора [10-12,14] заключается в том, что Av=l, т.е. возможными являются переходы с изменением квантового числа только на единицу (2 -1, 3 -2,4 -3 и т.д., но не 3 -1, 4 -1, 4 -2,..., где первое число характеризует конечный колебательный уровень, а второе - начальный).
Для реальных молекул, вследствие ангармоничности колебаний, возможны также и иные переходы с изменением одного или нескольких квантовых чисел одновременно [6].
В реальной молекуле наблюдаются следующие типы переходов (рис. 1.2):
Основной переход - переход с нулевого уровня энергии на уровень с одним v= 1.
Обертон - переход с нулевого уровня на уровень с v = 2, 3,... (остальные квантовые числа равны нулю).
Составной (комбинированный) переход - переход с нулевого уровня на уровни с несколькими ненулевыми квантовыми числами.
«Горячий» переход-переход с ненулевого начального уровня.
При основном переходе в ИК спектре появляются так называемые фундаментальные частоты.
Частоты обертонов примерно равняются удвоенным или утроенным значениям фундаментальных частот. Необходимо отметить, что их интенсивность -многократно уступает интенсивность фундаментальных колебаний, вследствие различия в заселенности энергетических уровней.
Таким образом, колебательный спектр многоатомной молекулы представляет набор основных частот (максимальное количество: ЗЛ/-6), обертонов, составных и «горячих» частот. Характерный диапазон волновых чисел для всей совокупности колебательных переходов: от 400 до 12000 см1. Наиболее информативным и исследованным является интервал от 400 до 4000 см"1 - средняя инфракрасная (ИК) область. В данной области наблюдаются в основном фундаментальные частоты.
В данном разделе мы остановимся лишь на некоторых применениях ИК спектроскопии в химии и химической технологии, которые имеют непосредственное отношения к изложенному далее материалу. Более подробные сведения о возможностях современных ИК спектрометров можно найти в [7,8,16-18].
В химии, особенно в органической, давно и широко вошел в практику структурно-групповой анализ на основе колебательных спектров. Данный метод базируется на концепции групповых (иначе, характеристических) частот [6,8].
Несмотря на то, что - в силу определения - нормальное колебание есть колебание всей молекулы в целом, некоторые колебания могут быть локализованы в отдельных областях молекулы - на отдельных молекулярных группах (отдельных связях, структурных фрагментах, группах атомов) [19]. При этом оказывается, что для некоторых связей или фрагментов характерны постоянные и относительно узкие полосы поглощения, вне зависимости от того в каких молекулах данные группы находятся (рис. 1.3).
На современном этапе наиболее надежным методом идентификации неизвестного органического соединения (при отсутствии его в базе по ИК спектрам) является метод, состоящий из трех этапов. На первом из них используется метод ядерного магнитного резонанса (ЯМР) [20,21], для определения атомов и групп, входящих в состав исследуемого вещества. Метод ЯМР является более пригодным для этого анализа, поскольку сдвиг сигнала ХИ и 13С является менее чувствительным к окружению данного атома или группы, чем, например, ИК полоса [22].
Являясь преимуществом на начальном этапе анализа, относительно невысокая чувствительность к окружению определяет и недостаток метода ЯМР для исследования неизвестного органического соединения, поскольку из резонансного сигнала не может быть извлечена полная информация о структуре молекулы -относительном расположении отдельных атомов и групп. На втором этапе для определения структуры молекулы (при широком использовании методов компьютерного моделирования) определяются все возможные структуры, которые теоретически может иметь исследуемое вещество. Затем проводится моделирование ИК спектра каждой из таких структур (опять же, с использование методов компьютерного предсказания спектра на основе квантовой химии) [12,15].
На завершающем третьем этапе полученные спектры (количество которых может достигать нескольких десятков) сравниваются с реальным инфракрасным спектром молекулы (реже со спектром её комбинационного рассеяния). Та структура, чей спектр окажется наиболее близок к реально наблюдаемому, и признается действительной структурой исследуемой органической молекулы.
Из вышеизложенного ясно следует, что сочетание столь «сильных» (с точки зрения возможностей по идентификации) методов как ЯМР и ИК способно решить вопрос о строении неизвестного вещества с высокой надежностью. При этом обращает на себя внимание тот факт, что широкое применение интеллектуальных баз данных и методов компьютерного расчета многократно облегчило процесс идентификации и повысило его надежность [22].
Построение калибровочных моделей РГК методами
В данном разделе обсуждается методика определения свойств и показателей качества бензинов Орского и Киришского нефтеперерабатывающих заводов на основе спектроскопии с ближней инфракрасной области.
Для предсказания свойств и показателей качества бензина были построены калибровочные модели на основе следующих методов: метод множественной линейной регрессии (MLR), метод регрессии на главные компоненты (PCR), метод проекции на латентные структуры (PLS), метод полиномиальной PLS (Poly-PLS), метод сплайн PLS (Spline-PLS), искусственные нейронные сети (ANN). Подробное обсуждение каждого из них приведено ниже.
Были использованы три метода предварительной обработки спектральных данных: логарифмирование, дифференцирование и двойное дифференцирование-наилучшим образом зарекомендовавшие себя при исследовании бензинов нефтяного происхождения. Результаты приводятся для лучшего метода предварительной обработки.
Практически каждая из примененных нами калибровочных моделей характеризовалась набором параметров, варьирование которых способно существенно влиять на ошибку предсказания (исключение составляет MLR). Для того чтобы сравнивать различные модели, необходимо добиться оптимальной эффективности каждой из них, т.е. оптимизировать параметры:
PCR - количество главных компонент (от 1 до 20);
PLS - количество скрытых переменных (от 1 до 20);
Poly-PLS - количество скрытых переменных (от 1 до 20) и порядок полинома (от 1 до 7, а также 10);
Spline-PLS - количество скрытых переменных (от 1 до 20), количество узлов сплайн-функции (от 1 до 7, а также 10) и порядок полинома (от 1 до 7, а также 10);
ANN - параметры обучения нейронной сети приведены в табл. 3.1.
Таким образом, была проверена эффективность одной MLR модели, 20 PCR моделей, 20 PLS моделей, 160 Poly-PLS моделей, 1280 Spline-PLS моделей и 400 ANN моделей. В каждом случае была найдена наилучшая.
Зависимость ошибки кросс-валидации для PCR модели от количества главных компонент имеет минимум; аналогичная зависимость для PLS модели от количества скрытых переменных также имеет минимум. В обоих случаях наблюдается наличие оптимума при 20 главных компонентах и 12 скрытых переменных, соответственно.
Поскольку количества PC и LS являются единственными настроечными параметрами для PCR и PLS, данные модели могут быть признаны наилучшими.
На примере спектральных и референтных данных бензинов Орского и Киришского НПЗ можно показать сколь существенно влияние метода построения калибровочной модели.
На рис. 3.1 показана эффективность каждой из использованных моделей (с оптимизированными параметрами). Модели приведены в порядке возрастания эффективности. Как видно, ошибка кросс-валидации меняется в широких пределах: от 2 до 8.5 кгм"3 для плотности. Для данного набора данных наихудшие результаты показала множественная линейная регрессия, наилучшие - нейронная сеть. Стандартный хемометрический PLS метод занял промежуточное положение: данный подход в полтора раза менее эффективен, чем ANN, но в два с половиной раза эффективнее MLR (по соотношению ошибок кросс-валидации).
Наибольшее различие эффективности калибровочных моделей наблюдалось для октанового числа и плотности (в 5 и 10 раз, соответственно); наименьшее - для температуры (в 3 раза).
Ранее мы уже отмечали необходимость учета таких факторов как время обучения и сложность построения для более полного анализа практической эффективности различных математических методов. Можно отметить, что если по эффективности методы располагаются в следующей последовательности:
ANN Poly-PLS Spline-PLS PLS PCR » MLR то по временным затратам
MLR s PCR = PLS Poly-PLS « ANN Spline-PLS и сложности
MLR s PCR = PLS = Poly-PLS Spline-PLS » ANN модели располагаются в существенно иной последовательности.
Из приведенных данных становится ясно, что «квази»-нелинейные методы, требующие временных затрат близких ко времени обучения нейронных сетей и обладающие сопоставимой сложностью для понимания, но не дающие существенного выигрыша в точности, являются малопригодными для наших задач. Наилучшее решение задачи регрессии было достигнуто с использование метода нейронных сетей. Несмотря на сложность и требовательность к ресурсам (временным и вычислительным) данный метод показал многократное превосходство над линейными аналогами.
Следует отметить, что выше речь идет о процессе построения модели. Для конечного пользователя различие в скорости вычислений и сложности алгоритма не является сколь либо существенным, поскольку сам метод предсказания скрыт от него. Работает принцип «черного ящика» (англ. black box).
Как видно из рис. 3.1 линейные модели (MLR, PCR, PLS) в целом показали себя значительно хуже, нежели нелинейные (Poly-PLS, Spline-PLS, ANN). Это говорит о сложной связи «спектр-свойство» (см. рис. 1.1) для такого объекта как бензин. Причина этого может крыться в нелинейной взаимосвязи «состав-свойство». Следует отметить, что нелинейность взаимосвязи «состав-спектр» является нехарактерной для углеводородных систем [88]. В принципе, относительная химическая инертность углеводородов делает легкие нефтяные системы (бензин, дизельное топливо, керосин) удачным объектом для применения ПЛС. В то же время колоссальное количество компонент в системе даже в случае наиболее легких нефтепродуктов делает возможным наблюдение нелинейности и в этом случае.
Успех нейросетевого подхода для построения калибровочной модели бензина можно объяснить описанной ранее способностью нейронных сетей аппроксимировать сложные зависимости, не поддающиеся эффективной полиномиальной (Poly-PLS) или сплайн-аппроксимации (Spline-PLS).
Возвращаясь к затронутому вопросу об эффективности методов предварительной обработки спектральных данных, следует отметить успех наиболее теоретически обоснованных методов. Несмотря на отмеченный выше факт того, что нейронные сети являются универсальными аппроксиматорами, линеаризация спектра (переход к логарифму оптической плотности) значительно (на 7%) уменьшила ошибку модели. Упрощение данных, их подача на вход нейронной сети в наиболее удобном для обучения виде являются основными задачами исследователя, пользующегося столь «мощным» методом построения калибровочной модели как ANN.
К целом, задача о построении калибровочной модели для предсказания свойств и показателей качества бензинов Орского и Киришского НПЗ на основе БИК спектроскопии в диапазоне 8000-14000 см"1 является решенной. Нам удалось добиться точности сопоставимой с точностью гостированного метода, при многократно меньших временных затратах на единичное измерение. Сложность БИК анализа является минимальной и не требует от оператора каких-либо специальных знаний или навыков. То же относится и к хемометрической составляющей метода (калибровочной модели): от конечного пользователя требуется лишь владение ПК на базовом уровне.
Важным фактом является эффективность модели, построенной на бензинах двух разных заводов, с различным сырьем и разной технологической цепочкой. Это говорит об устойчивости модели, её способности к обобщению. Не следует, однако, ожидать возможности использования полученной модели для предсказания свойств и показателей качества бензинов иных заводов или товарных бензинов с присадками. Поскольку речь идет о статистическом (англ. soft) методе, перенос моделей возможен только после дообучения нейронной сети на образцах нового типа. Более подробно эти вопросы будут обсуждаться ниже.
Репрезентативность данных и ширина выборки
В данном исследовании использовались пять (5) химических систем нефтяного происхождения. А именно: бензин, классический объект многочисленных исследований в области аналитической химии и хемометрики; спирто-бензиновое топливо, набирающий популярность тип биотоплива (возможно имеющего коллоидную структуру [157]) производимого из возобновляемого сырья; дизельное топливо как пример более тяжелого нефтепродукта, являющегося более сложной углеводородной системой, с большей долей гетероатомов; растворы нефтяных макромолекул (смол, асфальтенов и парафинов) в ароматических растворителях, тяжелых молекул, ответственных за формирование коллоидной структуры нефти и многих нефтяных систем.
Представленные нефтяные системы существенно разнятся по составу, структуре, свойствам и поведению. В то время как низкомолекулярные компоненты бензина с 6-12 углеродными атомами в скелете имеют малые энергии межмолекулярного взаимодействия, макромолекулы, подобные асфальтенам, с молекулярной массой более 500 Да имеют высокую тенденцию к агрегации и фазовому разделению. Количество «эффективных компонент» в исследованных нефтяных системах, разнится от одной до миллионов. Столь высокое многообразие химических систем позволяет надеяться на возможность сформулировать общие закономерности о БИК анализе продуктов нефтяного происхождения и применимости методов многомерного анализа данных к их спектральным данным.
Следует также отметить, что точность и воспроизводимость референтных данных существенно разнится для разных свойств исследованных химических систем (для разных наборов данных). Поскольку качество референтных данных может очень сильно отличаться для разных нефтепродуктов и продуктов нефтехимических производств, использование столь широкой выборки является обоснованным для формулирования общих выводов. Известно, что многие методы машинного обучения, показывающие блестящие результаты при работе с искусственными и высококачественными лабораторными данными (данными, отличающимися высокой точность измерения искомых параметров), показывают посредственные результаты при применении к реальным продуктам тех или иных производств, где предоставление высокоточных данных зачастую просто не является технически возможным. Поскольку относительная воспроизводимость многих тестированных методов анализа продуктов нефтепереработки и нефтехимии составляет десятки процентов, это является важным фактором для БИК анализа подобных систем с целью создания и внедрения экспресс методов контроля их качества.
Количество образцов, использовавшихся для построения калибровочных моделей (которое в нашем случае разнится от 57 до 125), также является важным фактором, определяющим итоговую точность обученного многомерного метода. Очевидно, что с увеличением выборки точность калибровочного метода постепенно увеличивается, достигая при некотором количестве образцов предельного (максимально возможного для данного метода) значения. Мы старались добиться результата, который бы в минимальной мере зависел от дополнительного расширения набора спектров, т.е. старались работать в «режиме насыщения» каждой из представленных методик машинного обучения.
Биодизельное топливо
Применение методов выбора переменных к данным по плотности биодизельного топлива позволяет снизить ошибку калибровки на 40-65% и 7-25% для МЛР и ПЛС методов, соответственно (рис. 5.1 и 5.2). Два фактора ответственны за наблюдаемое улучшение предсказания:
Рис. 5.1. Сравнение 16 методов выбора переменных для МЛР при анализе плотности, вязкости, доли воды и спирта в биодизельном топливе. Тонкая горизонтальная линия показывает исходный МЛР уровень, толстая - исходный ПЛС уровень.
(а) возрастание соотношение «образцы/переменные» (следует обратить внимание, что это соотношение близко к 5 для полного спектра), (б) возможность построения надежной модели за счет выбора информативных данных и удаления неинформативных, непригодных и зашумленных переменных.
Рис. 5.2. Сравнение 15 методов выбора переменных для ПЛС при анализе плотности, вязкости, доли воды и спирта в биодизельном топливе. Тонкая горизонтальная линия показывает исходный ПЛС уровень, толстая - исходный ИНС уровень.
Среднее снижение ошибки составило 52±8% и 16±6% для МЛР и ПЛС, соответственно. Наилучшие результаты были достигнуты при использовании методов выбора переменных на основе нейронных сетей: BP-ANN метод совместно с МЛР дал ошибку предсказания (RMSEP) в 1,38 кг/мЗ, a K-ANN метод совместно с ПЛС дал ошибку предсказания в 0,64 кг/мЗ.
Результаты применения методов выбора переменных к данным о вязкости биодизельного топлива подобны результатам для плотности, но немного им уступают: снижение ошибки предсказания находится в диапазоне 41-61% и 3-29% при средних в 50±7% и 14±8% для МЛР и ПЛС, соответственно (рис. 5.1 и 5.2). Возможная причина подобных результатов состоит в том, что вязкость является менее линейным свойством химической системы, нежели плотность. Также следует отметить более низкую точность референтных данных для вязкости биотоплива относительно данных о его плотности [40].
В то время как нейросетевые методы выбора переменных (конкретно, K-ANN) являются лидерами по точности при использовании множественной линейной регрессии (RMSEP = 0,292 мм2/с), комплексный UVE-SPA метод доказал своё превосходство при использовании совместно с ПЛС (RMSEP = 0,144 мм2/с). Примечательным является факт несколько большего улучшения точности градуировки вязкости относительно плотности (29% против 25%).
Относительное изменение ошибки предсказания содержания воды в биодизельном топливе составило от 43% до 65% и от -1% до 30% для МЛР и ПЛС, соответственно (рис. 5.1 и 5.2). В случае использования CSMWPLS ошибка ПЛС даже возросла на 1%. Среднее же снижение неточности калибровочной модели составило 53±8% и 13±9% для МЛР и ПЛС, соответственно.
Наилучшие результаты были достигнуты при использовании методов на основе генетических алгоритмов (ГА/GA): ГА в чистом виде и комплексный GA-iPLS методы снизили RMSEP МЛР метода до 108,2/107,4 ррт; применение ГА совместно с ПЛС привело к снижению RMSEP до 69,8 ррт.
Определение доли метанола в биодизеле на основании БИК спектров может быть весьма точным при верном подборе метода выбора переменных. Точность МЛР метода возросла на 40-54%, в то время как точность ПЛС изменилась от +1% до -24%. Средние значения относительного изменения составили 52±8% и 11±9% для МЛР и ПЛС, соответственно (рис. 5.1 и 5.2).
RMSEP для K-ANN и МЛР составило 114 ррт. Среднеквадратичные ошибки предсказания алгоритма имитации отжига и BP-ANN в 83,9 и 84,3 ррт, соответственно, позволили им стать лидерами в рейтинге методов выбора переменных для ПЛС метода. Совсем небольшое отставание наблюдается и для ГА (85 ррт).