Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методология хемометрического моделирования спектрометрических сигналов в анализе объектов сложного состава Монахова Юлия Борисовна

Методология хемометрического моделирования спектрометрических сигналов в анализе объектов сложного состава
<
Методология хемометрического моделирования спектрометрических сигналов в анализе объектов сложного состава Методология хемометрического моделирования спектрометрических сигналов в анализе объектов сложного состава Методология хемометрического моделирования спектрометрических сигналов в анализе объектов сложного состава Методология хемометрического моделирования спектрометрических сигналов в анализе объектов сложного состава Методология хемометрического моделирования спектрометрических сигналов в анализе объектов сложного состава Методология хемометрического моделирования спектрометрических сигналов в анализе объектов сложного состава Методология хемометрического моделирования спектрометрических сигналов в анализе объектов сложного состава Методология хемометрического моделирования спектрометрических сигналов в анализе объектов сложного состава Методология хемометрического моделирования спектрометрических сигналов в анализе объектов сложного состава Методология хемометрического моделирования спектрометрических сигналов в анализе объектов сложного состава Методология хемометрического моделирования спектрометрических сигналов в анализе объектов сложного состава Методология хемометрического моделирования спектрометрических сигналов в анализе объектов сложного состава Методология хемометрического моделирования спектрометрических сигналов в анализе объектов сложного состава Методология хемометрического моделирования спектрометрических сигналов в анализе объектов сложного состава Методология хемометрического моделирования спектрометрических сигналов в анализе объектов сложного состава
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Монахова Юлия Борисовна. Методология хемометрического моделирования спектрометрических сигналов в анализе объектов сложного состава: диссертация ... доктора Химических наук: 02.00.02 / Монахова Юлия Борисовна;[Место защиты: ФГБОУ ВО Саратовский национальный исследовательский государственный университет им. Н.Г. Чернышевского], 2017

Содержание к диссертации

Введение

ГЛАВА 1. Постановка цели и задач исследования. описание используемых объектов и методов 7

1.1. Актуальность проблемы 7

1.2. Используемые инструментальные методы исследования 20

1.3. Хемометрическая обработка сигналов 21

ГЛАВА 2. Начальная обработка спектрометрических данных перед хемометрическим моделированием 32

2.1. Обзор методов, используемых для начальной обработки

спектрометрических данных 34

2.2. Практическое применение алгоритмов начальной обработки данных и ее влияние на результаты хемометрического моделирования 44

2.2.1. Коррекция базовой линии 44

2.2.2. Сглаживание спектрометрических кривых 45

2.2.3. Выравнивание сигналов по оси абсцисс для серии однотипных образцов 49

2.2.4. Выбор переменных для дискриминации 54

2.2.5. Шкалирование спектромерических данных 58

2.2.6. Определение числа значимых латентных переменных. Метод ICA-by-Blocks 61

2.2.7. Перенос спектрометрических измерений и многомерных градуировок между однотипными спектрометрами: ЯМР 1Н контроль подлинности лецитина подсолнечника 64

Заключение к главе 2 72

ГЛАВА 3. Методы главных и независимых компонент в исследовательском анализе спектрометрических данных 74

3.1. Метод главных компонент в спектрометрии 75

3.2. Исследовательский анализ спектрометрических данных 76

3.3. Методология поиска выбросов в спектрометрических данных 81

3.4. Метод главных компонент в ЯМР спектрометрическом анализе продуктов питания 85

3.4.1. Определение видовой принадлежности кедровых орехов 86

3.4.2. Определение ботанического происхождения меда 88

3.4.3. Контроль маркировки молочных продуктов 93

3.4.4. Контроль подлинности газированных напитков 95

3.4.5. Одновременный контроль серии параметров вина 101

3.5. Метод независимых компонент в исследовательском анализе спектрометрических данных 107

3.5.1. Определение сорта риса на основе ЯМР 1Н

спектрометрии 108

3.5.2. Определение основных параметров вина на основе ЯМР 1Н

спектров 114

3.5.3. Определение фирмы-производителя базисных эмалей на основе рентгенофлуоресцентной спектрометрии 115

3.5.4. Дискриминация инфракрасных спектров автомобильных лаков различных производителей 118

Заключение к главе 3 120

ГЛАВА 4. Метод независимых компонент в качественном и количественном спектрометрическом анализе смесей сложного состава 122

4.1. Обзор областей применения метода независимых компонент в аналитической спектрометрии 123

4.1.1. Теоретические основы ICA 123

4.1.2. Качественный и количественный анализ смесей сложного состава 125

4.1.3. Изучение равновесий в растворах 128

4.1.4. Предварительная обработка спектрометрических данных 129

4.1.5. Другие области применения 130

4.2. УФ и ИК спектрометрический анализ объектов сложного состава с применением метода независимых компонент 131

4.2.1. Непрямое определение полигексаметилен гуанидина в спиртных напитках 131

4.2.2. Определение формальдегида в алкогольных напитках 133

4.2.3. Определение металлов в смесях сложного состава 136

4.2.4. Многокомпонентный анализ смесей анионов в морской воде 144

4.2.5. Анализ алкогольных напитков на наличие синтетических красителей по данным электронной спектрометрии поглощения 148

4.2.6. Анализ органического вещества морской среды методом ИК спектрометрии 152

4.3. Многокомпонентный анализ ЯМР спектров на основе метода независимых компонент 163

4.3.1. Анализ многокомпонентных смесей 164

4.3.2. Анализ реальных объектов 171

4.4. Анализ ЯМР спектров на основе сочетания ICA декомпозиции и принципа PULCON (определение концентрации на основе длительности импульса) без использования стандартных образцов состава 174

Заключение к главе 4 187

ГЛАВА 5. Разработка и применение дискриминантных методов в спектрометрическом анализе продуктов питания 189

5.1. Методы классификации и дискриминации в спектрометрическом анализе 191

5.2. Практическое применение методов дискриминации в анализе продуктов питания 197

5.2.1. Определение ботанического происхождения меда 197

5.2.2. Определение типа молока и его заменителей 197

5.2.3. Определение сорта риса 199

5.2.4. Дискриминация ЯМР 1H спектров вина 203

5.3. Метод независимых компонент в качестве метода предварительной обработки в дискриминантном анализе 207

5.4. Автоматизация хемометрического моделирования методами дискриминантного анализа: определение сорта кофе 214

Заключение к главе 5 218

ГЛАВА 6. Совместный хемометрический анализ данных нескольких экспериментальных методов 219

6.1. Обзор методов для совместного анализа совокупности данных нескольких аналитических методов 220

6.2. Одновременный хемометрический анализ ЯМР 1Н спектров и данных по распределению стабильных изотопов (2D, 13O, 13C) в анализе вин 224

6.2.1. Распределение стабильных изотопов 225

6.2.2. Хемометрический анализ объединенного набора данных 232

6.2.3. Мультиблочные методы для определения места производства вина 236

6.3. Совместный анализ данных ЯМР 1Н, ЯМР 13С спектрометрии и стабильных изотопов для дифференцирования органически и традиционно произведенного молока 240

6.3.1. Анализ данных по распределению стабильных изотопов и содержанию линоленовой кислоты 241

6.3.2. ЯМР спектрометрия 244

6.3.3. Хемометрический анализ совмещенных данных 249

6.4. Дифференциация органических и традиционно выращенных томатов на основе совместного хемометрического анализа данных ЯМР 1Н, ИК

спектрометрии и стабильных изотопов 251

6.4.1. Распределение стабильных изотопов 252

6.4.2. ЯМР 1Н спектрометрия 253

6.4.3. ИК спектрометрия 255

6.4.4. Хемометрический анализ совмещенного набора данных 257

Заключение к главе 6 261

Заключение 262

Список сокращений и условных обозначений 268

Список литературы

Введение к работе

Актуальность работы. Спектрометрия как аналитический метод
предлагает большое количество подходов для идентификации и

количественного определения веществ органической и неорганической природы в объектах сложного состава. Однако основным известным недостатком, сдерживающим развитие этого инструментального метода, является сложность интерпретации спектров объектов из-за большого числа перекрывающихся полос.

В последнее время для решения такой проблемы широко используются
хемометрические алгоритмы, позволившие существенно расширить

возможности и повысить эффективность спектрометрических методов анализа. Популярность многомерного подхода растет с каждым годом, публикуются обзоры, направленные как на общие вопросы применения хемометрики в анализе, так на узкие области исследования в пределах одной группы объектов или инструментального метода. В России новое направление только набирает обороты, хотя российское и международное признание уже получили ряд отечественных исследовательских групп из Москвы, Санкт-Петербурга, Омска, Воронежа, Саратова и Иркутска.

Накопленные на данный момент результаты в области многомерного анализа свидетельствуют о том, что при проведении моделирования спектрометрических данных, каждый шаг является важным для построения эффективной хемометрической модели.

Необходимой предпосылкой для успешного многомерного исследования является корректная предварительная обработка спектрометрических данных. До сих пор не проведено систематического тестирования различных алгоритмов на реальных объектах. Кроме того, разработка эффективных подходов для обнаружения выбросов и первичного исследовательского анализа (exploratory analysis) больших наборов данных представляется актуальной задачей. В данном контексте поиск альтернативы традиционному методу главных компонент (PCA) является приорететной задачей.

В практику моделирования различных процессов с целью идентификации
и одновременной количественной оценки концентраций аналитов все больше
входит метод независимых компонент (ICA). Однако на данный момент
неясными остаются границы применения ICA для анализа реальных объектов,
выбор конкретного алгоритма для решения конкретной практической задачи.
Также очевидна необходимость сравнения эффективности ICA для анализа
спектрометрических данных различного типа (ЯМР, ИК, РФ) и оценка влияния
степени перекрывания (статистической зависимости) индивидуальных

источников на качество хемометрического моделирования.

В литературе также практически отсутствуют данные о систематическом
сравнении алгоритмов ICA с альтернативными подходами, например, проекции
на латентные структуры (PLS) и автомодельным разделением кривых (MCR). С
другой стороны, перспективным представляется разработка методик

количественного спектрометрического анализа многокомпонентных смесей с перекрывающимися сигналами без использования стандартных образцов состава.

Кроме количественного анализа аналитики часто решают задачи по определению качественной принадлежности объекта к какому-либо классу (например, место производства или тип продукта питания). Для этого предложено использовать методы дискриминантного анализа. Несмотря на очевидную перспективность линейных методов дискриминации, таких как линейный дискриминантный анализ (LDA), факторный дискриминантный анализ (FDA) или дискриминантный анализ с помощью регрессии на латентные структуры (PLS-DA), во многих случаях 100%-ная правильность модели при оценке свойств новых объектов не достигается. Перспективным представляется увеличение процента правильных предсказаний за счет привлечения ICA в качестве предварительной обработки вместо традиционного PCA.

Хемометрический анализ позволяет эффективно извлекать большое
количество информации об интересующем объекте, однако, моделирование
данных только одного инструментального метода часто не обеспечивает
необходимой надежности методики. Данный факт приводит к необходимости
развития специализированных методов совместного хемометрического анализа
данных нескольких экспериментальных методов. Проблема анализа

совмещенных наборов данных относительно нова, поэтому тестирование и сравнение эффективности различных подходов является важным этапом исследований.

Завершающим этапом создания новой методики анализа является автоматизация вычислений и использование готовых многомерных моделей на однотипных спектрометрах. Развитие этих двух направлений исследований еще не получили достаточного внимания со стороны аналитиков.

В целом следует отметить, что на сегодняшний день число работ, посвященных описанию методологии применения каждого конкретного хемометрического алгоритма для анализа смесей сложного состава, немногочисленно. Отсутствует описание общей схемы хемометрического анализа (предварительная обработка спектрометрических данных и выбор хемометрического метода, валидация и оптимизация хемометрической модели, интерпретация результатов), следуя которой аналитик может получить желаемый результат безотносительно типа спектрометрического сигнала или сложности объекта. К тому же, необходимы исследования, направленные на автоматизацию хемометрических расчетов для рутинного анализа и перенос готовых моделей на однотипные спектрометры.

Цель работы: разработка методологии хемометрического моделирования данных различных спектрометрических методов в анализе объектов сложного состава.

Для достижения поставленной цели необходимо было решить следующие задачи:

- апробировать математические подходы начальной обработки
спектрометрических данных, направленные на коррецию базовой линии
спектров, уменьшение экспериментального шума, выравнивание сигналов по
оси переменных, выбор значимых откликов и определение числа латентных
переменных для последующего оптимального моделирования
хемометрическими методами;

- изучить возможности хемометрических методов PCA и ICA для
установления выбросов и первичного исследовательского анализа больших по
объему данных спектрометрических экспериментов;

- предложить многомерные модели дискриминации объектов сложного
состава со схожими спектрометрическими профилями относительно видовой и
сортовой принадлежности, географического критерия и возможной
фальсификации на основе методов дискриминантного анализа (LDA, FDA и
др.) или их сочетания с ICA;

повысить эффективность дискриминантных моделей установления подлинности продуктов питания (томатов, вина, молока) при совместном хемометрическом анализе данных нескольких инструментальных методов (распределение стабильных изотопов, ЯМР 1Н, ЯМР 13С, ИК);

разработать программы автоматической компьютерной обработки спектров для рутинного анализа образцов на основе хемометрических моделей и показать возможность их внедрения в аналитических лабораториях, оснащенных однотипным спектрометрическим оборудованием;

- разработать эффективные методики количественного анализа объектов
сложного состава (алкогольные напитки, платиновые концентраты,
фармацевтические препараты, объекты окружающей среды и др.), с
использованием спектрометрических методов (УФ, ИК, ЯМР) и
хемометрических алгоритмов ICA, PLS и MCR.

Методы исследования. Для решения поставленных задач использовали
методы электронной, инфракрасной (ИК), рентгено-флуоресцентной (РФ)
спектрометрии, ядерный магнитный резонанс (ЯМР) и хроматографические
методы. Многомерную обработку данных проводили методами

дискриминантного анализа, ICA, MCR, PCA, PLS, а также с помощью подходов для совместного моделирования наборов данных, в частности, методом анализа общих компонент и удельных весов (CCSWA).

Научная новизна полученных результатов заключается в том, что:

- предложена методология хемометрического моделирования
спектрометрических данных для идентификации, надежного и экспрессного
одновременного количественного определения компонентов в объектах
сложного состава, а также решения дискриминантных задач на основе одного
или нескольких аналитических методов;

- оценена эффективность различных вариантов предварительной
обработки экспериментальных данных для последующего хемометрического
моделирования спектров;

проведено сравнение алгоритмов ICA между собой и альтернативными подходами разделения сигналов по точности декомпозиции спектрометрических контуров модельных смесей и реальных объектов по данным УФ, ИК, РФ и ЯМР спектрометрии;

предложены новые варианты исследовательского анализа больших по объему наборов и дискриминации спектрометрических данных методами PCA, ICA и дискриминантного анализа (DA);

- установлен синергетический эффект при совмещении полезной
информации, находящейся в данных разных по природе инструментальных
методах (ЯМР, ИК, распределение стабильных изотопов) относительно
установления подлинности продуктов питания (молока, томатов и вина) при
хемометрическом анализе объединенных наборов данных;

- разработан алгоритм переноса хемометрических моделей многомерных
градуировок на однотипные спектрометры и пакеты программ для
автоматической компьютерной обработки в анализе объектов сложного
состава.

Практическая значимость работы:

- выработаны практические рекомендации по применению и валидации
хемометрических алгоритмов (ICA, многомерная градуировка, методы
дискриминантного анализа, PCA, MCR, анализа объединенных массивов
данных) в спектрометрическом анализе объектов сложного состава;

- на основе многомерных подходов разработаны эффективные
спектрометрические методики одновременного определения веществ,
апробированные в анализе объектов сложного состава (алкогольные напитки,
платиновые концентраты, фармацевтические препараты, объекты окружающей
среды и др.) при перекрывании полос спектров искомых компонентов;

- созданы программы автоматического моделирования
спектрометрических данных на основе хемометрических алгоритмов для
переноса многомерных градуировок между однотипными спектрометрами.

На защиту выносятся:

- методология хемометрического анализа многокомпонентных смесей
методами независимых компонент, многомерной градуировки,
дискриминантного анализа, автомодельного разделения кривых на основе
спектрометрических измерений;

- результаты применения различных методов начальной обработки
спектрометрических данных для максимально эффективного хемометрического
моделирования;

подходы к поиску выбросов и выявлению скрытых закономерностей в больших массивах спектрометрических данных;

методики одновременного определения веществ в реальных объектах (пищевые продукты, фармацевтические препараты, безалкогольные и

алкогольные напитки, топлива и др.) на основе спектрометрических методов (УФ, ИК, ЯМР, РФ) и хемометрических алгоритмов (ICA, MCR, PLS);

- результаты дискриминации объектов сложного состава (соки, вина,
автомобильные эмали и лаки) на основе линейных алгоритмов дискриминации,
ICA и их сочетания;

подходы к разделению групп объектов сложного состава совместным хемометрическим анализом данных нескольких инструментальных методов (распределение стабильных изотопов, ИК, ЯМР 1Н, ЯМР 13С);

внутри- и меж- лабораторный перенос разработанных многомерных градуировок и пакет программ для автоматической хемометрической обработки спектрометрических данных в анализе объектов сложного состава.

Апробация работы. Основные результаты диссертационной работы
доложены на XV-XVII Международных конференциях студентов и аспирантов
«Ломоносов» (Москва, 2008-2010), II Международном форуме «Аналитика и
Аналитики» (Воронеж, 2008), Всероссийской молодежной конференции по
математической и квантовой химии (Уфа, 2008), 6-ой Всероссийской
конференции «Молекулярное моделирование» (Москва, 2009), IV школе-
семинаре молодых ученых «Квантово-химические расчеты: структура и
реакционная способность органических и неорганических молекул» (Иваново,
2009), VII Всероссийской конференции по анализу объектов окружающей
среды «Экоаналитика-2009» (Йошкар-Ола, 2009), международной конференции
по аналитической химии «Euroanalysis-2009» (Австрия, Инсбрук, 2009),
Всероссийской молодежной выставке-конкурсе прикладных исследований,
изобретений и инноваций (Саратов, 2009), VII, VII и X Международных
симпозиумах по хемометрике (Санкт-Петербург, 2010; Москва, 2012 и Самара,
2016), VII Всероссийской интерактивной конференции молодых ученых
(Саратов, 2010), IX Международном Курнаковском совещании по физико-
химическому анализу (Пермь, 2010), научной конференции молодых ученых
«Presentig Academic Achievements to the World» (Саратов, 2010). Результаты
диссертационной работы представлены также на VI и VII Всероссийских
конференциях молодых ученых, аспирантов и студентов Mendeleev-2012 и
Mendeleev-2013 (Санкт-Петербург, 2012-2013), Всероссийской школе-

конференции «Химия биологически активных веществ» для молодых учных, аспирантов и студентов с международным участием «ХимБиоАктив-2012» (Саратов, 2012) и II Всероссийской конференции по аналитической спектроскопии с международным участием (Туапсе, 2015). Другие международные форумы включают Jahrestagung des Regionalverbandes Sd West der Lebensmittelchemischen Gesellschaft in der GDCh (Кайцерслаутен, Германия, 2012); Jahrestagung des Regionalverbandes Sd West und Nord der Lebensmittelchemischen Gesellschaft in der GDCh (Кассель, Германия, 2011); 12th International Conference on FoodMR (Чезена, Италия, 2014); 38th International Symposium on Environmental Analytical Chemistry (Лозанна, Швейцария, 2014); 2nd and 3rd Practical Application of NMR in Industry (Шарлотта, 2014 и Сан-Диего, 2015, США); 42 Lebensmittelchemikertag (Брауншвайг, Германия 2013); 2

Съезд аналитиков России (Москва, Россия, 2013); In Vino Analytica Scientia (Раймс, Франция, 2013); 4th European Chemistry Congress (Прага, Чехия, 2012), 107 ежегодной конференции AOSC (Солт Лейк Сити, США, 2016) и XVI Chemometrics in Analytical Chemistry (Барселона, Испания, 2016).

Публикации. По теме диссертации опубликовано 59 научных статьей в журналах и сборниках, в том числе 50 в журналах, входящих в перечень ВАК, более 40 тезисов докладов на Международных и Всероссийских конференциях.

Личный вклад автора состоит в постановке основных целей и задач, анализе данных литературы, непосредственном участии в выполнении экспериментальных исследований, обработке, обобщении и систематизации полученных результатов и формулировке выводов. Результаты экспериментальных исследований и теоретических обобщений изложены в публикациях и научных докладах, выполненных в соавторстве.

Структура и объем диссертации. Диссертация состоит из 6 глав, заключения, списка использованной литературы и приложений. Работа изложена на 301 страницах, содержит 35 таблиц, 81 рисунок, список литературы из 316 наименований.

Используемые инструментальные методы исследования

На сегодняшний день спектрометрия как аналитический метод предлагает большое количество подходов для идентификации и количественного определения веществ в объектах сложного состава, а также определения групповой принадлежности образцов. Многообразие существующих видов спектрометрического детектирования (электронная, колебательная, ЯМР, рентгенофлуоресцентная спектрометрия) позволяет исследователю подбирать оптимальный метод для решения каждой конкретной практической задачи.

Известно, что спектрометрические измерения объектов сложного состава характеризуются меньшей специфичностью по сравнению с хроматографическим разделением. Одновременному спектрометрическому определению нескольких аналитов из одной пробы или оценки качественных параметров объекта в большинстве случаев препятствуют перекрывающиеся полосы в спектрах многокомпонентных смесей.

Кроме того, в настоящее время перед аналитиками встают задачи определения качественной принадлежности объекта к какому-либо классу (место производства или тип продукта питания), решение которых невозможно на основе классических одномерных подходов.

Очевидно, что современное развитие аналитической спектрометрии уже невозможно представить без разработки теоретических основ и методологии практического использования математических методов для анализа данных многооткликовых и многофакторных экспериментов. Действительно, хемометрические алгоритмы, разработанные математиками в XX в., позволяют существенно расширить возможности спектрометрических методов анализа и повысить их эффективность [1]. Главное достоинство хемометрических методов состоит в том, что они позволяют быстро получать качественную и количественную информацию о реальных объектах (многокомпонентных смесях) даже при практически полном наложении сигналов аналитов [1].

Их популярность растет с каждым годом. Например, более 6000 статей можно найти в англоязычной научной поисковой базе Pubmed, используя поисковые слова “multivariate analysis+spectrometry” (многомерный анализ+спектрометрия). Несмотря на то, что в России это новое направление только набирает обороты, российское и международное признание уже получили ряд отечественных исследовательских групп из Москвы (А.Л. Померанцев, О.Е.Родионова, Л.А. Грибов, М.Е. Эляшберг), Санкт-Петербурга (И.Г. Зенкевич, Ю.Г. Власов), Омска (В.И. Вершинин, И.В. Власова), Воронежа (Я.И. Коренман, А.В. Калач), Саратова (С.П. Муштакова, Ю.Б. Монахова) и Иркутска (И.Е. Васильева) [1,2].

Несмотря на сильно возросший за последние годы интерес, вследствие новизны и достаточной сложности математического аппарата многомерных методов и их непосредственнного применения к данным спектрометрического эксперимента, возникают ситуации неправильного использования и валидации хемометрических моделей, а также интерпретации получаемых результатов. В связи с этим, описание каждого шага многомерного моделирования спектрометрических данных является важным этапом для дальнейшего развития данной отрасли знаний. Необходимым условием для эффективности любого многомерного исследования является корректная предварительная обработка спектрометрических данных. До сих пор не было проведено систематического тестирования различных алгоритмов обработки на реальных объектах. Кроме того, подбор наиболее эффективных подходов для обнаружения выбросов в больших наборах данных и первичного исследовательского анализа сигналов многокомпонентных систем представляется актуальной задачей.

После начальной обработки данных, выявления выбросов и исследовательского анализа следует этап непосредственного математического моделирования спектров. Весь арсенал статистических подходов может быть использован для анализа спектрометрических данных. Общепринято, что эти методы можно классифицировать на группы в зависимости от решаемой ими аналитической задачи.

Это, во-первых, упрощение сложных и массивных наборов данных и поиск в них скрытых зависимостей методом РСА. С математической точки зрения РСА - это декомпозиция исходной 20-матрицы X, т.е. представление ее в виде произведения двух 20-матриц Т и Р в соответствии с уравнением [1,3,4]: A X = Tpt + E = a=1 +Е Q)

В этом уравнении Т называется матрицей счетов (scores), Р - матрицей нагрузок (loadings), а Е - матрицей остатков. Число столбцов - ta в матрице Т и ра в матрице Р равно эффективному (химическому) рангу матрицы X. Эта величина А называется числом главных компонент (PC) и она меньше, чем число столбцов в матрице X. Цель такого преобразования максимально точно описать матрицу Х с использованием минимального числа PC [1,3,4]. Математически это означает преобразование tA в ортогонольные, а рА в ортонормальные функции (т, tj=0 (i j), pi pj=l). Выделенные матрицы обычно не несут физического смысла, и спектры компонент не соответствуют сигналам реально присутствующих в смеси соединений. Последний факт затрудняет интерпретацию результатов РСА моделирования в случае сложных систем.

Несмотря на это, РСА часто используется для предварительного хемометрического изучения системы, в частности, для установления наличия «спрятанной» в спектрах информации относительно, например, географического происхождения продукта питания или подтверждения подлинности его маркировки [5-8]. До недавнего времени применение РСА было ограничено лишь небольшими наборами данных, в основном на основе ИК и БИК спектрометрических измерений [1,9-11]. Очевидна необходимость тестирования метода на данных большего объема. С другой стороны, PCA недостаточно апробирован на данных современных инструментальных методов, таких как ЯМР спектрометрия, где в последнее время достигнут значительный прогресс в приборном оснащении и методологии обработки экспериментальных данных [12].

Актуальным является поиск и применение альтернативных методов исследовательского анализа больших массивов данных. Например, практически неосвещенной является возможность использования метода независимых компонент (ICA) для выявления скрытых закономерностей в спектрометрических данных. Идея заключается в использовании результирующих матриц спектров индивидуальных компонент и их относительных вкладов в общий сигнал в качестве альтернативы матрице PCA нагрузок и матрице PCA счетов соответственно. Так, недавно показана применимость ICA для дискриминации апельсинового и грейпфрутового соков, а также их смесей на основе ЯМР 1Н спектрометрии [13]. В этом случае применение ICA моделирования было логично, так как два выделенных индивидуальных компонента отражали спектры индивидуальных апельсинового и грейпфрутового соков, а смеси представляли их линейные комбинации. Очевидно, что необходимы работы по апробации ICA алгоритмов для качественного анализа объектов, обладающих разными свойствами (не их линейных смесей), используя различные виды спектрометрического эксперимента.

Выбор переменных для дискриминации

Для выбора метода обработки данных в большинстве случаев используется один из трех подходов [74]. Первый представляет собой метод «проб и ошибок», в котором тестируются разные сочетания предварительной обработки данных и хемометрического метода, а затем выбирается наиболее оптимальный вариант в соответствии с целью анализа. Альтернативой является визуальное исследование экспериментальных данных после применения каждого метода, по результатам которого делается вывод о степени устранения дефекта. Преимущество данного подхода перед методом «проб и ошибок» состоит в том, что сокращается время на построение и анализ большого количества хемометрических моделей. Третьим способом является количественная оценка обработанных данных на присутствие или отсутствие артефактов с использованием различных критериев [74]. Ниже приведена характеристика наиболее часто встречающихся методов коррекции экспериментальных данных.

Коррекция базовой линии. Не идеальная базовая линия характеризуется вертикальном смещением сигналов, что приводит к неправильным оценкам концентраций аналитов. Подобное явление характерно для всех типов спектрометрических данных. Очевидно, что коррекция базовой линии необходима как для традиционного количественного спектрометрического анализа, так и для построения хемометрических моделей, основанных на методах многомерной градуировки, например, PLS. Наиболее успешным методом коррекции базовой линии является метод скользящего минимума, который является аналогом метода скользящего среднего, широко используемого для сглаживания спектрометрических кривых [83]. Базовую линию моделируют путем нахождения минимума в спектрометрических интервалах определенной ширины, а затем вычитают найденную кривую из исходных данных. Метод скользящего минимума эффективен для быстрой обработки ЯМР данных, содержащих десятки или сотни тысяч переменных. Размер «окна» обычно колеблется от 5 до 30 Гц.

Альтернативным способом коррекции базовой линии является использование производных [64, 80]. При этом с помощью производных первого порядка устраняется вертикальное смещение базовой линии, в то время как вторые производные корректируют ее наклон [80]. Недостатком подобной процедуры является значительное уменьшение отношения сигнал/шум [79], в связи с чем метод скользящего минимума предпочтительнее. Другим часто применяемым способом является использование многочленов различного, чаще всего, нулевого или первого порядка [84]. Для этого каждый сигнал должен быть выделен из спектрометрических данных, а затем расстояние между начальной и конечной точкой моделируется искомым полиномом. Это позволяет подбирать параметры базовой линии для каждого сигнала отдельно, так как «неидеальность» базовой линии проявляется по-разному в различных спектрометрических диапазонах и зависит от формы сигнала.

Коррекция эффекта рассеяния света. Эффект рассеяния света часто встречается для УФ, КР и ИК спектрометрических данных. Рассеяние света обусловлено тем, что частицы измеряемого вещества примерно равны длине волны облучающего света. Наиболее активно применяемым подходом для невилирования этого эффекта является метод standard normal variate (SNV), который основан на вычитании из спектрометрических данных для каждого образца среднего значения интенсивности, поделенного на соответствующее данному образцу стандартное отклонение, которое и отражает константу рассеяния [85]. Часто встречается также метод мультипликативной коррекции рассеяния (multiplicative signal correction, MSC) [80].

Уменьшение уровня экспериментального шума. Сглаживание спектральных кривых. Общеизвестно, что наличие шума может затруднить моделирование экспериментальных данных. При этом в большинстве хемометрических алгоритмов непосредственно в процессе моделирования не делается никакой оценки характера или величины шума. Поэтому результирующие модели содержат некоторую степень неопределенности, зависящую от величины и характера шума в экспериментальных данных. В серии работ [86-88] сделаны попытки учета инструментального шума на основе предварительного моделирования данных хемометрическими методами, такими как PCA, его обобщением на многомерные данные (PARAFAC) и факторным анализом.

Исторически наиболее часто используется сглаживание полиномиальным методом наименьших квадратов, разработанным Савицким и Голеем в 1964 году [89]. В последнее время стали появляться новые алгоритмы распознавания и удаления отдельных типов шумов [90, 91]. В настоящее время подобные процедуры используются в рутинном анализе и включены в стандартные пакеты обработки спектрометрических данных [38, 66, 92-94].

Метод независимых компонент в исследовательском анализе спектрометрических данных

Предварительное исследование структуры данных следует непосредственно за начальной математической обработкой спектров. Необходимость такого шага обусловлена тем, что часто спектрометрические отклики объектов чрезвычайно сложны для простой визуальной интерпретации. Причиной этому служат сильно перекрывающиеся полосы спектров отдельных компонентов, поэтому не всегда возможно идентифицировать индивидуальное(ые) соединение(я), ответственное(ые) за какое-либо качественное свойство группы однотипных объектов. Часто межклассовые вариации минимальны и обусловлены лишь небольшими концентрационными различиями компонентов. Для выявления целесообразности применения сложных статистических методов к экспериментальным данным рекомендуется сначала проводить исследовательский анализ методом PCA для выявления наличия «спрятанной» в спектрах информации о качественных характеристиках объекта (например, место производства продукта, фальсификация, подтверждение подлинности маркировки). Только после этого спектрометрические данные могут быть использованы для построения модели дискриминации, которая будет применяться для рутинного анализа новых образцов.

Другой задачей исследовательского анализа является обнаружение выбросов и их удаление из набора данных, которое может быть выполнено также на основе PCA. Выбросом считается образец, резко отличающийся от остальных и непропорционально влияющий на модель. Причинами этого явления являются либо экспериментальные факторы, такие как неправильные пробоподготовка или хранение образца, а также инструментальные артефакты. Выпадающие образцы также могут обладать определенными свойствами, которые могут трактоваться в целях контроля качества продуктов. В любом случае, причина отклонения образца должна быть установлена, а многомерная модель впоследствии должна быть построена без учета обнаруженных выбросов.

В данной главе рассмотрены как традиционные, так и новые альтернативные хемометрические методы поиска выбросов и исследовательского анализа и их применение для больших массивов ЯМР, ИК и РФ спектрометрических данных.

PCA является основным хемометрическим методом сжатия данных, который использует трансформацию матрицы экспериментальных данных Х в ортогональный базисный набор главных компонент (PCs), представляющий произведение матрицы счетов T и матрицы нагрузок Р (уравнение 1). PCA является также составным блоком многих специализированных хемометрических алгоритмов, таких как дискриминантный анализ и метод независимых компонент [1,4]. Первая PC описывает максимальную вариацию в исходных данных. Последующие PC объясняют максимальный процент из остаточной вариации начальных данных. Начиная с некоторого порядкового номера, PC содержат только шум, а не информацию о системе. Таким образом, спектрометрические данные в PCA модели представляют линейную комбинацию ограниченного числа PCs, меньшего чем число начальных переменных [1,4].

При анализе результатов PCA графики счетов используются для графического представления сходства или различия образцов. Обычно исследуются графики счетов на первые несколько главных компонент (например, PC1 и PC2 или PC2 и PC3), однако, исследовать желательное свойство системы иногда возможно только при изучении главных компонент более высокого порядка (до 5-7) или трехмерной визуализации значений счетов. Значения нагрузок каждой PC позволяют выявить значимые для разделения переменные (длины волн, химические сдвиги, и т.д.) [1,4].

Важным аспектом PCA является возможность идентификации выбросов. Выбросом может считаться образец, резко отклоняющийся от остальных и непропорционально влияющий на модель. Наличие аномальных значений счетов могут указывать на важные характеристики соответствующих им образцов, которые впоследствии используются в исследовательских целях, например, для контроля качества пищевых продуктов. Так, с помощью ЯМР спектрометрии возможно определить присутствие меламина в молочных продуктах, контроль за содержанием которого стал актуален после пищевого кризиса в Китае в 2008 году [112]. Хемометрический подход позволил не только выявить загрязненные образцы и идентифицировать в них меламин, но и обеспечить количественную информацию о его содержании после идентификации [112].

Таким образом, главным преимуществом PCA является то, что он предоставляет простую репрезентацию начальных данных и описывает их меньшим числом переменных, чем в исходном наборе. Благодаря этому стало возможно исследование системы на основании “интегрального” PCA на наличие выбросов и группировки образцов, не определяя природу и концентрацию индивидуальных соединений.

Качественный и количественный анализ смесей сложного состава

Богатая спектральная информация, содержащаяся в ЯМР спектрах, делает возможным одновременный контроль нескольких параметров. Удачной иллюстрацией данной возможности является оценка качества вина. Для этого алкогольного напитка интересующими аналитика характеристиками являются год выпуска, сорт и регион произрастания винограда. Недавние исследования показали возможность использования ЯМР спектрометрии в сочетании с методами многомерного статистического анализа для определения основных параметров вина [164]. 95% правильных отнесений достигнуто для дискриминации сортов винограда Пино Нуар, Лембергер, Пино блан/Пино Гри, Мюллер-Тургау, Рислинг и Гевюрцтраминер. Кроме того, дискриминация спектров вин урожая 2008 и 2009 годов привела к 97% правильности прогноза. Географическое происхождение вин из крупнейших немецких винодельческих регионов Райнландпфальц, Рейнгессен, Мозель-Саар-Рувер, Баден и Вюртемберг предсказано с верояттностью 89% [164].

В процессе выполнения работы исследованы 1383 образца вина урожая 2005-2010 годов, для которых виноград был собран в 13 винодельческих регионах Германии: Баден (BAD), Вюртемберг (WT), Пфальц (PFL), Рейнхессен (RHH), Мозель-Саар-Рювер (MSR), Франкен, Наэ (NAH), Саксония, Саале, Средний рейн (MRH), Райнгау (Rheingau), Ар (Ahr) и Гессише Бергштрассе (Hessische Bergstrasse). Проанализированы образцы вина, изготовленные из 37 сортов винограда. Сорта красного винограда включали Пино-нуар (116/49), Дорнфельдер (86/69), Лембергер (26/4), Португез (23/20), Тролингер (18/6), Регент (14/5) и Пино Менье (12/2). Наиболее репрезентативные образцы белого винограда включали сорта

Рислинг (342/247), Мюллер-Тургау (121/64), Пино Блан (81/31), Кернер (63/45), Пино-гри (43/16), Шардоне (16/8) и Гутэдель (11/4). В скобках показано число образцов, исследованных с использованием ЯМР спектроскопии/ на содержание стабильных изотопов. Распределение образцов по регионам и году сбора урожая приведено в таблице 6А приложения А.

PCA анализ полного набора данных. На первом этапе данного исследования PCA использован для визуализации различия между образцами вина. Что касается места произрастания винограда, очевидно, что образцы вина, относящиеся к большинству из 13 винодельческих регионов могут быть только приблизительно дифференцированы на графике счетов в пространстве PC1 и PC5 (за исключением области Наэ, для которой точки разбросаны по всему графику).

В случае кластеризации относительно года производства винограда полученный результат был еще хуже, так как только кластеры вина урожая 2007, 2006, 2005 и 2009 годов были дифференцированы. Худшая PCA модель была построена для 14 сортов белого и красного вина, в которой только три кластера (Элблинг, Португизе и Каберне Совиньон) были разделены. Тем не менее, четкое различие между сортами красного и белого вина прослеживается на графике счетов в пространстве PC1-PC3.

Результаты первичного PCA моделирования привели нас к выводу, что вариация в наборе ЯМР спектров из 1383 образцов вин слишком большая, чтобы ее было возможно исследовать на одном графике счетов. Очевидно, что помимо сорта винограда, года сбора урожая и места произрастания винограда, каждой образец вина имеет свои специфические особенности, которые сказываются на его ЯМР спектре. Это приводит к тому, что даже внутри одной группы (сорт винограда, год урожая или географическое происхождение) различия между образцами значительны.

PCA анализ подгрупп данных. Нами предложена следующая стратегия хемометрического анализа исходного набора данных вина: установить постоянными некоторые параметры (сорт вина, год урожая или географическое происхождение) и проводить PCA исследование в отношении остальных параметров (табл. 8).

Можно предположить, что данная схема уменьшит количество рассматриваемых образцов и, что более важно, снизит дисперсию в пределах конкретного набора данных. Очевидно, самый простой случай для хемометрического анализа заключается в установлении постоянными двух из трех параметров (например, сорт винограда и год урожая) и построении PCA модели для определения третьей характеристики (географическая область производства). Более сложные PCA модели могут быть построены, когда только один из трех параметров постоянен (например, для сорта Рислинг возможны две модели для предсказания года изготовления вина и происхождения). Наконец, наиболее сложной задачей является построение PCA модели относительно сорта вина без априорного знания о географическом происхождении или годе изготовления (табл. 8).

В качестве примера моделей первой группы, PCA анализ проведен для спектров 97 образцов вина сорта Рислинг из региона Мозель-Саар-Рувер (рис. 31а). Можно распознать пять различных кластеров, однако, кластер образцов 2006 года перекрывается с подгруппой образцов 2005 года. Вероятной причиной является то, что погодные условия были схожи в течение этих двух лет. Аналогичные результаты получены при рассмотрении образцов Рислинг урожая 2006 года (n = 54): образцы вина, произведенные в Бадене и Вюртемберге, находятся в одном кластере, потому что эти регионы близко расположены друг к другу.

Вина урожая 2009 года (n=271) выбраны в качестве одной из наиболее представительного набора среди моделей второго типа (постоянен только один параметр). Очевидна кластеризация образцов вина, произведенных в семи географических регионах (рис. 31б). Интересно отметить, что точки, соответствующие образцам из Вюртемберга и Рейнгау, разбросаны на графике счетов, вероятно, из-за вариаций внутри данных кластеров, в то время как кластеры, относящиеся к близкорасположенным друг к другу регионам Райнхессен и Пфальц, перекрываются между собой.