Содержание к диссертации
Введение
2 Литературный обзор 8
Общие положения 8
Порошковая дифракция 9
Факторы расходимости 13
Источники ошибок в методе Ритвельда 14
Статистика частиц 18
Точность и достоверность кристаллических структур, полученных по данным ПРД 27
Метод Ритвельда как способ подтверждения структурной модели 31
Квантовохимические расчеты с периодическими граничными условиями 35
3 Ограничения Морзе и критерий достоверности
-хинакридон 51
GB115 и ацетолон 59
Апробация О-критерия 74
о-фосфорилированный фенолят меди 74
Фумараты 75
4 Симметризованные ограничения 79
Модификация ограничений Морзе 79
Бис-адамантилклатрохелат кобальта 84
Бутиратуранилат цезия 86
5 Окно неопределенности 88
Согласованность уточнения с ограничениями 88
Неопределенность ограничений и ПШОН 92
Приборная зависимость ПШОН 95
Влияние набора ограничений и профильной функции на ПШОН 99
Зависимость от максимального угла съемки 101
Литературные примеры 103
Апробация ПШОН 106
Рутинные уточнения и определения точности 106
Эмопаг 108
Тетрагидрокситетрафенилтетрасилоксан 110
6 Экспериментальная часть
- Точность и достоверность кристаллических структур, полученных по данным ПРД
- о-фосфорилированный фенолят меди
- Бис-адамантилклатрохелат кобальта
- Зависимость от максимального угла съемки
Введение к работе
Актуальность темы. Определение кристаллической структуры является важным элементом исследования химических соединений, а наиболее информативный и доступный метод решения данной задачи — монокристальная рентгеновская дифракция (МРД). Однако для многих практически значимых соединений рост монокристаллов подходящего для МРД качества представляет собой сложную, а иногда и неразрешимую за разумное время проблему. Поэтому в последние годы структуры все чаще определяют на основе методов порошковой рентгеновской дифракции (ПРД).
Уточнение структурных моделей по данным ПРД стало возможным после разработки Хьюго Ритвельдом метода полнопрофильного уточнения порошко-граммы: вместо извлечения интенсивностей отдельных (в общем случае сильно перекрывающихся) линий и их уточнения по структурным факторам он предложил моделировать полную дифрактограмму и минимизировать расхождение между расчетной и экспериментальной порошкограммами. Однако для молекулярных кристаллов применение ПРД серьезно ограничивалось из-за проблемы поиска структурного мотива, необходимого в качестве начальной модели для уточнения. Данная проблема во многом была решена за счет роста вычислительных мощностей и развития методов Монте-Карло, что сделало применение ПРД для молекулярных кристаллов более популярным. Согласно статистике Кембриджской базы структурных данных (КБСД) число публикуемых за год структур, уточненных на основе ПРД, выросло за 20 лет в 10 раз и сейчас превышает 270.
Однако, как и 50 лет назад, применение ПРД сопряжено с массой трудностей, обусловленных меньшей информативностью порошкограммы: трехмерные монокристальные данные после усреднения по всем ориентациям кристалла становятся одномерными. Во многом по этой причине «уровень доверия» к ПРД не так высок, как хотелось бы и как необходимо для решения многих структурных задач.
Наиболее распространенными параметрами, описывающими корректность модели в ПРД, являются зависящий от модели фактор расходимости (аналог R1 в МРД) и не зависящие от модели факторы расходимости: , характеризующий поточечное различие между экспериментальной и расчетной порошко-граммами, и его модификации — , , . Основной недостаток всех этих параметров — сильная зависимость от экспериментальных условий, что делает их сравнение между различными порошкограммами ненадежным, а абсолютные значения — малоинформативными. Другой их существенный недостаток заключается в том, что они не связаны с точностью итоговой структурной модели.
Несколько литературных примеров сравнения порошковых структур с соответствующими монокристальными показывают, что различия в длине связи могут
достигать 0.1 A. Однако это значение ошибки нельзя связать с величиной параметров расходимости.
Общепринятым методом проверки достоверности уточнения структур в ПРД остается субъективная визуальная оценка гладкости разностной кривой. К сожалению, стандартная в МРД экспертная проверка структур на основе амплитуд атомных колебаний (например, тест Хиршфельда) в большинстве случаев неприменима, а «химическая интуиция» при анализе особенностей межмолекулярных контактов и геометрии плохо параметризуема. Таким образом, процедура решения структур в ПРД очень слабо защищена от ошибок. Алгоритмы, применяемые для ab initio решения молекулярных структур, не гарантируют полноты и точности структурной модели. При выявлении ошибочных конформеров, отсутствующих молекул растворителя или неверной связности исследователи полагаются на последующее уточнение методом Ритвельда.
Современным методом верификации полученного решения является расчет кристалла в рамках теории функционала плотности (DFT) с использованием результата уточнения (или даже поиска структурного мотива) в качестве стартовой модели. Такой расчет позволяет не только верифицировать структуру, но и получить дополнительную структурную информацию. Однако данный метод требует больших вычислительных ресурсов и сопряжен с проблемами описания дисперсионного взаимодействия в молекулярных кристаллах. Он также полностью неприменим к структурам со статическим разупорядочением в кристалле.
Таким образом, актуальной является выработка надежных критериев точности и достоверности структур, уточненных по порошковым данным.
Целью данной работы является разработка подхода к уточнению структур методом Ритвельда с ограничениями — подхода, который позволил бы проверять достоверность результата и обнаруживать ошибки без использования независимых данных или экспертной оценки, а также оценивать точность итоговой структурной модели.
Научная новизна. В рамках данной работы разработаны подходы к проверке достоверности и оценке точности порошковых структур, уточненных методом Ритвельда. Это позволило:
1. предложить критерий (далее О-критерий), не требующий ни привлечения дополнительных (кроме необходимых для уточнения) данных, ни экспертной оценки, и основанный на статистическом анализе отклонения длин связей от заданных значений;
-
проверить применимость О-критерия для уточнения структур органических и координационных соединений по дифрактограммам разного качества и показать, что данный критерий позволяет как обнаруживать принципиально неверные решения, полученные методами симуляции отжига, так и изучать более тонкие структурные особенности;
-
предложить метод оценки абсолютной точности геометрических параметров, полученных в ходе уточнения по данным ПРД.
Практическая ценность работы включает:
разработку доступного для потенциальных пользователей программного обеспечения, позволяющего проверять достоверность и оценивать точность порошковых структур в полуавтоматическом режиме;
получение структурных данных для 11 ранее не исследованных соединений различных классов.
Личный вклад автора. Постановка задач и целей исследования, обсуждение и обобщение всех полученных результатов, формулировка научных положений и выводов, которые выносятся на защиту, принадлежат лично автору настоящей работы. Все работы, связанные с выполнением рентгенодифракционных экспериментов, квантовохимическими расчетами и уточнением структур, описанные в диссертации, выполнены автором в сотрудничестве с коллегами, аспирантами и стажерами лаборатории рентгеноструктурных исследований ИНЭОС РАН.
Структура диссертации. Диссертационная работа изложена на 131 странице, состоит из введения и пяти глав, выводов и списка литературы, и содержит 93 рисунка и 8 таблиц. Список цитируемых публикаций включает 61 наименований.
Точность и достоверность кристаллических структур, полученных по данным ПРД
Факторы расходимости, описанные в предыдущей главе, призваны оценивать качество уточнения в целом. При этом нет никакой возможности связать их с погрешностью конкретных структурных параметров. Тем не менее, оценка такой погрешности может быть вычислена в процессе уточнения МНК. Оценки стандартного отклонения (estimated standard deviations, e.s.d.) параметров, полученные таким образом, широко используются при оценке качества монокристального уточнения (например, экспертной системой PLATON/CHECKCIF [32]). Так как метод Ритвельда также представляет собой уточнение МНК, оценки стандартного отклонения структурных параметров могут быть получены и для порошкового уточнения.
Экспериментально, оценки ошибок параметров, полученные из полнопрофильного уточнения, обычно оказывались в 2–4 раза меньше, чем при уточнении тех же данных методом интегральных интенсивностей. Самим Ритвельдом это рассматривалось как преимущество метода, указание на использование в уточнении большего количества значимой информации. Однако это соотношение сохранялось и при переходе к образцам с практически не пересекающимися линиями, когда количество информации, добавляемой за счет разрешения муль-типлетов, очевидно мало. Анализ, проведенный Сакатой и Купером [4], показал, что результаты метода Ритвельда и уточнения МНК по интегрированным интен-сивностям различаются даже в случае полностью разделимых пиков. Различие в оценках стандартных отклонений параметров связано, таким образом, не с разделением перекрывающихся пиков, а с другими особенностями методов. Авторы связали заниженные e.s.d в методе Ритвельда с неучтенной корреляцией точек дифрактограммы, относящихся к одному отражению 2.2, и отнесли такое занижение к недостаткам метода.
Более строгие теоретические исследования метода Ритвельда (в сравнении с методом интегральных интенсивностей) были проведены Принсом [7] и Хью-итом [5]. Они показали, что при замене точек дифрактограммы, описывающих пик, их суммой (скорректированной на фон) и приписывании этой «интенсивности» ошибки в соответствии с распределением Пуассона теряется не только ненужная при уточнении структуры информация о форме линии, но и информация об ошибке измерения интенсивности (содержащаяся в соответствии или
Корреляция наблюдений в методе Ритвельда несоответствии экспериментальных точек этой форме). На языке статистики это означает, что при известной форме линии (2 - 2) аналитическая площадь пика является более эффективной оценкой интенсивности, чем сумма интенсив-ностей точек. Таким образом, метод интегральных интенсивностей завышает ошибки параметров из-за неэффективного использования данных даже при полностью разрешенных пиках (и потому не может быть рекомендован к использованию независимо от задачи).
Метод Ритвельда же является математически корректным при выполнении ряда обычных (для задач МНК-минимизации) условий. Первое условие состоит в соответствии модели данным: при плохом соответствии (которое можно определить по высоким факторам расходимости и сложной разностной кривой) нельзя доверять ни самой модели, ни определенным по ней параметрам, ни, разумеется, оценкам погрешностей. Второе условие состоит в соответствии весовой схемы источникам ошибок.
Экспериментальное решение проблемы применимости порошковых оценок стандартного отклонения параметров предложили Хилл и Мэдсен [8]. Для оптимального проведения порошковых экспериментов «в реальном времени» in situ они изучали влияние таких факторов (находящихся в прямой связи с временем получения дифрактограммы), как угловой шаг съемки и время измерения одной точки (время экспозиции) на точность и воспроизводимость эксперимента на примере корунда (-Al2O3), платтнерита (-PbO2) и перидота ((Mg0.9Fe0.1)2SiO4). Авторы обнаружили, что с увеличением времени съемки все основные парамет ры расходимости и оценки стандартных отклонений падают до предельных значений (Рисунок 2.3a). Уточняемые структурные параметры в целом становятся ближе к «правильным», уточненным по монокристальным данным, однако их изменение невелико. В то же время параметр GoF растет от приемлемых значений между 1 и 2 до очень высоких величин (Рисунок 2.3b) При увеличении времени съемки закономерно уменьшается доля ошибок, связанных со статистикой счета (ограниченностью точности измерения каждой точки дифрактограммы). Наличие предельных значений параметров расходимости, не уменьшающихся при дальнейшем улучшении качества эксперимента, свидетельствует о том, что случайные ошибки съемки становятся пренебрежимо малы по сравнению с другими источниками ошибок. Увеличение GoF также показывает статистическую несостоятельность уточнения: низкий вклад случайных ошибок и высокий — систематических ошибок модели. В таком случае e.s.d. уже не будут отражать настоящую воспроизводимость эксперимента. Строго говоря, авторы показали, что эксперимент становится «слишком хорош» для используемой модели уточнения при максимальной интенсивности дифрактограммы уже в несколько десятков тысяч зарегистрированных квантов. Несмотря на свою теоретическую необоснованность, e.s.d. относительно хорошо оценивают «настоящую» воспроизводимость уточнения методом Ритвельда, измеренную авторами путем пятикратного повторения эксперимента: оценки ошибки, полученные из МНК и из повторения эксперимента, отличаются не более чем вдвое.
о-фосфорилированный фенолят меди
Сравнение пар графиков Ad/Rwp, тем не менее, показывает, что графики Qr о р и Qr-M практически совпадают начиная со значений rms А 0.04 A, тогда как о Qw-p и Qw-M заметно различаются вплоть до значений rms А в 0.2 A. Мы можем предположить, что такое различие в поведении между верной и неверной моделями обусловлено тем, что уточнение Qw сильно зависит от ограничений, в то время как уточнение Qr сходится к минимуму, соответствующему существующей химической структуре. Величины Ad в окрестности минимума относительно малы, и модель находится в области, в которой параболические и основанные на потенциале Морзе ограничения ведут себя одинаково. Результат, тем не менее, можно использовать только как визуальный критерий для обнаружения неверных структур, так как не существует удобного общепринятого метода оценки схожести кривых.
Тем не менее, если общий график Ad/Rwp показывает различие между Qw-р и Qw-M, можно ожидать, что индивидуальные значения Ad содержат больше информации о природе различия. Действительно, графики зависимости ошибок индивидуальных связей от К\ для Qw-p и Qw-p сильно различаются: при К\ 30 три связи в Qw-M начинают значительно отклоняться от других свя о зей, достигая значений Ad 0.4 A, тогда как на графике Qw-p отсутствует такая особенность (Рисунки 3.6, 3.7). Это определенно вызвано использованием в Qw-М ограничений, основанных на потенциале Морзе, которые позволяют индивидуальным связям «рваться»: растягиваться до высоких значений Ad с низким значением штрафной функции. В то же время аналогичные графики для Qr-p и Qr-M не показывают таких отклонений (Рисунки 3.8 и 3.9).
Присутствие отклоняющихся значений Ас/, которые с точки зрения статистики можно называть «выбросами» можно определить с помощью простого статистического теста основанного на межквартильном расстоянии (interqartile range IQR). В описательной статистике IQR определяется как разность третьего и первого квартилей ((Зз — Qi), а выбросами считаются значения выше Q3 __ 1.5/Q.R (верхняя граница) и ниже Q\ — 1.5IQR (нижняя граница). Статистический анализ в терминах квартилей обычно визуализируют в виде ящика-с-усами где «ящик» соответствует IGR «усы» обозначают самые дальние значения внутри границ а выбросы обозначают кружками [11]. Ящики-с-усами для всех значений 1 для Qr-M и Qw-M подчеркивают различие в уточнении этих моделей: на графике для неверной модели присутствуют выбросы в широком диапазоне 1, а для верной модели выбросы отсутствуют (Рисунок 3.10).
Следует отметить, что определение выбросов в этой модели не делает никаких предположений о природе исследуемой системы или типичных длинах ковалентных связей. «Выбрасывающиеся» значения Ad определяются с помощью стандартной и широко используемой статистической процедуры. Этот результат может быть использован как основа для абсолютно нового критерия для определения неверных структур в процессе уточнения методом Ритвельда (далее О-критерия, от outlier —выброс): присутствие выбросов среди Ad всех связей, уточненных с ограничениями, основанными на потенциале Морзе. Действительно, такой критерий не задействует никакую информацию, не используемую в самом уточнении (практически любое уточнение органической структуры полагается на уже известные из расчетов или анализа экспериментальных данных длины связей), и не зависит от заданного заранее значения «приемлемой» ошибки. GB115 и ацетолон
Хотя структура Q является хорошим литературным примером, она очень мала и уточнена по порошкограмме очень низкого качества. Разумно в качестве следующего шага проверить предполагаемый критерий на большей структуре и порошкограмме более высокого качества.
Структурная формула GB115 N-(6-фенилгексаноил)глицил-Х-триптофанамид (Рп(СЬІ2)5С(0) — Gly— Zrp — NH2, далее Gbll5) — дипептидный аналог тетрапептида холецистоки-нина и потенциальный анксиолитик с активностью на крысах 0.05-0.2 мг/кг при оральном или интробрюшинном введении [41]. Так как молекула содержит 32 неводородных атома и 14 торсионных степеней свободы (всего 20 степеней свободы), можно заключить, что это относительно большая структура для решения структуры по данным лабораторного дифрактометра.
Порошкограмму Gb115 измеряли в геометрии Брэгга-Брентано и геометрии на просвет. Дифрактограмма содержит пик при 4.92 2, который на момент проведения исследования не удавалось надежно измерить в геометрии на просвет на нашем оборудовании. Дифрактограмма, измеренная в геометрии Брэгга-Брентано, содержала это отражение, но показывала признаки сильной преимущественной ориентации, и для дальнейшей обработки мы выбрали порошко-грамму, измеренную в геометрии на просвет.
Геометрия молекулы для дальнейшего решения и уточнения была получена PBE0/6-311G расчетом изолированной молекулы. Поиск структурного мотива проводили в прямом пространстве методом параллельной закалки («Parallel Tempering»), реализованном в программе FOX [26]. Попытки решить структуру GB115 без ограничений на межмолекулярные контакты не увенчались успехом, поэтому такие ограничения были наложены на все контакты, кроме контактов ON. Пятьдесят запусков FOX привели к двум решениям с относительно разумной геометрией, далее GB115a и GB115b. Решение GB115a имело меньший
Бис-адамантилклатрохелат кобальта
Как было показано ранее на основе монокристальных данных, в хлорированных по ребрам кобальтовых клатрохелатах велика доля низкоспиновой формы кобальта, которую можно обнаружить как по данным магнетохимии, так и по смещению кобальта из центра клетки. Для бис-адамантильного производного, с одной стороны, не образовывались монокристаллы и с другой стороны, анализ анизотропии магнитной восприимчивости показывал возможность существенных структурных отличий от ранее полученных бис-бутильного и бис-гексадецильного производных. Представляло интерес как установить структуру бис-адамантильного производного из данных порошковой рентгеновской дифракции, так и определить, действительно ли она отличается от монокристальных, снятых при той же температуре.
Структура клатрохелата была определена методом симуляции отжига. Желаемые длины связей и валентные углы для ограниченного уточнения были получены из разных источников: для адамантильных радикалов использовались расчетные данные, для «клетки» — усредненные и симметризованные данные монокристальных экспериментов аналогичных клатрохелатов.
Мы предложили две модели уточнения: одну полностью симметричную, предполагающую ограничения длин связей Co–N и валентных углов N–Co–N, и другую со свободно уточняемыми координатами кобальта, допускающую асимметрию.
Уточненные структуры различаются незначительно: в обоих случаях показывают заметное смещение кобальта из центра азотной призмы. Однако анализ расходимости длин связей показывает отсутствие выбросов как в симметричной, так и в асимметричной модели. Таким образом, мы не можем различить модели в терминах нашего критерия.
Тем не менее, смещение атома кобальта из центра призмы не выглядит случайным артефактом уточнения. В случае уточнения монокристальных данных распространенной техникой проверки таких тонких структурных особенностей является фиксация «проблемного» атома и сравнение R-факторов: если необычное положение атома не является структурной особенностью, а объясняется недостаточной точностью определения положения, R-фактор, как правило, изменяется незначительно.
Воспроизвести такой подход дословно в случае уточнения порошковых данных не представляется возможным: окончательный всегда является компромиссом между «глубиной» уточнения и искажением геометрии молекулы, и его выбор остается на совести кристаллографа. Тем не менее, можно построить «жестко симметричную» модель уточнения и посмотреть на статистику ошибок связей: если смещение атома кобальта «не принципиально» для уточнения, то такая модель не должна отличаться от уже проверенных «хороших» моделей.
«Жестко симметричная» модель строилась следующим образом: все ограничения оставались такими же, как в предыдущем случае, однако координаты атома кобальта не уточнялись, а геометрически рассчитывались на каждом шаге как координаты центра призмы, образованной атомами азота координационной сферы. Анализ расходимости длин связей в этой новой модели показывает наличие выбросов в отклонениях длин связей клетки. Что, по-видимому, свидетельствует о неслучайности смещения кобальта и о возможности анализа столь тонких эффектов по порошковым рентгенодифракционным данным.
Критерий был также апробирован на трудной в уточнении структуре бути-ратуранилата цезия BuUCs. Для комплекса была доступна низкотемпературная монокристальная структура. К сожалению, из-за поглощения урана на медном излучении и, возможно, двойникования, качество уточнения было недостаточным для публикации. Мы измерили порошковую дифрактограмму BuUCs при комнатной температуре, и обнаружили, что его структура сильно отличается от низкотемпературной, хотя бы из-за разницы в параметрах ячейки.
Несмотря на сомнительный вид дифрактограммы, сильное поглощение, широкие линии и преимущественную ориентацию, в результате уточнения нам удалось получить структуру, достоверную с точки зрения как О-критерия, так и
Низкотемпературная монокристальная (a) и высокотемпературная порошковая (b) структуры BuUCs, вид вдоль оси b. общепризнанных (геометрических и статистических) критериев качества уточнения. Факторы расходимости Rwp/R wp/Rp/Rp/R-Bragg составили, при rms Ad равном 0.013 A, 3.90/7.61/2.98/6.53/1.50% соответственно. Верификация структуры с помощью расчетов DFT оказалась невозможной из-за сильной разницы между высоко- и низкотемпературной структурами. Анализ кристаллической упаковки (Рисунок 4.6) с помощью разбиения Вороного—Дирихле показал, что увеличение объема происходит за счет бутильных групп, что указывает на их разупорядочение в высокотемпературной структуре.
Для проверки такой возможности мы варьировали желаемые значения связей в алкильных группах и обнаружили, что структура мало чувствительна к их изменению. Для многих связей C—C допустимым оказывалось изменение на 0.4 A, тогда как для U—O с карбоксильными группами — только 0.05 A. Мы предположили, что изменение последних невозможно без сдвига лиганда в целом, что сильно сказывается на уточнении. Изменение же связи C—C отвечает сдвигу только одного разупорядоченного атома углерода.
Логично предположить, что в данном случае положения углеродов действительно определяются хуже. Но можно ли аналогичным способом выявить различия в точности разных частей структур в менее очевидных случаях? Насколько универсальны получаемые значения допустимых сдвигов и можно ли их сравнивать для разных структур? Разных способов съемки и параметров уточнения? Эти вопросы заслуживали более подобного рассмотрения.
Зависимость от максимального угла съемки
В предыдущих главах мы показали, что порошковые структуры можно верифицировать с помощью уточнения методом Ритвельда со специальной схемой ограничений и статистического анализа его результатов. «Неверные» структуры (имеются в виду локальные минимумы глобального поиска в прямом пространстве) идентифицировались по присутствию выбросов в наборе отклонений длин связей от значений ограничений. Этот подход с небольшими модификациями был применен для уточнения и верификации структур органических и координационных соединений. Его главными недостатками были невозможность различать между разными «верными» структурами, сложность интерпретации «малых выбросов», отклоняющихся на 0.01–0.03A от значений ограничений, и необходимость специальной схемы ограничений. Последнее ограничивало перечень подходящих программных пакетов для уточнения методом Ритвельда программой Bruker TOPAS [46] с набором написанных нами макро-определений.
Целью данной главы является разработка универсальной версии этого подхода, свободной от вышеуказанных недостатков и способной оценивать корректность любой структуры, уточненной методом Ритвельда. Согласованность уточнения с ограничениями Большинство уточнений органических структур методом Ритвельда требуют наложения ограничений на длины связей и валентные углы. Для справок ниже приведены детали реализации уточнения с ограничениями по документации Bruker TOPAS [46].
Функция, минимизируемая в ходе уточнения, записывается в виде if — множитель, необходимый для нормализации %2, У то и Yc m — наблюдаемая и расчетная интенсивности в точке т, М — количество точек дифракто-граммы, wm = Y — вес точки m, Np — количество наложенных ограничений, Pj — штрафные функции, K ij — вес, автоматически рассчитываемый при уточнении для достижения хІ = ХІ/ ь К і — определяемый пользователем общий вес ограничений.
Если все штрафные функции имеют вид (5.5), то математически они ничем не отличаются от дополнительных точек данных с высоким весом, заданным в явном виде. Большинство программ для уточнения методом Ритвельда предоставляют возможность задавать общий вес ограничений относительно общего веса точек дифрактограммы. Например в программе GSAS [10] параметр «Soft restraint weight» примерно соответствует среднему произведению К\К2. Мы будем использовать обозначение К\ по названию соответствующего параметра Bruker TOPAS.
Так как метод Ритвельда математически представляет собой уточнение методом наименьших квадратов, то взвешенные ошибки всех точек данных должны следовать нормальному распределению. Если для всех ограничений на длины связей задан одинаковый вес, то из этого утверждения следует нормальность распределения Adj = Dj — dj. Назовем уточнение, в котором распределение Adj нормально, согласованным с ограничениями.
Тесты на нормальность выборки, основанные на параметрической статистике, слишком консервативны и считают нормальными подавляющее большинство встреченных нами наборов Ad при уточнении с параболическими ограничениями. В то же время мы показали ранее, что требование отсутствия выбросов в наборе Adj можно использовать для определения ненормальных данных. Аналогично применявшимся в предыдущих главах подходам, мы использовали для поиска выбросов критерий, принадлежащий к семейству устойчивых непараметрических статистических методов и определяющий выброс как значение лежащее вне диапазона {Q\ — к IQR Q3 + к IQR), где Q\ и Q% — первый и третий квартили исследуемой выборки, IQR = Q% — Q\.
Этот подход работает также в присутствии нескольких выбросов, что делает его более предпочтительным для наших задач, чем тесты Шапиро-Вилка и Диксона. Выбор к однако, может зависеть от конкретной задачи. Для широко используемой пятиточечной визуализации распределения (ящик-с-усами, биржевая диаграмма) используется к = 1.5, при котором разрешенный диапазон покрывает 99.3% нормального распределения [11]. Однако вероятность наличия хотя бы одного выброса зависит от размера выборки и приближается к единице при его неограниченном увеличении (Рисунок 5.1). Вероятность появления выброса в нормальной выборке — это вероятность ложноположительного результата теста. Изменяя к в зависимости от размера выборки, вероятность ложноположительного срабатывания можно уменьшить до любого заданного значения.
Так как общий вес ограничений влияет на результат уточнения, мы проверяем это условие для диапазона 1, допуская наличие выбросов в 5% точек 1. Мы обнаружили, что для типичного уточнения структуры молекулярного кристалла диапазона 1 от 100 до 0.25 (с уменьшенным шагом на отрезке 15–0.25) оказывается достаточно.
Критерий согласованности с ограничениями представляет собой более слабый аналог верификации структуры с использованием ограничений, основанных на потенциале Морзе, предложенной в [57]. Так как квадратичные ограничения не «акцентируют» выбросы, как ограничения «Морзе», любое не согласованное с ограничениями уточнение будет иметь выбросы, будучи уточнено с ограничениями «Морзе». Обратное неверно: например, структура -хинакридона, уточненная по дифрактограмме -хинакридона, согласована с ограничениями, хотя неверна и имеет выбросы при уточнении с ограничениями «Морзе».
Чтобы изучить чувствительность к ошибкам в структуре, мы исследовали диапазоны изменения значений ограничений, в которых сохраняется согласованность для хорошо известной структуры сахарозы (S).
В кристаллическом состоянии молекулы сахарозы связаны сеткой водородных связей и образуют крупные кристаллы. Также сахароза не образует полиморфных модификаций и сокристаллов с растворителями при нормальном давлении; для нее легкодоступны образцы высокой чистоты. С 23 неводородными атомами в независимой части элементарной ячейки и пятью (не включая конформации циклов) внутренними степенями свободы сахароза представляет собой пример небольшой органической структуры, которую можно решить и уточнить по данным ПРД. Чтобы изучить, насколько ее геометрия воспроизводится в порошковых уточнениях, мы провели прецизионное монокристальное исследование при комнатной температуре. Для получения значений ограничений мы использовали уточнение с максимальным межплоскостным расстоянием 1 A, предполагая, что именно такая геометрия является лучшей теоретически достижимой для уточнения порошковых данных.