Введение к работе
Актуальность работы
В диссертации изложены результаты одной из первых попыток адаптации и применения Грид-технологий в геофизике и других смежных науках о Земле. Автором разработана новая технология и построена Грид-среда, позволяющая хранить большие объемы геофизических данных, описывать их в метаданных, использовать данные для анализа и моделирования, сохранять результаты моделирования и загружать исходные данные и результаты выборок для дальнейшей
9Foster, Ian; Carl Kesselman. The Grid: Blueprint for a New Computing Infrastructure. Morgan Kaufmann Publishers. ISBN 1-55860-475^8. 103апуск проекта LCG
r моделирования"
Продукты «опудайы т .
йабгаайШйй лаг-алы и
инффмаиия: высота, ги^ропогда,
Активное хранилища
Gammon Data MedeJ
SQL Server Ctustsr
QCiS/VOAi и Mstlab m
Чъатиюв
Виртуальная обсерватория
Порталы для доегупа к данным
Пользовательские
metadata
metadata Ordering
Авали» дан».*
Envifenmerstai SeemflQ Search Engine (ЕЙ5Ё)
трекдш
-Трижды а вэашЗйатшН
Визуализация
NASA World Wind
EVL UlC Scalable Gfa^ics Environment (SAG«SAtL}
Рисунок 2. Общая схема системы
работы. Автором впервые был произведен запуск модельной сейсмической задачи с использованием разработанных сервисов данных в среде Грид.
Для эффективной работы с геофизическими данными, в первую очередь, требуется обеспечить их надежное хранение с возможностью быстрого и гибкого доступа. Для решения этой задачи в диссертации создан новый системно-программный метод реализации распределенных хранилищ геофизических данных. В диссертации отражены результаты по следующим направлениям: каталоги метаданных для поиска в хранилищах, репликация коллекций файлов для ускорения доступа и повышения надежности, проблемы масштабирования и новые модели данных в сверх-больших базах данных, параллельные файловые системы, и веб- (или грид-) интерфейсы управления данными. Значительными сторонними результатами по каждому из направлений являются соответственно каталог метаданных по информационным ресурсам об окружающей среде NASA Global Change Master Directory, система управления данными LGG Database and Replica Management Services, параллельная файловая система Apache Lustre, и система управления выборкой и обработкой данных OGSA-DAI. Во многих случаях, когда хранилище данных строится под конкретный набор приложений, схема метаданных и общая модель данных (Common Data Model) заранее известны, и все вышеупомянутые «универсальные» технологии можно объединить и оптимизировать в единой распределенной иерархической системе хранения и поиска данных, которые мы называем Common Data Model (СОМ)-хранилищем.
В диссертации создана система (рис. 2), работающая с наиболее часто используемыми в геофизике моделями данных - временными рядами наблюдений и спутниковыми гранулами, позволяя осуществлять запросы к хранилищам таких данных, производить их анализ, обработку, моделирование, пересылку и хранение.
Webinterfaw
OGSA-OAt client toolhtt
OGSA-OAJ f Globus Tooftit 4 or AxfcJ
Рисунок 3. Поддерживаемые системой источники данных
Большинство изученных в геофизике наборов данных укладываются в эту модель. Временные ряды представляют собой многомерные массивы данных, отличающиеся по структуре и количеству измерений, и при этом имеющие различный объем (от сотен мегабайт до десятков терабайт). В эту модель данных укладываются метеонаблюдения, реанализ и прогноз погоды, наблюдения и результаты моделирования космической погоды, результаты моделирования сейсмических волн и т.д. Спутниковые гранулы это объекты данных, чаще всего изображения или блоки данных, полученные со спутника при сканировании определенного участка земной поверхности, и имеющие геопривязку и другие параметры. В таком формате представлены изображения Земли со спутников, электронные карты, снимки Солнца, и другие изображения. Автором впервые была создана система, объединяющая доступ к разнородным источникам данных в единый сервис на основе общей модели данных и метаданных и языка запросов к сервисам выборки и обработки (рис. 3).
Используемая для сервиса данных платформа OGSA-DAI, работающая в различных Грид-средах (Globus toolkit 4, OMII, Unicore), расширенная компонентами для работы с геофизическими данными, позволяет в полной мере реализовать распределенную Грид-архитектуру сервисов данных с возможностью управления потоком данных.
Реализованная автором общая модель данных ESSE (Common Data Model, CDM) призвана существенно упростить обмен между разными сервисами данных по окружающей среде. Разработанная в диссертации общая модель данных делает возможным комбинирование и совместное изучение данных из различных
предметных областей. Построенная в диссертации модель представляет собой надстройку над многомерным массивом численных данных, позволяющую производить многомерные выборки данных. Использованная модель является обобщением предложенного организацией UNIDATA формата хранения данных NetCDF.
Для хранения геофизических данных в формате CDM автором на основе рекомендаций UNIDATA был разработан ряд структур данных, рассмотренных в диссертации, таких как сетка, набор точек, набор станций, траектория. При этом, под структурой хранения данных понимается набор массивов, их атрибутов и типов, используемый для хранения определенного типа геофизических данных.
В диссертации автором обоснована возможность практического использования CDM как общей модели для хранения, обработки и передачи геофизических данных из различных источников.
Реализацией данной модели стала библиотека хранения данных в виде временных рядов в формате CDM. Библиотека включает средства для представления данных в памяти компьютера и пересылки данных по сети. Примером реализации также остается формат хранения научных данных NetCDF, ориентированный на работу с файлами и привязанный к файловой системе. В целом, разработанная в диссертации реализация является упрощенной моделью NetCDF и совместима с ним.
Созданная модель представляет существенный шаг вперед по сравнению с хранением данных в файлах: повышенная скорость доступа к данным, единый формат работы с данными из любых баз данных, и как следствие этого - инте-роперабельность компонент системы. Следствием использования единой модели для различных данных является возможность эффективного слияния и сравнения таких данных для их совместного изучения. Таким образом, открывается возможность получения принципиально новых результатов. Доступны возможности преобразования данных с помощью специальных компонент (data processor), осуществления нечеткого поиска событий в данных (search engine), что открывает новые широкие возможности по обработке больших объемов геофизических данных.
Для работы с геофизическими сервисами данных также необходима система управления метаданными. Основная задача метаданных — описывать семантику и синтаксис данных в хранилище. При грамотной организации метаданных и обеспечении механизмов работы с ними, метаданные могут использоваться для поиска необходимых наборов данных в распределенных хранилищах, использоваться в балансировке нагрузки на хранилища в распределенных системах, содержать дополнительные сведения о данных. Возможен поиск по таким параметрам как пространственно-временное покрытие, вхождение слов в описание базы данных и т.д. Метаданные могут содержать такие дополнительные сведения как описание отдельных участков данных, пометки о качестве данных или история их обработ-
getCapaMityi'sectianName)
searchDatajrequest)
Capability's
Пользователь
Рисунок 4. Схема работы системы Виртуальная Обсерватория
Также метаданные служат основой для поддержки сообществ пользователей данных, позволяют заинтересованным людям обмениваться мнениями и расширять существующие наборы данных, что особенно важно для развития системы МИД. Это является шагом в сторону Web 2.0, являющейся быстро растущей и сильно востребованной технологией коллективной работы в Сети, и переносит эту новую Интернет-технологию в научное сообщество в области наук о Земле.
В главе "Виртуальная обсерватория" автором была разработана система, позволяющая не только хранить метаданные, описывающие сервис, но также формирующая запросы к ним на автоматическую выборку (Ordering extensions). Виртуальная обсерватория - это веб-приложение, созданное для управления структурированной базой данных XML-файлов, разбитой на отделы, содержащие файлы определенной структуры. Автором созданы средства управления структурой хранилища, поддержки сообществ пользователей, автоматизированной загрузки и доступа к хранящимся файлам, визуализации данных. Виртуальная обсерватория позволяет объединять распределенные хранилища метаданных в федерации с совместным доступом к ресурсам. Также автором разработаны Web 2.0-компоненты, предоставляющие ученым возможности общения, обмена информацией и совместной работы над содержимым хранилища (рис. 4).
Потребителями геофизических данных могут быть как конечные пользователи, производящие исследования с их помощью, так и другие вычислительные системы. Под такими системами мы понимаем вычислительные модели реанализа и прогноза климата и космической погоды, сейсмологические модели для трехмерной реконструкции внутреннего строения Земли и прогноза залегания полезных ископаемых, и обработку изображений со спутников для анализа поверхности Земли, в частности, растительного покрова, метеорологических полей, динамики рельефа. Поэтому средства по выборке, обработке и визуализации данных, доступные пользователям через сторонние порталы и клиентские приложения, доступны также и для моделей в виде сервисов данных, разработанных автором и включенных в состав Виртуальной обсерватории. При этом для модельных приложений наряду с предоставлением входных данных также доступны сервисы сохранения результатов моделирования.
Цели и задачи работы
Целью работы являлось создание системы управления потоками геофизических данных и численными моделями окружающей среды в Грид.
Для реализации этой цели в диссертации поставлены и решены следующие задачи:
Создание теоретико-методологических основ и действующего прототипа распределенной Грид-среды специализированных сервисов, легко расширяемой для хранения и обработки различных коллекций данных по геофизике и наукам о Земле, включая солнечно-земную физику, климатологию, сейсмологию.
Разработка системы управления рабочим потоком распределенных Грид-сервисов для передачи, предварительной обработки, научного анализа и визуализации данных.
Разработка системы управления метаданными для Грид-сервисов геофизических данных.
Разработка метода и компьютерной технологии обеспечения запуска существующих геофизических моделей на суперкомпьютерах с использованием разработанных сервисов данных для инициализации моделей.
Интеграция созданных сервисов данных и численных геофизических моделей в единый рабочий поток, что позволит делать выборки исходных данных, использовать их для моделирования и сохранять результаты в Грид-среде. Проведение моделирования в среде Грид с использованием данных из баз данных по окружающей среде.
Апробация и оценка эффективности созданной системы для задач геофизики в области физики твердой Земли, солнечно-земной физики, климатологии.
Личный вклад автора
Разработана архитектура и реализованы Грид-сервисы для доступа к распределенным хранилищам геофизических данных. Реализована система управления рабочим потоком обработки геофизических данных на Грид-сервисах.
Получена интеграция Грид-сервисов разнородных геофизических данных на основе общей модели хранения геофизических данных, которая совместима со стандартом Common Data Model (UNIDATA, USA) и реализована автором в качестве внутренней модели хранения и внешнего обмена геофизическими данными между распределенными Грид-сервисами, а также для визуализации данных в клиентских приложениях и для экспорта данных пользователям.
Обоснована необходимость создания специализированного Грид-сервиса для совместной работы с метаданными из различных предметных областей -метеорологии, солнечно-земной физики, сейсмологии, и реализована оригинальная технология распределенного управления метаданными - "Виртуальная обсерватория".
Разработан рабочий поток и сервисы запуска геофизических моделей в инфраструктуре Грид на базе европейской Грид-инфрастурктуры EGEE. С их помощью была обсчитана сейсмическая модель для определения анизотропных свойств литосферы и верхней мантии путем совместной инверсии волновых форм обменных волн и волн SKS.
Разработаны клиентские приложения, использующие преимущества созданной системы Грид-сервисов данных, позволяющие обрабатывать, преобразовывать и визуализировать геофизические данные.
Проведено внедрение разработанных программных продуктов в российских и зарубежных научных проектах СКИФ ГРИД (ИПС РАН, Переславль), CLIVT (ИКИ РАН, Москва), CLASS (NGDC NOAA, Boulder СО, USA), ESSE (Microsoft Research, Cambrige, UK).
Научная новизна
Созданная в диссертации система, осуществляющая сбор, хранение, анализ, обработку и визуализацию больших массивов геофизических данных, а также создание на основе этих данных геофизических моделей на платформе Грид, является инновационной технологией в геофизике. Система позволяет работать одновременно с различными типами данных: временными рядами наблюдений (в форматах сетка, набор точек, набор станций, траектория) и спутниковыми гранулами. Использование Грид-инфраструктуры дает колоссальное преимущество при расчетах, требующих длительного процессорного времени, а также при обработке сверхбольших объемов данных. Построение системы на основе Грид-сервисов данных является первым подобным примером среди систем обработки геофизических данных и увеличивает гибкость и эффективность запросов. В то же время задействованное в системе совместное эффективное использование ресурсов других научных учреждений по всему миру при гибком масштабировании систем позволяет покрывать всё растущую необходимость в вычислительных ресурсах для задач геофизики без дополнительных затрат на развертывание суперкомпьютеров в отдельных институтах. Разработанная в диссертации система выполнения геофизических вычислений в сети Грид приводит к ускорению исследований и инноваций в этой области.
Созданная автором архитектура системы, её компоненты и использование общей модели данных позволяют эффективно провести совместный анализ огромных массивов данных из различных областей геофизики. Тем самым расширяется
область исследований и многократно увеличиваются возможности анализа наблюдений окружающей среды, что показано в разделе про веб-порталы и клиентские приложения.
Практическая значимость работы
Созданная автором система успешно используется как информационно-технологическая база для целого ряда задач вычислительной сейсмологии, систем визуализации погодной информации, оценки изменений климата и реанали-за космической погоды. Благодаря использованию среды Грид, система является распределенной и имеет узлы, связанные в "Грид данных". Функционируют общедоступные порталы для доступа к данным конечных пользователей. Система предоставляет доступ к данным и вычислительные ресурсы всем геофизическим институтам и организациям, являющимся членами соответствующей виртуальной организации Грид-сети.
Результаты работы нашли прямое применение в совместных междисциплинарных исследованиях ИКИ РАН и MSR для анализа региональных трендов и зависимостей между изменениями в климате и растительности. Созданные в работе сервисы поиска и обработки сверхбольших баз данных по истории климата используются совместно с разработанными в ИКИ методами дистанционного зондирования растительности с использованием данных спутниковых наблюдений. Сервисы были использованы в расчетах модельной задачи по космической погоде AMIE11, а также для расчета сейсмической модели [8].
Созданные в результате работы Грид-сервисы OGSA-DAI для поиска и обработки данных установлены на ресурсном центре СКИФ-Грид в ГЦ РАН в Москве и в Национальном геофизическом центре (NGDC NOAA) в Болдере, штат Колорадо, и регулярно используются для доступа к архивам данных по климату и космической погоде в системах доступа к распределенным архивам данных NOAA Comprehensive Large Array Stewardship System (CLASS) и Space Physics Interactive Data Resource (SPIDR).
Основные положения, выносимые на защиту
1. Разработана архитектура Грид-сервиса геофизических данных и реализована система управления рабочим потоком для общей модели данных (CDM), что позволило интегрировать для совместного анализа распределенные разнородные источники данных по космической погоде, дистанционному зондированию, климатологии, геофизике и геотектонике общим объемом более 100 ТБ. Объединение вычислительных кластеров и распределенных хранилищ данных реализуется на основе использования сервис-ориентированной архитектуры, интеграции с общей моделью данных и Грид-инфраструктуры.
uKihn Е, Zhizhin M, Kamide Y (2006) An analog forecast model for the high-latitude ionospheric potential based on assimilative mapping of ionospheric electrodynamics archives. Space Weather 4:S05001. doi:10.1029/2005SW000199
Разработана технология и программное обеспечение для управления метаданными "Виртуальная обсерватория" с функциями преобразования и отображения на многообразии схем (стандартов) метаданных для Мировых центров данных из различных предметных областей — метеорологии, солнечно-земной физики, сейсмологии. Это позволило объединять в общий рабочий поток Грид-сервисы и производить поиск необходимых источников геофизических данных.
Разработана технология запуска ресурсоемких геофизических задач на суперкомпьютерах, объединенных Грид-инфраструктурой, и решена обратная геофизическая задача через полный перебор всех решений прямой задачи. Определены параметры сейсмической анизотропии земной коры и верхней мантии под Тянь-Шанем. Был найден глобальный экстремум целевой функции, проведен анализ согласованности различных групп данных и проведена геофизическая интерпретация результатов моделирования.
Апробация работы и публикации
По теме работы автором опубликованы 8 статей, раскрывающих основные научные результаты диссертации. Из них 2 входят в список ВАК ([2, 3]). (см. раздел публикации)
Результаты диссертации обсуждались на следующих конференциях и семинарах:
Мишин, Д. Геофизические модели и потоки данных в среде ГРИД. Доклад на конференции "Итоги электронного геофизического года", 3—6 июня 2009 г., ИПС РАН, Переславль-Залесский, Россия.
Поляков, А., Жижин, М., Березин, С, Коковин, Д., Медведев, Д., Мишин, Д. ГРИД-сервисы параллельной визуализации научных массивов данных и цифровых карт. Доклад на конференции "Итоги электронного геофизического года", 3—6 июня 2009 г., ИПС РАН, Переславль-Залесский, Россия.
Жижин, М.; Медведев, Д.; Мишин, Д.; Пойда, А.; Андреев, А.. Технология построения параллельных масштабируемых грид-центров хранения и анализа данных по окружающей среде. Вторая международная конференция "Суперкомпьютерные системы и их применение" SSA 2008, Беларусь, 27 октября 2008
Zhizhin, М.; Kihn, Е.; Kokovin, D.; Mishin, D. VxOware tool for federation of Virtual Observatories. 3rd GRID e-collaboration Workshop for Earth Science and Space, 16 - 17 January 2008 ESRIN, Frascati (Rome), Italy (Poster)
Zhizhin, M.; Kihn, E.; Luytsarev, V.; Berezin, S.; Poyda, A.; Mishin, D.; Medvedev, D.; Voitsekhovsky, D. Environmental Scenario Search and Visualization. Presentation and paper in Proceedings of ACM GIS 2007, Seattle, November 2007
Zhizhin, M.; Kihn, E.; Medvedev, D.; Redmon, R.; Mishin, D. Space Physics Interactive Data Resource - SPIDR. Report at GRID User Forum, CERN, Switzerland, 01-03 March 2006
Mishin, D. Meteorology and Space Weather Data Mining Portal. Demonstration at the EGEE User Forum, CERN, Geneva, March 2006
Zhizhin, M.; Kihn, E.; Redmon, R.; Poyda, A.; Mishin, D.; Medvedev, D.; Lyutsarev, V. Integrating and mining distributed environmental archives on Grids. VLDB DMG Workshop, Seul, September 2006
Структура и объем диссертации