Содержание к диссертации
Введение
Глава 1. Особенности организации современных систем обработки спутниковых данных 12
Введение 12
1.1. Тенденции развития спутниковых систем 13
1.2. Схемы организации работы с данными ДЗЗ и современные тенденции их развития 18
1.3. Обзор систем, позволяющих выполнять анализ и обработку спутниковых данных из больших распределенных архивов 22
1.4. Основные проблемы при работе с большими распределенными архивами спутниковых данных и пути их решения 28
Основные результаты, полученные в главе 1 34
Глава 2. Построение сверхбольших распределенных архивов информации ДЗЗ 35
Введение 35
2.1. Модель данных для организации сверхбольших распределенных систем хранения данных ДЗЗ 36
2.2. Архитектура и программная инфраструктура построения сверхбольших распределенных архивов спутниковых данных. 43
2.3. Организация работы с "виртуальными" продуктами в системе ведения сверхбольших распределенных архивов данных 53
Основные результаты, полученные в главе 2 58
Глава 3. Методы и программная инфраструктура построения систем распределенной интерактивной обработки спутниковых данных 61
Введение 61
3.1. Метод организации систем распределенной интерактивной обработки информации, предоставляемой сверхбольшими глобальными архивами данных ДЗЗ 62
3.2. Программная инфраструктура систем распределенной интерактивной обработки информации, предоставляемой сверхбольшими глобальными архивами данных ДЗЗ 66
3.3. Метод создания интерфейсов для управления интерактивными процедурами распределенной обработки данных ДЗЗ 76
3.4. Метод организации массовой интерактивной обработки данных ДЗЗ для картографирования различных объектов 84
3.5. Метод оценки требуемых ресурсов для организации процедур обработки 96
Основные результаты, полученные в главе 3 102
Глава 4. Организация обработки и анализа данных в информационных системах дистанционного мониторинга 105
Введение 105
4.1. Создание блоков обработки и анализа данных в системе VolSatView для решения задач дистанционного мониторинга вулканической активности 107
4.2. Создание блоков обработки и анализа данных в системе "ВЕГА-Приморье" для комплексного дистанционного мониторинга лесных ресурсов Приморского края 113
4.3. Создание блоков обработки и анализа данных в сервисе "ВЕГА Science" для проведения различных научных исследований с использованием данных ДЗЗ 117
4.4. Обзор других возможностей реализованных блоков обработки и анализа данных в различных информационных системах дистанционного мониторинга 133
Основные результаты, полученные в главе 4 135
Заключение 137
Список литературы 139
Приложения 148
Приложение 1. Акты об использовании результатов диссертации 148
Приложение 2. Архивы ЦКП "ИКИ-Мониторинг" и системы архивов центров НИЦ "Планета" на 1 сентября 2017 года. 152
Приложение 3. Свидетельства о регистрации программ. 155
Приложение 4. Примеры виртуальных тематических продуктов в сервисе "ВЕГА-Science" 157
Приложение 5. Основные публикации по теме диссертации 159
- Обзор систем, позволяющих выполнять анализ и обработку спутниковых данных из больших распределенных архивов
- Организация работы с "виртуальными" продуктами в системе ведения сверхбольших распределенных архивов данных
- Метод оценки требуемых ресурсов для организации процедур обработки
- Создание блоков обработки и анализа данных в сервисе "ВЕГА Science" для проведения различных научных исследований с использованием данных ДЗЗ
Обзор систем, позволяющих выполнять анализ и обработку спутниковых данных из больших распределенных архивов
Работы по созданию распределенных архивов спутниковых данных ведутся с этапа начала получения информации ДЗЗ. Но в контексте рассматриваемой задачи нет необходимости изучать системы, предоставляющие простой доступ к таким архивам, без развитых возможностей по выполнению управляемых пользователями процедур обработки. То есть системы, построенные с учетом указанных в предыдущем параграфе "традиционных" подходов к работе с данными ДЗЗ. Поэтому в данном параграфе не рассматриваются такие системы, как, например, геопортал Роскосмоса (http://gptl.ru/), платформа доступа к спутниковым данным Геологической службы США Earth Explorer (https://earthexplorer.usgs.gov/) или портал доступа к спутниковым данным Европейского космического агентства Copernicus Open Access Hub (https://scihub.copernicus.eu/). В таких системах хоть и развита подсистема обработки спутниковых данных, но процедурами обработки не управляют пользователи, а набор предоставляемых спутниковых данных и продуктов на их основе заранее определен и ограничен. Эти системы позволяют пользователям только получить данные и далее уже в конкретном проекте выполнять специализированные процедуры обработки со всеми минусами такого подхода, рассмотренными в предыдущем параграфе.
Среди систем, позволяющих выполнять анализ и обработку спутниковых данных по запросам пользователей, можно условно выделить два типа. Первым типом являются системы, позволяющие проводить ограниченные наборы процедур обработки по запросам пользователей, но определенные создателями системы. Вторым типом являются системы, позволяющие задавать способы и принципы обработки спутниковых данных самим пользователям, вплоть до запуска в них своего программного кода.
Системы, предоставляющие пользователям ограниченный набор процедур обработки, начали разрабатываться уже более десяти лет назад. В России к такому типу можно отнести работы (Левин и др., 2008), (Недолужко, 2010), (Бабяк и др., 2011), (Бабяк и др., 2012), (Недолужко и др., 2012) коллектива авторов из Института автоматики и процессов управления Дальневосточного отделения РАН (ИАПУ ДВО РАН), в которых рассказано о подходах к построению систем обработки спутниковых данных, разработанных и используемых в этой организации. При формировании инфраструктуры поддерживаемого специалистами ИАПУ ДВО РАН центра коллективного пользования они ориентировались на среду SSE (Service Support Environment) Европейского космического агентства и развиваемый на ее основе проект HMA (Heterogeneous Missions Accessibility) (Coene et.al., 2004), (Coene et.al., 2007). Необходимо отметить созданную систему распределенной обработки спутниковых данных в области возможностей у пользователей по управлению выполняемыми процедурами обработки.
Управление процедурами обработки происходит через систему заказов, которая является простым уровнем абстракции над системой обработки и обеспечивает реализацию специализированных низкоуровневых интерфейсов (Недолужко и др., 2012). В этой же работе указано, что доступ к процедурам обработки через систему заказов реализован с использованием протоколов SSH, SOAP и WPS (Web Processing Service). Набор возможностей по обработке спутниковых данных реализован на базе различных стандартных пакетов, таких как SeaDAS, IMAPP, AAPP, RTTOV и других. Созданные на момент написания рассматриваемых работ прототипы интерфейсов допускали задание дополнительных параметров процедур обработки.
Архитектура системы обработки предполагает распределение задач между различными узлами, в том числе указывается на возможность использования внешних вычислительных ресурсов. В работах (Бабяк и др., 2011) (Недолужко и др., 2012) рассказано также о внедрении GRID технологий для получения доступа к потенциально неограниченному объему сторонних вычислительных ресурсов. В рассмотренных работах нет детального описания способов взаимодействия серверов, хранящих архивы спутниковых данных и распределенных вычислительных ресурсов, но ясно, что система обработки и система хранения технически во многом отвязаны друг от друга - обработка и хранение идет физически на разных машинах, особенно в случае использования внешних ресурсов, когда им необходимо передать все данные для выполнения процедур обработки. Также набор процедур обработки и способов управления ими задан заранее и ограничен. Связано все это, по-видимому, с относительно малыми объемами архивов (порядка 10Тб на май 2011 (Бабяк и др., 2011)), хранимых в поддерживаемом специалистами ИАПУ ДВО РАН центре коллективного пользования. Поэтому более верно говорить о направленности подобных работ скорее на "offline" обработку данных и плохую применимость к "online" обработке данных из больших архивов.
Работы в области систем, позволяющих выполнять процедуры обработки по запросам пользователей велись также в Институте вычислительных технологий Сибирского отделения РАН (ИВТ СО РАН) (Шокин и др., 2012), (Шокин и др., 2013) (Шокин и др., 2015).
Специалистами ИВТ СО РАН была создана развитая инфраструктура сбора, хранения и обработки спутниковых данных, а поддерживаемый ими центр коллективного пользования предоставлял на 2013 год доступ к 129 Тб информации (Шокин и др., 2013). В последние годы в этой организации начались работы, которые позволят организовывать запросы на выполнение процедур обработки к файловому архиву по месту, то есть реализовывать обработку там же, где данные и хранятся. Например, в статье (Шокин и др., 2015) описан подход к обработке больших объемов информации ДЗЗ с использованием технологии виртуальной интеграции данных, представленных в архиве, на основе реляционной системы управления базами данных (СУБД). Эта технология позволяет реализовывать сложные алгоритмы анализа временных рядов и пространственных распределений с помощью средств СУБД. В основном данные работы направлены на предоставление специалистам самого ИВТ СО РАН более удобных возможностей анализа больших объемов спутниковых данных. Такой подход требует глубоких знаний в обработке спутниковых данных и не слишком хорошо подходит для целей проведения управляемых процедур обработки сторонними пользователями, не являющимся специалистами в ДЗЗ.
Работы по организации эффективной работы с большими объемами информации ДЗЗ успешно ведутся также в научно-исследовательском институте обработки аэрокосмических изображений (НИИ "Фотон"), являющемся структурным подразделением Рязанского Государственного Радиотехнического Университета (Злобин, Еремеев, 2006), (Еремеев и др., 2015). В указанных работах в том числе рассматриваются вопросы организации работы с виртуальными информационными продуктами на основе спутниковых данных. На основе этих работ организована оперативная обработка поступающей информации ДЗЗ с большинства Российских спутников. Однако в основном описанные в данных работах подходы направлены на обработку и анализ спутниковых данных на локальных машинах пользователей, в них не рассматривается возможность использования удаленными пользователями для анализа и обработки вычислительных ресурсов самих центров хранения.
К системам, предоставляющим ограниченный набор процедур обработки, можно отнести и различные зарубежные. Многие из них направлены на максимальную интеграцию больших распределенных архивов данных и систем "online" анализа данных. Причем такие системы ориентированы на самый широкий круг специалистов, как использующих для работы с данными дистанционного зондирования различные специализированные программные комплексы и не имеющих глубоких навыков и знаний программирования, так и имеющих таковые для создания собственных процедур обработки. Примером системы, предоставляющей возможности доступа к архивам спутниковых данных и результатам их обработки одновременно со средствами, обеспечивающими проведение их обработки и анализа, может служить NASA GIOVANNI (Acker, Leptoukh, 2007). Кроме организации доступа к распределенным архивам данных, эта система предоставляет средства для дополнительной постобработки спутниковых данных и их анализа, однако набор доступных преобразований сводится к заранее предопределенному набору алгоритмов выборки и агрегации данных. Поэтому подходы, реализованные в этой системе и ряде других, например, в TELEIOS (Koubarakis et.al., 2012) или в уже упоминавшейся ранее NASA EOSDIS, все же не позволяют проводить произвольные пользовательские обработки для создания новых продуктов и тематических карт, а только сокращают размеры необходимой к хранению информации, создавая продукты обработки данных из базовых "на лету", или позволяют объединить информацию из разнородных архивов.
Организация работы с "виртуальными" продуктами в системе ведения сверхбольших распределенных архивов данных
Данный параграф посвящен тому, как в соответствии с созданной моделью формирования продуктов и на базе разработанной программной инфраструктуры реализуется получение виртуальных информационных продуктов. В соответствии с предложенными подходами вся информация, необходимая для использования виртуальных продуктов, содержится в единой справочной базе данных unisat_catalog. Разработанный подход предполагает, что спутниковые данные хранятся в виде продуктов базового уровня обработки, а специфические тематические продукты получаются "на лету" в момент запроса по описанному в таблицах БД unisat_catalog набору правил с помощью проведения процедур преобразования хранящихся базовых продуктов. Под продуктами базового уровня обработки здесь понимается уровень не ниже L1B, то есть после проведенных процедур радиометрической коррекции, калибровки, географической привязки, по возможности атмосферной коррекции и других базовых операций. Технически предложенный подход не запрещает хранить данные более низкого уровня обработки, однако для предоставления конечным пользователям тематических информационных продуктов на основе спутниковых данных в таком случае придется проводить все эти операции в момент запроса, что будет означать очень высокие вычислительные затраты. При необходимости выполнять подобные преобразования уже после занесения данных в архивы, это предполагается делать под управлением пользователей через отдельную систему диспетчеризации, которая будет описана в следующей главе. При реализации виртуальных продуктов возможные операции преобразования ограничены относительно простыми операциями, перечисленными в таблице 2.1, исключая последний в таблице тип на основе сложного анализа данных.
Набор правил хранится как для реальных, так и для виртуальных продуктов, привязан к каждому каналу каждого варианта построения продукта и включает в себя для реального продукта значения прозрачности и "нет данных", диапазон визуализации и при наличии палитру. Правила включают границы физических величин, которые по обратному описанному ранее преобразованию для калибровки (получения физической величины по цифровому значению) переводятся в цифровые значения пикселей в файле.
Правила построения виртуального канала хранятся в таблице "vchannel" базы данных unisat_catalog и для каждого канала каждого варианта построения виртуального продукта включают информацию о том, из каких каналов каких реальных продуктов он составлен. Если правила отображения канала виртуального продукта отличаются от правил отображения канала реального продукта, на основе которого он формируется, то также хранятся и уникальные правила отображения. В ином случае наследуются все правила отображения канала реального продукта, из которого составлен канал виртуального.
Важной особенностью является возможность составить один канал виртуального продукта из нескольких каналов реальных продуктов. Приведенная структура базы данных unisat_catalog позволяет привязать один канал виртуального продукта к любому числу каналов реальных продуктов. В таком случае в набор правил отображения, хранящихся в таблице "vchannel" в отдельном поле в формате JSON, добавляются правила попиксельного преобразования значений реальных продуктов в итоговое значение канала виртуального продукта. Это преобразование задается метаязыком в виде формулы, включающей математические и логические функции и операции. Соответственно, возможные варианты построения виртуальных продуктов ограничены операциям, укладывающимися в такое задание преобразования. Такое задание накладывает на преобразование ограничения, так как невозможно в виде одной формулы описать сложную процедуру обработки. Для реализации более сложных процедур обработки, не подходящих под операции попиксельного преобразования различных данных в одной формуле, предполагается проведение процедур обработки под управлением пользователей через отдельную систему диспетчеризации, а рассматриваемый здесь подход предполагает мгновенное формирование конечного виртуального продукта "на лету".
Отдельно необходимо отметить возможность формировать канал виртуального продукта из разновременных данных. В таком случае к правилам тех каналов реальных данных, из которых формируется итоговый виртуальный, добавляется информация о правилах поиска в архиве разновременных данных. Эта информация включает различные возможности поиска с заданием фильтрации по спутнику, прибору, станции приема и времени. В возможности фильтрации по времени входит задание фиксированного момента определенных данных и задание диапазона поиска между двумя моментами времени. Например, используя поиск по фиксированному моменту времени таким образом можно попиксельно вычесть текущие значения в канале сцены за любую дату из канала осредненного композитного изображения с фиксированным временем.
При реализации программного обеспечения также был создан web-интерфейс для просмотра и редактирования базы данных unisat_catalog. Его работу обеспечивают соответствующие модули модификации справочной базы данных. Этот интерфейс позволяет легко добавить и изменить описание и правила формирования любого предоставляемого системой продукта. На рис. 2.4 представлен вид такого web-интерфейса на примере одного из продуктов на основе данных спутника LANDSAT 8. Сверху на рисунке приведена информация о приборе, имеющихся на нем спектральных каналах и их характеристиках. В центре на рисунке информация о хранящемся реальном продукте и характеристиках его каналов. Например, информация о девятом канале в GeoTIFF файле означает, что он соответствует десятому каналу прибора. Правила отображения данного канала реального продукта были подробно описаны выше и означают, что значения в пикселях изображения переводятся в радиояркостную температуру и по умолчанию должны отображаться в диапазоне цифровых значений, соответствующих диапазону радиояркостной температуры от 200 градусов Кельвина до 300. Внизу на рис. 2.4 приведена информация о виртуальном продукте "Льды и снег", одном из множества имеющихся по данным спутника LANDSAT 8 виртуальных продуктов. Для получения продукта "Льды и снег" необходимо "на лету" скомбинировать RGB изображение из каналов 7, 5 и 4, причем отобразить их, как это было описано ранее, равномерно растянув яркости пикселей в диапазоне цифровых значений, соответствующих указанным в правилах в базе данных unisat_catalog и приведенным на рисунке значениям диапазона коэффициента отражения.
Примером более сложного вычисляемого продукта может служить виртуальный продукт "Разница недельных значений индекса NDVI". В описываемых архивах есть автоматически создаваемый каждую неделю на основе данных MODIS реальный продукт осредненного недельного композитного изображения значения индекса NDVI на территорию Северной Евразии и некоторым другим территориям по всему миру (Толпин и др., 2007). Виртуальный продукт "Разница недельных значений индекса NDVI" получается путем вычисления разницы между двумя такими продуктами: за выбранную неделю и за неделю, предшествующую выбранной. Правила построения этого виртуального продукта также записаны в базе данных unisat_catalog в таблице "vchannel" в формате JSON. Они задают поиск реального продукта за предыдущую неделю с использованием диапазона времени, нахождение попиксельной разницы его с продуктом за выбранную неделю и отображение полученных значений с палитрой. Получившийся продукт может использоваться для выявления быстрых изменений растительного покрова.
Приведенная в параграфе реализация механизма работы с динамически формируемыми информационными продуктами решает поставленную в главе 1 задачу и дает ряд существенных преимуществ. Основные плюсы и минусы разработанного и внедренного подхода указаны далее, в заключении главы. Ряд примеров и принципов формирования различных сложных виртуальных продуктов, в том числе включающих вычисления над каналами, будут приведены в следующих главах при рассмотрении решения конкретных практических задач на основе разработанных подходов.
Метод оценки требуемых ресурсов для организации процедур обработки
При организации различных процедур массовой обработки данных возникает необходимость в оценке связи между требуемыми для решения конкретных задач объемами исходных спутниковых данных, необходимых человеческих ресурсов для проведении интерактивных процедур анализа и задействованных для этого вычислительных ресурсов. В данном параграфе приводится метод такой оценки.
Примером типичной процедуры массовой обработки данных на базе созданных подходов является приведенное в предыдущем параграфе решение задачи оконтуривания лесных гарей по данным высокого (до 10м) пространственного разрешения. Например, для решения такой задачи на всю территорию России в течении пожароопасного периода одного года необходимо обработать в интерактивном режиме более десяти тысяч спутниковых снимков. Суммарное время для решения подобной задачи может быть оценено по следующей зависимости, где: - суммарное время решения задачи массовой обработки данных. Все времена здесь и далее в секундах.
- среднее время для одной процедуры обработки на накладные операции, выполняемые оператором (исследователем). В него входит все время на подбор данных и настройку операций обработки.
- среднее время для одной процедуры обработки на накладные операции обработки, связанные с запуском процедуры обработки.
- среднее время на выполнение процедуры обработки по уже подготовленным данным.
- общее количество операторов (исследователей), которые одновременно выполняют процедуры обработки.
- минимальное количество отдельных процедур обработки, которые необходимо выполнить для решения задачи. На основании этих процедур и получается финальный результат решения задачи.
- безразмерный коэффициент успешности выполнения процедур обработки, больше 1. Так как проводимая оценка дается для интерактивных процедур, то большую роль играет настройка параметров процедур обработки. Не всегда удается с первого раза подобрать оптимальные параметры, поэтому операторам (исследователям) необходимо повторять некоторое количество процедур обработки, подбирая другие данные или настраивая параметры. Данный коэффициент является отношением количества суммарно проведенных процедур обработки к количеству процедур обработки, на основании которых был сохранен результат. - среднее время для одной процедуры обработки на подготовку исходных данных для одной процедуры обработки (в соответствии с созданной архитектурой системы). В него входит все время от запроса на сервере, выполняющем обработку, до загрузки на него подготовленных данных. Так как все экземпляры данных, необходимые для конкретной процедуры обработки запрашиваются параллельно для одной процедуры, то время подготовки данных является максимальным временем получения среди всех подготавливаемых экземпляров данных где - время на подготовку и получение первого необходимого экземпляра данных на сервер, выполняющий обработку. - безразмерный коэффициент больше 1, отражающий загруженность конкретного сервера конкретного центра хранения данных. Время и ресурсы, требуемые для выполнения одной конкретной операции обработки сильно разнятся в зависимости от ее сложности и объема обрабатываемых данных. Например, в приведенной выше задаче оконтуривания лесных гарей размер гарей разнится от мелких, всего в нескольких гектаров, до крупных, измеряемых десятками тысяч гектаров. Также такая операция, как было указано выше, может проводиться в зависимости от их наличия по разным данным с разным пространственным разрешением. Все это существенно влияет на объем и время выполнения даже для одной процедуры обработки. Для оценки достаточно принять каждое указанное время как случайную величину с равномерным распределением и рассчитать средние времена одной процедуры обработки на основании первых проведенных процедур по формулам: где - средние времена каждого из этапов одной процедуры обработки, описанные выше, а аналогичные времена одной конкретной процедуры обработки.
Такая оценка возможна на основе сохраняемой в базе данных заданий полной информации обо всех этапах обработки. Для демонстрации такой оценки приведем ее для решения задачи картографирования лесных гарей, проведенной в работе (Стыценко и др., 2016), на основе описанного в предыдущем параграфе метода. В предыдущем параграфе было рассказано, какие именно процедуры обработки проводились в этой работе и их результаты. Данная работа выполнялась в сервисе "ВЕГА-Science" по данным из ЦКП "ИКИ-Мониторинг", которые уже упоминались и о которых более подробно будет рассказано далее в главе 4. По информации из базы данных заданий, авторами указанной работы для решения задачи было проведено 1672 процедуры обработки, на основании которых в результате авторы сохранили контура 818 гарей общей площадью более 2.1 млн. га.
Таким образом можно посчитать коэффициент . Также необходимо заметить, что в данное число не входят предварительно проведенные для отладки и отработки метода процедуры обработки. Из проведенных процедур обработки по 951-ой оператором был сохранен контур, однако потом часть контуров была отбракована, что и дало итоговую цифру в 818 гарей. На рис. 3.11 приведены графики времени для каждой проведенной процедуры обработки, по которой был сохранен контур гари.
Полученный сильный разброс времени подготовки и получения из центра хранения данных связан с тем, что сервера центра хранения и каналы связи с ними являются загруженными другими задачами самого разного назначения. В приведенном выше методе оценки за это отвечает коэффициент . На графике для наглядности были обрезаны результаты нескольких процедур обработки со временем исполнения более 100 секунд. Время обработки на сервере, выделенном под выполнение процедур обработки (согласно приведенной архитектуре) достаточно хорошо согласуется с общим объемом данных и экспоненциально растет при его увеличении. Небольшой разброс здесь связан с влиянием настраиваемых оператором параметров конкретной процедуры обработки и общей загруженностью сервера. На графике на рис. 3.12 приведена гистограмма распределения времени рассматриваемых процедур (всего 951). В данное время не входит время на настройку операций обработки, выполняемое оператором, то есть это сумма
Создание блоков обработки и анализа данных в сервисе "ВЕГА Science" для проведения различных научных исследований с использованием данных ДЗЗ
Информационный сервис "ВЕГА-Science" (http://sci-vega.ru/) (Лупян, Савин и др., 2011) является основным инструментом работы с данными Центра коллективного пользования (ЦКП) "ИКИ-Мониторинг" (Лупян, Прошин и др., 2016). Подробно о возможностях ЦКП можно также узнать из приложения 2. Основной задачей информационного сервиса "ВЕГА-Science" является предоставление различным коллективам возможностей получения, обработки и анализа данных ДЗЗ для решения научных задач. В настоящее время пользователями системы является более 50-ю различных научных коллективов и организаций (http://smiswww.iki.rssi.ru/default.aspx?page=556).
Поскольку с помощью "ВЕГА-Science" сегодня решается значительное число различных научных задач, в его составе было реализовало достаточно большое число виртуальных продуктов. Примеры реализованных продуктов приведены в приложении 4. Оценим, на сколько позволил сократить объем хранимой информации только по данным высокого пространственного разрешения переход на схему формирования виртуальных продуктов. Если бы все доступные в сервисе на данный момент продукты по данным высокого пространственного разрешения были насчитаны заранее, то пришлось бы дополнительно к хранению исходных каналов, которые все равно были бы необходимы для различных процедур обработки, хранить для этого типа данных 10 информационных продуктов по три канала в каждом. То есть занимаемое место увеличилось бы более чем на порядок. Такая оценка справедлива и для других типов, а также в ней не учтены специфические продукты, необходимые в других системах. Учитывая приведенную оценку увеличения объемов, работа с данными традиционным способом и физическое хранение всех необходимых продуктов потребовали бы существенного (на порядки) увеличения ресурсов хранения.
Соответственно, можно говорить о значительном повышении эффективности работы с большими объемами данных (в том числе экономической) за счет сокращения требуемых ресурсов хранения, которое удалось выполнить на основе предложенных в работе подходов. Таким же образом организована работа и с другими типами данных из ЦКП "ИКИ-Мониторинг". Необходимо отметить универсальность подходов, поскольку схема работы с данными не зависит от их особенностей. Для наглядной демонстрации этой универсальности опишем доступные возможности работы сервиса "ВЕГА-Science" с радарными данными спутников серии SENTINEL-1.
В ЦКП "ИКИ-Мониторинг" имеются данные спутников Envisat, ERS и аппаратов серии SENTINEL-1. Наибольший интерес сейчас представляет информация с SENTINEL-1 из-за ее актуальности и регулярности получения. Для обеспечения возможности работы с этими данными в ЦКП "ИКИ Мониторинг" реализована технология ее автоматического усвоения и обеспечения возможности работы с данными SENTINEL-1 для пользователей центра с использованием сервиса "ВЕГА-Science". Для этого организовано автоматическое ежедневное получение данных из Copernicus Open Access Hub (https://scihub.copernicus.eu/). На конец февраля 2017 года пользователи сервиса "ВЕГА-Science" имели возможность работы с более чем со ста тысячами сцен общим объемом более 60 Тб с конца 2014 года. После получения данных идет их обработка с помощью SENTINEL Application Platform (SNAP) (http://step.esa.int/main/toolboxes/snap). Процесс обработки включает в себя калибровку данных, заключающуюся в переводе значений интенсивности яркости пикселя в удельную эффективную поверхность рассеяния (УЭПР) и топографическую нормализацию. Полученное изображение в линейной шкале переводится в децибелы. Для уменьшения объема данных изображения переводятся из исходного типа Float32 в тип данных Int16.
Спутники серии SENTINEL-1 работают в четырех режимах сбора данных с разными пространственными разрешениями и шириной полосы съемки. Продукты доступны в одиночной и двойной поляризации. Для каждого режима съемки возможно получение нескольких типов продуктов:
- продукт Level-0 RAW (сырые несфокусированные SAR данные),
- продукт Level-1 GRD (cфокусированные данные в координатах "наземная дальность путевая дальность" без фазовой информации). Поставляется с одиночной (1SSV) и двойной (1SDV) поляризацией,
- продукт Level-1 SLC (cфокусированные данные в координатах "наклонная дальность путевая дальность" с фазовой информацией). Поставляется с одиночной (1SSV) и двойной (1SDV) поляризацией,
- продукт Level-2 OCN (данные о геофизических характеристиках океана).
В архиве сохраняется информация только о яркостях (амплитудах) отражения собственного излучения прибора. Возможность работать с фазовой информацией в системе отсутствует. В настоящее время в системе доступны только режимы IW, EW и только GRD и SLC. Пользователям системы доступны как перечисленные канальные данные, так и виртуальные продукты на их основе. Схема получения виртуальных продуктов основана на разработанной модели и аналогична описанной ранее для оптических данных.
Отдельный интерес для задач мониторинга растительности по радарным данным представляют продукты синтеза поляризаций. Такие продукты могут применяться для анализа состояния растительности (Mascol, 2014), (Cable et.al., 2014), (Castaneda, Ducrot, 2009), как самостоятельно, так и вместе с оптическими данными (Lussem et. al.,2016). Например, в упоминавшемся выше пакете SNAP реализованы различные варианты радарных продуктов с использованием комбинаций данных разных поляризаций. На рис. 4.6 приведен вид интерфейса сервиса "ВЕГА-Science" с отображением различных виртуальных продуктов по радарным данным, где ВГ вертикально-горизонтальная кросс-поляризация, ГВ - горизонтально вертикальная кросс-поляризация, ВВ - согласованная вертикально вертикальная поляризация, ГГ - согласованная горизонтально горизонтальная поляризация. Схема получения одного из таких сложных продуктов по данным спутников серии SENTINEL-1 в сервисе "ВЕГА Science" показана на рис. 4.7. В нем в качестве красного канала используется согласованная ВВ-поляризация, в качестве зеленого ВГ кросс-поляризация, в качестве синего - отношение поляризаций ВВ/ВГ. Хранятся только исходные канальные данные разных поляризаций и правила получения указанных цветных тематических продуктов, которые создаются “на лету” в момент запроса.
Все инструменты интерактивной удаленной обработки, работа которых ранее демонстрировалась только для снимков оптических систем, могут без принципиальных изменений взаимодействовать и с радарными данными, в том числе со сложными виртуальными продуктами. В качестве примера на рис. 4.8 показан пример выделения нефтяных пятен на водной поверхности по радарным данным спутников серии SENTINEL-1.
Схема организации распределенной обработки данных в приведенной задаче основана на разработанных в главе 3 методах и аналогична описанной для выделения гарей. Исследователь должен выбрать в картографическом интерфейсе данные, перейти к инструменту классификации и задать ее параметры. Схема предполагает проведение необучаемой кластеризации описанным ранее инструментом с последующим отключением кластеров, не являющихся областью нефтяного пятна. Дополнительную ценность в данном случае приобретает наличие возможности фильтрации для устранения спекл-шума. Возможен также совместный анализ разновременных данных, в том числе совместный анализ любых радарных и оптических данных, находящихся в архивах системы. Успешное применение в системе разработанных подходов для работы с самыми разнообразными данными, в том числе с радарными, доказывает их универсальность.