Содержание к диссертации
Введение
1 Исследование геофизической оболочки на базе данных дистанционного зондирования земли 9
1.1 Космические снимки как модель геофизической оболочки 9
1.2 Модель технологического процесса исследования геофизической оболочки на базе космических снимков 39
1.3 Выводы к первой главе 45
2 Методика классификации геофизической оболочки с учетом параметров окрестности 48
2.1 Алгоритмы расчета инвариантных и динамических параметров окрестности 48
2.2 Описание методики классификации геофизической оболочки с учетом параметров окрестности 73
2.3 Выводы ко второй главе 98
3 Ансамбль-система классификации данных дистанционного зондирования земли 100
3.1 Архитектура ансамбль-системы 100
3.2 Апробация ансамбль-системы 112
3.3 Выводы к третьей главе 139
4 Разработка геопортальной системы распространения пространственных данных 141
4.1 Геоинформационная система как базовая основа функционирования геопортала 141
4.2 Геопортальная система распространения пространственных данных ... 144
4.3 Выводы к четвертой главе 164
Заключение 166
Список использованных источников
- Модель технологического процесса исследования геофизической оболочки на базе космических снимков
- Описание методики классификации геофизической оболочки с учетом параметров окрестности
- Апробация ансамбль-системы
- Геопортальная система распространения пространственных данных
Модель технологического процесса исследования геофизической оболочки на базе космических снимков
Дистанционное зондирование позволяет производить сбор объективных данных на опасных и труднодоступных территориях, исключая необходимость дорогостоящих и затяжных полевых исследований. Вместе с тем при анализе данных дистанционного зондирования всегда необходимо опираться на имеющуюся априорную информацию об объекте исследования [52].
Таким образом, решение обратной задачи ДЗЗ сводится к анализу спектральных характеристик отображаемых объектов, алгоритмически извлекаемых пространственных данных и априорной информации об объекте исследования. Сама же функциональная зависимость {(fi(A),Э,1) ввиду сложности и неоднозначности объекта исследования имеет нелинейный и достаточно сложный характер, а решение обратной задачи ДЗЗ представляется трудно формализуемым. Практически невозможно выявление зависимости, дающей исключительно истинный и оптимальный результат. В то же время повышение объективности получаемого результата играет первостепенную роль. Этот факт обусловливает актуальность и многонаправленность исследований в области разработки алгоритмов и методик анализа данных ДЗЗ. В этой области находят применение статистические, нейросетевые, нечеткие алгоритмы, а вопрос создания новых и комплексных подходов к решению обратной задачи ДЗЗ остается актуальным и открытым.
Картографические модели геофизической оболочки. Исследование геофизической оболочки с использованием данных дистанционного зондирования представляет собой динамично развивающуюся область, в рамках которой совершенствуются и развиваются методики автоматизированного анализа космической съемки, подходы к формированию классификации данных, методы практического использования результатов дешифрирования данных ДЗЗ.
Ключевым результатом исследования поверхности Земли через анализ данных дистанционного зондирования являются карты землепользования, представляющие собой информационные модели изучаемых территорий. Процесс их составления имеет комплексный характер и должен опираться на опыт специалистов различных областей (географов, инженеров, управленцев) и данные различных типов: ДЗЗ, картографические и статистические материалы. Карты землепользования и геофизической оболочки являются важным источником информации для решения задач природопользования и принятия верных управленческих решений. Их содержание должно быть ориентировано на реально существующих потребителей и направлено в сторону практического применения, быть максимально объективным и точным [12].
Использование картографических информационных моделей геофизической оболочки как результирующего артефакта анализа данных ДЗЗ открывает новые возможности в области мониторинга земель, формирования качественной информационной компоненты геоданных, регионального планирования природопользования.
Актуальность использования картографических информационных моделей подтверждается зарубежным опытом. В странах Европы карты землепользования (Ьanё Use (ЬЦ)) и земного покрытия (Ьanё Сover (ЬС)), генерируемые на базе космической съемки, являются центральным информационным звеном в решении различных административных задач и научной деятельности, а также удобным инструментом принятия верных управленческих решений в области природопользования. В последние два десятилетия изменение земного покрова и структуры землепользования стало важным объектом исследования [89] как в рамках отдельно взятых регионов, так и в глобальном контексте. При этом основным источником для актуализации пространственных моделей геофизической оболочки принято считать данные дистанционного зондирования Земли, а инструментом -автоматические и автоматизированные методы анализа.
В 1985 году Европейская комиссия начала программу по сбору информации об окружающей среде СORTNE (Сoordination о Informatioп оп the Environment), результатом деятельности которой стало формироваение единого Европейского набора данных (СORTNE Ьanё Соver (СЬС)) в 1990 году. Повторные итерации процесса, уточняющие пространственную информацию, были проведены в 2000, 2006 и 2012 годах. В декабре 2012 года была организована программа Сореrnicus, направленная на обеспечение информационных оперативных услуг в шести областях: земля, море, атмосфера, безопасность, чрезвычайные ситуации и изменение климата. Реализация программы Сорernicus вращается вокруг анализа данных ДЗЗ и востребована различными секторами экономики и правительственными учреждениями стран Европы.
Близкие тенденции наблюдаются и в странах Восточной Европы. Продовольственная и сельскохозяйственная организация ООН (ФАО) выступила инициатором проекта технического сотрудничества (Technical Сooperation Project - ТСР) «Укрепление потенциала в области инвентаризации структуры землепользования с помощью дистанционного зондирования» в ряде стран Восточной Европы и СНГ: Азербайджане, Болгарии, Румынии и Молдове, приняв активное участие в развитии процесса картографирования территорий этих стран [109]. Социальные и экономические реформы, проводимые в данных странах, процессы приватизации определили высокую скорость изменения структуры природопользования и повлияли не только на изменение прав собственности, но и на общую структуру экономики. Это обусловило высокую потребность в актуальных моделях геофизической оболочки как инструмента мониторинга изменений окружающей среды и карт землепользования, базового материала принятия важных управленческих решений. Автоматизированные методики анализа данных ДЗЗ, объектно-ориентированные подходы к классификации нашли применение в генерации геопространственных данных этих стран.
Описание методики классификации геофизической оболочки с учетом параметров окрестности
Алгоритм выделения границ геофизических участков. Задача создания алгоритма, который всегда оптимально выделяет границы геофизических поверхностей - важнейшую динамическую характеристику земель, на практике выглядит трудно решаемой. Сложности реально существующих природных территориальных комплексов (ПТК) обусловливает тот факт, что число границ, которые можно выделить в рамках исследуемой территории, бесконечно велико. Границы форм рельефа, типов почв, растительных массивов и других компонентов часто коррелируют между собой, но эти взаимосвязи осложняются характером антропогенной трансформации геосистем. Тем не менее максимально точное выделение краев с минимальной погрешностью, безусловно, важно для решения многих задач обработки и анализа изображений, одной из которых является геофизическе картографирование и физико-географическое районирование. Ее суть заключается в выделении территорий, обладающих относительным сходством по некоторому признаку. Поэтому перед началом решения обозначенной задачи необходимо четко определить цель, с которой проводится картографирование, выбрать критерии классификации.
Одной из важнейших характеристик растрового изображения является яркость его пикселей, а вернее, закономерности ее изменения от точки к точке. В частности, скачкообразное изменение яркости соседних пикселей интересно по той причине, что резкие колебания этой величины очень часто возникают на границах геосистем, в местах изменения отражательной способности поверхности и освещения. Краевыми или граничными точками называют точки изображения, в которых яркость изменяется особенно резко.
Хорошей отправной точкой является обоснованный выбор канала съемки, изображение которого будет подвергнуто анализу, что обусловит расположение, характер и значение границ, которые будут выделены в ходе выполнения алгоритма.
В предварительной стадии выполнения алгоритма, перед тем как приступить к непосредственному поиску границ, изображение необходимо подготовить. Проблему при определении краев создают шумы изображения -беспорядочные, не коррелирующие между собой изменения яркостей пикселей, усложняющие распознавание границ изображения земель. Шумовое воздействие напрямую может способствовать возникновению резких нежелательных колебаний яркости между соседними пикселями и, как следствие, выделению контуров там, где их быть не должно. В борьбе с шумом полезно сглаживание изображения, которое применяется для того, чтобы нивелировать нежелательные различия между яркостями соседних пикселей.
Суть алгоритма сглаживания сводится к свертке двумерного массива яркости пикселей с ядром размытия (фильтром). Операцию свертки оптимально проводить, используя быстрое преобразование Фурье. В этом случае необходимо преобразовать исходные данные в частотную область (вычислить их преобразование Фурье), перемножить полученные результаты и выполнить обратное преобразование Фурье. Данная методика дает хорошие результаты, при анализе больших массивов входных данных, которыми и являются исследуемые растровые изображения.
В качестве ядра размытия целесообразно использовать гауссово ядро, описываемое следующей формулой: 1 х2+у2 Ga(x,y) =—-е 2ст2 ак JJ 2па2 где о - среднеквадратическое отклонение, которое представляет собой настраиваемый параметр гауссова фильтра. Гауссова функция имеет максимальное значение при нулевом отсчете и начинает стремиться к нулю при удалении от него. Таким образом, при свертке растра с гауссовым ядром значение яркости каждого пикселя размытого изображения вычисляется как среднее взвешенное значений яркостей соответствующего пикселя источника и его окрестности. Весовые коэффициенты соседних пикселей уменьшаются по мере их удаления, благодаря чему снижается влияние значений их яркости на результирующую величину. По правилу трех сигм можно ограничиться сверткой с ядром, радиус которого в три раза превышает используемое среднеквадратическое отклонение, так как более удаленные пиксели практически не влияют на сглаженное значение в данной точке.
Среднеквадратическое отклонение напрямую влияет на степень размытия изображения фильтром. Если оно очень мало, то сглаживание не даст значительного результата, так как весовые коэффициенты всех окрестных пикселей будут близки к нулю. Наоборот, если выбрать слишком большое среднеквадратическое отклонение, то вместе с шумом исчезнут и значимые элементы изображения территорий.
Таким образом, при выборе параметра гауссова фильтра нужно стремиться к компромиссу, при котором усредненное значение пикселя размытого изображения будет в достаточной степени согласовано с соседними, благодаря чему уменьшится влияние шума, но в то же время сглаженный снимок не должен утратить значимых элементов.
Теперь в полученном на подготовительной стадии снимке можно начать поиск контуров природных комплексов. Для начала целесообразно вычислить значение и направление градиента яркости пикселей изображения. Решение этой задачи возможно через применение оператора Собеля к каждому пикселю растра. Этот метод основан на свертке изображения с небольшими целочисленными фильтрами в вертикальном и горизонтальном направлениях.
Значения результирующих матриц показывают, насколько резко меняется яркость каждого пикселя растра. Чем модуль значения градиента в данной точке изображения выше, тем больше вероятность того, что она является граничной. Ориентация вектора градиента говорит о направлении наибольшего увеличения яркости.
Далее, после вычисления градиентов изображения, целесообразно выполнить операцию подавления немаксимумов, предложенную Джоном Кэнни [59]. На данном шаге для каждого пикселя проверяется, является ли величина градиента локальным максимумом в направлении градиента, при этом угол направления вектора округляется до величины, кратной 45 градусам.
Например, если округленный угол направления вектора градиента в данной точке изображения равен нулю градусов (граница имеет направление с севера на юг), то данный пиксель считается краевым, если величина его градиента больше, чем у пикселей, которые располагаются севернее и южнее его. Если данное условие не выполняется, то считается, что данный пиксель не является граничным. В результате операции подавления немаксимумов только локальные максимумы отмечаются как границы и края становятся более тонкими и менее размытыми.
Апробация ансамбль-системы
Алгоритм решения задачи классификации данных дистанционного зондирования с целью геофизического картографирования с использованием нейронных сетей имеет следующий вид. 1. Решить, в каком виде целесообразно представить входные данные, на основе которых будет проводиться классификация (для различных типов задач целесообразно использовать панхроматические, мультиспектральные, гиперспектральные космические снимки определенного пространственного, радиометрического и временного разрешения). Иными словами, необходимо обозначить компоненты входного вектора х, содержащего необходимую для получения ответа информацию. 2. Определить форму выходных данных (элементы выходного вектора), чтобы обеспечивалось выделение необходимых типов земель и интересующих категорий для решения определенной практической задачи. 3. Выбрать архитектуру нейронной сети, число слоев и нейронов в каждом из них, функцию активации нейронов, параметры обучения. 4. Провести обучение, которое заключается в том, чтобы подобрать параметры сети, необходимые для оптимального решения задачи геофизического картографирования. 5. Решить задачу классификации, подав на вход сети необходимые данные с целью получения формализованного ответа.
Определение числа входных узлов нейронной сети представляется относительно несложной задачей, так как зависит главным образом от числа независимых переменных, представленных в анализируемом наборе данных. При анализе многозональной съемки Landsat на входные узлы нейронной сети целесообразно подавать значения яркости пикселей в различных спектральных диапазонах. Эти величины позволяют объективно оценить, к какому типу принадлежит территория данного участка съемки.
Выбор формы выходных данных (иными словами, выходных узлов нейронной сети) опять же является проблемно-ориентированной задачей. Количество узлов выходного слоя нейронной сети можно принять равным числу определяемых типов геофизических поверхностей.
Архитектура нейронной сети - это способ организации связи между нейронами. Нейронную сеть можно рассматривать в виде направленного взвешенного графа, для которого узлами являются нейроны, отличающиеся друг от друга видом активационной функции. Они могут объединяться в сети двух классов: прямого распространения (персептроны, КBF-сети, сети каскадной корреляции) и с обратными связями (сети Кохонена, Хопфида, Элмана, встречного распространения, машины Больцмана) [9].
Сеть прямого распространения не содержит обратных связей. Обработка информации в ней носит однонаправленный характер, при котором сигнал передается последовательно от входного слоя нейронной сети к выходному. Сети прямого распространения просты в реализации и хорошо изучены, точность их работы зависит главным образом от числа нейронов.
Сеть с обратными связями (рекуррентная) содержит в своей структуре петли, что обеспечивает влияние выходного сигнала на процесс классификации в будущем. Это дает возможность многократного участия нейронов в обработке входных данных и сокращает объем сети за счет использования обратных связей.
Сети прямого распространения (персептрон) проще рекуррентных в реализации. Они имеют гарантированную, математически доказанную сходимость вычислений, хотя и требуют наличия большего числа нейронов при решении сложных задач, поэтому изучение данного класса моделей для решения задачи классификации земель представляет особый интерес.
Нейронная сеть прямого распространения характеризуется количеством слоев и входящих в них нейронов. Конкретного правила определения этих параметров не существует. Известно, что с увеличением нейронов и слоев повышаются возможности сети, увеличивается нелинейность зависимости между входом и выходом, но снижается скорость обучения. При слишком малом числе нейронов сеть может не обучиться и иметь большую ошибку в анализе данных дистанционного зондирования, а превышение их необходимого числа неизбежно приводит к снижению производительности и возможности переобучения, при котором на выход модели будет слишком сильно влиять шум и сеть станет неспособной к обобщению. Это чревато получением непредсказуемых значений в областях космического снимка, для которых характерно отсутствие обучающих выборок.
Количество нейронов и слоев необходимо выбирать исходя из сложности задачи, количества анализируемых данных и результирующих классов, имеющихся вычислительных ресурсов. Применение формул к определению числа нейронов и слоев сети иногда может не дать оптимальных результатов, следовательно, число нейронов и слоев сети должно подбираться эмпирически.
Геопортальная система распространения пространственных данных
Для апробации предложенной выше методики классификации данных ДЗЗ на основе ансамбль-систем и описанного технологического процесса проведем классификацию тестового полигона «Смольный» с целью мониторинга состояния лесов, определения соотношения площадей, покрытых различными типами растительности. Территория тестового полигона располагается в низменном Заалатырье на песчаной водно-ледниковой равнине, соседствующей с надпойменными террасами. В структуре почвенного покрова господствуют дерново-подзолистые почвы. Естественная растительность на надпойменных террасах представлена преимущественно сосновыми лесами. На водно-ледниковой равнине при движении на север с уменьшением мощности водно-ледниковых песков в структуре растительности появляются смешанные леса, переходящие на севере национального парка в дубравы. Вторичные леса представлены березняками и осинниками. Характерной чертой национального парка является распространение небольших торфяников [23].
Выбор исходных данных. В качестве исходных данных были выбраны материалы космической съемки Landsat=7, которые характеризуются следующими параметрами. Источник съемки: Landsat=7. Дата съемки: 30 мая 2015 года. Облачность: менее 1 %. Границы: северная - 5457 с. ш.; южная - 5442 с. ш.; западная -4514 в. д.; восточная -4535 в. д. Размеры полигона: 28,71 км на 21,51 км (617,55 км2). Размеры снимка: 957 рх на 717 рх (686 169 рх2). Разрешение: 1 рх : 0,03 км. Исходя из поставленной цели для анализа были выбраны 4-й, 3-й и 2-й спектральные диапазоны съемки. Визуальное представление комбинации этих каналов представлено на рисунке 28.
Выбор обучающих участков. Для того чтобы на базе исходных данных произвести выборку обучающих участков, нужно ограничить набор выделяемых классов и, опираясь на данные полевых исследований и экспертную информацию, сформировать банк тестовых и обучающих данных. Поставленная цель исследования определила необходимость различить отдельные классы геофизических оболочек (хвойная, смешанная и широколиственная, вторичная растительность), а также отделить земли с иными спектральными характеристиками: антропогенные территории (застройка, коммуникации, сельскохозяйственные земли) и водоемы.
Информация о выбранных в итоге обучающих участках сведена в таблицу 8. Таблица 8 - Обучающие участки. Полигон «Смольный» № п/п Класс Число полигонов Числоэлементарныхучастков Общаяплощадь,км2 1 Растительность. Хвойная 20 1709 1,538 1 2 Растительность. Смешанная и широколиственная 20 3 938 3,544 2 3 Растительность. Вторичная 20 1379 1,241 1 4 Антропогенные территории. Застройки и коммуникации 25 1641 1,476 9 5 Антропогенные территории. Сельскохозяйственные земли 15 1086 0,977 4 6 Водные поверхности 15 129 0,116 1 Всего определено 6 классов геофизической оболочки с помощью 115 обучающих участков. Экспертно обработаны 9 882 элементарных участка, описывающих территорию площадью 8,89 км2. Доля площади обучающих участков от общей площади территории - 1,4 %. Для исследования эффективности ансамбль-системы целесообразно разбить обучающую выборку на два набора, для того чтобы изучить влияние ошибок выбора исходных данных на точность классификации.
Обучение классификаторов. Для классификации представленных данных использованы 4 нейронные сети прямого распространения со следующими параметрами: 1 скрытый слой (различной мощности); передаточная функция: сигмоидальная; метод обучения: обратного распространения ошибки; мера ошибки: перекрестная энтропия. Они были обучены на различных наборах данных, независимо сформированных на основе общего банка данных. Таким образом, каждый классификатор, будучи обученным на основе различных выборок, начнет характеризоваться уникальной способностью классифицировать геофизические поверхности определенных классов. Тестовые наборы также сформированы на основе данных с обучающих участков.
Оценка эффективности классификаторов. На основе данных о том, как модели классифицируют тестовую выборку, можно сформировать матрицы ошибок, которые позволяют дать оценку эффективности классификатора. Матрица ошибок для первого классификатора представлена на рисунке 29.
Видно, что второй классификатор слаб в определении смешанной и широколиственной растительности, третий - вторичной растительности, четвертый - сельскохозяйственных земель. Использование таких классификаторов в отдельности может привести к неточной классификации.
Далее необходимо объединить классификаторы в ансамбль-систему с помощью мета-классификатора, функционирующего на основании матрицы эффективности, и провести оценку его эффективности. Для начала было проведено построение матрицы ошибок ансамбль-системы (рисунок 31).
Далее нужно провести расчет коэффициентов эффективности системы, их значения свести в вектор эффективности ансамбль-системы, что сделает возможным сравнение эффективности отдельных моноклассификаторов и ансамбль-системы в целом. Результаты этого сопоставления отражены в
Моноклассификато ры Ансамбль-система Комментарий о эффективности ансамбль-системы 2 3 4 3 1 1 0,9992 0,9992 0,9992 1 Равна наилучшей эффективности моноклассификаторов 0,9333 0,5539 0,9884 0,9533 0,9577 Значительно превышает худшую эффективность (на 73 %) и незначительно уступает наилучшей эффективности (на 3 %) моноклассификаторов 0,9461 0,9835 0,5745 0,9356 0,9267 Значительно превышает худшую эффективность (на 61 %) и незначительно уступает наилучшей эффективности (на 6 %) моноклассификаторов 0,9615 0,9590 0,9609 0,9927 0,9616 Незначительно уступает наилучшей эффективности (на 3 %) моноклассификаторов 0,9706 0,9828 0,9778 0,4672 0,9756