Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка методов и алгоритмов кластеризации мультиспектральных данных дистанционного зондирования земли Вершовский, Евгений Алексеевич

Разработка методов и алгоритмов кластеризации мультиспектральных данных дистанционного зондирования земли
<
Разработка методов и алгоритмов кластеризации мультиспектральных данных дистанционного зондирования земли Разработка методов и алгоритмов кластеризации мультиспектральных данных дистанционного зондирования земли Разработка методов и алгоритмов кластеризации мультиспектральных данных дистанционного зондирования земли Разработка методов и алгоритмов кластеризации мультиспектральных данных дистанционного зондирования земли Разработка методов и алгоритмов кластеризации мультиспектральных данных дистанционного зондирования земли Разработка методов и алгоритмов кластеризации мультиспектральных данных дистанционного зондирования земли Разработка методов и алгоритмов кластеризации мультиспектральных данных дистанционного зондирования земли Разработка методов и алгоритмов кластеризации мультиспектральных данных дистанционного зондирования земли Разработка методов и алгоритмов кластеризации мультиспектральных данных дистанционного зондирования земли Разработка методов и алгоритмов кластеризации мультиспектральных данных дистанционного зондирования земли Разработка методов и алгоритмов кластеризации мультиспектральных данных дистанционного зондирования земли Разработка методов и алгоритмов кластеризации мультиспектральных данных дистанционного зондирования земли
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Вершовский, Евгений Алексеевич. Разработка методов и алгоритмов кластеризации мультиспектральных данных дистанционного зондирования земли : диссертация ... кандидата технических наук : 05.13.01 / Вершовский Евгений Алексеевич; [Место защиты: Юж. федер. ун-т].- Таганрог, 2010.- 176 с.: ил. РГБ ОД, 61 11-5/763

Содержание к диссертации

Введение

1 Системный анализ обработки мультиспектральнои информации дистанционного зондирования земли 18

1.1 Обзор систем обработки мультиспектральной информации дистанционного зондирования Земли 18

1.2 Стратегии интерпретации мультиспектральной информации дистанционного зондирования Земли 26

1.3 Формулировка проблемной ситуации 39

1.4 Выводы 42

2 Разработка метода сокращения размерности и усиления классификатора 45

2.1 Определение цели разработки и критериев ее достижения 45

2.2 Пространственный анализ спектральных каналов 46

2.3 Поиск оптимального варианта решения 49

2.3.1 Отбор информативных спектральных каналов 49

2.3.2 Гистограммное усиление классификатора 68

2.3.3 Усиление классификатора вегетационным индексированием 74

2.4 Выводы 78

3 Разработка алгоритмов обработки мультиспектральной информации дистанционного зондирования земли 81

3.1 Определение цели разработки и критериев ее достижения 81

3.2 Кластерный анализ мультиспектрального снимка 82

3.3 Поиск оптимального варианта решения 88

3.3.1 Разработка дивизимного алгоритма кластеризации 88

3.3.2 Разработка алгоритма роевой кластеризации 96

3.4 Выводы 104

4 Разработка метода оценки точности кластеризации 106

4.1 Определение цели разработки и критериев ее достижения 106

4.2 Стратегии сравнения результатов 106

4.3 Поиск оптимального варианта решения 110

4.4 Выводы 117

5 Экспериментальное исследование разработанных методов и алгоритмов обработки мультиспектральной информации 119

5.1 Планирование экспериментов 119

5.2 Анализ метода сравнительной оценки точности кластеризации 120

5.3 Анализ метода усиления классификатора 128

5.4 Анализ дивизимного алгоритма кластеризации 139

5.5 Анализ алгоритма роевой кластеризации 144

5.6 Выводы 148

Заключение 150

Список литературы 153

Приложения 163

Введение к работе

Актуальность темы. Мультиспектральные данные дистанционного зондирования Земли (ДЗЗ), получаемые с помощью космической съемки, позволяют исследовать характеристики объектов земной поверхности, которые не проявляются в панхроматическом режиме. Эта информация находит применение во многих отраслях: в сельском и лесном хозяйстве, нефтегазовом комплексе, картографировании, экологии, охране окружающей среды и в управлении чрезвычайными ситуациями, что свидетельствует об актуальности и важности задач обработки информации и дешифрирования мультиспектральных снимков.

Одним из приоритетных направлений обработки мультиспектральной информации и дешифрирования данных ДЗЗ являются теоретические и прикладные исследования, ориентированные на повышение эффективности обработки мультиспектральной информации. В теоретическом и практическом плане создание систем, поддерживающих процесс обработки информации, требует разработки новых и совершенствования существующих методов и алгоритмов анализа информации, а также разработки специального математического, алгоритмического и программного обеспечения систем обработки информации и принятия решений, что объясняется следующими причинами. Во-первых, применяемые для дешифрирования данных ДЗЗ алгоритмы (^-средних, ISODATA) не обеспечивают требуемой точности и достоверности результатов. Во-вторых, использование алгоритмов кластеризации мультиспектральных данных не является качественно удовлетворительным в сравнении с методами контролируемой классификации и экспертной оценки посредством задания эталонных областей. В-третьих, разработка принципиально новых алгоритмов кластеризации зачастую не является эффективной по сравнению с совершенствованием уже существующих алгоритмов, с точки зрения увеличения скорости обработки и уменьшения количества итераций. Кроме того, измерять степень сходства объектов зондирования существенно проще, нежели формировать признаковые описания.

Перечисленные особенности обусловили выбор в качестве объекта исследования методы и алгоритмы кластеризации мультиспектральных данных ДЗЗ. Большой вклад в становление и развитие теории и практики обработки информации и анализа данных ДЗЗ внесли отечественные и зарубежные учёные Арманд Н.А., Асмус В.В., Вудс Р., Гонсалес Р., Жардан Л., Журкин И.Г., Злобин В.К., Кронберг П., Лукьященко В.И., Лупян Е.А., Макриденко Л.А., Новиков М.В., Новикова Н.Н., Полищук Г.М., Прэтт У., Розенфельд А., Селиванов А.С., Сойфер В.А., Хуанг Т., Чернявский Г.М. и др.

Однако, выясняя возможность использования существующих методов дешифрирования мультиспектральных космических снимков, следует признать, что есть проблемы, которые этими методами либо не решаются, либо требуют их существенного развития. Во-первых, к этим проблемам относится невозможность обеспечения автоматической обработки информации с целью

дешифрирования данных ДЗЗ без привлечения оператора на том или ином

этапе обработки информации. Во-вторых, применяемые алгоритмы
кластеризации не учитывают специфику предметной области решаемой задачи
и особенности обрабатываемых данных, такие как структура, распределение
яркостей, вероятностный характер появления случайных выбросов,

взаимозависимость показателей в различных каналах и тому подобное. В-третьих, известные алгоритмы кластеризации, применяемые в задаче дешифрирования мультиспектральных данных ДЗЗ, имеют недопустимо высокий уровень абстрагирования от анализируемых данных, что приводит к неудовлетворительным результатам кластеризации и к отказу от них в практике дешифрирования космических снимков в пользу методов классификации, требующих экспертного участия. Всё это обосновывает актуальность решения задачи автоматической кластеризации, заключающейся в классификации информации об объектах на основе их сходства друг с другом, когда принадлежность объектов каким-либо классам не задана.

Целью работы является автоматизация предварительной обработки информации для последующего дешифрирования мультиспектральных данных ДЗЗ путем применения неконтролируемой классификации, а также разработка на этой основе методов и алгоритмов кластеризации мультиспектральных аэрокосмических снимков. Для достижения поставленной цели необходимо на основе системного анализа стратегий интерпретации мультиспектральных данных решить следующие задачи:

  1. Разработка метода, позволяющего сократить размерность пространства классификационных признаков, упростить обработку информации и принятия решений для последующей кластеризации данных ДЗЗ.

  2. Разработка специализированных алгоритмов кластеризации для определения оптимального разбиения многомерного мультиспектрального пространства на заданное количество классов земных покрытий за приемлемое время в условиях первоначальной неопределенности описания классов.

3. Разработка метода, позволяющего проводить сравнительную оценку
точности алгоритмов кластеризации ДЗЗ при обработке информации в случае
отсутствия эталонных данных.

4.Экспериментальная проверка разработанных методов и алгоритмов на адекватность путём сопоставления прикладных и теоретических результатов, оценка эффективности разработанных алгоритмов.

Методы исследования основываются на дискретной математике, теории системного анализа и обработки сигналов, теории принятия статистических решений, теории вероятностей, функциональном и спектральном анализе.

Научная новизна работы заключается в теоретическом обосновании разработки по созданию комплекса методов и алгоритмов для построения систем автоматической обработки мультиспектральной информации ДЗЗ на основе неконтролируемой классификации с усилением классификатора, имеющих существенное значение в области обработки мультиспектральной пространственной информации. К наиболее существенным научным результатам работы относятся следующие:

  1. Предложен новый метод сравнительной оценки точности кластеризации алгоритмов разной архитектуры без схожих вычислительных характеристик, не требующий задания эталонных кластеризационных карт.

  2. Предложен новый метод усиления классификатора на основе механизмов линейного контрастирования и вегетационного индексирования спектральных каналов.

3.Разработан дивизимный алгоритм кластеризации мультиспектральных космических снимков, отличающийся от аналогов сокращением числа итераций, получением заданного числа классов и минимизацией количества задаваемых эвристик.

4.Обоснован и предложен роевой алгоритм кластеризации данных ДЗЗ, отличающийся от аналогов уменьшением эффекта зависимости результатов от начальных условий и увеличением точности кластеризации.

Практическая ценность заключается в реализации в виде программного обеспечения разработанных методов и алгоритмов. Программное обеспечение «RSMDClus» может использоваться для кластеризации данных ДЗЗ и проведения предварительного анализа отдельных спектральных каналов. Об этом свидетельствует успешная апробация результатов в научно-производственной компании «Бюро Кадастра Таганрога», одним из приоритетных профильных направлений которой является обработка данных зонального ДЗЗ.

Реализация и внедрение результатов работы. Диссертационные исследования являются частью плановых научно-исследовательских работ. Они были использованы в НИР № 2.1.2/1652 «Разработка теории и когнитивных принципов принятия решений на основе распределенных алгоритмов, инспирированных природными системами», в гранте РФФИ № 09-01-00492-а «Разработка общей теории и когнитивных принципов эволюционных вычислений» (2009-2011 гг.), в гранте РФФИ № 09-07-00318-а «Разработка новых принципов извлечения знаний на основе распределенных алгоритмов генетического программирования и роевого интеллекта» (2009-2011 гг.), а также в рамках госбюджетной НИР № 12050. Кроме того, результаты диссертационной работы реализованы в учебном процессе факультета автоматики и вычислительной техники Таганрогского технологического института Южного федерального университета.

Основные положения и результаты, выносимые на защиту: 1. Существующие способы сравнительной оценки алгоритмов кластеризации мультиспектральных изображений в условиях отсутствия эталонных кластеризационных карт могут быть существенно расширены и дополнены методом сравнительной оценки точности кластеризации.

2.Добиться существенного (примерно вдвое) снижения размерности пространства исходных многомерных данных ДЗЗ без потери достоверности результатов кластеризации, а также обеспечить усиление классификатора возможно с помощью метода, использующего комбинацию линейного контрастирования и вегетационного индексирования спектральных каналов.

3.Разработанный дивизимный алгоритм кластеризации данных ДЗЗ позволяет снизить количество итераций на 20-25%, по сравнению с применением ^-средних и ISODATA, при сохранении достоверности кластеризации, имеет линейную оценку временной сложности в зависимости от количества объектов, кластеров и спектральных каналов.

4.Роевой алгоритм кластеризации данных ДЗЗ позволяет добиться значительного повышения точности кластеризации, что подтверждается снижением среднеквадратичной ошибки кластеризации по сравнению с алгоритмами ^-средних и ISODATA, в среднем, на 38%.

Публикации. Полученные в диссертации теоретические и практические результаты нашли своё отражение в 12 печатных работах. Из них 3 статьи опубликованы в изданиях из списка ВАК. Имеется свидетельство об официальной регистрации программы для ЭВМ. Результаты также отражены в учебно-методическом пособии по программированию алгоритмов распознавания изображений в интерактивной среде MatLab.

Апробация основных теоретических и практических результатов работы проводилась на научных семинарах кафедры МОП ЭВМ; на международных конференциях: «Проблемы агропромышленного комплекса» (Бангкок-Паттайя, 2009), «Компьютерные и информационные технологии в науке, инженерии и управлении» (Таганрог, 2007); на всероссийских конференциях: «Технологии Microsoft в теории и практике программирования» (Таганрог, 2008), «Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки» (Таганрог, 2009, 2010), «Информационные технологии, системный анализ и управление» (Таганрог, 2009), «Перспективы развития информационных технологий» (Новосибирск, 2010).

Структура и объем работы. Диссертация состоит из введения, пяти глав и заключения, изложенных на 163 страницах машинописного текста (176 страницы вместе с приложениями), иллюстрированного графиками и рисунками, а также библиографии, включающей 115 наименований.

Обзор систем обработки мультиспектральной информации дистанционного зондирования Земли

Под дистанционным зондированием подразумевается сбор информации о Земле, включая расположенные на ней объекты, без непосредственного контакта с поверхностью путем регистрации ее электромагнитного излучения. Так как дистанционное зондирование - это косвенный метод получения сведений о том, что расположено на земной поверхности, то для извлечения из собранных данных содержательной информации дополнительно требуются специальные системы, включающие методы обработки данных дистанционного зондирования.

Наиболее распространенный вид дистанционного зондирования- Земли -снимки земной поверхности, сделанные различными способами и в разных спектральных диапазонах. Мультиспектральные снимки позволяют не только выявлять всевозможные явления и объекты, но и оценивать их количественно. При проведении тематического анализа снимки часто используются совместно с пространственными данными из других источников, а именно с цифровыми топографическими и тематическими картами, схемами городов, внешними базами данных [31] .

Пространственное разрешение мультиспектрального снимка характеризует размер наименьших объектов, различимых на изображении [32]. В зависимости от решаемых задач могут использоваться данные низкого (более 100 м), среднего (10-100 м) и высокого (менее 10 м) разрешений. Обзорные снимки имеют низкое пространственное разрешение, но позволяют одномоментно охватывать значительные территории, вплоть до целого полушария. Такие данные широко используются в метеорологии. Снимки среднего пространственного разрешения на сегодня являются наиболее доступным источником данных для мониторинга природной среды. Съемка, высокого разрешения из космоса до недавнего времени велась почти исключительно в военных целях, однако уже существуют коммерческие космические системы высокого разрешения, позволяющие проводить пространственный анализ с большей точностью или уточнять результаты анализа, выполненного по данным более низкого разрешения. Системы обработки информации дистанционного зондирования Земли находят применение в задачах, для решения которых требуется актуальная, точная, пространственная информация, таких как: комплексная оценка региональных биоресурсов; выявление и картирование зон поражений растительности выбросами загрязняющих веществ; мониторинг лесных пожаров и вырубок; оценка эффективности ведения лесного и сельского хозяйства; мониторинг снегового покрова, опустынивания и засоления почв; выявление и картирование месторождений полезных ископаемых; мониторинг зеленых насаждений в пределах городских территорий. Все эти задачи обуславливают необходимость постоянного обновления картографической информации. Существует три основных способа получения пространственных данных для составления карт и последующего мониторинга территорий [33]: 1) полевая съемка - получение замеров с использованием геодезической измерительной аппаратуры, наблюдение и построение по полученным данным карты местности; 2) аэрофотосъемка - получение цифровых фотографий местности с помощью съемочной аппаратуры, установленной на летательном аппарате (самолет, вертолет, параплан); 3) космическая съемка - получение цифровых фотографий местности с помощью съемочной аппаратуры, установленной на космическом аппарате (спутнике). Недостатки первого способа очевидны: высокая стоимость; длительное время выполнения работ; невозможность съема измерений в труднодоступных районах или в силу ландшафтных особенностей; зависимость от сезонности проведения работ; низкая актуальность получаемых данных в масштабе времени. Второй способ также имеет немало минусов. Для получения качественной аэрофотосъемки требуется дорогостоящее оборудование, что автоматически повышает стоимость самой аэрофотосъемки. К тому же, следует учитывать стоимость часа работы летательного аппарата. Самый важный аргумент против аэрофотосъемки - это стоимость работы, которая оплачивается с включением часов подлета к целевой местности. То есть необходимое оплачивать время взлета авиационной техники, время подлета к объекту, время съемки, время возвращения и время посадки. Еще одним существенным минусом аэрофотосъемки является получение снимков в различных ракурсах, что приводит к необходимости дополнительной корректировки полученных данных перед их окончательным использованием.

Третий способ лишен обозначенных недостатков. Съемка может проводиться в любое время года, любой территории, за короткое время, охватывая огромные участки и исключая необходимость склейки отдельных фрагментов, а также практически исключая проблему различных ракурсов съемки ввиду значительной удаленности съемочной аппаратуры от поверхности земли. К тому же все материалы космической съемки с пространственным разрешением 2 и даже более метров сегодня являются совершенно открытыми. К тому же, стоимость мультиспектральной космической съемки с разрешением до 60 см (30 см в панхроматическом диапазоне) меньше стоимости проведения аэрофотосъемки [34].

Пространственный анализ спектральных каналов

При наличии многомерного пространства дискретных численных признаков, каждая мерность которого представляет собой множество большой мощности, необходимо в пределах выделенных технических средств и ресурсов определить метод сокращения размерности пространства признаков и усиления классификатора для последующего проведения неконтролируемой классификации многомерной структуры данных. Снижение размерности кластеризуемых данных дистанционного зондирования, выявление наиболее информативных каналов, получение кластеризационных свойств пространства признаков которыми не обладает пространство исходных данных, таких как увеличение межкластерных и уменьшение внутрикластерных расстояний. Преобразование исходных данных не должно кардинально менять итоговую кластеризационную карту. Другими словами, отклонение в процентном отношении результатов кластеризации классическим алгоритмом K-means преобразованных данных от результатов кластеризации этим же алгоритмом исходных данных дистанционного зондирования должно быть минимальным. Количество итераций, требуемое для кластеризации преобразованных данных дистанционного зондирования Земли классическим алгоритмом К-means должно быть меньше количества итераций, требуемого для кластеризации исходных данных дистанционного зондирования Земли алгоритмом K-means при равных среднеквадратичных ошибках. Мультиспектральный снимок представляет собой серию изображений одной и той же территории. Каждое изображение получается путем регистрации отраженного/испускаемого излучения в определенном диапазоне спектра, именуемом спектральным каналом. Наиболее распространенное число мультиспектральных каналов - 7. Список семи каналов включает следующие наименования: Red, Green, Blue, NIR (Near InfraRed), SW IR (Short Wave InfraRed), MIR ( Middle InfraRed), TIR (Thermal 7InfraRed). Восьмым каналом обычно выступает панхроматический канал с удвоенным, по сравнению с цветовыми каналами разрешением. В отличие от него канал TIR имеет вдвое меньшее разрешение, чем каналы цветового или инфракрасного разрешения.

Отличие размерностей теплового и панхроматического канала от размерности оставшихся каналов приводит к необходимости их масштабирования в общую размерность, что влечет за собой в случае панхроматического канала - потерю полезной информации,, и в случае теплового канала - появлению недостоверной информации, влияющей на конечный результат кластеризации, при неконтролируемой классификации диапазона каналов, включающего все 8 каналов. В связи этим здесь и в дальнейшем из рассмотрения предлагается исключить тепловой и панхроматический каналы для обеспечения общей и единой размерности пространства признаков и отсутствия необходимости приведения размерностей каналов к общей размерности без потерь и искажений, что ,несомненно, является задачей, требующей значительных вычислительных ресурсов в силу величины размерности исходных каналов.

При исследовании распределения яркостей в перечисленных спектральных каналах, представленном на рисунке 2.1 и рисунке 2.2, наблюдается разбиение на две группировки по их структурному сходству: «цветовые» каналы (Red, Green, Blue) и инфракрасные каналы (NIR , SW IR , MIR). У первой группы цветовых каналов данные сконцентрированы в небольшой части диапазона спектральных яркостей, в то время как вторая группа инфракрасных каналов.

Кластерный анализ мультиспектрального снимка

В условиях первоначальной неопределенности описания классов необходимо в пределах выделенных технических средств и ресурсов определить оптимальное разбиение на заданное количество классов за приемлемое время и разработать специализированный алгоритм, основанный на применении неконтролируемой классификации. Цель Повышение эффективности дешифрирования данных дистанционного зондирования Земли путем применения неконтролируемой классификации и разработка на этой основе методов и алгоритмов кластеризации мультиспектральных данных дистанционного зондирования Земли на заданное число кластеров в рамках решения задачи автоматического дешифрирования данных дистанционного зондирования Земли. Ограничения Кластеризуемые данные дистанционного зондирования Земли представляют собой шестиканальное мультиспектральное аэрокосмическое изображение, включающее следующие каналы:Red, Green, Blue, Near InfraRed, Short Wave InfraRed, Middle InfraRed Критерии оценки Разрабатываемые алгоритмы должны позволять получать более точные и достоверные результаты, по сравнению с результатами классических алгоритмов кластеризации в области обработки аэрокосмических снимков, алгоритмов K-means и ISODATA, либо обеспечивать аналогичные по точности и достоверности результаты за меньшее время (число итераций). В качестве показателя точности предлагается использовать величину среднеквадратичной ошибки Прежде всего, необходимо определить, какое подмножество методов интеллектуального анализа данных применимо к задаче автоматического дешифрирования данных дистанционного зондирования Земли и конкретизировать ее в рамках понятийного аппарата интеллектуального анализа данных. Задача автоматического дешифрирования данных дистанционного зондирования Земли является классификационной. Отсутствие априорной информации о составе классов мультиспектрального снимка данных дистанционного зондирования Земли сводит ее к подмножеству задач неконтролируемой классификации (кластеризации) и кластерного анализа. Поскольку кластерный анализ относится к цифровым автоматизированным методам обработки космических изображений, то он позволяет выделять контура с неконтрастной по спектральной яркости структурой, например растительность, открытые почвы, вода, облака другие объекты. После проведения неконтролируемой классификации полученная карта классификации более объективно отражает близкие по значениям дешифровочных признаков группы объектов, чем при контролируемой классификации, так как кластеры определяются автоматически. Однако полученная карта классификации требует дальнейшего объединения или разбиения классов, поскольку одни и те же объекты могут попасть в разные кластеры, например из-за условий освещения, а разные объекты - оказаться в одном кластере из-за одинаковой яркости. В первом случае необходимо объединять кластеры в единый класс, а во втором - привлекать дополнительные дешифровочные признаки для различения объектов. Алгоритмы кластеризации подразделяются на иерархические и неиерархические алгоритмы. Иерархические алгоритмы акцентируются не на определении количества кластеров, а на построении полного дерева вложенных кластеров (дендрограммы), и делятся на агломеративные алгоритмы, которые характеризуются последовательным объединением исходных элементов и соответствующим уменьшением числа кластеров, и дивизимные алгоритмы, в которых число кластеров возрастает начиная с одного, заканчивая количеством кластеров, равным количеству кластеризуемых объектов, в результате чего образуется последовательность расщепляющих групп, известная также как дендрограмма. Неиерархические алгоритмы обуславливаются тем, что характер работы и условие остановки алгоритма необходимо заранее регламентировать определенным числом параметров, что позволяет достичь большой гибкости в варьировании результатов кластеризации, однако требует значительного времени на подбор параметров, обеспечивающих требуемый результат. Учитывая, что прогнозируемое число кластеров в поставленной задаче не велико, так как оно отражает количество типов покрытий поверхности Земли, а число элементов кластеризации, представляющих собой точки на снимке дистанционного зондирования высокого разрешения, несравнимо больше, то возможность использования для решения данной задачи агломеративных методов полностью исключается. Условие же остановки дивизимных методов получение синглетонов (классов, состоящих из одного объекта), что также не соответствует задаче кластеризации мультиспектральных данных дистанционного зондирования Земли ввиду высокой размерности исходных данных, и, как следствие, вычислительно трудоемкого количества получающихся синглетонов. Неиерархические алгоритмы неконтролируемой классификации основаны на поиске оптимального разбиения множества данных на кластеры. В общем случае, неиерархические алгоритмы кластеризации группируют данные в кластеры таким образом, чтобы целевая функция алгоритма разбиения достигала экстремума. Это обстоятельство, а также непригодность перечисленных видов алгоритмов кластеризации при решении задачи автоматического дешифрирования данных дистанционного зондирования позволяет сделать вывод, что решение поставленной задачи в рамках проводимого исследования возможно с помощью неиерархических алгоритмов кластеризации.

Стратегии сравнения результатов

В условиях невозможности сравнения алгоритмов неконтролируемой классификации в силу различия оптимизируемых параметров, заложенных в основу алгоритмов, определить и разработать метод оценки сравнительной точности проведения неконтролируемой классификации данных дистанционного зондирования Земли. Получение достоверного средства сравнительной оценки результатов кластеризации различных алгоритмов неконтролируемой классификации, обладающего достаточным количеством показателей для многосторонней оценки сравниваемых алгоритмов и разработка на этой основе метода сравнительной оценки алгоритмов кластеризации мультиспектральных данных дистанционного зондирования Земли в рамках решения задачи автоматического дешифрирования данных дистанционного зондирования Земли. Сравнительная оценка не может быть связана с эвристиками и численными показателями, заложенными в архитектуру того или иного алгоритма кластеризации, так как оценка предполагает сравнение точности кластеризации по результатам совершенно различных по своей архитектуре алгоритмов. Критерии оценки Сравнительная оценка не должны противоречить сравнению показателей среднеквадратичной ошибки для полученных результатов сравниваемых алгоритмов кластеризации. При проведении оценки точности кластеризации мультиспектрального снимка возникает ряд сложностей. На сегодняшний день для задачи кластеризации мультиспектральных данных не существует так называемых «бенчмарков» - общепризнанных тестовых наборов данных и заданий, с помощью которых можно оценить процент правильности кластеризации того или иного используемого алгоритма [1] . Под правильностью, в данном случае, понимается общий процент совпадения всех точек каждого кластера всем заранее известным точкам соответствующего класса поверхности, полученным методом полевых исследований или натурных наблюдений. В качестве примера существующего бенчмарка для общей задачи кластеризации можно упомянуть Fisher s Iris data set [112,113] . Однако бенчмарки для общей задачи кластеризации не могут быть использованы для оценки правильности кластеризации мультиспектральных данных, так как, во-первых, предполагают семантический а не пространственно-графический характер кластеризуемых объектов и во-вторых, зачастую предполагают исключительные ситуации пересекающихся кластеров для проверки алгоритмов, что не является. приемлемым при кластеризации данных дистанционного зондирования Земли по причине непересекаемости классов спектральных сигнатур. Создание тестового набора для автоматической оценки точности кластеризации мультиспектрального снимка на основе данных дистанционного зондирования и наземного обследования территории экономически невыгодно в силу больших финансовых затрат, связанных с проведением различных съемок на огромной территории с рельефом различной сложности, не всегда доступным для полевого измерения и составления эталонной тематической карты местности. Ситуация оценки точности усложняется в случае, когда для кластеризуемого мультиспектрального снимка просто не существует эталонной тематической карты, с которой можно было бы провести сравнение результатов кластеризации, и таких случаев - подавляющее большинство. Решение сложившейся проблемной ситуации возможно в двух направлениях: 1. Создание тестового набора данных для задачи кластеризации мультиспектрального снимка. 2. Определение метода оценки сравнения кластерных карт В качестве метода оценки сравнения кластерных карт предлагается использовать модификацию матрицы ошибок. Матрица ошибок представляет собой инструмент, использующий кросс-табуляцию для анализа того, как соотносятся значения совпадающих классов, полученные из различных источников [114]. Матрица ошибок, представленная в таблице 4.1, предполагает предопределенность классов в обоих наборах данных (классы A-Z) и основывается на их совпадениях (главная диагональ). В ячейках таблицы находится количество точек, располагающихся одновременно в классах столбца и строки. На главной диагонали находится количество совпавших точек для каждого класса.

Похожие диссертации на Разработка методов и алгоритмов кластеризации мультиспектральных данных дистанционного зондирования земли