Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Аппаратный комплекс и алгоритмы, основанные на методах машинного обучения, для измерения характеристик облачности над океаном Криницкий Михаил Алексеевич

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Криницкий Михаил Алексеевич. Аппаратный комплекс и алгоритмы, основанные на методах машинного обучения, для измерения характеристик облачности над океаном: диссертация ... кандидата Технических наук: 25.00.28 / Криницкий Михаил Алексеевич;[Место защиты: ФГБУН Институт океанологии им. П.П. Ширшова Российской академии наук], 2018.- 186 с.

Содержание к диссертации

Введение

Глава 1. Анализ существующих программно-аппаратных решений для автоматических наблюдений за облачностью 14

1.1 Существующие аппаратные решения 14

1.2 Существующие методы оценки балла общей облачности по широкоугольным оптическим снимкам видимой полусферы неба 21

1.2.1 «Cloud Index» 21

1.2.2 «Sky Index» 25

1.2.3 «Brightness Index» 26

1.2.4 Сравнение алгоритмов «Cloud Index» и «Sky Index» 28

1.2.5 Многокомпонентный анализ снимков 31

1.3 Особенности описанных методов оценки балла общей облачности 32

1.3.1 Обработка диска Солнца на снимках 32

1.3.2 Зависимость оценки балла общей облачности от настроечных параметров алгоритмов 36

1.3.3 Низкая чувствительность к оптически тонкой облачности 43

1.4 Выводы 47

Глава 2. Программно-аппаратное решение SAIL cloud v.2 48

2.1. Система сбора данных «SAIL cloud v.2» 48

2.1.1 Общее устройство. 48

2.1.2 Камера блока регистрации. 51

2.1.3 Устройство определения положения блока регистрации (УОП) 53

2.1.4 Апробация установки «SAIL cloud v.2» 54

2.2 Программная часть установки «SAIL cloud v.2». Режим сбора данных 54

2.3. Методика сбора данных с применением установки «SAIL cloud v.2» 55

2.3.1. Требования руководящих документов 55

2.3.2. Описание методики сбора данных 60

2.4. Морские экспедиционные наблюдения 64

2.4.1. Общее описание 64

2.4.2. Феноменологическое описание полученного массива данных 70

2.4. Выводы 73

Глава 3. Аналитический алгоритм оценки балла общей облачности «GrIx SAIL» 75

3.1. Фильтрация и предобработка натурных данных 75

3.2. Индекс в задачах оценки пространственных характеристик облачности 77

3.3 Схема фильтрации фона чистого неба 81

3.4 Алгоритм определения положения диска Солнца на снимке 91

3.5 Оценка качества аналитической ветви алгоритмов «GrIx SAIL» 94

3.6 Выводы 96

Глава 4. Современные методы машинного обучения в задачах оценки балла общей облачности и определения состояния диска Солнца 97

4.1 Введение 97

4.1.1 Общие сведения о подходе машинного обучения 97

4.1.1.1 Общая постановка задачи обучения по прецедентам 99

4.1.1.2 Признаковое описание объектов в машинном обучении 101

4.1.1.3 Общая схема применения методов машинного обучения, борьба с переобучением и оптимизация гиперпараметров 102

4.1.2 Постановка задач оценки балла общей облачности и определения состояния диска Солнца в терминах машинного обучения 105

4.2 Применяемые методы машинного обучения 108

4.2.1 Линейный дискриминантный анализ (LDA) 108

4.2.2 Метод глубоких искусственных нейронных сетей (DANN) 111

4.2.3 Композиционные методы на решающих деревьях. Градиентный бустинг над решающими деревьями 120

4.2.4 Композиционные методы на решающих деревьях. Случайные леса 126

4.3 Применение методов машинного обучения для определения состояния диска Солнца 127

4.3.1 Исходные данные, фильтрация и предобработка 128

4.3.1.1 Исходные данные 128

4.3.1.2 Фильтрация данных 129

4.3.1.3 Предобработка данных 131

4.3.2 Обучение моделей машинного обучения в задаче определения состояния диска Солнца 131

4.3.2.1 Модели RF, GBT, LDA 132

4.3.2.2 Модель DANN 133

4.3.3 Результаты моделей машинного обучения в задаче определения состояния диска Солнца 137

4.3.4 Выводы к задаче определения состояния диска Солнца 139

4.4 Применение методов машинного обучения в задаче оценки балла общей облачности 140

4.4.1 Исходные данные, фильтрация и предобработка 140

4.4.1.1 Исходные данные 140

4.4.1.2 Фильтрация данных 141

4.4.1.3 Предобработка данных 142

4.4.1.4 Дополнительные вещественные признаки 143

4.4.2 Обучение моделей машинного обучения в задаче оценки балла общей облачности 143

4.4.3 Результаты модели типа DANN в задаче оценки балла общей облачности 146

4.4.4 Выводы к задаче оценки балла общей облачности 147

Заключение 150

Список литературы 153

Приложение 1. Программное обеспечение установки SAIL cloud v.2 160

«Cloud Index»

Исторически один из самых ранних алгоритмов обработки снимков с целью оценки БОО, описанных в литературе, создан для применения в установках HSI и YES TSI [8,14]. Как установки YES TSI, так и заложенный в них алгоритм используются до настоящего времени.

Контрольным индексом в этой схеме является отношение , так называемый клауд-индекс (далее Cind) (1.2). Cind рассматривается как величина, характеризующая степень отнесения пикселя к классу «ОБЛАКО» [8].

Cindij = - (1.2) где Rij и BtJ - соответственно красный и синий компоненты цвета ij-го пикселя фотографии. В дальнейшем этот алгоритм будет упоминаться по наименованию контрольного индекса - «Cloud Index». Пример исходного изображения и поля значений Cind, рассчитанного по нему с применением маски, представлены на рис. 1.7. Здесь и далее используются изображения, полученные с установки «SAIL cloud v.2», разработанной автором в Лаборатории взаимодействия океана и атмосферы и мониторинга климатических изменений Института океанологии им. П.П.Ширшова РАН (далее ЛВОАМКИ ИОР АН) [18]. Установка подробно описана в Главе 2.

Для наглядности на рис. 1.8(б) приведен график значений Cind вдоль сечения, отмеченного на рис. 1.8(а).

Дальнейшая классификация пикселей изображения в алгоритме «Cloud Index» производится простым условным разделением с использованием фиксированного граничного значения, как это продемонстрировано на рис. 1.8(в). В статье [8], описывающей алгоритм «Cloud Index», приведено эмпирически подобранное граничное значение Cindth где – класс, к которому причисляется -й пиксель; класс «ОБЛАКО» соответствует принятию решения о том, что пиксель является частью изображения облака; класс «ЧИСТОЕ НЕБО» соответствует принятию решения о том, что пиксель является частью изображения открытого неба.

Поле значений с отмеченным сечением AB (обозначено розовой линией); (б) график значений вдоль сечения AB; - координата в пикселях вдоль прямой сечения AB; (в) визуальное представление решения о присвоении пикселям вдоль сечения AB класса «ОБЛАКО». Точки на сечении, классифицированные как «ОБЛАКО», обозначены зеленым цветом вдоль оси абсцисс Здесь следует отметить, что оптимальное с точки зрения точности оценки БОО значение следует подбирать для каждого регистрирующего устройства отдельно. Как будет показано далее, подходящая величина граничного значения зависит не только от оборудования как такового, но также от местности, на которой проводится наблюдение. В частности, от особенностей повторяемости различных типов облачности над точкой наблюдения.

После семантической сегментации облачных структур на снимке оценка БОО сводится к вычислению доли пикселей класса «ОБЛАКО» в числе всех точек изображения за вычетом маски: где - оценка балла общей облачности по шкале от 0 до 8; 0 - оценка балла общей облачности по шкале от 0 до 10; - количество точек изображения, классифицированных как «ОБЛАКО», - общее количество точек изображения за вычетом маски. При этом необходимо учитывать, что в практике российских наблюдений и согласно руководящим документам [19,3,4,5] оценка БОО ведется по десятибалльной шкале, чему соответствует значение 10. В то же время в зарубежной литературе в большинстве случаев БОО измеряется согласно Руководству Всемирной Метеорологической Организации (ВМО) [20], в т.н. октах - по шкале от 0 до 8, чему соответствует оценка 8.

Разделение всех точек широкоугольного снимка на классы здесь и далее в настоящей работе представимы в виде изображения, на котором пиксели, классифицированные как «ОБЛАКО», отображаются белым цветом, «ЧИСТОЕ НЕБО» - синим, «НЕ ИСПОЛЬЗУЕТСЯ» - черным. На рис. 1.10 приведет пример такой визуализации. Как было отмечено выше, для каждого нового регистрирующего устройства следует подбирать свое оптимальное значение. В данном случае использована следующая величина 0,67 . (1.7)

В приведенном примере (рис. 1.9) при использовании граничного значения (1.7) оценки БОО, вычисленные по формулам (1.5) и (1.6) составляют:

Исходный широкоугольный снимок видимой полусферы неба и (б) визуализация совокупности решений о классификации пикселей на классы «ОБЛАКО» (отображаются белым цветом), «ЧИСТОЕ НЕБО» (отображаются синим цветом) и «НЕ ИСПОЛЬЗУЕТСЯ» (отображается черным цветом). В данном случае использовано значение Cindth = 0,67

Требования руководящих документов

Практика натурных наблюдений БОО и СДС на территории России регулируется следующими документами:

1) «Наставления гидрометеорологическим станциям и постам» в части наблюдений за облаками [2,19];

2) Руководящий документ 52.04.316-92 «Наставление гидрометеорологическим станциям и постам», Выпуск 9 «Гидрометеорологические наблюдения на морских станциях», часть II «Гидрометеорологические наблюдения на судовых станциях, производимые штатными наблюдателями» [3];

3) Руководящий документ 52.04.585-97 «Наставление гидрометеорологическим станциям и постам», Выпуск 9 «Гидрометеорологические наблюдения на морских станциях», часть III «Гидрометеорологические наблюдения, производимые штурманским составом на морских судах» [4]; 4) Руководящий документ 52.04.562-96: “Наставление гидрометеорологическим станциям и постам”, в части актинометрических наблюдений [5].

Кроме этого существует руководящий документ Всемирной Метеорологической Организации (World Meteorological Organization, WMO) – «Guide to Meteorological Instruments and Methods of Observation» («Руководство по метеорологическим инструментам и методам наблюдений») [20].

Согласно «Наставлениям…» [2,3,19] для наблюдений за облаками регламентировано определение следующих показателей:

1) количество облаков (облачность);

2) форма облаков;

3) высота нижней границы облаков.

В настоящей работе из всех перечисленных характеристик рассматривается только количество облаков (облачность), определяемое баллом общей облачности (БОО). Согласно «Наставлениям…» [2,3]:

«16.1.2. Количество облаков (облачность) определяется суммарной долей небосвода, которая закрывается облаками, от всей видимой поверхности небосвода. Количество облаков (облачность) оценивается в баллах; 1 балл составляет 0.1 часть всего небосвода.»

Разделом 16.2 «Наставлений…» [2,3] регламентируются условия проведения наблюдений. В части, касающейся оценки количества облаков:

«- наблюдения за количеством облаков … следует проводить с такого места на станции, с которого виден весь небосвод (по возможности до горизонта);

- оценка количества и форм облаков должна производиться в сроки наблюдений в соответствии с программой работы станции».

Сроки наблюдений в этом руководстве не устанавливаются, однако в сложившейся практике метеостанций наблюдения за облачностью проводятся каждый час в светлое время суток и раз в три часа ночью.

Разделом 16.8 «Наставлений...» регламентируется форма записи результатов наблюдений. В части, касающейся оценки количества облаков:

«16.8.1. В книжку КМ-1 количество облаков записывается в баллах: сначала общее количество, затем количество облаков нижнего яруса.

Если количество облаков менее 0.5 балла, то записывается количество 0 баллов, форма облаков и в скобках делается пометка, «сл.» (следы). Запись при этом будет иметь вид 0/0 Cu (сл.); 0/0 Ci (сл.)» Таким образом, «Наставлениями…» [2,3,19] установлена 10-балльная шкала количества облаков. Кроме этого, как следует из текста этого документа, процедура наблюдений определяет оценку количества облаков как видимой части небосвода, закрытой облаками. Процедуры оценки БОО, описываемые регламентными документами для гидрометеорологических наблюдений на морских судах, аналогичны.

Следует, однако, заметить, что регулирующий документ ВМО (Всемирной метеорологической организации) [20] тоже содержит правила и стандарты наблюдений, которые несколько отличаются от общепринятой отечественной практики. Согласно этому руководству, в частности, параграфу 15.1.1 «Definitions» («Определения»):

«Количество облаков: оценочная доля небосвода, закрытая облаками определенного типа (частный балл облачности) или всеми без исключения облаками (общий балл облачности). В любом случае оценка производится в величине ближайшей окты (одной восьмой части небосвода) и записывается в виде ближайшей восьмой части …» (здесь и далее перевод автора настоящей работы.)

Параграф 15.1.4.1 “Руководства ...” ВМО [20] регламентирует методику оценки количества облачности:

«Большинство измерений количества облачности производится визуально.

Инструментальные методы в настоящий момент разрабатываются и иногда используются в оперативных наблюдениях в некоторых случаях с небольшой облачностью.

Производятся оценки количества облачности каждого определяемого яруса облачности, а также общее количество облачности в видимой с точки наблюдения области.

Общее количество облачности или полное облачное покрытие – это доля небосвода, покрытая всеми видимыми облаками. Таким образом, оценка общего количества облаков представляет собой оценку того, насколько видимая часть небосвода закрыта облаками».

Регламент рекомендуемых ВМО кодов при проведении наблюдений за облаками приведен в табл. 2.2.

Таким образом, согласно наставлениям ВМО, облачность оценивается в октах по 8-балльной шкале. Для облегчения процедуры наблюдений в «Руководстве…» ВМО [20] приводится рекомендация по визуальному разделению видимой части небосвода на квадранты, каждый из которых делится далее на две равные угловые части, как это продемонстрировано на рис. 2.6. Получившиеся зоны небосвода оцениваются на предмет закрытия облачностью, что при суммировании дает балл общей облачности в октах.

В остальном рекомендации по проведению наблюдений ВМО не отличаются от методик, принятых в Российской гидрометеорологической практике.

В настоящей работе используются оценки наблюдателей в октах – по шкале ВМО. С применением таблицы 2.2 перевод оценок количества облачности между шкалой ВМО и 10-балльной системой не вызывает затруднений. В случаях, когда промежуточное значение количества облачности записано в долях или процентах, оценка как для одной, так и для другой системы производится по формулам (1.5, 1.6), приведенным в Главе 1.

Метод глубоких искусственных нейронных сетей (DANN)

Искусственная нейронная сеть - это модель машинного обучения, возникшая под влиянием развивающихся в середине XX века представлений о строении нервных клеток и биологических основах высшей нервной деятельности. Некоторые современные конфигурации нейронных сетей представляют собой математические модели, приближенно имитирующие различные когнитивные функции мозга, такие как зрение, восприятие звуковых последовательностей и пр. К настоящему времени доказано [50,56], что нейронные сети являются универсальными аппроксиматорами функций, а возможности этих моделей в смысле точности аппроксимации возрастают с увеличением их сложности.

Базовыми структурными единицами, из которых составляются современные нейронные сети, являются т.н. искусственные нейроны. Искусственный нейрон - простейшая математическая модель, приближенно описывающая функционирование отдельного биологического нейрона. Для входного n-мерного вектора х, представляющего собой признаковое описание объекта хи искусственный нейрон выполняет преобразование вида: а(хь w) = а((хи w) = о Y wjx -w0) , (4.26) где w - вектор весов признаков, o(z) - т.н. функция активации нейрона. В первоначальной модели нейрона МакКаллока-Питтса [57,58] в качестве o(z) использовалась пороговая функция Хевисайда (4.27). С использованием этой модели искусственного нейрона и принципом объединения их в т.н. слои Ф. Розенблаттом в 1958г. была написана программная реализация нейронной сети, а впоследствии создано электронное нейросетевое устройство, получившее название «персептрон Розенблатта» и сегодня классифицируемая как трехслойная полносвязная нейронная сеть. М. Минским и С. Пейпертом в книге «Персептроны» [45] были показаны недостатки нейронных сетей, определяемые ограничениями распространенных конфигураций сетей в совокупности с особенностями используемой пороговой функции активации. В настоящее время в качестве r(z) чаще всего используются: т.н. функция-выпрямитель (4.28) (ReLU от англ. «rectified linear unit»), сигмоид (4.29), гиперболический тангенс (4.30) и др.

Произвольное значение, аргумент функции активации; в - настроечный параметр, являющийся одним из гиперпараметров нейронной сети. Выбор архитектур нейросетей в настоящее время не ограничивается трехслойным персептроном. Кроме того, в отличие от персептрона Розенблатта, в настоящее время для обучения широко используется т.н. метод обратного распространения ошибки (в некоторых источниках - «алгоритм обратной волны») [59,60,61,62], допускающий применение градиентных способов оптимизации, ставших стандартом de facto МО.

Для современных нейронных сетей характерно послойное построение структуры. Каждый слой представляет собой ансамбль искусственных нейронов, которые в режиме вычисления (использования) сети одновременно выполняют преобразование над входным вектором согласно (4.26). Результатом такого преобразования для 1-го слоя, состоящего из п« нейронов, является вектор значений длины п«. Этот вектор является входным для следующего (/ + 1)-го слоя нейронной сети, нейроны которого также выполняют преобразование (4.26). Описанная процедура передачи данных и их нелинейного преобразования повторяется до этапа формирования выходных значений сети на последнем слое. При решении задачи многоклассовой классификации последний слой состоит из К нейронов, где К - количество классов целевой переменной. При использовании соответствующего вида функции o{z) значения активаций (4.26) нейронов выходного слоя могут быть интерпретированы как вероятности отнесения объекта к соответствующему классу. Таким образом, слои подразделяются на входной, т.н. скрытые и слой выходных данных. На рис. 4.3 приведена схема многослойной нейросети с одним скрытым слоем, а также приведены используемые в настоящей работе обозначения. Нейронная сеть изображенной структуры - полносвязная искусственная нейронная сеть или т.н. персептрон Румельхарта.

Величины, приведенные на рис. 4.3(б), связаны следующими соотношениями: где WQ- - вес т.н. смещения (искусственно задаваемого значения (ц = —1) дляу-го нейрона слоя (1 + 1).

Как и во многих методах МО, настройка весов нейронной сети (обучение модели) производится градиентной оптимизацией. Функционал ошибки L(W,T) подвергается оптимизации W = argmin(I/K, Т), где W - вектор всех весов w сети, W - пространство параметров w. Для применения градиентных методов минимизации вычисляется градиент функционала L(W,T). Метод обратного распространения ошибки, описанный ниже, предоставляет возможность вычислять градиент —щ для всех l,iиj на пространстве W за число операций, немногим большее, чем при использовании сети в режиме исполнения.

Функционал среднеквадратичной ошибки на объекте хк с известным верным вектором ответов yfc может быть записан в виде: где - номер выходного слоя и одновременно количество слоев сети; - индекс нейрона выходного слоя; - количество нейронов выходного слоя, совпадающее с количеством классов решаемой задачи.

Частные производные функционала ошибки по весам любого из слоев нейронной сети согласно приведенным обозначениям записываются следующим образом

Выводы к задаче оценки балла общей облачности

Полученные результаты позволяют заключить, что методы МО, в частности, глубокие полносвязные нейронные сети, могут эффективно применяться в задаче оценки БОО по широкоугольным цифровым оптическим снимкам видимой полусферы неба над океаном.

Высокая точность достигается на пространстве числовых признаков, сформированных на основании статистик цветовых полей изображения и синтетического индекса , предикторов, вычисляемых на основании координат и времени съемки, а также оценок вероятностей классов СДС, генерируемых моделью определения СДС.

Как и в задаче определения СДС, модель МО, настроенная на максимально точное приближение к экспертной оценке на выборке большого объема, может в определенной мере повторять ошибки наблюдателей в их систематической части. Эта проблема должна решаться административно выявлением и устранением источников систематических ошибок экспертов.

Как и в задаче определения СДС, для алгоритма оценки БОО возможно снижение точности при обработке снимков, получаемых в условиях съемки, редко представленных в тренировочной выборке. Однако достаточно широкий спектр условий наблюдений и облачных ситуаций, зафиксированный в обучающей выборке, а также высокое качество классификации БОО на контрольной выборке позволяют утверждать, что предложенная модель типа глубокой искусственной нейронной сети проявляет высокую обобщающую способность: качество на тренировочной и тестовой выборке отличаются менее, чем на 1%. С одной стороны, способность к обобщению позволяет предполагать несущественное снижение качества классификации на примерах, редко представленных в обучающей выборке. С другой стороны, это означает, что алгоритм оценки БОО в предложенной формулировке в целом проявляет свойства точности и универсальности, а поскольку для функционирования этой модели не требуется вмешательство эксперта и регулировка параметров, можно утверждать, что она также проявляет свойство автономности.

Полученная в вышеизложенном подходе точность () определения БОО достигает 99,3%, и при этом статистические характеристики поля индекса и оценки вероятностей классов СДС оказываются в ряду наиболее значимых переменных. В то же время высокое качество классификации при использовании методов МО может рассматриваться как косвенное подтверждение выдвинутой гипотезы компактности для объектов (цифровых широкоугольных снимков видимой полусферы неба) в сформированном (4.11) пространстве вещественных признаков. Эти два наблюдения позволяют выдвинуть предположение об эффективности предложенного метода, особенно с использованием авторского синтетического индекса , в задачах схожего вида, таких как классификация наблюдаемых типов облачности и др.

Следует заметить, что на настоящий момент согласно документам, регулирующим метеонаблюдения на море, показания эксперта считаются более достоверными, чем любые автоматизированные оценки. Описанный подход демонстрирует высокую точность = 99,3% определения целевой переменной. Однако нужно учитывать, что в описанной постановке задачи целевая переменная – именно оценка БОО наблюдателем, что может налагать дополнительные ограничения на применимость сформулированного метода. С другой стороны, это же обстоятельство, а также высокая демонстрируемая точность предложенных методов определения СДС и оценки БОО позволяют говорить о преемственности методики наблюдений с применением предложенных методов МО.