Содержание к диссертации
Введение
1. Нейросетевые технологии для анализа специализированных баз данных 11
1.1. Общие принципы построения нейросетевых алгоритмов 17
1.2. Персептрон Розенблатта 20
1.3. Сеть Хопфилда 21
1.4. Звезды Гроссберга 23
1.5. Карта самоорганизации Кохонена 24
1.6. Нейронная сеть встречного распространения 27
1.7. Алгоритм Двойственного Функционирования 29
1.8. Нейросетевой итерационный метод главных кривых для данных с пробелами 30
2. Метод многомерной нелинейной регрессии данных 33
2.1. Постановка задачи обработки данных 33
2.2. Принципы построения алгоритма обработки данных.. 36
2.3. Обобщение метода наименьших квадратов 39
2.4. Преобразование данных перед обработкой 40
2.5. Процедура оптимизации 42
2.6. Быстрый метод перекрестной проверки
3. Восстановление скрытых параметров при обработке данных 48
3.1. Постановка задачи восстановления скрытых параметров
3.2. Алгоритм решения задачи восстановления скрытых параметров 53
3.3. Пример анализа пространственно-случайного поля 54
4. Программный комплекс "Модели" для обработки данных
4.1. Общая характеристика комплекса программ 60
4.2. Процедура размещения данных в программе 65
4.3. Процедура синтеза модели 68
4.4. Процедура "Коррекция задачника" 71
4.5. Процедура "Результат" 72
4.6. Функция "НМОДЕЛЬ" 74
4.7. Функция "ПРОГНОЗ" 76
4.8. Группа функций категории "ССЫЛКИ и МАССИВЫ" 76
4.9. Рекомендации для программиста-пользователя
4.10. Создание и обучение нейросетевых моделей в вычислительной среде Матлаб 78
4.11. Эффективность работы комплекса программ 80
5. Примеры практического применения реализованных методов 84
5.1 Оценка сейсмической опасности 84
5.1.1. Прогноз сильных землетрясений 86
5.1.2 Нейросетевой анализ каталога землетрясений 87
5.1.3 Статистические характеристики модельных распределений сейсмособытий 88
5.1.4 Возможность прогнозирования сейсмических сотрясений на территории Красноярского края 5.2. Исследование наводнений в период весенних паводков. 94
5.3. Метод многомерной нелинейной регрессии данных наблюдений о цунами 1 5.3.1 Краткое описание экспертной системы для оценки цунамиопасности, применительно к побережью Приморья в Японском море 110
5.3.2 Использование информации гидрофизической подсистемы оперативного прогноза о цунами 112
tr class="lib r2" td Заключение. 116
tr class="lib r2" td Литература 117
- Сеть Хопфилда
- Обобщение метода наименьших квадратов
- Алгоритм решения задачи восстановления скрытых параметров
- Группа функций категории "ССЫЛКИ и МАССИВЫ"
Введение к работе
Актуальность проблемы. Неточно заданные, т.е. содержащие пропуски, ошибки, а также, заданные приближено, данные составляют, на сегодняшний день, основной объем численной научной информации. Заполнение пробелов в массивах данных является базовой проблемой, возможность работы с некачественными данными открывает новые перспективы во многих областях науки, производства и других аспектах жизнедеятельности человека. В связи с этим, проблемы обработки нечетких данных, активное внедрение разрабатываемых методов стали на протяжении последнего десятилетия предметом обсуждений и исследований на ряде международных конференций (ICANN-1999, IJCNN-1999, ICANN-2000.
В то же время, аппарат автоматизированной обработки таких данных проработан недостаточно. Существующие методы и комплексы программ, работающие на их основе, не позволяют использовать всю имеющуюся в данных информацию для анализа. Данная работа посвящена автоматизированной непараметрической нелинейной регрессии неточно заданных данных, т.е. отыскании закономерностей в массивах таких данных не только для обобщения неполных данных, но и для восстановления и пополнения их.
В материалах конференций все чаще встречаются публикации на тему обработки нечетких данных с использованием искусственных нейронных сетей. Однако, данная тематика, как показывают исследования профессора А.Н. Горбаня, не находится в достаточно проработанном состоянии.
Актуальность исследований в этом направлении подтверждается широким спектром различных применений нейросетей. Это автоматизация процессов, распознавание образов, адаптивное управление, аппроксимация функций, прогнозирование, создание экспертных систем, организация ассоциативной памяти и многие другие приложения. С помощью нейросетей предсказываются показатели биржевого рынка, выполняется распознавание оптических или звуковых сигналов, создаются самообучающиеся системы, способные управлять автомашиной при парковке, или синтезировать речь по тексту.
Несмотря на универсальность нейросетевого подхода, в работе с неточно заданной информацией основное внимание уделяется на обработку узкоспециализированных типов данных: речи, изображений, результатов конкретных экспериментов. В отечественной литературе представлены работы по нейросетевой транспонированной регрессии, позволяющей заполнять пустоты в таблицах данных, но указанный алгоритм также недостаточно универсален.
Тем не менее, создание автоматизированных систем обработки неточно заданных данных с использованием нейронных сетей на данном этапе развития актуально и целесообразно, поскольку такие данные составляют значительную часть научных результатов, а нейросетевой подход обеспечивает высокую эффективность по работе с большими объемами информации.
Благодаря применению в нейросетях метода двойственности (В .А. Охонин, С.И. Барцев 1986; Rummelhart D.E. et. al. 1986), а также дальнейшего лавинообразного развития нейросетевой тематики, нейросетевые методы являются наиболее адекватным инструментом в нетривиальной статистике. Сегодняшнее развитие вычислительной техники и программного обеспечения находится на достаточно высоком уровне для создания системы автоматизированной обработки неточно заданной информации с использованием нейронных сетей.
Обучающиеся искусственные нейронные сети обладают рядом преимуществ по сравнению с традиционными статистическими методами. При обучении по реальным данным нейросеть способна выявить закономерности достаточно высокого уровня сложности за приемлемое время. В данной работе представлены методы, требующие значительного объема вычислений, а значит и нейросетевого подхода.
Цель работы состоит в разработке средств нейросетевой обработки неточно заданных данных, позволяющих наиболее полно учесть их особенности и закономерности, заключенные в них. Для достижения этой цели необходимо:
1. Систематизировать и обобщить существующие виды специализированной информации для выявления типичных недостатков и возможностей их коррекции.
2. Выполнить анализ существующих статистических и нейросетевых подходов для исследования неточных данных и оценить их достоинства и недостатки.
3. Разработать адекватные математические методы на основе применения нейросетевых вычислительных технологий для работы с информацией, обладающей различными типами недостатков, определить границы их применимости.
4. Разработать эффективные алгоритмы, оптимизировать их для современных вычислительных сред, создать методику обучения и использования нейросетей применительно к таблицам неточных данных.
5. Разработать эффективное программное обеспечение для построения и обучения нейросетей со структурой данных, позволяющей наиболее эффективно проводить вычисления и анализ результатов расчетов.
6. Провести ряд вычислительных экспериментов в научных исследованиях, связанных с мониторингом окружающей среды, с использованием разработанных математических методов, алгоритмов и комплекса программ.
Научная новизна работы заключается в следующем:
1. Разработан математический метод на основе нейросетевого подхода для построения нелинейной многомерной регрессии с неполной и с неточно заданной информацией.
2. Разработан математический метод на основе нейросетевого подхода для выявления и воспроизводства закономерностей в стохастических данных наблюдений.
3. Применением теории возмущений разработан быстрый метод перекрестной проверки регрессионных моделей.
4. Разработаны новые эффективные алгоритмы и комплекс программ, реализующие предложенные математические методы анализа неточных и стохастических данных.
Реализация результатов. Разработанные в диссертации методы реализованы в комплексе программ "Модели", где предусмотрен также полный набор стандартных нейросетевых операций над данными, позволяющий проводить нейроанализ данных в современных вычислительных средах (Matlab, Excel и др.).
Полученные результаты нейросетевой обработки данных мониторинга окружающей среды (сейсмической, экологической, геологической информации) использованы в работах по грантам РФФИ № 98-05-65280, №99-05-65372, №01-05-64704, ФЦП «Мировой океан», Краевой Целевой Программе «Сейсмобезопасность Красноярского края» и др.
Имеются акты о внедрении программы в эксплуатацию. Результаты проведенных исследований докладывались и обсуждались на международных и отечественных научных конференциях и научных семинарах в ИБФ СО РАН, ИСИ СО РАН, ИВМ СО РАН, КГУ, КГТУ.
Практическая ценность работы.
1. Разработанные в диссертации методы и алгоритмы допускают автоматическую обработку больших массивов данных. При решении отдельных задач достигается сжатие информации в десятки раз путем нейросетевой аппроксимации массивов данных, содержащих тысячи записей.
2. Разработанные в ходе выполнения работы компьютерные программы подготовлены к использованию в научных исследованиях,
касающихся обработки таблиц численной информации, в различных областях знаний.
3. Внедрение созданного программного комплекса в современные вычислительные среды позволяет использовать стандартные и предложенные нейросетевые методы при решении прямых и обратных задач.
Теоретическая значимость.
1. Сформулировано обобщение метода наименьших квадратов для изомерной метрики расстояния.
2. Разработан метод получения нейросетевых гомоморфных преобразований для отображения однородных распределений в неоднородные, используемый при воспроизведении неформализованных распределений случайных величин небольших выборок.
3. Для метода перекрестной проверки найден обучающий функционал, требующий для вычисления 0(К) операций, где N - число задач в обучающей выборке.
4. Разработаны алгоритм обучения и структура трехслойной нейронной сети, позволяющие достигнуть выигрыша в скорости работы, по сравнению с коммерческими программами, реализующими подобные нейросети, на три порядка.
На защиту выносятся:
1. Обобщение метода построения нелинейной многомерной аппроксимации и алгоритмы работы для таблиц неточных данных.
2. Нейросетевой метод и алгоритм анализа стохастических данных.
3. Алгоритм быстрой перекрестной проверки регрессионных моделей.
4. Эффективный алгоритм функционирования и обучения нейросетевых моделей, с возможностью обработки нечетко заданной информации, регуляризацией обучения, дающий значительный выигрыш в скорости по сравнению с ранее предложенными алгоритмами.
5. Комплекс программ нейросетевой обработки данных "Модели", результаты вычислительных экспериментов проведенных с помощью комплекса программ "Модели" по анализу данных мониторинга окружающей среды.
Апробация работы.
Основные положения диссертационной работы докладывались и обсуждались на: XXXV международной научной студенческой конференции "студент и научно-технический прогресс" (НГУ, Новосибирск, 1997); V всероссийской конференции "Нейрокомпьютеры и их применение" (ИПУ, Москва, 1999); VI Всероссийском семинаре «Нейроинформатика и ее приложения» (Красноярск, 1998); VII Всероссийском семинаре «Нейроинформатика и ее приложения» (Красноярск, 1999); Всероссийском симпозиуме "Гомеостаз и окружающая среда" (Красноярск 1998); Конференции молодых ученых по математике, математическому моделированию и информатике. (ИВТ СО РАН, Новосибирск, 2001); VI международном семинаре-совещании «Кубатурные формулы и их приложения» (ИМВЦ УфНЦ, Уфа, 2001); V ФАМ конференции (ИВМ СО РАН, Красноярск, 2001); Научных мероприятиях «Природно-техногенная безопасность Сибири» (Красноярск, 2001); VI ФАМ конференции (ИВМ СО РАН, Красноярск, 2002).
Публикации. Основное содержание работы опубликовано в 1 монографии, 1 статье, 8 научных трудах и 5 тезисах докладов научных конференций.
Структура и объем работы. Диссертационная работа состоит из Введения, 5 глав (первая глава - обзор литературы), Заключения, Списка литературы из 126 наименований и Приложений. Работа изложена на 156 страницах машинописного текста, содержит 2 таблицы и иллюстрирована 44 рисунками. В Приложение вынесены разработанные в ходе выполнения работы программные модули для ПЭВМ и копии актов о внедрении программы.
Сеть Хопфилда
Возможности выявления закономерностей в окружающем мире, выраженном в числовом виде, во многом определяют эффективность решения как научно-исследовательских, так и прикладных, производственных задач [6, 12]. Случайные, как и намеренные искажения оцифрованных данных часто влекут невозможность работы с последними, именно по причине неприспособленности существующих алгоритмов к таким типам данных.
Неточно заданные, т.е. содержащие пропуски и ошибки данные, а также заданные приближено, составляют в настоящее время основной объем численной научной и прикладной информации [16, 28, 57]. Заполнение пробелов в массивах данных является базовой проблемой обработки информации [25], возможность работы с некачественными данными открывает новые перспективы во многих областях науки, производства и других аспектах жизни. В то же время аппарат автоматизированной обработки таких данных недостаточно проработан.
Таким образом, настоящее исследование посвящено разработке новых подходов к анализу массивов трудно формализуемых разнородных данных на основе автоматизированной нелинейной регрессии неточно заданных числовых данных и отыскании закономерностей в больших массивах многомерных данных.
Предлагаемые математическая модель, алгоритмическое обеспечение и программный комплекс рассчитаны не только для обобщения неполных данных, но и для восстановления и пополнения их, а также решения задач многомерной комплексной фильтрации, изучения пространственных случайных полей, распознавания образов и классификации объектов различной природы.
Создание автоматизированной системы обработки неточно заданных данных с использованием нейронных сетей в настоящее время актуально и целесообразно, поскольку такие данные составляют значительную часть в различных областях знаний. Следовательно, требуется нетрадиционный подход для быстрой и эффективной обработки, достаточная надежность и простота реализации, таким требованиям удовлетворяют искусственные нейронные сети.
Отметим, что современное развитие вычислительной техники и программного обеспечения находится на достаточно высоком уровне для создания указанной компьютерной системы. Известно, что обучающиеся искусственные нейронные сети обладают рядом преимуществ по сравнению с традиционными статистическими методами [12, 20, 25, 50]. При обучении по реальным данным нейросеть способна выявить закономерности достаточно высокого уровня сложности за приемлемое время. Кроме того, она имеет возможности для обработки нечетких данных, не встречающиеся в традиционной статистике, которые также требуют значительного объема вычислений [2, 25, 49].
Искусственные нейронные сети разработаны, в основном, для быстрой сложной обработки больших массивов данных с помощью универсальной реализации сложной функции, составленной из многих простых, часто работающих параллельно. Элементы этой функции созданы на примере биологических нервных систем [23]. Как и в природе, нейросетевая функция определяется и изменяется с помощью связей между элементами. Возможно, таким образом, обучать нейронную сеть решению определенной задачи с помощью варьирования сил связей между элементами.
Обычно нейросети настраиваются, или обучаются так, чтобы определенным входам соответствовали необходимые выходы. То есть, решается задача аппроксимации, в общем случае, многомерной функции многих переменных. Следовательно, нейросети могут быть обучены для решения задач в самых различных областях, включая распознавание образов, идентификация, классификации, речи, зрения и управления сложными системами [23,25]. Рост интереса к нейронным сетям, помимо вышеприведенных причин, обусловлен все более возрастающей потребностью упростить программирование. Это связано с потребностью повышения производительности компьютеров, которая при наличии физических ограничений на скорость выполнения одной операции в процессоре, может быть реализована распараллеливанием вычислительного процесса [25].
Обеспечение согласованной работы множества процессоров предъявляет высокие требования к программированию и усложняет отладку параллельных программ. Кроме того, имеется тенденция к упрощению функций отдельного процессора при предоставлении ему всех необходимых ресурсов в монопольное владение, а также ориентация на логические действия и использование логики нечетких множеств. Своеобразным предельным воплощением этих тенденций являются нейронные сети, как машины обработки информации, отличающиеся от традиционных компьютеров в следующем [43]: 1. Наличие гибкого параллельно-последовательного способа обработки информации, где пропорция параллельных и последовательных этапов зависит от задачи. 2. Обучение машины вместо ее программирования. 3. Отсутствие проектирования детальной схемы машины, так как она состоит из однородных, относительно простых элементов (вероятно, аналоговых), причем структура связей между ними устанавливается в процессе обучения. В случае чисто программной реализации это соответствует использованию одного и того же простого вычислительного модуля в программах, ориентированных на решение различных задач. Функция, выполняемая нейросетью, задается специальным массивом параметров, формируемых во время обучения нейросети. 4. Блок или программа обучения, система модификации связей входят в саму машину или нейросетевую программу, являясь ее неотъемлемой частью. 5. Высокая устойчивость к отказам элементов или к повреждению массива параметров на носителе. В настоящее время нейросети применяются, в основном, при решении задач трудных для обычного программирования или человека. Традиционное использование нейросетей - при автоматизации процессов, в управлении устройствами в неприемлемых для человека условиях, в научных исследованиях и т.п. [63].
Обобщение метода наименьших квадратов
Для оптимизации функции градиентными методами, при большом числе параметров требуется находить множество частных производных, и, с помощью метода множителей Лагранжа, удается довести время нахождения градиента до СТ, где Т — время вычисления функции, традиционно, константа С порядка 3 [23, 25], в разработанном здесь алгоритме она приближается к 1, то есть время одной итерации обучения примерно равно одной итерации функционирования.
Так как обычно ландшафт оценочной функции очень сложен, при недостаточной избыточности числа подстроечных параметров невозможно, используя градиентные методы, достигнуть глобального минимума. Для решения этой проблемы разработаны методы глобальной оптимизации, такие как метод виртуальных частиц [24], генетические алгоритмы, методы Монте-Карло [119].
Однако, существующая проблема переобучения показывает, что глобальный минимум обучающего функционала далеко не всегда обеспечивает оптимальное решение, регуляризационные методы и методы ранней остановки иллюстрируют это [35].
Для оценки экстраполяционных способностей обученных нейросетей типично разбитие обучающей выборки на собственно обучающую и тестовую. Для исключения эксперта из процесса обучения, используются большое количество вариантов разбивок выборки, при которых находятся в среднем оптимальные параметры регрессионной модели. Далее, найденные параметры используются для построения окончательного варианта модели, причем в обучающей выборке участвуют все примеры задачника.
Например, в методе перекрестной проверки [6, 7, 9, 13] каждая задача поочередно перемещается из обучающей выборки в тестовую, поэтому вычисление обучающего функционала состоит из суммирования многих незначительно отличающихся значений. Можно используя теорию возмущений приблизительно вычислять обучающий функционал и его градиенты, что значительно увеличивает скорость обучения.
Рассмотрим возможный алгоритм уточнения нечетких данных. Пусть априорно известно, что в данных имеется зависимость типа R(X,р) = 0, гдер - параметры модели, х - обрабатываемые данные. Например, это может быть и традиционная линейная зависимость рлХ = рь. Одновременно с построением модели будет решаться и задача залолнения пробелов в таблице - исходные данные xt будут заменяться на более соответствующие найденной зависимости х, .
Если модель уже создана, и доучиванию не подлежит, модели могут предъявляться вектора данных с пропусками, и минимизируя функционал с фиксированным р модель будет их уточнять:
Для нахождения достоверности параметров модели и найденных ответов, в предположении что все ошибки содержатся в исходных данных, а модель строится точно, можно воспользоваться следующим подходом. Каждая компонента таблицы данных влияет на параметры модели, дрк можно найти силу этого влияния как чувствительности первого порядка [116, 122, 123], тогда в первом приближении наибольший результат ошибок данных скажется на достоверности параметра модели следующим образом: 4ft = (2.4) аналогично находится верхнее ограничение на доверительные интервалы уточненных данных =S
Реальное значение доверительных интервалов почти всегда значительно меньше - оценивается худший случай, когда все эксперименты специально устроены так, чтобы как можно дальше увести модель от правильного решения. Рассмотрим классический метод наименьших квадратов. В нем минимизируется функционал (2.6) оценивающий соответствие модели эксперименту. где і - номер эксперимента, уі - экспериментальное значение, х - вектор переменных, от которых находится зависимость, у(х,р) аппроксимирующая функция, р - вектор настраиваемых параметров функции.
В результате находятся параметры стандартной функции (обычно линейной), аппроксимирующей экспериментальную зависимость. Но в эксперименте не все данные могут иметь одинаковую достоверность, поэтому во взвешенном методе наименьших квадратов вводятся веса отражающие влияние каждого эксперимента.
Не всегда минимум отклонения модели по координатам у будет удовлетворять лучшему ее соответствию изучаемому явлению. В этой связи по аналогии с взвешенным МНК (2.1), где вклад каждого слагаемого в функционале делится на его точность, предлагается оптимизировать следующий функционал (2.9). где Ху - аргументы аппроксимирующей функции предполагаемые моделью, "Ху - измеренные аргументы аппроксимирующей функции, не совпадающие с Хц, у - аппроксимируемая функция, Зхж 8у - доверительные интервалы; п - количество точек в выборке; т - число аргументов функции.
При оптимизации находятся не только уточненные объекты (у), но и их признаки (х). За это, конечно, приходится расплачиваться временными ресурсами, однако возможна реализация алгоритма, при котором дополнительные члены функционала приводят к набору независимых задач малой размерности.
Если в методе наименьших квадратов подстраиваемые параметры можно было найти вручную, то тут их количество увеличивается на п т. В то же время при приближении к стандартным задачам, то есть к методу наименьших квадратов устремляя все 8х к нулю, или к решению алгебраических уравнений полагая Sxjk = о, а 8ук равным нулю, получается затраты времени близкие к стандартным методам.
Как показано далее, предложенное обобщение метода наименьших квадратов для изомерной метрики расстояния является одним из наилучших способов построения регрессионных моделей неточных данных.
Алгоритм решения задачи восстановления скрытых параметров
Порядок входов и ответов во всех строках должен совпадать - все элементы столбцов интерпретируются как имеющие одинаковый содержательный смысл, как различные значения одной и той же величины.
При управлении процедурами программы через диалоговое окно необходимо располагать оба массива, составляющие бимассив причинно-следственных сочетаний, рядом - слева массив следствий, справа - массив причин (при управлении процедурами программы посредством размещения функций на рабочих листах это не обязательно).
Итоговые размеры бимассива по горизонтали будут суммой количества входов и ответов, по вертикали - суммой количества задач и тестов. В качестве адреса бимассива в диалоговом окне указывается последняя ячейка первой строки массива ответов.
Такое, "квазицентрированное" по горизонтали, расположение адреса несколько нестандартно, и обусловлено тем, что при исследовательской работе горизонтальные и вертикальные размеры массивов, составляющих бимассив, часто необходимо согласованным образом изменять. Например, решив, что несколько входов или выходов в дальнейшей работе можно временно не учитывать, соответствующие изменения можно проделывать, не меняя адресов.
Адрес бимассива исходных данных указывается в пункте "Задачник". Исходную информацию о точности эмпирических данных, если таковая имеется, можно разместить в бимассиве "Точности", если же этой информации нет, то флажок "Учесть точность" не следует активировать. При этом пункт "Точности", и соответствующий бимассив, можно не заполнять, если же флажок активирован, то все должно быть заполнено.
Структура бимассива точностей совпадает со структурой бимассива эмпирических данных. Если известны доверительные интервалы данных, то, вычислив дисперсии данных по столбцам и поделив их на квадраты доверительных интервалов, получим величины для заполнения бимассива точностей.
Верхняя часть каждого столбца массива данных, соответствующая обучающим задачам, должна иметь ненулевую дисперсию. В противоположном случае столбец содержит только тривиальную, с точки зрения организации процедуры обучения, информацию, и программа выдаст деление на ноль.
То же произойдет, если обучающая задача всего одна. По близким причинам ни один столбец бимассива точностей, при использовании этого бимассива, не должен полностью состоять из нулей, обратное означало бы отсутствие в этом столбце информации имеющей ненулевую достоверность. Еще два бимассива необходимы для вывода результатов: бимассив "Прогнозы", имеющий ту же структуру и размеры, что и бимассивы эмпирических данных и их точностей, и бимассив "Модель", имеющий те же горизонтальные размеры, что и прочие бимассивы, но отличающийся по вертикальным размерам, задаваемым пользователем. Минимально допустимый вертикальный размер бимассива "Модель" равен трем.
В бимассиве "Прогнозы" размещаются результаты модельного сглаживания эмпирических данных, в бимассиве "Модель" сохраняется информация о параметрах аналитической модели.
Размеры бимассивов определяются по пунктам "Ответы" (количество выходов), "Входы" (количество входов), "Задачи" (количество задач), "Тесты" (количество тестовых задач), "Размер" (вертикальные размеры бимассива "Модель" минус два).
Расположение адресов бимассивов должно позволять им разместиться, не выходя за края рабочего листа и не перекрываясь друг с другом. Можно размещать бимассивы на различных рабочих листах, и в различных рабочих книгах.
Меню методов, доступных пользователю, открывает вспомогательная процедура "Рамки", рисующая стандартные рамки для всех бимассивов, облегчая визуальный контроль за правильностью указания данных. Если принятый по умолчанию цвет (но не тип) верхнего края рамки для адресной ячейки изменить, данная процедура соответственно перекрасит эту рамку. Имеется еще одна возможность указать на столбцы входов и ответов -указать строку или столбец в котором некоторые ячейки содержат текст начинающийся с "an" - это ответы - а другие ячейки содержат текст начинающийся с "in" - это входы. В этом случае адресной ячейкой бимассива является первая из ячеек первой строки.
Аналогично, можно указать столбец или строку, в которой часть ячеек содержит текст начинающийся с "ta" - это задачи, а часть - текст начинающийся с "te" - это тесты. В адресной ячейке бимассива может быть размещена функция БЛОК, при этом правила указания размеров массивов остаются прежними.
Группа функций категории "ССЫЛКИ и МАССИВЫ"
В массиве данных обучающими являются задачи расположенные в верхней части, а тестовыми - в нижней; стандартная рамка обозначает эту границу пунктиром.
В табличке наблюдений показывается фактическая спектральная плотность, тогда как в диалоговом окне устанавливается рекомендуемая. Если фактическая спектральная плотность существенно (на несколько десятков процентов) больше рекомендуемой, это косвенно указывает на то, что при поднятии уровня рекомендуемой спектральной плотности заметно уменьшиться ошибка обучения, но вовсе необязательно уменьшится ошибка тестирования. Если же фактическая спектральная плотность заметно меньше рекомендуемой, то стоит попробовать снизить рекомендуемую спектральную плотность.
При вычислении спектральной плотности следует иметь ввиду, что в программе данные обезразмериваются (2.10, 2.11), так что дисперсии по каждому входу и каждому выходу делаются равными единице - и спектральная плотность определяется именно в этих безразмерных единицах.
Соответственно, спектральная плотность функции, аппроксимирующей (при параметре Размер=1) функцию const sin(x), например, будет равна const2 лишь в случае, когда при наличии величины х в обучающей выборке непременно имеется и значение -х, а отношение дисперсии входов к дисперсии выходов для обучающей выборки составит единицу. В других же случаях спектральная плотность будет пропорциональна единице, с коэффициентом пропорциональности, зависящим от статистических характеристик обучающей выборки.
Если количество обучающих задач мало, то для тестирования имеется процедура "Экономный тест", при которой предсказания по тестовым задачам делаются поочередно, а модель перед предсказанием доучивается с использованием как обучающей, так и тестовой, информации - исключая информацию в строке бимассива, подлежащую тестовому прогнозу. Шкала измерения ошибки обучения и тестирования автоматически выбирается таким образом, чтобы простейший прогноз по среднему арифметическому ответов соответствовал единичному среднеквадратичному отклонению. Таким образом, чем ближе ошибки обучения и тестирования к нулю, тем лучше. Если же эти ошибки больше единицы, модель получилась неудачная - прогноз типа - "все будет как было раньше в среднем" - ничуть не хуже.
При нескольких ответах для каждой причинно-следственной строки оценка усредняется по всем ответам. Если используется информация о точностях и точности для некоторых ответов указаны пониженные, то будет снижен и вклад соответствующей ошибки при вычислении общей средней ошибки, а модель при обучении будет пытаться прежде всего не расходиться с более точными данными.
На основе результатов тестирования можно подобрать наиболее устраивающую пользователя спектральную плотность, таким образом, чтобы и ошибки обучения и тестирования были поменьше.
При больших спектральных плотностях легче достигнуть уменьшения ошибки обучения - без требования гладкости интерполяцию провести проще, но при этом ухудшаются показатели тестового прогнозирования. Также подбирается размер модели, при этом иногда существенно и то, что при больших размерах, и, соответственно, сложности модели растет машинное время.
Зная указанные параметры, а также выбрав, опытным путем, ту форму количественного представления данных, обычные или в логарифмических шкалах, или как-то еще преобразованные, при которой модель лучше всего работает, можно перевести все тестовые задачи в разряд обучающих. Затем, откорректировать модель по этому расширенному списку данных, и переходить к экспериментам с моделью.
При самостоятельном освоении программы проще начать не с реальных данных, а с учебных задач, которые можно сгенерировать в среде "Excel". Например, можно сгенерировать табличку случайных чисел (например, 10x5), т.е. считать первые два столбца выходными, а последние 3 - входными, первые восемь строк содержащими восемь задач, последние две строки - двумя тестовыми задачами.
На этих данных модель должна научиться приближенно воспроизводить ответы по входам, но провалиться на тестировании, поскольку в таблице случайных чисел закономерностей нет. Затем можно заменить случайные ответы ответами предсказываемыми нейросетью и попытаться научить другую неиросеть найти закономерность в полученной таблице.
Можно также заменить выходы в таблице функциями соответствующих им входов, и откопировать придуманные функции на все столбцы массива ответов - после этого тестирование может показать, что модель после обучения приближенно улавливает закономерность, особенно если расширить список обучающих и тестовых задач.
При тренировке с запоминанием случайных чисел приходится брать большие размеры модели, площадь бимассива модели порядка площади запоминаемой таблицы, и большие спектральные плотности (от 1 до 10 и выше).
При наличии закономерностей спектральная плотность нередко бывает порядка единицы (в используемой программой автоматически обезразмериваемой шкале), а при необходимости сильного сглаживания, когда приходится многое в данных полагать не поддающимся интерпретации, квазислучайным, могут использоваться и низкие величины спектральной плотности (порядка 0.1, например).