Содержание к диссертации
Введение
Глава 1 Модель финансово-экономических показателей предприятий - налогоплательщиков, задачи оптимизации их постналогового дохода и классификации налогопла тельщиков: постановка и существующие методы решения 19
1.1 Экономическая постановка задач, обзор и анализ существующих методов решений задач 19
1.1.1 Анализ функциональной деятельности существующей системы управления налоговым контролем регионального уровня 19
1.1.2 Экономическая постановка решаемых задач 23
1.1.3 Существующие подходы к решению задачи индикации нарушителей -налогоплательщиков 27
1.2 Постановки решаемых задач 32
1.2.1 Постановка задачи I классификации налогоплательщиков на основе обобщенной динамической нейросетевой модели 32
1.2.2 Постановка задачи II приближенной оптимизации функционала постналогового дохода предприятия-налогоплательщика 43
Глава 2 Численный гибридный метод и обобщенная динамическая неиросетевая модель для задач классификации налогоплательщиков 53
2.1 Основные положения теории нейронных сетей в аспекте их применения к специфическим задачам налогового контроля 53
2.2 Обзор известных результатов по аппроксимации функции с помощью нейронных сетей 57
2.3 Нейросетевая модель как стратегический и тактический идентификатор в задачах налогового контроля 60
2.4 Основные идеи численного гибридного метода 64
2.5 Способы и приемы взаимосвязанной разработки математической модели, новой технологии и структурно-функциональной схемы СУНК 65
2.6 Оптимизационный алгоритм кластеризации 68
2.7 Информационный подход к построению нейросетевых моделей 88
2.8 Способ обобщенного перекрестного подтверждения 95
2.9 Алгоритм разработанного численного метода 99
Глава 3 Реализация разработанного численного метода и теоретическое обоснование некоторых вопросов нейро-сетевого отображения 104
3.1 Построение обобщенной динамической нейросетевой модели финансово - экономических показателей по натурным данным 104
3.2 Исследования теоретических вопросов построения нейросетегого отображения 122
3.2.1 Об оценке снизу числа нейронов в скрытом слое двухслойных нейросе-тей 122
3.2.2 Аппроксимация функций с помощью нейронных сетей при наличии линейной зависимости или линейной корреляции входных переменных 129
3.3 Обоснование использования в НСМ мультиколлинеарных входных переменных 140
Глава 4 Решение прикладных экономических задач на основе нейросетевых моделей 143
4.1 Индикация нарушителей - налогоплательщиков на основе построенных нейросетевых моделей 143
4.1.1 Процедура классификации налогоплательщиков 143
4.1.2 Решение задачи индикации нарушителя налогоплательщика на границе допустимой области 146
4.2 Решение задачи II приближенной оптимизации постналогового дохода предприятия торговли 148
4.2.1 Краткое описание метода ЛП - поиска 148
4.2.2 Исследование корректности постановки задачи оптимизации функционала заданного с помощью нейросетевого отображения 155
4.2.3 Решение задачи оптимизации с применением композиции операторов нейросетевого отображения и метода ЛП - поиска 160
Основные результаты и выводы 163
Список использованных источников 166
Приложение 175
- Постановка задачи I классификации налогоплательщиков на основе обобщенной динамической нейросетевой модели
- Обзор известных результатов по аппроксимации функции с помощью нейронных сетей
- Исследования теоретических вопросов построения нейросетегого отображения
- Решение задачи II приближенной оптимизации постналогового дохода предприятия торговли
Введение к работе
Важнейшей социально-экономической проблемой России является неустойчивое состояние налоговой системы, ее неадекватность потребностям бюджета и реальным секторам хозяйствования. Основная цель налоговых органов России - максимально полное взимание налоговых платежей в условиях действующего налогового законодательства. На современном этапе существенно возрастают требования к организации контрольной работы, в этом числе к повышению уровня её методического обеспечения. В решении коллегии Министерства Российской Федерации по налогам и сборам от 14 ноября 2001 года было отмечено, что, несмотря на уменьшение общего количества проводимых выездных налоговых проверок, наметилась тенденция роста уровня показателей, характеризующих эффективность контрольной работы налоговых органов. Усилена ориентация налоговых органов на качественное возрастание роли камеральных проверок в процессе осуществления налогового контроля на основе использования эффективных механизмов сбора и обработки информации о налогоплательщиках для проведения выездных проверок. Актуальной проблемой исследований налогового контроля является совершенствование технологии камеральных проверок и связанных с ними операций отбора налогоплательщиков для выездных проверок и предпроверочного анализа, на основе новейших информационных технологий и экономического моделирования.
Задача увеличения суммы налоговых выплат в бюджетный фонд может рассматриваться в двух аспектах: 1) максимально полное взимание налоговых платежей; 2) рост финансово-экономического состояния предприятия-налогоплательщика. Современное производство характеризуется увеличением неопределенности внешней и внутренней среды. Результатом этих тенденций является увеличение разброса выходных параметров экономической деятельности предприятий, что во многих случаях предопределяет высокий риск и как следствие - их неконкурентоспособность. Задачи технико-экономического ила-
нирования на предприятии носят существенно творческий характер, требуют применения широких знаний, большого опыта и развитой интуиции специалиста. Поэтому переход к математической формализации этапов принятия экономических решений, необходимость которого диктуется сложностью задач, наталкивается на целый ряд трудностей, связанных с проблемой моделирования плохо формализуемых ограничений, связей и целей.
В настоящее время существует большой арсенал экономико-математических методов. Преимущества этих методов проявляются в строго определенных условиях и системах, описываемых точными данными. На практике экономические системы функционируют в условиях неопределенности, что делает результаты строгих математических расчетов малоэффективными для решения поставленных задач. Можно выделить три основных тенденций математической формализации процессов в экономических системах, функционирующих в условиях неопределенности:
использование теории нечетких множеств и нечеткой логики;
использование нейросетевых математических моделей;
использование аналитических методов оценки риска.
Проблемами нейросетевого математического моделирования экономических систем занимались многие известные ученные. Профессор С. А. Горбатков [9-11 ] предложил и обосновал новую технологию проведения налогового контроля в системе регионального управления, основанную на применении информационных нейросетевых моделей, разработал основные принципы нейросетевого моделирования сложных стохастических систем. Большой вклад в области интеллектуального управления производственными системами на основе нейро-нечетких моделей внесли профессора СТ. Кусимов, В.И. Васильев, Б.Г. Ильясов [18,53]. Применением нейросетевых технологий в экономике и бизнесе занимались А.А. Ежов и С.А. Шумский.[45], в инженерных системах С.А. Терехов [30]. Решением практических задач финансового рынка с использованием нейронных сетей занимались зарубежные ученные Бэстенс Д.-Э., Вуд Д., Ван
Ден Берг В.-М. [16]. В развитие общей теории нейронных сетей большой вклад внесли наши ученные А.Н. Колмогоров, В.И. Арнольд, А.Г. Витушкин, А.Н. Горбань, А.И. Галушкин, В.А. Головко, Д.А. Россиев, СИ. Барцев, В.А. Охо-нин, Э.М. Куссуль, А.Г. Ивахненко, ЯЗ. Цыпкин [4, 9, 21, 23, 29, 41, 43, 38, 52, 55, 73], а также зарубежные ученные А. Бэррон, Ф. Уоссермен, Г. Цыбенко, К. Хорник, Дж.Е. Хинтон, Д. Руммельхарт, Т. Кохонен, Л.К. Джонс, Д. Хопфилд и др. [71, 77, 79, 81 - 86]. Несмотря на то, что существуют многочисленные разработки в области нейросетевого моделирования, методы и принципы построения нейросетевых моделей для таких объектов как предприятия-налогоплательщики недостаточно разработаны. Объекты налогообложения определяются специфическими свойствами, взаимно отягчающими построение адекватных нейросетевых моделей с заданными ассоциативными свойствами: сложной структурой объекта; необходимостью учета влияния на объект изменчивой внешней среды; стохастическим и динамическим характером процессов в объекте; большой размерностью вектора входных факторов; наличием качественных, порядковых и количественных факторов; дефицитом наблюдений; сильной зашумленностью исходных данных, вплоть до сознательного искажения.
Моделированием процессов управления сбором налогов занимались Д. Г. Черник [57, А.Б. Соколов [66]. Однако, многофакторные мультипликативные индексные регрессионные модели из [57, 66] никак не отражают влияния внешней среды, динамики экономического процесса и неадекватны в силу предельной простоты модели. Т. Н. Скорик [63] разработал методику отбора налогоплательщиков для проведения выездной налоговой проверки на основе сложных информационно-аналитических структур. Информационный подход в модернизации СУНК использован в работах Ю.К. Волкова, В.В. Нестерова и др. [1, 22, 58]. Методология информационного моделирования [1, 22, 31, 33] позволяет синтезировать структурную схему на основе системы сущностей и связей, в соответствии с которой строится информационная модель. Однако данные
11 модели неадекватны в случае сложных изменчивых условий внешней среды и изменяющейся во времени структуры объекта. Нейросетевые модели [16] прогноза объема поступления налогов в целом по Минфину Голландии решают, по сути упрощенную задачу временных рядов, и поэтому не подходят для решения поставленной проблемы.
Применяемые в настоящее время в МНС РФ информационные технологии по операциям предварительных (камеральных) проверок налогоплательщиков - юридических лиц, отбора налогоплательщиков для выездных проверок, оценки ожидаемых сумм доначислений сводятся к автоматизации мониторинга декларируемых отчетных данных, их анализу на логическую непротиворечивость для декларированного отдельного субъекта, проверку правильности арифметических действий по регламенту отчетности. Соответствующая программа, разработанная ГНИИВЦ МНС РФ (PRO и её модификация EDO, ER-NAL) предусматривают только запросный режим работы, т.е. режим автоматизации низкий: каждый субъект налогообложения должен анализироваться поочередно в запросном режиме. Однако главный недостаток существующих методик налогового контроля кроется ещё глубже: вся технология налоговых проверок носит субъективный характер; математическая модель, используемая в цитированных программах, основана на детерминированных арифметических формулах, не предусматривает статистической обработки данных, не выявляет отклонения в первичной документации по сравнению со средним уровнем декларируемых экономических показателей аналогичных предприятий-налогоплательщиков.
По данным МНС на 2001 г. в силу несовершенства существующих технологий предварительных проверок и отбора налогоплательщиков для выездных проверок только 57% последних оказываются эффективными.
В процессе выездных проверок цитированные программы выполняют ту же функцию проверки арифметических формул, но только по более достоверным входным данным из первичной бухгалтерской документации. Режим работы
программ - запросный. Переносной персональный компьютер выполняет здесь роль "электронного консультанта".
Учитывая вышеизложенное, отметим, что уровень автоматизации и объективности оценок на стадии предварительных (камеральных) проверок и отбора субъектов для выездных проверок в существующих информационных технологиях не соответствует запросам практики, с одной стороны, и потенциальным возможностям современного математического аппарата, в частности нейросе-тевых методов, с другой стороны. Поэтому актуальной научной задачей является разработка технологи построения нейросетевых математических моделей рассматриваемых объектов моделирования (СНК), обладающих глубокой спецификой, и совершенствование на базе этих моделей информационных технологий предварительных (камеральных) проверок, а также решение задачи квазиглобальной оптимизации финансово - экономического состояния налогоплательщиков - юридических лиц.
Цель работы
1. Разработка математического обеспечения компьютерной технологии
автоматизации камеральных налоговых проверок предприятий-налогоплательщиков для повышения объективности и достоверности оценок нарушений налоговых деклараций.
2. Разработка методики технико-экономического планирования, позво
ляющей оптимизировать постналоговый доход фиксированного предприятия-
налогоплательщика.
Методы исследования
Поставленные в работе задачи решены с использованием положений теории систем, теории нейросетевого моделирования, методов теории оптимизации, теории вероятности и математической статистики, дифференциальной геометрии, методов регуляризации обратных задач. Вся обработка данных проводилась с использованием персональных компьютеров.
При решении задач использовались труды отечественных и зарубежных ученых, посвященные проблеме налогообложения, законодательные и другие
нормативно-правовые акты Российской Федерации и Республики Башкортостан, данные из материалов Башкирского республиканского управления статистики, налоговых инспекций, собственные исследования автора, а также статистические и фактические данные, опубликованные в отечественных и зарубежных монографиях и периодических изданиях. Научная новизна работы
Впервые предложено решение задачи классификации налогоплательщиков на основе обобщенных динамических нейросетевых моделей финансово - экономических показателей предприятий.
Впервые предложено при моделировании финансово-экономических показателей предприятий по сильно зашумленным данным использовать выборку не одного объекта, а совокупности однородных объектов как источник дополнительной, объективной информации.
Показано, что для рассматриваемого класса задач налогового контроля качеством нейросетевых моделей можно управлять, формируя пространство объясняющих (входных) переменных, т.е. формируя "русло".
Впервые предложена процедура классификации налогоплательщиков на основе использования параллельных моделей, удовлетворяющих предложенному автором параметру достоверности в заданной области.
Исследованы вопросы аппроксимации непрерывных функций с помощью нейросетей типа MLP с одним скрытым слоем при наличии мультиколли-неарности входных переменных (сходимость алгоритма обратного распространения, оценка точности аппроксимации непрерывных функций, оценка снизу числа нейронов в скрытом слое).
Научная новизна оптимизационного алгоритма кластеризации состоит в том, что кластеризация осуществляется по предложенному автором критерию финишной погрешности нейросетей на множестве тестовых точек моделей прошедших обобщенное перекрестное подтверждение, и в отличие от сущест-
вующих методов кластеризации, охватывает всю процедуру обучения нейросе-тей (НС).
7. Впервые предложен алгоритм решения задачи прогнозной оптимизации дохода торгового предприятия с учетом налоговых выплат на основе композиции операторов нейросетевого отображения и метода ЛП - поиска.
На защиту выносятся
1. Численный гибридный метод решения задачи классификации налого
плательщиков, включающий в себя: процедуру выбора способа нормировки по
энтропийному критерию; оптимизационный алгоритм кластеризации; процеду
ру приближенной оптимизации архитектуры нейросети, процедуру классифи
кации налогоплательщиков.
2. Обобщенная динамическая нейросетевая модель финансово-
экономических показателей предприятий торговли.
Способ обобщенного перекрестного подтверждения как инструмент уменьшающий неопределенность в оценке моделируемого показателя в нейро-сетевых моделях.
Обоснование возможности использования в нейросетевых моделях финансово-экономических показателей предприятий мультиколлинеарных входных переменных.
Алгоритм приближенного решения задачи оптимизации функционала постналогового дохода предприятия при вариации управляющих воздействий в допустимой области.
Практическая значимость работы
Разработанные теоретические и практические рекомендации послужили научной основой для создания нового аналитического блока в компьютерной технологии камеральных налоговых проверок предприятий торговли.
Алгоритм решения задачи оптимизации на прогнозный период функционала постналогового дохода предприятий торговли при вариации управляющих воздействий позволяет разрабатывать рекомендации при технико-
экономическом планировании, что косвенно создает предпосылки для уменьшения числа предприятий уклоняющихся от уплаты налогов.
3. Построенная обобщенная динамическая нейросетевая модель финансово-экономических показателей торговых предприятий экспериментально апробирована при организации камеральных проверок налоговой инспекцией Орд-жоникидзевского района г. Уфы. Результаты этой апробации доложены и одобрены на Заседании Круглого стола налоговых органов с участием представителей научных организаций по теме "Совершенствование системы налогового контроля" Департамента организации налогового контроля МНС РФ (пансионат "Подмосковье", 23 мая 2002). Результаты исследований использованы также в двух хоздоговорных НИР, успешно завершенных и сданных по акту приемки - сдачи Заказчику (УМНС Республики Башкортостан): "Совершенствование технологии и организации налогового контроля предприятий на основе новейших информационных технологий" (2001); "Совершенствование налогового контроля и управления предприятий торговли и общественного питания на основе моделирования их хозяйственной деятельности" (2002).
Результаты диссертации внедрены в учебный процесс по курсу «Экономико-математические методы и прикладные модели», «Эконометрика» и дипломном проектировании Уфимского филиала Всероссийского заочного финансово-экономического института.
Апробация работы и публикации
Основные положения диссертации докладывались: на Втором Всероссийском Симпозиуме по прикладной и промышленной математике в г. Самаре, 1-6 июля 2001г.; на международной конференции «Континуальные логико-алгебраические исчисления и нейроматематика в науке, технике и экономике» в г. Ульяновске, 15-17 мая 2001г.; на Втором Всероссийском Симпозиуме по прикладной и промышленной математике в г. Йошкар-Ола, 1-6 декабря 2001г.; на XIII Всероссийской конференции «Нейрокомпьютеры и их применение» НКП-2002 с международным участием в г. Москве, 21-22 марта 2002г.; на
16 Третьем Всероссийском Симпозиуме по прикладной и промышленной математике в г. Ростов-на-Дону, 14-20 мая 2002г.; на международной конференции "Теоретическая информатика -2000: от теории к практике" в г. Уфе, 2000г.; на научных семинарах в Институте математики с ВЦ Уфимского научного центра РАН; на научном семинаре кафедры "Математическое моделирование" Башкирского государственного университета; на расширенном заседании кафедры "Вычислительная математика и кибернетика" Уфимского государственного авиационного технического университета. Издана монография, где автору принадлежат в соавторстве с С. А. Горбатковым параграфы 6.3, 7.4, 7.6, 9.6, общим объемом 2 п.л..
Основное содержание диссертации отражено в 21 опубликованных работах общим объемом 10 п.л., в том числе автора 5 п.л.
Диссертация состоит из введения, четырех глав, заключения, списка использованных источников и приложений и содержит 201 страниц печатного текста, 25 рисунков, 42 таблиц, 7страниц списка использованных источников.
В первой главе осуществлен анализ подходов к моделированию финана-сово-экономического сотстояния предприятий, а также существующих методик индикации нарушителей налогоплательщиков. Представлены постановки задачи получения "эталонных" адаптивных моделей финансово-экономического состояния предприятий налогоплательщиков, и решения на их основе задачи классификации нарушителей налогоплательщиков и задачи приближенной оптимизации функционала постналогового дохода предприятия.
Во второй главе описаны разработанные автором численный гибридный метод и обобщенная динамическая нейросетевая модель (НСМ) финансово-экономических показателей предприятий для решения задачи классификации налогоплательщиков. Как показал опыт построения нейросетевых моделей этого класса, без использования специальных процедур и алгоритмов, разработанных на единой конструктивной основе идеи, математические модели налогового контроля оказывают практически "неподъемными". В основе разработанного
численного метода лежат две главные идеи. Первая идея', нейросетевую модель необходимо строить не для отдельно взятого предприятия, а для совокупности однородных предприятий. Вторая идея: систему можно характеризовать при помощи её проекции небольшой размерности, т.е. "русел". Автор предложен способ управления процессом формирования русел: можно заставить траекторию "пройти" по руслу п раз, если образовать кластер из п достаточно однородных субъектов налогообложения. В главе описан разработанный оптимизационный алгоритм кластеризации, позволяющий управлять формированием русел. Описан разработанный способ обобщенного перекрестного подтверждения (ОПП), который позволяет уменьшить неопределённость интерпретации больших отклонений в малом числе тестовых точек при оценке качества НСМ и при индикации нарушений деклараций.
В третьей главе описаны результаты реализации разработанного автором численного гибридного метода и обобщенной динамической нейросетевой модели финансово-экономических показателей предприятий для задач классификации налогоплательщиков. Задача решена на основе реальных данных бухгалтерского ежеквартального. Приведены результаты исследований по устойчивости НСМ к возмущению входных данных. Дан анализ верификации по результатам выездных проверок. Проведены теоретические и цифровые эксперименты по исследованию возможности использования в нейросетях типа MLP мульткиколлинеарных входных переменных. Доказанные теоремы позволяют сократить процедуру поиска архитектуры нейросети с регуляризирующими свойствами, а также позволяют "эксплуатировать" свойство мультиколлинар-ности входных переменных при решении задач классификации налогоплательщиков.
В четвертой главе на основе построенных в главе 3 нейросетевых моделей финансово-экономических показателей торгового предприятия-налогоплательщика решена задача оптимизации постналогового дохода при вариации управляющих параметров. Поставленная задача является задачей сто-
хастического программирования. Предложен и реализован алгоритм решения задачи с использованием композиции операторов нейросетевого отображения и ЛП-поиска. Приведены результаты реализации процедуры классификации налогоплательщиков.
В заключении представлены основные выводы и результаты проведенных исследований.
В приложениях приводятся исходные данные, используемые для построения моделей и проведения расчетов, результаты практической реализации предлагаемых методов.
Постановка задачи I классификации налогоплательщиков на основе обобщенной динамической нейросетевой модели
Даны кортежи исходных данных (Х( , У,), і = 1, N. Считается, что предобработка этих данных завершена в рамках подзадач формирования пространства входных данных. Требуется построить нейросетевое отображение вида: D - допустимая область возможного использования нейросетевой модели по критерию её качества, F( ) - оператор нейросетевого отображения, 91"- евклидово пространство размерности п , Y{ - вычисленное нейросетевой моделью значение выходного параметра в і - ой точке Xt обучающего массива, Yt - заданное (требуемое) значение выходного параметра в этой же точке, R - число примеров, выделенных для обучения из общего числа исходных данных N. Данная задача при фиксированной архитектуре и выбранной структуре нейросетевой модели (1.1), т.е. виде активационной (передаточной функции) f(s), является задачей нахождения матриц синаптических весов W , доставляющих минимум функции ошибок (1.2). Замечание 1. В задаче Y и X - векторы, компоненты которых соответствуют количественным и качественным свойствам сложной системы. Согласно [51] справедливо следующее определение сложной системы. Каждый из компонентов системы имеет свои свойства и характер поведения в зависимо сти от собственного состояния и внешних условий. Если все возможные проявления системы сводятся к сумме проявлений ее компонентов, то такая система является простой, несмотря на то, что число ее компонентов может быть велико. Для описания простых систем традиционно применяются методы анализа, состоящие в последовательном расчленении системы на компоненты и построении моделей все более простых элементов.
Современные экономические системы приближаются к такому уровню сложности, когда их наблюдаемое поведение и свойства не сводятся к простой сумме свойств отдельных компонентов. При объединении компонентов в систему возникают качественно новые свойства, которые не могут быть установлены посредством анализа свойств компонентов. Такие системы, в которых при вычислении компонентов могут быть потеряны принципиальные свойства, а при добавлении компонентов возникают качественно новые свойства, называются сложными. Модель сложной системы, основанная на принципах анализа, будет неустранимо неадекватной изучаемой системе, поскольку при разбиении системы на составляющие ее компоненты теряются качественные особенности. Возможным выходом из положения является построение модели на основе синтеза компонентов. Синтетические информационные модели практически единственная альтернатива в экономике. Основным принципом информационного моделирования является принцип "черного ящика".
В синтетическом методе "черного ящика" моделируется внешнее функционирование системы. С точки зрения пользователя модели структура системы спрятана в "черном ящике", который имитирует поведенческие особенности системы. При этом структура системы никак не отображается в структуре уравнений модели. Так как, компоненты Y и X свойства сложной системы (субъектов налогообложения), то они зависимы, причем данная зависимость неизвестна, но известно, что существующая зависимость может быть описана некоторой вектор-функцией Y = F(X). Задачей моделирования является идентификация системы, состоящая в нахождении функционального отношения (1.1), ассоциирующей каждый вектор X с вектором Y таким образом, что Y и Y близки в некоторой метрике. Задача решается в евклидовом пространстве SH" с метрикой воспроизводящее функционирование системы F, называется информационной моделью системы F. Замечание 2. При информационном подходе требуемая модель F системы F не может быть полностью основана на явных правилах и формальных законах. Процесс получения F из имеющихся отрывочных экспериментальных сведений о системе F может рассматриваться как обучение модели F поведению F в соответствии с заданным критерием настолько близко, насколько возможно. Алгоритмически обучение означает подстройку внутренних параметров модели (весов синаптических связей) с целью минимизации ошибки модели . Прямое измерение указанной ошибки модели на практике не достижимо, поскольку системная функция F при произвольных значениях аргумента не известна. Однако возможно получение её оценки: где суммирование по проводиться по некоторому конечному набору Q,, называемому обучающим множеством. Одна из наиболее серьезных трудностей изложенного подхода заключается в том, что таким образом мы минимизируем не ту ошибку, которую на самом деле нужно минимизировать, - ошибку, которую можно ожидать от сети, когда ей будут подаваться на вход совершенно новые наблюдения [34,35,51,59].
Главным является вопрос, каковым будет отклик системы на новое воздействие, пример которого отсутствует в базе данных наблюдений. Наиболее общий ответ на этот вопрос дает недоступная ошибка модели Е. Неизвестная ошибка, допускаемая моделью F на данных, не использовавшихся при обучении, называется ошибкой обобщения модели. Основной це лью при построении информационной модели является уменьшение именно ошибки обобщения, поскольку малая ошибка обучения гарантирует адекватность модели лишь в заранее выбранных точках. Можно сказать, что малая ошибка обучения соответствует прямому запоминанию обучающей информации. Малость ошибки обучения не гарантирует малости ошибки обобщения. Поскольку истинное значение ошибки обобщения недоступно, в практике используется ее оценка. Ошибка обобщения оценивается как норма уклонения модели на множестве примеров из тестовой выборки.
Обзор известных результатов по аппроксимации функции с помощью нейронных сетей
С помощью нейронных сетей строится нейросетевая реализация функции: создается нейронная сеть, которая, получая на входе вектор аргументов, выдает на выходе значение функции. В серии работ А.Н. Колмогоров, затем В.И. Арнольд и вновь А.Н. Колмогоров доказали, что любую непрерывную функцию п переменных можно получить с помощью операций сложения, умножения и суперпозиции из непрерывных функций одного переменного [4,52]. Теорема Колмогорова.
Каждая непрерывная функция п переменных, заданная на единичном кубе п - мерного пространства в виде: где функции hq{u) непрерывны, а функции (р%(хр), кроме того, еще и стандартны, т.е. не зависят от выбора функции/.
Кроме вопроса о точном представлении, существует еще один - об аппроксимации. Можно даже предположить, что он важнее точного, так как вычисление большинства функций производится приближенно даже при наличии "точных" функций. Многие задачи обучения нейронных сетей сводятся к следующей проблеме: на конечном множестве точек в и-мерном евклидовом пространстве заданы значения функции. Требуется построить нейронную сеть, продолжающую эту функцию на область пространства. Многими авторам [41,77,79] доказывались теоремы полноты для функций, вычисляемых нейронными сетями. Установление универсального аппроксимирующего свойства нейронных сетей в работах [41,76,78] явилось важным шагом вперед и подхлестнуло исследования в этой области. В [78] доказано, что НС способна аппроксимировать с любой наперед заданной точностью на компактном множестве в равномерной метрике любую непрерывную функцию. Результаты были получены для двуслойных нейросетей. Двуслойные нейросети аппроксимируют общую функцию п -мерной вещественной переменной, хє9Г, конечными линейными комбинациями вида:
Другое доказательство теоремы о полноте найдено А. Н. Горбанем [43]. А. Н. Горбань доказал, что любая непрерывная функция на замкнутом ограниченном множестве может быть равномерно приближена функциями, вычисляемыми нейронными сетями, если функция активации нейрона дважды непрерывно дифференцируема и нелинейна.
Однако эти результаты имеют скорее теоретическую, нежели практическую ценность. Для приложений требуется оценка зависимости ошибки аппроксимации от параметров сети - числа слоев, числа базовых процессорных элементов (БПЭ) или искусственных нейронов в слое, коэффициентов обучения в алгоритме обратного распространения ошибки (ВР).
В работе [77] показано, что важнейшее преимущество использования нейронной сети как аппроксиматора заключается в том, что здесь порядок точности аппроксимации не зависит от размерности пространства входа, и среднеквадратичная ошибка аппроксимации функции может быть ограничена сверху величиной (1/п), где п - число БПЭ скрытого слоя. Однако в работе Баррона [77] предполагается, что аппроксимируемая функция/ принадлежит выпуклой оболочке семейства базовых функций g. Это накладывает серьезные ограничения на класс F аппроксимируемых функций, поскольку выпуклая комбинация базовых элементов строиться на основе разложения Фурье функции / и для характеристики класса F используются свойства преобразования Фурье функции / Такой подход не позволяет рассматривать, например, аппроксимацию функций, не обладающих достаточной степенью гладкости, которые могут встречаться на практике.
Во всех этих теоремах, естественно, рассматриваются нейронные сети без ограничений на число элементов и значения параметров. При разработке математической неиросетевои модели автор опирался на выше перечисленные результаты работ [41,52,77,79], в частности, при доказательстве существования решения задачи аппроксимации при помощи нейронных сетей.
Как известно, избыточные способности сети - возможность аппроксимировать любую функцию - негативно сказываются на возможности ее использования для интерполяции и экстраполяции, так как в классе непрерывных функций существует слишком много различных вариантов продолжения функции с конечного множества на область. В присутствии экспериментальных ошибок и неполноты признаковых пространств не обоснованное большое число базовых элементов скрытого слоя и, как следствие, малая ошибка обучения соответствует прямому запоминанию обучающей информации (эффект "бабушкиного обучения"). Важно отметить, что малость ошибки обучения не гарантирует малости ошибки обобщения, т.е. ошибки на данных, не использовавшихся при обучении. Значения модели будут точными в обучающих точках, однако, значения в промежуточных точках и тем более в точках прогноза во времени могут значительно отличаться от аппроксимируемой функции. Таким образом, если задано число элементов сети и значения ее параметров заключены в определенные пределы, то возникают ограничения и на вычисляемые функции.
Систему статистического нейросетевого идентификатора (стратегического и тактического) согласно терминологии [14], определяется: а) НММ - стратегический идентификатор (СИ) состояния моделируемого субъекта; б) НММ - тактический идентификатор (ТИ). СИ связан с созданием НММ вновь. Поэтому алгоритм построения модели включает в себя цифровые эксперименты и оптимизационные вспомогательные процедуры по проверке тех или иных теоретических предложений, которые связаны с тремя основными этапами получения модели: «завязка» задачи моделирования; алгоритмом образования "русла" (аттрактора) или управления качеством модели; обеспечения адекватности НММ. ТИ строится и эксплуатируется в практике. При этом считаемся, что СИ уже создан, решены все теоретические и методологические вопросы создания НММ (в частности уже определен состав объясняющих переменныхX = (xj ,х2,...,Хп) и моделируемой выходной величины Г).
Далее будем при построении ССНИ использовать два понятия по терминологии [17]: а) получение схемы НММ, т.е. по заданной функции системы (состоянию выходов Y) найти схему модели, реализующей эту функцию; данная задача относится к классу задач синтеза. б) нахождение функции по заданной схеме НММ, т.е. извлечение из модели новых знании; данная задача относится к классу задач анализа. Разработанный стратегический и тактический нейросетевой идентификатор является, по существу, системой моделей (ССНИ) (рис. 2.1). Действительно, если использовать понятие «система» [18,60] как совокупность взаимодействующих элементов с заданными связями и их атрибутами, подчиненных общей цели функционирования, то ССНИ точно подпадает под это определение.
Исследования теоретических вопросов построения нейросетегого отображения
В работе А. Баррона [77] показано, что важнейшее преимущество использования нейронной сети как аппроксиматора заключается в том, что здесь порядок точности аппроксимации не зависит от размерности пространства входа, и среднеквадратичная ошибка аппроксимации функции может быть ограничена сверху величиной (1/п), где п - число БПЭ скрытого слоя.
Это означает, что чем больше базовых элементов в скрытом слое, тем точнее аппроксимация. Однако, в присутствии экспериментальных ошибок и неполноты признаковых пространств не обоснованное большое число базовых элементов скрытого слоя и, как следствие, малая ошибка обучения соответствует прямому запоминанию обучающей информации. Важно отметить, что малость ошибки обучения не гарантирует малости ошибки обобщения, т.е. ошибки на данных, не использовавшихся при обучении. Значения модели будут точными в обучающих точках, однако, значения в промежуточных точках могут значительно отличаться от аппроксимируемой функции.
Таким образом, качество нейросетевой модели существенно зависит от количества нейронов в скрытом слое. Примем следующее определение [78] сигмоидальной функции: ф(г) ограниченная непрерывная функция на вещественной числовой оси, для которой ф(г) - 1 при z- oo и ф(г) -» 0 при z -»- оо. Нейронная сеть с одним скрытым слоем и с п БПЭ в скрытом слое представляется функцией на Rm в форме где параметры ак = {ахк,а1к,...,атк) є Rm, bk,ck eR, a-x скалярное произведение векторов из Кт. Выбор параметров НС осуществляется по алгоритму ВР, который является специализированным градиентным методом 1 L минимизации ошибки аппроксимации Е = - (/(х,-)-/и(х/)) , где щем массиве, х,- =(xn,xi2,...,xim) вектор входного подпространства McRm. Пусть в обучающем массиве присутствуют случайные погрешности. Под оптимальным числом нейронов в скрытом слое примем число п, при котором достигается минимум где {(х;-,/(хг)), i = l,К} -тестовое множество, /„(х)-функция аппроксимированная нейросетью с п БПЭ в скрытом слое.
Для определения интервала, в котором находиться оптимальное количество нейронов в скрытом слое воспользуемся теоремами дифференциальной геометрии [44]. Соответственно будем говорить об аппроксимации непрерывной функции заданной на компактном замкнутом многообразии М. Согласно [37, 83, 87] НС с одним скрытым слоем воплощают основное требование теоремы Такенса: проецирование + аппроксимация. Комбинация двух проекторов эквивалентна некоторому одному третьему проектору, а комбинация двух линейных аппроксимаций снова дает линейную аппроксимацию.
Это позволяет объяснить еще один факт, известный из литературы: увеличение числа слоев, как правило, не улучшает ситуацию. Определение. Многообразие М размерности m называется подмногообразием многообразия N размерности п т, если задано взаимно однозначное гладкое отображение g: М -»N такое, что индуцированное отображение g является вложением касательных пространств в каждой точке. Другими словами, ранг матрицы Якоби этого отображения в локальных координатах равен т. Отображение g называется вложением многообразий [44]. Теорема. Пусть требуется аппроксимировать с помощью нейросети типа MLP с одним скрытым слоем в общем случае непрерывную функцию у = /(х),где хеМ, М a Rm, М замкнутое многообразие размерности т. Пусть N - многообразие, построенное на выходе скрытого слоя нейросети: у : М к Тогда (/(х()-/„(х,))2 принимает минимальное значение тогда, когда і=і отображение \/: М -» N является вложением, где п - число нейронов в скры том слое, {(х г-, /(х;)), і = 1, К } - обучающее множество. Доказательство. Пусть х = (х\,х2,...,хт)е М , М с Rm и пусть измерение пространства входа совпадает с её размерностью. Тогда в М существует ортогональный базис размерности т. Любое замкнутое многообразие размерности т можно отобразить в т- мерный единичный куб [0;l]w, поэтому все рассуждения будем приводить для случая, когда M = [0;l]m. Для определенности рассмотрим нейросети с активационной функцией скрытого слоя: ф(г) = —. После обучения нейросети на выходе скрытого слоя по строиться многообразие Так как активационная функция ф и скалярное произведение векторов непрерывные функции, то отображение \\J : М — N обладает свойством непре 1 у У у.
Решение задачи II приближенной оптимизации постналогового дохода предприятия торговли
Для решения задачи стохастического программирования автором предлагается использовать гибридный метод, где комбинируются два весьма эффективных современных метода: неиросетевои метод построения моделей, и метод многокритериальной параметрической оптимизации на базе ЛП - поиска И.М. Соболя - Р.Б. Статникова [64]. Отметим особенности метода ЛП - поиска. Его сущность состоит в генерации ЛПХ- точек из отрезков равномерно -распределенных ЛПХ - последовательностей и зондировании этими точками многомерного факторного пространства, где ищется глобальный оптимум. ЛПТ - точки относятся к типу псевдослучайных и, обладают свойствами равномерного распределения в многомерных областях. Указанные ЛПХ - точки подставляются в качестве значений вектора входных факторов X в НСМ, на выходе которой мы получаем числовые значения всех компонент вектора выходных переменных Y. Вектор Y описывает состояние объекта, его частные критерии оптимизации Ф , у = l,k, а также нелинейные функции fi(x), задающие ограничения. Организуется алгоритм многокритериальной оптимизации, достоинством которого является нечувствительность к овражным ситуациям и возможность поочередного анализа влияния уступок по каждому частному критерию оптимизации Фу на допустимую область поиска в диалоге пользователя с компьютером. Опишем подробно все операции рассматриваемого гибридного метода.
Прежде всего, оговорим некоторые определения и обозначения, используемые в кибернетике в области оптимизационных задач. Будем называть варьируемые входные (экзогенные) переменные, которыми исследователь вправе распорядиться при поиске оптимального решения, управляющими факторами {ХК}, а соответствующий вектор - вектором управления U: Математическая модель параметрической оптимизации задана нейросетевым отображением вида где F(») определяется по (4.2). Требуется найти такое оптимальное значение вектора управлении U , чтобы некоторый функционал цели Ф, являющийся функцией частных критериев оптимизации Фу (U), достигая минимума при выполнении ограничений на критерии Фу (U), управления U и функции ограничений /}(/): U : Здесь Udon - допустимая область для U; ру () - заданная функция преобразования эндогенных переменных JFy] в частные критерии оптимизации Ф (/); Хп+1,...,Хп+ - фиксируемые (неварьируемые) экзогенные переменные на входе объекта; Ф - обобщенный функционал оптимизации, например свертка их частных критериев ФУ;С1,С/ ,Фу - заданные константы ограничений; гл - это логический знак пересечения множеств, т.е. одновременного выполнения соединяемых этим знаком условий.
Теперь конкретизируем все операции гибридного метода. Алгоритм ЛП — поиска. Поиск экстремума функции многих переменных производится с помощью зондирования пространства поиска точками равномерно распределенных ЛПХ - последовательностей. Опишем взаимосвязь процедур, составляющих основу метода, позволяющего регуляризировать некорректную в общем случае обратную задачу оптимизации. Одна из причин некорректности обратной задачи оптимизации заключается возможной неустойчивости по входным данным. Эта причина устраняется использованием гладкого нейросетевого отображения вида (4.2). Алгоритм процедур поиска: 1). Нормируем управляющие факторы Хк так, чтобы они изменялись от 0 до 1, что удобно для генерации точек ЛПХ - последовательности (см. рис. 4.1) и строим нейросетевую модель вида (4.2). Записываем формулу преобразования выходных переменных {У }, j = 1, т в частные критерии оптимизации и функции ограничений