Содержание к диссертации
Введение
ГЛАВА 1. Исследование возможности нейросетевой аппрок симации многомерных функциональных зависимостей в условиях искажения данных и дефицита наблюде ний 24
1.1. Анализ состояния вопроса по разработке математических моделей налогового контроля 24
1.2. Обобщенная постановка и особенности задачи ранжирования экономических объектов с сильнозашумленными данными 37
1.3. Анализ условий моделирования 46
1.4. Проблемы, связанные с аппроксимацией функции многих переменных с помощью нейронных сетей в специфических условиях моделирования 55
1.5. Проблемы, связанные с устойчивостью нейронных сетей по возмущению
входных данных 61
Выводы по главе 1 70
ГЛАВА 2. Концепция построения гибридных нейросетевых моделей ранжирования объектов налогового контроля 72
2.1. Управление качеством нейросетевой модели с помощью метода предпро-цессорной обработки данных, реализующего многоуровневое иерархическое структурирование модели 72
2.2. Повышение однородности НСМ на первом иерархическом уровне структурирования с помощью оптимизационной итерационной процедуры кластеризации базы данных 78
2.3. Повышение обобщающих свойств нейросетевой модели и однородности данных на втором иерархическом уровне структурирования на основе фоновой общесистемной закономерности 86
2.4. Алгоритм ранжирования налогоплательщиков на основе общесистемных закономерностей асимметрии и неполного подавления побочных дисфункций структурирования информационной системы 97
2.5. Метод модифицированного обобщенного перекрестного подтверждения для оценки адекватности гибридных нейросетевых моделей 105
Выводы по главе 2 108
ГЛАВА 3. Рабочий алгоритм ранжирования экономических объектов с сильнозашумленными данными на основе гибридной нейросетевой математической модели 110
3.1. Общее описание рабочего алгоритма 110
3.2. Процедура построения НСМ задаваемого типа 119
3.3. Итерационная оптимизационная процедура кластеризации базы данных .. 120
3.4. Итерационная оптимизационная процедура очистки образованных кластеров от аномальных наблюдений по обобщенному (векторному) критерию точности, устойчивости и детерминированности 123
3.5. Процедура построения рабочей НСМ и расчета доверительного интервала для отклонений 8(. 126
3.6. Процедура расчета отклонений по рабочей НСМ на базе данных образованного кластера 128
3.7. Процедура обобщенного перекрестного подтверждения 130
3.8. Процедура вычисления вероятностного у-критерия ранжирования 132
3.9. Процедура ранжирования налогоплательщиков на основе \(ькритерия... 134
3.10. Процедура модифицированного обобщенного перекрестного подтверждения 136
3.11. Процедура окончательного ранжирования налогоплательщиков на основе \|/-критерия на исходной базе данных 138
Выводы по главе 3 138
ГЛАВА 4. Решения прикладных задач ранжирования объектов налогового контроля на основе разработанной гибридной нейросетевой математической модели 139
4.1. Построение гибридных нейросетевых моделей ранжирования для выборки Z1 139
4.2. Построение гибридных нейросетевых моделей ранжирования для выборки Z" 150
4.3. Верификация нейросетевых моделей на основе натурныхэкспериментов 153
Выводы по главе 4 155
Заключение 156
Список используемой литературы
- Обобщенная постановка и особенности задачи ранжирования экономических объектов с сильнозашумленными данными
- Повышение однородности НСМ на первом иерархическом уровне структурирования с помощью оптимизационной итерационной процедуры кластеризации базы данных
- Итерационная оптимизационная процедура кластеризации базы данных
- Построение гибридных нейросетевых моделей ранжирования для выборки Z"
Введение к работе
В современных условиях развития российской экономики актуальным является максимальное наполнение государственного бюджета доходами и обеспечение их сбалансированности с расходами. В рамках приоритетных направлений совершенствования налоговой системы Российской Федерации, определенных Президентом и Правительством, предусмотрено, что использование эффективных приемов и методов налогового контроля, дальнейшее совершенствование механизма осуществления налогового контроля должно способствовать значительному росту налоговых поступлений в бюджет. Под налоговым контролем в настоящем контексте понимаются предварительные (камеральные) и последующие выборочные выездные проверки, целью которых является выявление фактов нарушения налогового законодательства отдельными налогоплательщиками и, в конечном итоге, повышение уровня собираемости налогов.
В настоящее время, в силу несовершенства законодательства и нестабильной экономической обстановки, острой является проблема модернизации налоговой системы России и, более узко, системы налогового контроля и управления. Рост числа налогоплательщиков, увеличение разнообразия видов их деятельности в условиях быстро изменяющейся рыночной среды приводит к усложнению методик налогового контроля. При этом возрастают требования к организации контрольной работы, в том числе к повышению уровня её методического обеспечения. Особая роль отводится совершенствованию технологий налоговых проверок. Как было отмечено руководителем Департамента организации налогового контроля В.В. Сашечевым [9], «Министерство четко ставит перед налоговыми органами задачу: выходить на выездные проверки лишь тогда, когда по результатам анализа всего спектра полученной информации есть основания подозревать налогоплательщика в нарушении действующего законодательства. Нет смысла расходовать и без того ограниченные ресурсы налоговых органов на проведение проверок бесперспективных - то есть проверок тех фирм, где заведомо нет нарушений».
Правильная организация контрольной работы налоговых органов позволяет существенно увеличить поступления платежей в бюджет. Поэтому, как уже было отмечено, актуальной проблемой исследований представляется совершенствование технологии налогового контроля (предварительных проверок и связанных с ними операций отбора налогоплательщиков для выездных проверок) на основе новейших инструментариев математического моделирования, численных методов и информационных технологий в условиях существенного искажения данных налоговых деклараций, дефицита наблюдений и т.д.
Предметом исследования является технология математического моделирования ранжирования объектов налогового контроля (налогоплательщиков) на основе информационно-математической модели, с позиций дискриминации нарушителей налогового законодательства по степени искажения ими налоговых деклараций. Исследуемый объект относится к классу объектов с сильнозашумленными данными, что определяет направление исследований.
Объекты налогового контроля функционируют в условиях стохастической изменчивости, как внутренней структуры, так и внешней среды. Как уже было отмечено, они характеризуются специфическими особенностями, взаимно отягчающими построение адекватных моделей с заданными ассоциативными свойствами. В результате наблюдается увеличение неопределенности внешней и внутренней среды и, как следствие, увеличение разброса выходных параметров экономической деятельности налогоплательщика. Поэтому переход к математической формализации принятия решений о включении объекта налогового контроля в план выездных проверок связан с моделированием трудно формализуемых целей, ограничений и связей.
Преимущество традиционного аппарата математического моделирования (методов регрессионного анализа), применяющегося в первую очередь для аппроксимации производственной функции объектов налогового контроля, проявляется в строго определенных и ограниченных условиях, описывае мых точными данными. К сожалению, классические методики оказываются малоэффективными во многих практических задачах. Это связано с тем, что невозможно достаточно полно описать реальность с помощью небольшого числа параметров модели, либо расчет модели требует слишком много времени и вычислительных ресурсов.
На практике экономические системы функционируют в условиях неопределенности, что делает результаты строгих математических расчетов малоэффективными для решения поставленных задач. В качестве основных тенденций математической формализации процессов в экономических системах, функционирующих в условиях неопределенности, можно указать использование современных информационных технологий, основанных на методах искусственного интеллекта, имитирующих природные процессы, такие как деятельность нейронов мозга или процесс естественного отбора (использование теории нечетких множеств и нечеткой логики, нейросетевых математических моделей и генетических алгоритмов), а также использование аналитических методов оценки риска.
Вопросам управления налогообложением в аспекте моделирования процессов сбора налогов и оценки добросовестности отдельных налогоплательщиков посвящены работы А.Б. Паскачева (в соавторстве) [71], А.Б. Соколова [84]. Однако разработанные в них многофакторные мультипликативные индексные регрессионные модели никак не отражают влияния внешней среды, динамики экономического процесса и неадекватны в силу своей предельной простоты. Т. Г. Скориком [82, 83] предложена методика отбора налогоплательщиков для проведения выездной налоговой проверки на основе сложных информационно-аналитических структур. Но указанная модель основана только на сравнении отчетных показателей с предыдущими и не учитывает систематического искажения данных. В наиболее продвинутой в этой области работе Д.Г. Черника (в соавторстве) [18] предложена модель сравнения декларированных и расчетных значений выходной величины для выборки налогоплательщиков. Она строится на комбинации уравнения регрес сии с логит-пробит анализом и реализована на модельном примере с искусственно введенными зашумлениями. Т.е. строится имитационная модель, не совпадающая с реальными данными. В реальную практику указанная модель не внедрена в силу своей неадекватности, невыполнения постулатов регрессионного анализа.
Применяемые в настоящее время в ФНС информационные технологии по операциям предварительных (камеральных) проверок налогоплательщиков - юридических лиц, отбора налогоплательщиков для выездных проверок, оценки ожидаемых сумм доначислений сводятся к автоматизации мониторинга декларируемых отчетных данных, их анализу на логическую непротиворечивость для декларированного отдельного субъекта, проверку правильности арифметических действий по регламенту отчетности. Действующее программное обеспечение (программно-информационные комплексы RNALJN, PRO, ЭОД, Аудитор, разработанные налоговыми органами РФ) носит преимущественно запросный режим отбора налогоплательщиков для выездных проверок, когда критерии отбора вводятся налоговыми инспекторами самостоятельно, что не исключает влияния на процесс отбора субъективного фактора. Для них также характерно отсутствие учета отраслевой специфики налогоплательщиков и ориентация на сопоставление уровней отдельных показателей, содержащихся в налоговой отчетности, с предельными значениями этих показателей для соответствующей отрасли.
Более того, существующая технология налоговых проверок носит субъективный характер; используемая в ныне применяющемся программном комплексе ЭОД математическая модель основана на детерминированных арифметических формулах. Она позволяет лишь выявить арифметические ошибки и логические противоречия в налоговых декларациях, не предусматривает статистической обработки данных, не выявляет отклонения в первичной документации по сравнению со средним уровнем декларируемых экономических показателей аналогичных предприятий-налогоплательщиков. Субъективный характер проверок, приводит в некоторых случаях к ошибкам и созданию почвы для коррупции. Так, в Решении Коллегии МНС от 14 ноября 2001 отмечалось отмечалось, что «не может быть признана нормальной ситуация, при которой 43% проводимых налоговыми органами выездных налоговых проверок являются нерезультативными».
Проблема нейросетевого математического моделирования экономических объектов и систем, в том числе объектов налогового контроля и налогообложения, привлекает внимание многих отечественных и зарубежных ученых. Методам и результатам решения практических задач финансового рынка с использованием нейронных сетей, в частности решения задачи ранжирования корпоративных заемщиков при предоставлении им кредитов, осуществленного по заказу Министерства юстиции Голландии, посвящена монография Д.-Э.Бэстенса, В.-М. ван ден Берга и Д. Вуда [14]. Приложениями нейрокомпьютинга в экономике и бизнесе, прогнозированием финансового рынка и оценкой платежеспособности предприятий занимались А.А. Ежов и С.А. Шумский [44]. Существенный вклад в область интеллектуального управления производственными системами на основе нейро-нечетких моделей внесен Б.Г. Ильясовым, В.И. Васильевым, СТ. Кусимовым [15-17, 49, 50, 59]. Анализу процессов управления и поддержке принятия решений в условиях неопределенности на основе использования методов искусственного интеллекта, в частности классификации критических ситуаций с помощью нейронных сетей, посвящены работы Л.Р. Черняховской [91, 96-98]. В работах Л.А. Исмагиловой [51-53] осуществляется оценка налогового потенциала и прогнозирование налоговых поступлений с использованием методов искусственного интеллекта. Применением нейросетевых технологий в сложных инженерных и экономических системах, в частности нейросетевыми непараметрическими методами анализа экспериментальных данных, занимался С.А. Терехов [29, 86]. Использованию нейронных сетей в финансовом инжиниринге посвящены работы И.С. Абу-Мустафы и др. [100]. Конструирование интеллектуальных автоматизированных систем управления эффективным процессом нефтегазодобычи на основе нейронных сетей изложено в работах Ю.И. Зозули [45, 47]. В диссертационном исследовании И.В. Осиповой [69] разрабатываются модели и алгоритмы информационно-аналитической поддержки для повышения эффективности процесса планирования налоговых доходов регионального бюджета (на примере бюджета Республики Башкортостан (РБ)), в частности разработаны нейро-нечеткие модели прогнозирования налоговых доходов регионального бюджета. В диссертационном исследовании И.В. Орловой [68] разрабатывается информационная технология оценки налогового потенциала и прогнозирования налоговых поступлений в системе налогообложения, разработаны модели классификации субъектов налогообложения по структуре уплаченных доходов, прогнозирования налоговых поступлений в бюджет, гибкого формирования налоговой нагрузки и оптимизации налоговых ставок.
Г.И. Букаевым и Н.Д. Бубликом предложена и обоснована новая технология оценки финансовых показателей налогоплательщиков на основе получения с помощью нейросетевых моделей (НСМ) «эталонного» значения производственной функции класса налогоплательщиков [12, 13]. На основе этих предложений С.А. Горбатковым разработаны принципы нейросетевого моделирования сложных экономических систем, предложено использовать для построения НСМ налогового контроля общесистемные законы и закономерности кибернетики [10-13, 31, 32, 42]. Однако разработка концепции построения таких моделей не была реализована в полном объеме. Построению НСМ камеральных проверок торговых предприятий и оптимизации их постналогового дохода посвящено диссертационное исследование Н.Т. Габдрах-мановой [21]. Вопросами планирования выездных проверок на основе модели непараметрического сглаживания занимался И.И. Голичев [10, 12,26].
Существенное влияние на развитие общей теории нейрокомпьютеров, нейронных сетей и математического моделирования на их основе оказали работы российских ученых Э.Д. Аведьяна, СИ. Барцева, С.С. Валеева, В.И. Васильева, А.И. Галушкина, А.Н. Горбаня, В.Л. Дунина-Барковского, Б.Г. Ильясова, Л.А. Исмагиловой, Г.Г.Малинецкого, Е.М. Миркеса, В.А. Охонина, Д.А. Россиева, ЯЗ. Цыпкина, Л.Р. Черняховской, Н.И. Юсуповой и др.. Следует отметить также вклад ученых дальнего и ближнего зарубежья, таких как И.С. Абу-Мустафа, Э. Баррон, П. Веброс, В. Видроу, В.А. Головко, А.Г. Ивахненко, Т. Кохонен, Э.М. Куссуль, В. Мак-Калох, М. Минский, Н. Ниль-сон, В. Пите, С. Пайперт, Ф. Розенблат, Д.Е. Румельхарт, Дж. Такер, К.Фунахаши, С. Хайкин, Р. Хент-Нильсен, Д. Хопфилд, К. Хорник, Г. Цы-бенко и др. Указанные работы оказали существенное влияние на автора в процессе выполнения диссертационной работы.
Несмотря на существующие многочисленные разработки в области нейросетевого моделирования, для стохастических объектов с сильнозашум-ленными данными, объектов налогового контроля в частности, методы и принципы построения эффективных, адекватных и качественных НСМ не разработаны в полном объеме. Как уже отмечалось, причиной этому служат специфические условия моделирования. Опыт автора показывает, что «лобовое», на основе применения стандартных нейропакетов, построение эффективных НСМ в данном классе задач невозможно без разработки основополагающей концепции и использования процедур предпроцессорной обработки данных. Это обусловливает актуальность диссертационной работы в аспекте нейросетевого моделирования.
Подводя итоги вышеизложенного, следует указать, что уровень автоматизации и объективности оценок на стадии предварительных проверок и отбора налогоплательщиков для выездных проверок в существующих информационных технологиях налогового контроля не соответствует запросам практики, с одной стороны, и потенциальным возможностям современного математического аппарата, в частности нейросетевых методов, с другой стороны. Поэтому актуальной научной задачей является разработка технологии построения модели аппроксимации производственной функции объектов налогового контроля и разработка на их основе информационно-математических моделей ранжирования налогоплательщиков для включения их в план проведения выездных налоговых проверок.
Основная концепция настоящей работы состоит в следующем. Прежде чем дать рекомендации по принятию решения о необходимости выездной проверки налогоплательщика, следует уменьшить неопределенность в оценке его состояния. В результате этого, вместо отсутствующей информации о нормативном объеме налогов, при принятии решения используется вероятностная расчетная оценка достоверности декларируемого уровня налогов. Предлагается предварительная аналитическая проверка, заключающаяся в следующем. На основе НСМ, аппроксимирующей производственную функцию достаточно однородного кластера налогоплательщиков, вычисляются относительные отклонения между декларированными значениями выходного показателя и «эталонными», полученными путем моделирования деятельности налогоплательщика в течение некоторого предшествующего периода, например за 2 года, включая последнее наблюдение в момент прогноза. Смысл термина «эталонное значение» отражает объективный характер получаемой оценки, поскольку она обусловлена статистической обработкой данных по достаточно большой и достаточно однородной выборке налогоплательщиков. Далее на основе вероятностного принципа построения дискриминационного правила строится вероятностная модель ранжирования налогоплательщиков (BMP). Во взаимодействии НСМ и BMP получается гибридная нейросетевая модель (ГНСМ) ранжирования объектов налогового контроля.
Целью диссертации является разработка научных основ технологии ранжирования объектов налогового контроля для синтеза плана отбора налогоплательщиков для проведения выездных проверок.
Для реализации поставленной цели в диссертационной работе были поставлены следующие задачи:
1. Исследование возможности нейросетевой аппроксимации многомерных функциональных зависимостей в условиях сильного зашумления данных (и даже частичного сознательного их искажения) и дефицита наблюдений.
2. Разработка концепции построения эффективных, адекватных ГНСМ на основе общесистемных закономерностей кибернетики, разработка эффективных методов предпроцессорной обработки данных и оценки адекватности ГНСМ.
3. Разработка рабочего алгоритма ранжирования экономических объектов с сильнозашумленными данными на основе ГНСМ.
4. Построение прикладных ГНСМ ранжирования объектов налогового контроля, экспериментальная апробация и верификация ГНСМ.
На защиту выносятся следующие научные положения, полученные лично автором.
1. Метод синтеза плана отбора налогоплательщиков для проведения выездных проверок на основе ГНСМ. Новизна данного положения заключается в использовании «эталона» - производственной функции кластера налогоплательщиков, полученной с помощью ГНСМ. Это позволяет выявлять нарушения в налоговых декларациях и получать объективные оценки финансового состояния налогоплательщиков путем извлечения знаний об искаженных входных факторах и выходной величины через другие, неискаженные. Метод впервые изложен в приоритетных публикациях автора [11, 34, 39, 40, 73]. Новизна данного положения заключается также в том, что ранее методов отбора налогоплательщиков для проведения выездных проверок на основе расчета «эталона», полученного с помощью ГНСМ, не существовало. Известна модель непараметрического сглаживания [10, 26], разработанная И.И. Голичевым одновременно с исследованиями автора. Данная модель использовалась в главе 4 диссертационной работы для оценки адекватности ГНСМ. Взаимное подтверждение обоих моделей составило 83%.
2. Метод предпроцессорной обработки данных на основе системного подхода, который позволяет обеспечить приемлемый уровень достоверности получаемых оценок при сильном искажении базы данных (БД) (до 50...60% по выбранной мере интенсивности искажений и порядка 80% по объему искаженных вектор-столбцов и строк в БД). Сущность упомянутого подхода состоит в использовании общесистемных закономерностей кибернетики для разработки способов предпроцессорной обработки данных. Данный метод основывается на предложении управления качеством НСМ на ранних стадиях ее построения и включает в себя:
• Оригинальную процедуру оптимальной кластеризации исходной БД. Установлено и численно обосновано, что существует оптимальное число однородных кластеров, на которые разбивается БД в условиях дефицита наблюдений.
• Оригинальную процедуру повышения однородности данных на втором иерархическом уровне структурирования: очистки образованных кластеров по векторному критерию точности, устойчивости и детерминированности вспомогательных НСМ. Установлено и численно обосновано, что существует оптимальная итерация процесса очистки кластера от аномальных наблюдений в условиях дефицита наблюдений.
Новизна указанного метода состоит в том, что он предложен впервые и изложен в приоритетных публикациях автора [34-40, 74-75]. Достоверность положения 2 подтверждена практическим построением эффективных ГНСМ, их верификацией и экспериментальной апробацией на реальных данных с погрешностью порядка 8-10%.
3. Вероятностный критерий ранжирования объектов налогового контроля по числовой мере искажения ими отчетной документации с внесением в него эвристической априорной информации, полученной на основе использования доверительных интервалов для отклонений между расчетными (полученными с помощью НСМ), и декларированными значениями моделируемого показателя, что позволяет повысить достоверность процедуры ранжирования. Эта идея базируется на общесистемном законе асимметрии, а также на общесистемной закономерности неполного подавления дисфункций структурируемой информационной системы.
Ранжирование налогоплательщиков по критерию, содержащему произведение трех величин: отклонения между декларированным и расчетным значением выходной величины, смещенного на полуширину доверительного интервала, вероятности события, что ожидаемое значение отклонения моделируемой случайной величины будет не меньше выборочного среднего и коэффициента масштаба налогоплательщика на основе ретроспективного анализа предложено впервые. Теоретическая ценность положения состоит в том, что оно создает научную основу построения эффективных ГНСМ ранжирования объектов налогового контроля.
4. Метод модифицированного обобщенного перекрестного подтверждения (МОПП) ГНСМ по финишному критерию совпадения множества проранжированных налогоплательщиков для нескольких независимых НСМ с заданной доверительной вероятностью. МОПП базируется на общесистемной закономерности неполного подавления дисфункций структурируемой информационной системы и служит основным инструментом анализа и подтверждения адекватности ГНСМ.
Данное положение предложено впервые и изложено в приоритетных публикациях автора [34,39-40, 73].
Достоверность положения подтверждается результатами МОПП, описанными в главе 4, по совпадению множеств проранжированных налогоплательщиков, полученных на основе различных типов НСМ (отличающихся числом скрытых слоев, числом искусственных нейронов и видом активаци-онных функций в скрытых слоях). Достоверность совпадения независимых моделей составила 80-90% в различных кластерах.
5. Рабочий алгоритм ранжирования стохастических объектов с сильно- зашумленными данными на базе ГНСМ. Применительно к ранжированию объектов налогового контроля по мере искажения ими отчетной документации данный алгоритм служит инструментарием принятия решений о включении налогоплательщика в план проведения выездных проверок.
Новизна алгоритма состоит в том, что в него введены дополнительные процедуры итерационного взаимодействия традиционных операций обучения и тестирования нейросети (НС) с операциями предобработки данных и обеспечения адекватности.
Новизна положения подтверждена свидетельством о регистрации алгоритма в Отраслевом фонде алгоритмов и программ [34], а достоверность -вычислительными экспериментами в главе 4.
Научная новизна диссертационного исследования заключается в следующем:
Разработан оригинальный метод предпроцессорной обработки данных для построения ГНСМ ранжирования объектов налогового контроля на основе системного подхода, который позволяет получить эффективные модели для сложных условий моделирования (сильное зашумление БД вплоть до ее сознательного искажения, отягченное дефицитом наблюдений, неконтролируемой внутренней структурой объекта и др.). Указанный метод в работе реализуется в многоуровневом иерархическом структурировании модели, основанном на законе энтропийного равновесия открытой информационной системы. На иерархических уровнях структурирования модели реализуются специальные способы предпроцессорной обработки данных, повышающие однородность БД. На первом иерархическом уровне предложена оптимизационная итерационная процедура кластеризации исходной БД по критерию точности НСМ. В отличие от традиционных методов кластеризации процедура увязана с качеством обучения НСМ, что позволяет структурировать БД, повышая ее однородность в аспекте обучения НС. На втором иерархическом уровне предложена оптимизационная итерационная процедура очистки кластера исходных данных от аномальных наблюдений по векторному критерию точности, устойчивости и детерминированности вспомогательных НСМ (субмоделей) каждого кластера, основанная на общесистемной фоновой закономерности. В отличие от традиционных методов устранения аномальных наблюдений, процедура увязана с обучением модели, что позволяет увеличить однородность данных внутри кластера.
Разработан вероятностный критерий ранжирования налогоплательщиков, основанный на общесистемных закономерностях асимметрии и неполного подавления побочных дисфункций структурирования информационной системы, который позволяет получить оптимальный план выездных проверок в аспекте ожидаемых доначислений
Разработан метод модифицированного обобщенного перекрестного подтверждения оценки адекватности ГНСМ, основанный на общесистемной закономерности неполного подавления побочных дисфункций.
Практическая значимость работы заключается в следующем:
Полученные в диссертационной работе результаты могут быть использованы для решения практических задач ранжирования сложных стохастических объектов с сильнозашумленными данными. В частности, результаты ранжирования объектов налогового контроля могут служить основой для создания производственного плана выездных проверок.
Результаты диссертационного исследования, в том числе технология математического моделирования по созданию НСМ аппроксимации производственной функции и вероятностной модели ранжирования (BMP) объекта налогового контроля в специфических условиях, могут быть также использованы и для более широкого класса задач, не рассматриваемых в диссертации (прогнозирование экономических показателей налогоплательщика и оптимизация его финансового состояния, оценка ожидаемой суммы доначислений, ранжирование корпоративных заемщиков при предоставлении им кредитов, оптимальное бюджетирование муниципальных образований при ограничении бюджетных средств региона и др.).
Апробация работы состоит в многочисленных цифровых экспериментах, а также проведении натурного поверочного расчета для 6 натурных объектов, описанного в главе 4. Отдельные результаты диссертационного исследования докладывались на следующих научных конференциях:
• Международная научная конференция «Математические модели и методы их исследования (задачи механики сплошной среды, экологии, технологических процессов, экономики)». Красноярск, Россия, 18-24 августа 1999 г.
• Международная научная конференция «Моделирования, вычисления, проектирование в условиях неопределенности». Уфа, Россия 2-5 февраля 2000 г.
• Шестая Международная научно-техническая конференция студентов и аспирантов «Радиоэлектроника, электротехника и энергетика». Москва, 1-2 марта 2000 г.
• Республиканская конференция студентов и аспирантов по математике. Уфа, 17 мая 2000 г.
• Международная научная конференция «Континуальные логико-алгебраические и нейросетевые методы».-2000. Ульяновск, Россия, 14-15 мая 2000 г.
• Международная научная конференция «Континуальные логико- алгебраические и нейросетевые методы».-2001. Ульяновск, Россия, 15-17 мая 2001 г.
• Региональная школа-конференция для студентов, аспирантов и молодых ученых по математике и физике. Уфа, 1-2 июня 2001 г.
• Второй Всероссийский симпозиум по прикладной и промышленной математике (летняя сессия). Самара, 1-6 июля 2001 г.
• Второй Всероссийский симпозиум по прикладной и промышленной математике (зимняя сессия). Йошкар-Ола, 1-6 декабря 2001г.
• VIII Всероссийская конференция «Нейрокомпьютеры и их применение» НКП-2002 с международным участием. Москва, 21-22 марта 2002г.
• Третий Всероссийский симпозиум по прикладной и промышленной математике (весенняя сессия). Ростов-на-Дону, 14-20 мая 2002г.
• Третий Всероссийский симпозиум по прикладной и промышленной математике (осенняя сессия). Сочи, 1-6 октября 2002г.
• Пятый Всероссийский симпозиум по прикладной и промышленной математике (осенняя сессия). Сочи, 26 сентября - 3 октября 2004г.
• Шестой Всероссийский симпозиум по прикладной и промышленной математике (осенняя сессия). Сочи, 1-7 октября 2005г.
VIII Всероссийская научно-техническая конференция «Нейроинформати ка-2006». Москва, 24-27 января 2006 г.
• V Всероссийская научно-практическая конференция «Проблемы и перспективы российской экономики». Пенза, 15-16 марта 2006 г.
• Международная научно-практическая конференция «Современные направления теоретических и прикладных исследований». Одесса, 15-25 апреля 2006 г.
• Седьмой Всероссийский симпозиум по прикладной и промышленной математике (весенняя сессия). Кисловодск, 2-7 мая 2006г.
• XI Всероссийская научно-техническая конференция «Нейроинформатика-2007». Москва, 23-26 января 2007 г.
В диссертационной работе были использованы следующие методы исследований: функционального анализа, положения общей теории систем, методы теории неиросетевого моделирования, классические методы теории вероятности и математической статистики.
Основное содержание диссертации отражено в 22 опубликованных работах общим объемом 16,56 п.л. в том числе автора 8,12 п.л..
Структура работы. Диссертация состоит из введения, четырех глав, заключения, списка использованной литературы из 124 наименований, 2 приложений и содержит 171 страницу основного печатного текста, 29 рисунков, 22 таблицы.
В первой главе проводится исследование возможности нейросетевой аппроксимации многомерных функциональных зависимостей в условиях искажения данных и дефицита наблюдений применительно к объектам налогового контроля. Исследуются существующие технологии налогового контроля, рассматриваются традиционные способы отбора налогоплательщиков для выездных налоговых проверок. Уделяется внимание статистическим методам отбора налогоплательщиков. Делается вывод о существенном влиянии субъективного фактора в существующих технологиях налогового контроля. Ставится задача ранжирования стохастических объектов с сильнозашумленными данными. Осуществляется анализ условий моделирования. Исследуются про блемы связанные с аппроксимацией функции многих переменных с помощью НС в специфических условиях моделирования, с устойчивостью НС по возмущению входных данных.
Во второй главе разрабатываются метод предпроцессорной обработки данных для построения ГНСМ ранжирования объектов налогового контроля на основе системного подхода, который позволяет получить эффективные модели для сложных условий моделирования, и метод модифицированного обобщенного перекрестного подтверждения оценки адекватности ГНСМ. На базе указанных методов строится концепция построения ГНСМ для решения задач ранжирования объектов налогового контроля на основе общесистемных закономерностей кибернетики. Предлагаются и обосновываются: 1) управление качеством НСМ на ранних стадиях ее построения путем многоуровневого структурирования модели на основе общесистемной закономерности роста и убывания энтропии; 2) использование общесистемной фоновой закономерности для повышения однородности исходной БД; 3) построение вероятностного критерия ранжирования налогоплательщиков, основанного на общесистемных закономерностях асимметрии и неполного подавления побочных дисфункций структурирования информационной системы, который позволяет получить оптимальный план выездных проверок; 4) метод модифицированного обобщенного перекрестного подтверждения (МОПП) ГНСМ по финишному критерию совпадения множества проранжированных налогоплательщиков для нескольких независимых моделей с заданной доверительной вероятностью. В качестве практической реализации указанных методов предлагаются процедуры, с помощью которых возможно построение эффективных, адекватных и качественных ГНСМ ранжирования налогоплательщиков. Излагаются и численно обосновываются оптимальная кластеризация исходных данных, очистка кластера от аномальных наблюдений по векторному критерию точности, устойчивости и детерминированности вспомогательных НСМ. Излагается алгоритм ранжирования объектов налогового контроля, на основе которого осуществляется синтез плана отбора налого плательщиков для проведения выездных проверок. Предлагаются процедуры обобщенного перекрестного подтверждения (ОПП) для обеспечения адекватности НСМ и МОПП для обеспечения адекватности ГНСМ.
В третьей главе описывается рабочий алгоритм ранжирования экономических объектов с сильнозашумленными данными на основе ГНСМ. Приводится общее описание алгоритма и составляющих его десяти вспомогательных процедур - оптимальной кластеризации, очистки кластера от аномальных наблюдений, построения рабочей НСМ и расчета доверительного интервала, ОПП, расчета у-критерия, ранжирования объектов налогового контроля на основе \/-критерия, МОПП, окончательного ранжирования.
Четвертая глава посвящена решению прикладных задач ранжирования объектов налогового контроля на основе разработанной ГНСМ. Строятся ГНСМ ранжирования налогоплательщиков. Проводится экспериментальная апробация и верификация ГНСМ.
В заключении подводятся основные итоги выполнения диссертации.
В приложениях приводятся исходные данные, использованные для построения ГНСМ.
Автор благодарит доктора экономических наук, профессора Н.Д. Бублика и доктора физико-математических наук, профессора И.И. Голичева за ценные советы по обсуждению работы.
Обобщенная постановка и особенности задачи ранжирования экономических объектов с сильнозашумленными данными
К задачам ранжирования экономических объектов с сильнозашумленными данными можно отнести следующие: 1) Задачи ранжирования налогоплательщиков в системе налогового контроля, а именно: дискриминации налогоплательщиков на «законопослушных» и «нарушителей» налогового законодательства; определения степени искажений налогоплательщиками налоговых деклараций и др. 2) Задачи ранжирования корпоративных заемщиков при предоставлении им кредитов Национальным Банком страны [14]. 3) Задачи оптимального бюджетирования муниципальных образований региона при ограничении бюджетных средств и др.
Инструментарием для решения указанных задач служит разрабатываемая в диссертационном исследовании информационно-математическая гибридная нейросетевая модель (ГНСМ). Термин «гибридная» означает, что указанная модель состоит из:
1) нейросетевой модели (НСМ), аппроксимирующей скрытую в базе данных (БД) усредненную многомерную производственную функ цию;
2) вероятностной модели ранжирования (BMP) экономических объек тов по специально построенному функционалу выбора;
3) алгоритма взаимодействия НСМ и BMP, который оценивает довери тельный интервал для отклонений между данными расчета по НСМ и декларируемого моделируемого показателя.
Термин заимствован из работ Кристофа и Пьера Кувье [104], в которой выдвинута концепция «перекрестного опыления». Согласно ей нейросетевые и традиционные статистические методы должны помогать друг - другу и обогащать друг - друга. Целесообразным представляется использовать так называемые гибридные методы, комбинирующие нейронные сети с вероятностными и статистическими методами, как в настоящей диссертационной работе, а также методами нечеткой логики и другими способами обработки данных
Необходимость разработки ГНСМ для решения указанных задач обусловлена специфическими тяжелыми условиями нейросетевого моделирования, характерными для указанных выше задач. Это наличие в моделируемых объектах сильной зашумленности входных данных вплоть до их сознательного искажения, неконтролируемой изменчивости внутренней структуры исследуемых субъектов налогообложения, стохастического влияния внешней среды, а также малое число дискрет времени в наблюдениях. Еще одно специфическое условие связано с мультиколлинеарностью, т.е. с линейной или существенно нелинейной взаимосвязью входных факторов экономического объекта между собой. Подробный анализ условий моделирования приведен в следующем параграфе.
В связи с изложенным, как показывает наш опыт построения ГНСМ [10-12, 32,34,35,40,41,73-75] в указанных условиях, «лобовое» применение стандартных нейропакетов оказывается невозможным. Потребовалась разработка специальных методов предпроцессорной обработки данных и оценки адекватности ГНСМ, описанных в главе 2, с помощью которых оказалось возможным построение эффективных, адекватных и качественных ГНСМ ранжирования налогоплательщиков.
Задача ранжирования в указанных условиях моделирования есть задачей выбора в условиях статистической неопределенности. Изложим ее с точки зрения системного подхода [72]. Обстоятельства принятия статистических решений иллюстрирует схема, приведенная на рисунке 1 [72].
На рисунке 1 точкой 9 е 0 изображено неизвестное, которое необходимое определить; 0 - множество всех предполагаемых возможностей относительно 9. Точкой хеХ изображена выборка (протокол наблюдений) x = (x],...,xN);X- множество всех возможных выборок. Тот факт, что на реализовавшееся значение выборки оказывает влияние не только искомая закономерность 9, но и совокупность случайных факторов, изображен на схеме как результат совместного отображения G и некоторого случайного воздействия п в пространство X с помощью некоторого оператора \i: x = \i(Q,n).
Зная что мы должны сделать выбор относительно 9, принять решение, какую из множества альтернатив 0 мы примем за истинную. Чтобы не путать принимаемое решение и «истинное» состояние 0, обозначим пространство, на котором производится выбор, через Г. Очевидно, что в Г входят все элементы множества 0, но могут войти и дополнительные решения (типа отказа от выбора, требования увеличить число наблюдений или провести рандомизацию и т.п.).
Повышение однородности НСМ на первом иерархическом уровне структурирования с помощью оптимизационной итерационной процедуры кластеризации базы данных
Предлагаемый нами первый иерархический уровень структурирования модели - повышение однородности БД путем образования оптимального числа - Q- кластеров в исходной БД, осуществляемый с помощью оператора Fh упомянутого в формуле (1.11) из главы 1. Подробно этот вопрос и вид оператора F\ освещены в следующем параграфе. Получаемый синерге-тический эффект данного иерархического уровня структурирования - создание предпосылок получения НСМ с малым числом входных факторов хорошего качества при сложных условиях моделирования.
Второй иерархический уровень структурирования - дальнейшее повышение однородности в образованных кластерах, путем их очистки от аномальных наблюдений, осуществляемой с помощью оператора F2. Подробно процесс очистки кластера и вид оператора Fj освещены в параграфе 2.3 настоящей главы.
Наконец третий, последний уровень структурирования - это определение оптимальной архитектуры НСМ, вида активационных функций и па раметров обучения, а также проверка адекватности модели. Процедуры третьего уровня завершаются построением рабочей модели на БД однородного очищенного кластера. На последнем этапе можно получить эффективную НСМ только в том случае, если успешно реализованы предшествующие первый и второй уровни структурирования. Оператор построения рабочей НСМ следующий: F,:Zq , (4) где у е Y определяется по формуле y = r(x,(W(X,y)). (5) Здесь Zq,q = l,Q - БД д-го кластера,/ - рабочая НСМ, полученная на оптимальной итерации очистки g-го кластера.
Повышение однородности НСМ на первом иерархическом уровне структурирования с помощью оптимизационной итерационной процедуры кластеризации базы данных
Реализацией идеи структурирования на первом иерархическом уровне структурирования является оптимизационная итерационная процедура кластеризации базы данных [75]. Процедура оригинальна и принципиально отличается от известных методов кластеризации тем, что нахождение оптимального числа кластеров в условиях дефицита наблюдений тесно связано с качеством обучения будущей НСМ. Итогом процедуры является образование в многофакторном пространстве БД 9Г+/ оптимального числа кластеров Q , примерно однородных по евклидовым расстояниям между элементами и одновременно соответствующих условию наибольшей точности НСМ (т.е. качеству ее обучения) по критерию ошибки обобщения.
Подчеркнем принципиальную новизну предлагаемой нами процедуры по сравнению с известными в экономике и технике методами кластеризации [2, 3, 87], оперирующими с БД автономно, т.е. без какой - либо связи с моделью, которая будет затем строиться на кластеризованных данных. Соответственно, в этих методах критерии качества кластеризации используют тем или иным способом различные числовые меры расстояний между элементами внутри образуемых кластеров и расстояний между кластерами. Чаще всего используются евклидовы расстояния, определяемые по формуле: =jx )2 u=uv;, (6) гдеу - номер фактора - детерминанта (в нашей задаче это компоненты векторов Xи Г); i,k- номера элементов в кластере; d - расстояние между элементами с номерами i nk;Nq- число элементов в q - ом кластере.
В зависимости от цели кластеризации применяются и другие числовые меры: взвешенное евклидово расстояние, расстояние Махаланобиса, расстояние Хемминга, обобщенное К- расстояние Колмогорова и др. [2].
Однако в чистом виде ни один из классических методов кластеризации [2] для нашего класса задач построения НСМ не подходит, точнее они недостаточно эффективны. Дело в том, что факторы - дискриминанты в базе данных налоговых деклараций искажены по - разному, и следовательно вклад близких по расстоянию (5) элементов внутри кластера в модификацию си-наптических весов WHC в (1.2) будет существенно различным, особенно при наличии нелинейной взаимосвязи входных факторов - дискриминант [xj), т.е. при высоком коэффициенте детерминации связи ,=ф( Д (?) где ф(-) - некоторая нелинейная функция.
Другими словами, близкие по числовой мере (6) элементы внутри кластера могут давать сильно различающийся вклад в ошибку обобщения Е (см. формулу (1.27) или ниже формулу (14)) обученной НСМ, и образованный одним из классических методов кластер перестает быть однородным с позиции вклада элементов в обучение НСМ. Это противоречит нашей цели кластеризации. Следовательно, надо искать другую числовую меру качества образованных кластеров.
Итерационная оптимизационная процедура кластеризации базы данных
Сущность и назначение процедуры были указаны в параграфе 2.2. Очередность вычислительных операций ясна из детализированной логической схемы процедуры кластеризации (рисунок 3). Остается лишь дать краткие дополнительные комментарии к блокам 3.2 - 3.21
В блоке 3.2 вводится допустимое значение критерия качества кластеризации Е для всех кластеров. С этой величиной в процессе построения вспомогательных НСМ (субмоделей) будет сравниваться критерий качества кластеризации. Е назначается обычно на уровне 0,4, что соответствует величине относительных отклонений между декларированным и расчетным значениями выходной величины (1.2) порядка 40%, что является достаточным на первом этапе формирования «русел» путем кластеризации [2].
В блоке 3.3 задается текущее число кластеров на первой итерации кластеризации, присвоение Q:=\
В блоке 3.4 выполняется стандартная процедура кластеризации базы данных по методу А: - средних на Q кластеров [2, 81].
В блоке 3.5 проверяется условие репрезентативности базы данных в каждом из образованных кластеров, т.е. выполнение ограничения (2.11).
В случае его выполнения осуществляется переход к блоку 3.8. Если существуют нерепрезентативные кластеры, то в блоке 3.6 осуществляется экспертная оценка целесообразности отбраковки нерепрезентативных кластеров или их присоединения к другим репрезентативным кластерам.
В блоке 3.7 текущему числу кластеров присваивается число репрезентативных кластеров Q := Qrep.
В блоке 3.8 задается номер текущего кластера, осуществляется присвоение q := 1 .В блоке 3.9 на данных q-то кластера строится вспомогательная НСМ -субмодель вида (1.2) для выбранных аналитиком парадигмы, архитектуры НСМ и вида ее активационных функций. Осуществляется обучение и тестирование НСМ. В блоке 3.10 вычисляется критерий качества кластеризации - ошибка обобщения (2.13). Проверка условия неисчерпания кластеров q Q осуществляется в блоке 3.11. В случае его выполнения в блоке 3.12 осуществляется переход к следующему кластеру, т.е. присвоение q:=q + ln операции в блоках 3.9 -3.12 повторяются.
При исчерпании всех кластеров в блоке 3.13 производится вычисление критерия качества кластеризации на множестве всех Q кластеров.
Значение критерия качества кластеризации Eq, равное максимальному для каждого из \Е(Ч)}, сравнивается в блоке 3.14 с допустимым значением критерия качества кластеризации - заданным уровнем ошибки обобщения Е . Если Ф2 Е , то дальнейшее увеличение числа кластеров нецелесообразно. В блоке 3.15 фиксируется оптимальное число кластеров Q =Q. Иначе, в случае Q=\ (проверка в блоке 3.16), мы увеличиваем число кластеров на единицу (блок 3.17) и опять повторяем операции в блоках 3.4 - 3.16. Если же число кластеров Q 1, то в блоке 3.18 происходит сравнение критерия качества кластеризации на текущей и предыдущей итерациях. Иначе говоря, строится кривая зависимости ошибки обобщения Ф2 от числа кластеров Q. Увеличение числа кластеров следует продолжать до тех пор, пока Е? не станет больше Ер 1, т.е. до тех пор, пока кривая не достигнет своего минимума. В блоке 3.19 фиксируется оптимальное число кластеров Q =Q-1. Вывод БД в каждом их Q кластеров осуществляется в блоке 3.20.
Итерационная оптимизационная процедура очистки образованных кластеров от аномальных наблюдений по обобщенному (векторному) критерию точности, устойчивости и детерминированности
Идея процедуры и сущность очистки кластера от аномальных наблюдений по векторному критерию точности, устойчивости и детерминированности вспомогательных НСМ была рассмотрена в параграфе 2.3. Идея, как уже было отмечено, основана на применении фоновой общесистемной закономерности. Следует отметить, что при выполнении процедуры в каждом кластере следует отбросить наблюдения каждого объекта налогового контро-ля, соответствующие моменту проверки t . Эти наблюдения в дальнейшем будут предъявлены рабочей модели для последующего расчета отклонений (1.9). Процедура состоит из 16 блоков, представленных на рисунке 4.
Построение гибридных нейросетевых моделей ранжирования для выборки Z"
Рассматриваемые в диссертационном исследовании ГНСМ ранжирования объектов налогового контроля основаны на сравнении декларированных показателей налогоплательщиков с расчетным нейросетевым «эталоном», что существенно опирается на свойство высокой достоверности численных оценок моделируемого показателя Y с заданной погрешностью. На обеспечение данного свойства, которое будем называть «качеством» модели, направлены процедуры ОПП и МОПП.
Приведем результаты натурного поверочного эксперимента, сравнения расчетных значений с результатами выездных проверок. Здесь использованы исходные данные, состав факторов и результаты моделирования НСМ выручки из параграфа 5.3 монографии [10], написанного Н.Т. Габдрахмановой и С.А. Горбатковым совместно с автором диссертации. Данные верификации показаны в сводной таблице 14. Предприятия с кодом 1 и 3 были классифицированы как «нарушитель». Летом 2002 г. на этих предприятиях были орга 153 низованы выездные проверки, подтвердившие данные моделирования. В таблице 14 обозначено Yd - значение выходной величины, декларированное налогоплательщиком, Yen - значение выходной величины, уточненное в ходе выездной проверки с учетом доначислений, f - осредненное по 6 ГНСМ расчетное значение выходной величины. В последних столбцах таблицы приведены относительные отклонения между декларированным и Y -Y скорректированным в ходе выездной проверки 5т = -=—- и между деклари ) рованным и расчетным, определяемым по формуле (1.9), значениями выходной величины. Таким образом, модель достоверно распознает как нарушителей, искажающих документацию, так и ненарушителей налогового законодательства.
Помимо обеспечения адекватности НСМ по методу ОПП и адекватности ГНСМ по методу МОПП, полученную модель можно проверить на адекватность внешним образом. Было осуществлено сравнение ГНСМ, представленной в работах автора [40, 73], с известным планом отбора налогоплательщиков по альтернативной модели непараметрического сглаживания Estima Из таблицы 15 следует, что по каждой модели совпадает 15 налогоплательщиков из 18, т.е. модели подтверждают друг друга на 83 %. Это может служить внешним подтверждением адекватности разрабатываемой ГНСМ. ВЫВОДЫ ПО ГЛАВЕ 4
1. На основе построенных по предлагаемому в главе 3 рабочему алгоритму ранжирования объектов налогового контроля ГНСМ решены задачи ранжирования налогоплательщиков. Задачи решены на реальных данных предприятий.
2. При решении задачи использованы процедуры пред- и постпроцессорной обработки данных, такие как процедура оптимальной кластеризации, процедура оптимальной очистки кластера от аномальных наблюдений, процедуры ОПП и МОПП. Выполнение этих процедур позволяет получить адекватные ГНСМ, подтверждающие друг друга по методу МОПП с вероятностью не менее 70%, что является высоким результатом адекватности моделей.
3. Проведена верификация модели на натурных данных. Положительные результаты верификации являются доказательством пригодности использования разработанной ГНСМ при решении задачи отбора предприятий налогоплательщиков для проведения выездных проверок.
4. Проведено сравнение ГНСМ с независимой моделью непараметрического сглаживания, которое показало их взаимное подтверждение на 83%. Это служит инструментом оценки адекватности предлагаемой ГНСМ внешним по отношению к модели способом.