Содержание к диссертации
Введение
1. Применение экспертных систем в экономике 12
1.1. Этапы анализа финансового состояния хозяйствующего субъекта 12
1.1.1. Зарубежные методы оценки кредитоспособности 19
1.1.2. Отечественные методы оценки кредитоспособности 32
1.2. Экспертные системы в финансово-экономической деятельности 37
1.3. Диагностические системы и индуктивное приобретение знаний 48
2. Математическая модель процесса классификации хозяйствующих субъектов 59
2.1. Математическая постановка задачи 59
2.2. Использование методов дискриминантного анализа для интерпретации и классификации данных 63
2.3. Эвристические методы классификации 79
2.4. Экспертиза как способ устранения неполноты исходных данных. Шкалирование и методы обработки экспертных оценок 84
3. Программно-инструментальный комплекс поддержки принятия решений "АРМ Консалт" 92
3.1. Архитектура и функциональные возможности экспертной системы "АРМ Консалт" 92
3.2. Использование данных статистической отчетности для оценки работоспособности системы
3.3. Устранение неполноты и использование избыточности информации
Заключение
Приложения
Список литературы
- Экспертные системы в финансово-экономической деятельности
- Диагностические системы и индуктивное приобретение знаний
- Использование методов дискриминантного анализа для интерпретации и классификации данных
- Использование данных статистической отчетности для оценки работоспособности системы
Введение к работе
Финансовые институты составляют неотъемлемый атрибут современного денежного хозяйства, их деятельность тесно связана с потребностями воспроизводства. Находясь в центре экономической жизни, обслуживая интересы производителей, банки опосредуют связи между промышленностью и торговлей, сельским хозяйством и населением. Банки - это атрибут не отдельно взятого экономического региона или какой-либо одной страны, сфера их деятельности не имеет ни географических, ни национальных границ, это планетарное явление, обладающее колоссальной финансовой мощью, значительным денежным капиталом.
Наметившиеся в последнее время признаки экономической стабилизации - замедление инфляции, стабилизация национальной валюты, централизованное уменьшение ставок рефинансирования - позволяют надеяться на скорый переход к цивилизованным формам хозяйствования, в том числе в банковском деле. В связи с этим все больший интерес начинает представлять изучение западных методов планирования активных банковских операций, принятие решений по предоставлению кредитов - основы дохода каждого банка.
Российская банковская система в ее современном виде - это еще незавершенная система, недостроенное здание. Банк перестал быть административным органом, подчиненным правительственному учреждению, регламентации и контролю, он получил статус специфического предпринимательского общества, руководствующегося наряду с официальным законодательством соображениями коммерческой выгоды и собственными правилами самофинансирования. Совершается попытка перехода от монополизм- рованной административно-командной государственной структуры к динамичной, гибкой, основанной на частной и коллективной собственности системе кредитных учреждений, ориентированных на коммерческий успех, получение прибыли.
Банки имеют самое прямое отношение к процессу удовлетворения потребности общества в деньгах. От деловой политики коммерческих банков зависит реальность денежных потоков с точки зрения их соответствия реальным процессам воспроизводства. Банк выступает в роли финансового посредника при перераспределении денежных средств и осуществлении платежей на финансовом рынке. Совокупность таких финансовых посредников, действующих в рамках общего денежно-кредитного механизма, образует банковскую систему. Ее основной целью является обслуживание оборота капитала в процессе производства и обращения товаров. Определение функций отдельных банков и регламентация их деятельности содержится в Законе РФ "О банках и банковской деятельности в РФ" и ряде других законодательных актов.
Возможность коммерческих банков создавать деньги путем выдачи кредита имеет большое значение для экономики, расширяя с помощью кредита производственные возможности субъектов воспроизводства без предварительного процесса накопления средств. Предоставление банком различных видов денежных ссуд является краеугольным камнем банковского бизнеса. В кредитных операциях банк оперирует в основном заемным капиталом, значительная часть которого может быть востребована вкладчиками в краткие сроки и без предварительного уведомления. При кредитосании банк прежде всего должен определить, способен ли заемщик своевременно и в полном объеме погасить задолженность по ссуде. Это предусматривает необходимость оценки банком не только платежеспособности клиента на определенную дату, но и прогноз его финансовой устойчивости на перспективу.
Кредитоспособность клиента в мировой банковской практике являлась и является одним из основных объектов оценки при определении целесообразности и форм кредитных отношений. В нашей стране в условиях централизованного планового управления экономикой, банк при оценке финансовой устойчивости клиента, при разделении на "хорошо" и "плохо" работающих, т.е. при определении их кредитоспособности, руководствовался в основном показателями выполнения плана [83]. Критерий финансовой устойчивости клиента не редко уступал место критерию народнохозяйственной необходимости поддержания данного вида производственной деятельности, когда решался вопрос о возможности и режиме кредитования.
В условиях рыночной экономики на первое место выдвигается необходимость разработки объективного, научного подхода к определению кредитоспособности заемщика банка с учетом сложившейся отечественной и зарубежной практики. Объективная оценка финансового состояния заемщика и учет возможных рисков по кредитным операциям позволят банку эффективно управлять кредитными ресурсами.
В условиях стабильной рыночной экономики оценка кредитоспособности представляет собой частично формализуемую проблему с наработанным математическим аппаратом. И наоборот, в условиях нестабильной Российской экономики эта проблема характеризуется сильной неполнотой, избыточностью и противоречивостью исходной информации, что приводит к необхо- димостп использования эвристических методов и теории принятия решений. В этой связи наиболее актуальным представляется использование методов искусственного интеллекта - методов автоматического обучения на примерах. Основная особенность этих методов состоит в возможности полной автоматизации построения модели знаний, которая производится на основе обработки фактического материала с минимальным субъективным влиянием на этот процесс специалистов и экспертов.
Применяемые и рекомендуемые в настоящее время способы оценки кредитоспособности опираются главным образом на анализ данных о деятельности заемщика в предшествующем периоде. Такая оценка не может характеризовать поведение клиента в будущем, ее можно принимать во внимание только как предварительную. Провести качественную оценку может только специалист высокого класса, причем ему приидется выполнять очень трудоемкую работу, анализируя данные балансов предприятия и другую финансовую отчетность.
При разработке подходов оценки кредитоспособности заемщика специалисты сталкиваются с подзадачами, которые не поддаются полной формализации. Это связано с наличием риска при совершении кредитной сделки, его зависимости от многочисленных факторов, прежде всего от результатов деятельности заемщика, с разнородностью факторов, влияющих на протекание процесса функционирования предприятия - заемщика в условиях становления рыночной экономики, недостоверностью, неполнотой и противоречивостью информации, получаемой специалистом кредитного отдела в связи с отсутствием в стране единой информационной базы по клиентам, доступной всем банкам, а также тем, что среди обращающихся за кредитом большой процент со- ставляют вновь созданные организации, не имеющие никакой кредитной истории. Проблема усложняется также тем, что невозможно представить желаемые цели в виде функционального критерия.
Анализируя перечисленные особенности, можно сделать вывод, что для решения такого рода задач следует использовать возможности интеллектуальных систем и эвристические методы классификации. Такие системы явились результатом возникновения и развития нового направления в исследованиях по искусственному интеллекту, получившего название экспертные системы или системы поддержки принятия решений. Данные системы способны эффективно и быстро решать задачи принятия решений в условиях нечеткого определения свойств объекта и внешних воздействий, при неполноте и недостаточности информации о состоянии объекта. Условия, в которых приходится осуществлять оценку качества заемщика и принимать решение о выдаче кредита в повседневной работе банка, делают целесообразным применение экспертных систем и эвристических методов.
Исходя из всего вышесказанного, можно сформулировать основную цель исследования - создание системы поддержки принятия решения для оценки кредитоспособности клиентов банка.
Для достижения указанной цели в диссертации были поставлены и решены следующие задачи:
1) разработана новая концепция создания системы принятия решений для оценки кредитоспособности заемщика, использующая статистические данные банка и знания экспертов кредитного отдела в условиях неполноты, противоречивости и некоторой избыточности информации;
2) построена математическая модель системы поддержки принятия решений в области кредитования на основе дискрими- нантного анализа и эвристических методов классификации; введено понятие обобщенной задачи классификации клиентов банка по уровню кредитоспособности в применении к системам поддержки принятия решений, при учете неполноты и противоречивости данных о клиентах; разработаны авторские эвристические алгоритмы, позволяющие производить классификацию заемщиков на основе их финансовых показателей и обеспечивающие легкость интерпретации полученных результатов для дальнейшего анализа; на основе анализа методик оценки кредитоспособности банков-корреспондентов и исследования проблемы функционирования систем поддержки принятия решений, использующих статистические данные и знания экспертов, создана база знаний кредитного отдела; построен программный комплекс "АРМ Консалт" на базе разработанных алгоритмов и созданной базы знаний кредитного отдела банка, позволяющий проводить комплексный анализ экономических показателей его клиентов.
В соответствии с поставленной целью предметом исследования является процесс принятия решения о выдаче кредита в банковской практике, а целью исследования - совершенствование теоретических, методологических и практических аспектов этого процесса.
Методологической основой исследования явились научные труды в области финансового и банковского менеджмента, моделирования экономических процессов, компьютерной обработки экономической информации. В диссертации использованы методы экономико-математического моделирования, системного и дис-криминантного анализа, методы классификации и прикладного статистического анализа, элементы теории выбора и принятия решении.
Научная новизна работы заключается в совершенствовании методов управления кредитными ресурсами банка за счет создания и использования системы поддержки принятия решений для оценки кредитоспособности заемщиков.
К новым научным результатам относятся: концепция системы поддержки принятия решений для оценки кредитоспособности заемщика, использующая статистику банка данных и знания экспертов кредитного отдела в условиях неполноты и противоречивости информации; математическая модель системы поддержки принятия решении в области кредитования, разработанная на основе подходов дискриминантного анализа и эвристических методов классификации; постановка и решение обобщенной задачи классификации в применении к системам поддержки принятия решений в условиях неполноты, противоречивости и избыточности информации о заемщиках; концепция и архитектура комплекса инструментальных средств по созданию систем поддержки принятия решений; полученные результаты, доказывающие состоятельность применения разработанной экспертной системы в области анализа кредитоспособности и планирования активных операции.
Практическая ценность работы определяется прикладным характером исследования, комплексностью решения задачи целесообразности выделения кредитов, созданием программного ком- плекса, позволяющего обрабатывать большие объемы статистической и экспертной информации и получать научно обоснованные оценки состояния кредитоспособности предприятий-заемщиков с высокой степенью достоверности и возможностью их дальнейшей интерпретации и анализа с целью прогноза на перспективу.
Результаты диссертации использовались для оценки финансового состояния клиентов АКБ "Транскапиталбанк". Разработанный "АРМ Консалт" внедрен в работу кредитного и аналитического управлений вышеназванного банка.
Диссертационная работа состоит из введения, трех глав, заключения, списка использованной литературы и приложений.
В первой главе анализируются принятые в отечественной и зарубежной практике методы оценки финансового состояния хозяйствующих субъектов, а также используемые для этих задач программные комплексы и разрабатывается подход к оценке заемщика на основе современных информационных технологий.
Вторая глава посвящена теоретическим вопросам создания экспертной системы оценки кредитоспособности заемщиков, разработке математической модели системы поддержки принятия решений и методики ее построения.
В третьей главе описаны функциональные возможности и архитектура программно-инструментального комплекса "АРМ Консалт", приводятся результаты проверки комплекса на реальных данных с их интерпретацией и рекомендациями по дальнейшему повышению достоверности.
В приложениях приведены таблицы, являющиеся иллюстрациями к проведенным исследованиям.
Экспертные системы в финансово-экономической деятельности
Экспертные системы (ЭС) представляются собой компьютерные программы, использующие принципы искусственного интеллекта и формализованные знания эксперта для обработки оперативной информации и принятия обоснованных решений в анализируемой предметной области.
Существуют два принципиально различных класса ЭС: основанные на правилах и основанные на примерах. Первый класс ЭС применяется для работы с хорошо систематизированными элементами знаний и априори известными закономерностями, выраженными различного рода методиками, инструкциями, правилами и т.п. Второй класс ЭС используется в ситуациях, когда отсутствуют какие-либо явные связи и закономерности между элементами знаний, а сами знания представлены в виде списков примеров, описывающих реализации тех или иных событий. Если первый класс ЭС работает с хорошо определенными данными и знаниями, извлеченными из экспертов-аналитиков инженерами знаний, то второй - формирует свои знания путем адаптации к предметной области, представленной примерами, причем как обучающая, так и анализируемая информация может быть искажена и неполна. В первом случае в основе механизмов вывода, как правило, лежат классические стратегии наследования и логического вывода, а во втором - различные методы индуктивного обобщения по примерам, в частности, апроксимирующие свойства, используемых для этого, искусственных нейронных сетей.
ЭС с успехом применяются в тех областях, где кроме применения стандартных алгоритмических методов, основанных на точных вычислениях, требуются знания и опыт конкретных экспертов-аналитиков, а принятие решений формируется в условиях неполноты данных и зависит скорее от качественных, чем количественных оценок. К таким предметным областям относится прежде всего область анализа фштнеовой деятельности, где эффективность принимаемых решений зависит от сопоставления множества различных факторов, учета сложных причинно-следственных связей, применения нетривиальных логических рассуждений и т.п.
В качестве иллюстрации использования технологии экспертных систем в финансовой деятельности приведем примеры некоторых наиболее типичных конкретных разработок ЭС. О масштабах исследований и предложений на рынке ЭС в области финансов можно судить по международным научным конференциям (например, Artificial International Applications on Wall Street, Oct. 9-12, 1991, New York) и коммерческим каталогам, в которых стоимости конкретных приложений колеблются от тысяч до десятков тысяч долларов.
Множество фирм на Уолл-Стрит установили ЭС для решения задач в таких областях как: торги па фондовой бирже, автоматическое понимание новостей, кредитный анализ, управление рисками, построение портфелей кредитов и инвестиций, оценка рейтинга банков, автоматизация аудита, предсказание изменений на финансовом рынке и т.д.
Примерами этому является целый класс консультативных ЭС: Bear, Sterns & Company s Broker Monitoring System, Athena Group s Portfolio Advisor и Trader s Assistant, совместно разработанные корпорациями Author D. Little Corporation, Knowledge-Based Network Corporation и еще шестью финансовыми институтами. Японский Sanwa Bank, один из крупнейших мировых банков, применяет экспертную систему Best Міх для улучшения качества своей информации по инвестициям.
ЭС Nikko Portfolio Consultation Management System, разработанная для внутреннего использования фирмой Nikko Securities, Ltd., помогает управляющим фондами выбрать оптимальный портфель для своих клиентов. Данная система основана на базе данных с информацией за пять лет продаж акций и на системе с новой теорией управления портфелем, которая вычисляет и оптимизирует портфель ценных бумаг для страховки от различных рисков. Управляющие фондами освобождаются от рутинных вычислений и, таким образом, имеют возможность более быстро составить оптимальный портфель ценных бумаг. Компания IDS Financial Services, подразделение финансового планирования American Express Company, классифицировали финансовые экспертизы своих лучших управляющих для создания экспертной системы, названной Insight. IDS включила экспертизы лучших управляющих в свои средства, т.е. экспертную систему, доступную всем своим планировщикам. Одним из основных результатов применения экспертной системы в компании IDS стало то, что процент покинувших фирму клиентов упал более чем наполовину.
Диагностические системы и индуктивное приобретение знаний
Процесс приобретения знаний и создание мощной базы знании составляет основную проблему при построении конкретной экспертной системы по оценке кредитоспособности заемщика. Специфика работы кредитного отдела требует от специалиста огромных и уникальных знаний и эти знания необходимо от него получить причем в как можно более полном объеме. Возможность автоматизации процесса приобретения знаний связана с существованием объективных зависимостей между исследуемыми явлениями и данными, косвенно эти связи отражающими.
Экспертные системы этого класса используют идеологию теории распознавания образов, то есть идеологию машинного обучения по набору примеров, состоящих из пар "описание объ-екта-класс объекта". Набор примеров составляет специалист кредитного отдела. В роли объектов в данном случае выступают предприятия-заемщики и целью эксперта является присвоение каждому из них класса кредитоспособности.
Структура аппарата принятия решений в данных системах бывает двух типов: системы, ориентированные на сопоставление всех возможных классов решений (параллельный вывод решения) и системы древообразного типа (последовательное получение решения). В первом случае для каждого класса решении индуктивно определяется правило, по которому делается заключение о принадлежности наблюдаемой ситуации к данному классу. Во втором правило принятия решения представляет собой древообразную структуру, в вершинах которой проверяются условия относитель но имеющихся в наличии факторов, описывающих финансовое состояние заемщика. В зависимости от результата выбирается та или иная ветвь для продолжения вывода, а в листьях содержатся конкретные заключения в виде классов решении - уровней кредитоспособности клиентов. Предметом изучения данной работы являются системы последнего типа, т.е. диагностические экспертные системы с древообразными правилами принятия решений.
Наиболее перспективным подходом к созданию экспертных систем в настоящее время является направление, связанное с разработкой специализированных систем приобретения знаний, поскольку именно индуктивное обучение способно придать использованию баз знаний динамический характер, обеспечивая механизм пополнения знаний. Естественно, что с использованием индуктивного обучения связана интеллектуализация экспертной системы, создающая необходимые условия для двустороннего взаимодействия человека и компьютера. Такая модель, а зачастую даже совокупность моделей, из числа которых может быть сделан подбор адекватных решаемым задачам модели, создается инженером по знаниям совместно с экспертом и помещается в тезаурус системы приобретения знаний. Примером такой модели являются схемы правил, предлагаемые в одной из первых оболочек приобретения знаний TEIRESIAS [68].
Ядро каждой самообучающейся системы составляют пути получения знаний в виде, пригодном для их использования. По Р.Михальскому [97], эти знания формируются па основе различных видов обучения - с помощью инструкций, дедукции, индукции и аналогий. При этом обучение может быть двух типов: обучение из примеров (расширение понятия); обучение из наблюдении (образование понятий без учителя), называемое им концеп туалыюй кластеризацией. В качестве исходных данных могут служить устные рекомендации, аналогии, примеры, наблюдения, открытия и эксперименты, умозаключения, получаемые исходя из глубинных представлений. Многие идеи индуктивного обучения Р. Мнхальский реализовал в экспертной системе PLANT [97].
Одним из наиболее перспективных направлений развития экспертных систем является разработка методов обучения машины правилам логических выводов на конкретных примерах. В самой структуре таких систем (EXPERT-BASE, Rulemaster) предусмотрены средства для получения массива экспертных решений, выработанных специалистом. Обобщая эти решения, система может составлять выполнимые правила.
Один из первых таких алгоритмов разработал Р. Куинлан из института науки и техники Нового Южного Уэльса (Австралия), взяв за основу программу ID3 [108]. Алгоритм осуществляет циклическую разбивку примеров на классы в соответствии с переменной, имеющей наибольшую классифицирующую силу. Для этой цели Куинлан предлагает использовать теоретико-информационную меру - энтропию. Каждое подмножество, выделяемое такой переменной, вновь разбивается на классы (пока в нем не будут содержаться данные лишь одного класса) с использованием следующей переменной с наибольшей классифицирующей способностью и т.д. Разбиение заканчивается, когда в подмножествах оказываются лишь однотипные данные. В ходе этого процесса обработки информации "сверху вниз" образуется дерево решений. Система ID3 лежит в основе системы EXPERT-BASE. В качестве отрицательных сторон этого подхода стоит отметить достаточную сложность последовательного выделения наиболее классифицирующих показателей равно как и определе пня однотипности данных при определении такого комплексного понятия, как кредитоспособность.
Принцип структурной декомпозиции общей задачи заложен и в подход, предложенный Шапиро и Ниблеттом [110] под названием "структурная индукция". Компании, располагающие такими мощными средствами логических выводов (пакет EXRAN фирмы ITL, упоминавшиеся выше системы RuleMaster и EXPERT-BASE) применяли рассмотренный метод для самых разнообразных приложений.
Анализ существующих экспертных систем показывает, что разработчики недостаточно используют прикладной статистический анализ, возможности архитектур баз данных. Существующие экспертные системы вобщем позволяют получать достаточно неплохие практические результаты, несмотря на шаткость того математического фундамента, на котором они создаются. Однако, если удастся создать более надежный математический аппарат, то, вероятно, информацию в базе знаний удастся использовать более разумно и экономно и создатель экспертной системы сможет выразить более тонкие отношения между гипотезами в его моделях. К сожалению, до сих пор разработка сервисного программного обеспечения для синтеза экспертных систем пока опережает разработку методов и средств получения новых знаний. Оставаясь на уровне манипулирования объектами, реализованном в существующих экспертных системах, трудно рассчитывать на выполнение многих задач, в процесс решения которых должны органично входить методы, характерные для системного анализа, исследования операций, математической статистики, вычислительной математики и других традиционных направлений в обработке информации.
Использование методов дискриминантного анализа для интерпретации и классификации данных
Дискримннантный анализ является статистическим методом, который позволяет изучить различия между двумя и более группами объектов по нескольким переменным одновременно. "Дискримннантный анализ" - это общий термин, относящийся к нескольким тесно связанным статистическим процедурам. Обычно разделяют методы интерпретации групповых различий и методы классификации наблюдений по группам. Речь идет об интерпретации, когда рассматриваются различия между классами. Другими словами, при интерпретации необходимо ответить на вопросы: возможно ли, используя данный набор характеристик (переменных), отличить один класс от другого; насколько хорошо эти характеристики позволяют провести различие и какие из них наиболее информативны. Методы, относящиеся к классификации, связаны с получением одной или нескольких функций, обеспечивающих возможность отнести данный объект к одной из групп. Эти функции, называемые дискриминантными, зависят от значений характеристик таким образом, что появляется возможность отнести каждый объект к одной из групп.
Характеристики, применяемые для того, чтобы отличить один класс от другого, называют дискриминантными переменными. Эти переменные должны измеряться либо в интервальной шкале либо в шкале отношений. Таким образом, становится возможным вычисление математических ожиданий, дисперсии и правомерно использование дискримпнантных переменных в математических уравнениях. В общем случае число дискримпнантных переменных неограничено, но в сумме число объектов должно всегда превышать число переменных по крайней мере на два.
К сожалению, существует целый ряд ограничении, касающихся статистических свойств дйскриминантных переменных. Во-первых, ни одна переменная не может быть линейной комбинацией других переменных. Линейная комбинация - это сумма одной или более переменных с постоянными весами. Таким образом, нельзя пользоваться суммой переменных или их средним арифметическим совместно с самими переменными. Соответственно недопустимы переменные, коэффициент корреляции которых равен 1. Переменная, являющаяся линейной комбинацией других, не несет какой-либо новой информации помимо той, которая содержится в компонентах суммы, поэтому она является лишней.
Другое предположение, принимаемое во многих случаях, заключается в том, что ковариационные матрицы для генеральных совокупностей (генеральные ковариационные матрицы) равны между собой для различных классов. Часто используемой форме дискриминантпого анализа присущи линейные дискриминантные функции, соответствующие просто линейной комбинации дис-криминантных переменных. Этот метод наиболее элементарен, поскольку предположение об одинаковых ковариационных матрицах в классах упрощает формулы вычисления дискриминант-ных функций, а также облегчает проверку гипотез о статистической значимости.
Следующее допущение касается того, что закон распределения для каждого класса является многомерным нормальным, т.е. каждая переменная имеет нормальное распределение при фиксированных остальных переменных [94]. Данное предположение позволяет получить точные значения вероятности принадлежности к данному классу и критерия значимости. При нарушении допущения о нормальности распределения значения вероятности вычислить точно уже нельзя, но соответствующие оценки могут быть полезны, если, конечно, соблюдать известную осторожность [105].
Из всего вышесказанного ясно, что дискриминантный анализ используется для изучения различий между несколькими группами по определенному набору дискриминантных переменных. Рассматривая классы как значения некоторой классифицирующей переменной, измеренной по шкале наименований (когда каждому классу присваивается свое обозначение), мы представляем дискриминантный анализ в качестве метода сопоставления нескольких интервальных переменных одной номинальной.
Перейдем к проблемам построения дискриминантных функций. Каноническая дискриминантная функция является линейной комбинацией дискриминантных переменных и удовлетворяет определенным условиям. Она имеет следующее математическое представление:
Коэффициенты иj для первой функции выбираются таким образом, чтобы ее средние значения для различных классов как можно больше отличались друг от друга. Коэффициенты второй функции выбираются так же, т.е. соответствующие средние значения должны максимально отличаться по классам, при этом налагается дополнительное условие - чтобы значения второй функции были некоррелированы со значениями первой. Аналогично третья функция должна быть некоррелирована с первыми двумя и т.д. Максимальное значение дискриминантных функций, которое можно получить описанным способом, равно числу классов без единицы или числу дискриминантных переменных, в зависимости оттого, какая из этих величин меньше.
Роль числа классов становится очевидной, если обратиться к геометрическим аналогам. Пусть дискриминантные переменные -оси т-мерного евклидова пространства. Каждый объект является точкой этого пространства с координатами, представляющими собой наблюдаемые значения каждой переменой. Если классы отличаются друг от друга по наблюдаемым переменным, то их можно представить как скопления точек в некоторых областях рассматриваемого пространства. Поскольку классы могут частично перекрываться, соответствующие им "территории" не совпадают. Для определения положения класса можно вычислить его "центроид" [28]. Центроид класса является воображаемой точкой, координаты которой есть средние значения переменных в данном классе. Центроид можно использовать для изучения и интерпретации различий между классами, так как он занимает положение типичных наблюдений соответствующего класса.
Использование данных статистической отчетности для оценки работоспособности системы
В силу причин, изложенных в разделе 1.2.2 возьмем в качестве контрольного примера данные о финансовом положении российских банков на 1 января 1996, ранжированные по методике В. Кромонова и опубликованные в № 15 журнала "Деньги" издательского дома "Коммерсантъ" за 1996. Банки в рейтинге разбиты на 3 класса: 1) самые надежные из сотни крупнейших банков (показатели финансовой отчетности 20 первых помещены в табл. 1) 2) самые надежные из мелких и средних банков (показатели финансовой отчетности 33 первых находятся в табл. 2) 3) данные по 20 банкам банкам-должникам расположены в табл. 3 Составим обучающую выборку, взяв для этой цели по 5 первых и 5 последних банков из каждого класса. Данные по обучающей выборке с вычисленными значениями математических ожиданий и дисперсий находятся в табл. 4. Подсчитаем значения ковариции для каждого показателя в классе. Как видно из табл. 8-Ю, независимых случайных величин в контрольном примере не присутствует.
Производим подсчет числа голосов принадлежности каждому классу для оставшихся 43 банков, данные находятся соответственно в табл. 5-7. Рассчитаем значения матриц корреляции для каждого класса, соответствующие данные находятся в табл. 8-10. Как и следовало ожидать, данные в контрольном примере достаточно сильно коррелированы. Примем граничное значение//=0.9, что на практике означает достаточно высокую степень зависимости. Как видно из табл. 8, наиболее сильна корреляционная связь между показателями "работающие активы" и "суммарные обязательства" (0.928601), "обязательства до востребования" н "суммарные обязательства" (0,954414), а также "генеральный коэффициент надежности" и "кросс-коэффициент" (0,975741). По второму классу высокое значение коэффициента корреляции наблюдается между показателями "ликвидные активы" и "обязательства до востребования" (0,915872). И по третьему классу наибольших значений коэффициент корреляции достигает в парах показателей "капитал" -"обязательства до востребования" (0,953724) и "работающие активы" - "суммарные обязательства" (0,997365), Экономическая интерпретация полученных зависимостей приводит нас к тривиальным выводам. - банки стараются вложить почти все привлеченные средства, сделав их работающими активами - это справедливо как для крупных банков, так и для банков-должников; - крупные банки стараются поддерживать пропорцию между суммарными обязательствами и обязательствами до востребования; - средние и мелкие банки стремятся повысить свою устойчивость, подстраховывая обязательства до востребования ликвидными активами; - проблемные банки стремятся вложить все привлеченные средства, стараясь таким образом поправить свое финансовое по ложение и т.д. Устраним из анализа первый показатель из каждой пары (отмечены х в таблицах матриц корреляции) и заново пересчитаем функции числа голосов. Старые и новые значения этих функций приведены в табл. 11-12, Как видно из этой таблицы, до выявления зависимых переменных неправильно расклассифицировано было 7 банков и еще 1 банк с равной вероятностью относился как к правильному, так и к неправильному классу. Ошибка классификации таким образом составляла 7,5 из 43 банков, или 17,44 %.
После исследования коэффициентов корреляций число неправильно расклассифицированных банков снизилось до 3 и еще 2 банка с одинаковыми вероятностями относились как к правильному так и к неправильному классу. Общая ошибка таким образом снизилась до 4 из 43 банков, или 9,302 %. Надо отметить, что это достаточно низкие показатели ошибок для такой непростой и неоднозначной предметной области. Рассматриваемый алгоритм дает верную оценку почти в 91 % случаев контрольного примера, что несомненно доказывает его применимость в данных задачах. Можно еще попытаться интерпретировать неудачные классификации, так например ошибку с классификацией Внешторгбанка можно отнести за счет малого совпадения его показателей с обучающей выборкой.
Это произошло в результате того интересного факта, что среди первых 20 надежнейших банков это единственный банк, входящий в десятку крупнейших. Соответственно по своим "валовым" показателям он значительно превосходит любой из банков обучающей выборки. Для обеспечения правильности классификации банков из первой десятки представляется целесообразным ввести еще один класс.