Содержание к диссертации
Введение
1. Пути повышения эффективности проектирования систем сбора и обра ботки экономической информации на базе компьютерных сетей 27
1.1. Структурный системный анализ предприятия как основа формирования информационной системы. Принципы и методологии структурного анализа предприятия 27
1.2. Роль CASE-технологий в разработке ИС 39
1.3. СУБД как способ реализации ИС 42
1.4. Задачи синтеза оптимальной логической и физической структуры информационной системы 53
1.5. Цели и задачи исследования 65
2. Структурный анализ и формиро вание модели информационной системы 66
2.1. Формализация задачи построения информационной модели 66
2.2. Автоматизация проектирования модели ИС на базе CASE-технологий 74
2.3. Прагматический подход к выбору структуры БД на основе структурного системного анализа 90
2.4. Анализ общих закономерностей и разработка стандарта модели базы данных ИС
сбора и обработки экономической информации 110
2.5. Выводы второй главы 118
3. Синтез оптимальной логической и физической структуры информационной системы 120
3.1. Методы решения задачи проектирования структуры и эскизная оценка проекта структуры ИС 120
3.2. Критерии оптимизации логической и физической структуры ИС 128
3.3. Имитационное моделирование как средство решения задачи построения оптимальной логической структуры ИС 140
3.4. Оптимизация физической структуры БД с одним сервером 153
3.5. Выводы третьей главы 160
4. Автоматизация проектиро вания информационных систем на основе распределенных баз данных 162
4.1. Структура распределенных СУБД 162
4.2. Стратегия распределения данных 165
4.3. Методы проектирования распределенной БД 169
4.4. Моделирование работы и оптимизация структуры ИС 194
4.5. Выводы четвертой главы
5. Финансовый анализ и пост отчетная обработка информации
5.1. Финансовые показатели и их статистическая обработка
5.2. Методы статистической обработки финансовых показателей 205
5.3. Библиотека программ статистиче ской обработки постотчетной информации и выводы из главы 5 214
6. Практическая реализация и внедрение информационных систем экономического анализа 218
6.1. Разработка и внедрение ИС сбора и обработки экономической информации Управления связи 218
6.2. Система обработки финансово-аналитической информации коммерческого банка 231
6.3. Выводы из шестой главы 241
Основные результаты работы 242
Список используемых источников 245
Приложение 264
- Задачи синтеза оптимальной логической и физической структуры информационной системы
- Прагматический подход к выбору структуры БД на основе структурного системного анализа
- Имитационное моделирование как средство решения задачи построения оптимальной логической структуры ИС
- Моделирование работы и оптимизация структуры ИС
Введение к работе
Актуальность проблемы. В последние годы экономическая ситуация в стране претерпела ряд кардинальных изменений, связанных со становлением и развитием рыночных отношений. Одним из важнейших условий выживания и развития любого предприятия в этих условиях является рентабельность его деятельности. Достижение этой цели невозможно без владения оперативной информацией, характеризующей финансово-экономическую сторону деятельности предприятия, требующейся для анализа и прогнозирования его развития. Своевременное получение этой информации в ряде случаев осложняется тем, что предприятие имеет разветвленную иерархическую, территориально-распределенную структуру. В связи с этим особую актуальность приобретает создание автоматизированных информационных систем (далее ИС) сбора и обработки экономической информации.
Современные автоматизированные ИС являются наиболее сложными системами, создаваемыми человеком и представляют из себя комплексы с многоуровневой иерархией и заметной динамикой в развитии, имеющие тенденции к росту и интеграции как с другими аналогичными системами, так и с глобальными ИС. Это в полной мере относится и к ИС сбора и обработки экономической информации.
Создание комплекса прикладных программ для функционирования таких ИС само по себе является трудоемким и капиталоемким процессом. Но необходимо отметить, что какими бы совершенными не были разработанные программные продукты, нерациональная организация структуры базы данных (далее БД) сводит на нет успешное функционирование всей ИС.
Обеспечение эксплуатационных характеристик БД по-прежнему непростая задача, несмотря на повышение мощности аппаратных средств, обеспечивающих функционирование ИС. При этом определение времен-
ных характеристик работы БД и сохранение этих характеристик в процессе эксплуатации ИС относится к труднейшим проектным задачам. Исходя из этого, вполне разумным представляется требование о достаточно жестком управлении процессом проектирования и разработки ИС с обязательным применением методов, регламентирующих уровень сложности технических решений.
Таким образом, в области теории и практической реализации систем автоматизированного проектирования появилась актуальная задача разработки комплексного подхода к проектированию ИС на основе методов, моделей, алгоритмов и программных средств, позволяющих из множества возможных вариантов проектной реализации структуры БД ИС выбрать структуру, оптимальную с точки зрения эффективности функционирования и постоянного развития конкретной ИС.
Несмотря на существование различных методик анализа предметных областей и построения эскизов БД, необходимо отметить, что процесс определения окончательной структуры БД является циклическим, то есть на разных этапах проектирования, начиная от эскиза структуры БД и заканчивая промышленной эксплуатацией готовых программных систем, приходится возвращаться к структуре БД и вносить в нее изменения. Кроме того, в процессе моделирования предметной области участвуют такие субъективные факторы, как прагматический подход разработчика, его интуиция, личностное восприятие проблемы, стереотипы мышления. Различные разработчики предлагают различные проекты структуры одной и той же БД, хотя в основных моментах, например, в определении большей части сущностей и связей между ними, эти проекты похожи.
Задача проектирования ИС состоит из комплекса взаимосвязанных задач, включающих структурный анализ и построение модели системы, синтез оптимальной логической и физической структуры БД, разработку клиентских приложений (программных комплексов, позволяющих удовлетворить информационные требования пользователей), выбор стратегии
распределения и топологии сети для распределенных ИС, синтез оптимальной структуры распределенной БД (РБД). Каждая из перечисленных задач имеет самостоятельное научное значение и их решению посвящено большое количество научной литературы. Синтез оптимальной логической и физической структуры БД рассматривался во многих работах [1-31]. Проблемам распределения БД и проектирования сети посвящены работы [2,4-12,14,18,24,32,33].
Во многих работах [12,32-35] сделана попытка решения общей задачи проектирования оптимальной ИС. В монографии [12] подробно изложены подходы к построению иерархической РБД, однако в настоящее время преимущественное распространение получили реляционные СУБД, к которым эти подходы не применимы. В работе [32] изложены методы проектирования ИС на основе сетевых и реляционных СУБД, которые реально применялись для сетевых СУБД. Другой недостаток изложенных в работе [32] методов заключается в недостаточно строгой математической постановке задачи.
В настоящее время основное внимание проектировщиков сконцентрировано на методах системного структурного анализа. Эффективность логической и физической структуры ИС в таком подходе, называемым прагматическим, зависят от опыта и квалификации разработчика. Обоснованием такого подхода обычно служит интенсивное развитие аппаратных и программных средств, обеспечивающих требуемые эксплуатационные характеристики. Тем не менее, синтез оптимальной логической и физической структуры может дать ощутимый выигрыш по сравнению с прагматическим подходом. Особенно заметным этот выигрыш будет для распределенных корпоративных ИС.
Научная проблема. Автоматизированное проектирование информационных систем сбора и обработки экономической информации на основе распределенных баз данных.
Цель работы. Целью работы является разработка комплекса методов, моделей, алгоритмов и программных средств для оптимального проектирования информационных систем анализа и управления предприятиями на основе интеграции CASE-технологий и имитационного моделирования.
Для достижения цели в работе решаются следующие задачи:
Формирование инфологической модели на основе системного анализа с привлечением CASE-технологий и построение стандартной структуры основной части ИС сбора и обработки экономической информации.
Разработка алгоритмов автоматизированного моделирования проектируемой БД и РБД.
Создание интегрированной системы проектирования на основе объединения CASE-технологий и имитационного моделирования.
Анализ существующих и разработка новых критериев оптимальности ИС сбора и обработки экономической информации.
Создание автоматизированных систем синтеза оптимальной структуры РБД.
Разработка на основе непараметрических алгоритмов средств статистического анализа информации, содержащейся в БД.
Апробация разработанных методов к проектированию ИС и оценка их эффективности.
Методы исследования основаны на теории автоматической классификации, теории автоматизации проектирования, теории имитационного моделирования, реляционной алгебре, теории массового обслуживания, теории вероятностей и статистическом анализе, математическом программировании.
Научная новизна. В работе получены следующие результаты, характеризующиеся научной новизной.
Развиты методологические основы создания обобщенной модели ИС, ориентированные на CASE-технологии и отличающиеся использованием разработанного стандарта основной части модели ИС.
Разработаны методы и алгоритмы моделирования работы ИС, учитывающие временные показатели выбора информации из БД, ввода-вывода, передачи по каналам связи и ожидания обработки информации.
Создана автоматизированная интерактивная система синтеза оптимальной логической и физической структуры ИС на основе разработанных алгоритмов кластеризации атрибутов данных, секционирования и кластеризации хранимых записей.
Разработана и реализована методология создания эффективных распределенных ИС, основанная на мере подобия степени общности предметных областей пользователей, учитывающая соотношение «цена-качество» и отличающаяся возможностью объединения нескольких локальных БД и соответствующих серверов.
Предложены методы постотчетной статистической обработки финансовой информации, отличающиеся применением непараметрических алгоритмов, необходимых для проведения квалифицированной финансовой политики и менеджмента.
Практическая ценность Представленные в диссертации исследования являются результатом научной работы, проведенной в Воронежском государственном университете и Воронежском региональном центре информатизации высшей школы при ВГУ в рамках хоздоговорных и госбюджетных научно-исследовательских работ по заказам Министерства связи РФ, Министерства общего и профессионального образования РФ, коммерческого банка. Они нашли отражение в 11 отчетах, в которых автор был научным руководителем или ответственным исполнителем. Ценность работы заключается в разработке методологии проектирования ИС
на основе построения оптимальных логических и физических структур РБД. Самостоятельную ценность представляет реализованная в работе методика проектирования: формирование модели системы на основе системного анализа в рамках CASE-технологии (Oracle Designer/200) - построение имитационной модели на основе оригинальных авторских разработок - формализация и решение задачи оптимизации структуры РБД -разработка клиентского программного обеспечения (ПО). Выполнение последнего этапа может проводиться в автоматизированном варианте с использованием CASE-средств.
Программно реализована имитационная модель РБД, которая использовалась для проектирования реальных ИС.
Разработаны алгоритмы и программы для "эскизной" оценки эффективности системы.
Представляет практическую ценность также ПО для статистической обработки информации с возможностью последующего анализа эффективности функционирования предприятия.
Реализация и внедрение результатов работы. Предложенные методы, модели, алгоритмы, программные средства использовались при разработке и внедрении системы анализа экономической информации для предприятий "Воронежсвязьинформ", коммерческих банков "Петр Первый" , "Самарамедбанк".
Результаты работы внедрены и используются в распределенной информационной сети ВГУ и других вузов г. Воронежа.
По результатам работы подготовлены спецкурсы "Системы управления базами данных" и "Основы телекоммуникации" для студентов кафедры математического обеспечения ЭВМ (специальность 010200), спецкурсы "Коммуникационные сети" для студентов 5 курса и "Информатика" для студентов 2 курса физического факультета (специальность 0104).
Апробация работы. Научные результаты и положения диссертационной работы докладывались и обсуждались более чем на 16 Международных, Всесоюзных, республиканских, региональных научно-технических конференциях, симпозиумах, совещаниях и семинарах. В том числе: на Всесоюзном научно-техническом совещании "Микропроцессорные средства вычислительной техники в системах связи и управления" ( Москва, 1984), 4- м Всесоюзном совещании "Надежность, живучесть и безопасность автоматизированных комплексов" (Суздаль, 1988), Всесоюзной научно-технической конференции "Проблемы компьютеризации управления в высшей школе" (Тамбов, 1990), Всероссийском совещании-семинаре "Математическое обеспечение высоких технологий в технике, образовании и медицине" (Воронеж, 1994), Всероссийской научно-методической конференции "Компьютерные технологии в высшем образовании" (Санкт-Петербург, 1994), Международной конференции-выставке "Информационные технологии в непрерывном образовании" (Петрозаводск, 1995), Всероссийской научно-методической конференции "Телематика-95" (Санкт-Петербург, 1995), Всероссийском совещании-семинаре "Математическое обеспечение высоких технологий в технике, образовании и медицине" (Воронеж, 1995), 2-й Международной конференции "Развитие и применение открытых систем" (Петрозаводск, 1995), Всероссийской научно-технической конференции "Перспективные информационные технологии в высшей школе" (Тамбов, 1995), Всероссийской научно-методической конференции "Телематика-96" (Санкт-Петербург, 1996), Всероссийском совещании-семинаре "Математическое обеспечение информационных технологий в технике, образовании и медицине" (Воронеж, 1996), Всероссийской конференции "Новые информационные технологии в образовании на базе компьютеров Макинтош" (Москва, 1997), Всероссийской научно-методической конференции "Телема-
тика-97" (Санкт-Петербург, 1997), Всероссийской научно-методической конференции "Телематика-98" (Санкт-Петербург, 1998), Всероссийском совещании-семинаре "Высокие технологии в региональной информатике" (Воронеж, 1998).
Публикации результатов работы. По теме диссертации опубликованы 1 монография [8] и работы [9-11,33,36-65] в изданиях, соответствующих перечням издательств и издающих организаций, в которых могут публиковаться основные результаты, включаемые в докторские диссертации.
Структура и объем работы. Диссертационная работа состоит из введения, шести глав, заключения, изложенных на 244 страницах машинописного текста, включая 69 рисунков , 3 таблицы, библиографию из 204 наименований и 3 приложений.
Первая глава посвящена рассмотрению путей повышения эффективности проектирования ИС экономического анализа. Цикл разработки любой ИС состоит из следующих этапов: выработки стратегии, анализ, проектирование, программирование, тестирование и отладка, эксплуатация и сопровождение. Главная особенности индустрии создания программного обеспечения состоит в концентрации сложности на этапах анализа и проектирования. Применение известных аналитических методов позволяет решать сложные проблемы, возникающие в ходе анализа, обеспечивая соответствие характеристик ИС сформулированным и специфицированным требованиям организации и помогает определить комплекс работ, которые должны быть выполнены на этапах анализа и проектирования. Поэтому в главе рассматриваются основные задачи этапов анализа и проектирования ИС, принципы структурного анализа, выделяются базовые средства структурного анализа, их взаимосвязи и взаимовлияния. Далее дается обзор методологий структурного системного анализа и проектирования [66-80], кратко рассматриваются основные осо-
бенности наиболее часто используемых методологий. Приводится классификация сложившихся на сегодняшний день методологий анализа и проектирования по отношению к школам, по порядку построения модели и по типу целевых систем. Рассматриваются наиболее известные и часто используемые техники структурных диаграмм [81-83], содержащие графические и текстовые средства моделирования: диаграммы потоков данных, являющиеся наиболее известным и часто используемым средством функционального моделирования; словари данных, предназначенные для описания структуры потоков и хранилищ данных; вводится понятие спецификации процесса (миниспецификации); описываются базовые средства информационного моделирования - диаграммы "сущность-связь"; метод задания спецификаций управления с использованием диаграмм переходов состояний.
Для поддержки и усиления методов структурного анализа и проектирования служат средства CASE (Computer-Aided Software/Sistem Engineering) [81,83-88]. CASE-технологии представляют собой совокупность методологий анализа, проектирования, разработки и сопровождения сложных систем программного обеспечения, поддержанные комплексом взаимосвязанных средств автоматизации, что позволяет автоматизировать процесс проектирования и разработки программного обеспечения. Эти инструменты поддерживают работу пользователя при создании и редактировании графического проекта в интерактивном режиме, способствуют организации проекта в виде иерархии уровней абстракции, выполняют проверки соответствия компонентов. Фактически CASE-средства представляют собой новый тип графически-ориентированных инструментов, превращающих разработку ПО в достаточно простой и экономичный процесс. Так как эти средства были использованы для решения задачи проектирования и реализации ИС экономического анализа, в первой главе приводится краткое описание CASE-средств автоматиза-
ции методологий структурного системного анализа и проектирования, рассматриваются концептуальные основы CASE-технологий, приводится CASE-модель жизненного цикла программного продукта и рассматриваются ее отличия от традиционной модели. Формулируются преимущества, предоставляемые CASE-средствами при создании ИС.
Поскольку значимой частью любой ИС являются данные, и от организации управления этими данными напрямую зависит эффективность функционирования ИС, далее рассматриваются модели организации данных и управления ими (СУБД) [89-99]. Приводится классификация СУБД по принципам организации данных: модель, основанная на инвертированных списках, иерархическая, сетевая и реляционная модель. Несмотря на то, что первые три являются предшественницами реляционной модели, они продолжают использоваться в настоящее время, поэтому кратко описываются их основные особенности, достоинства и недостатки. Особое место отводится описанию реляционной модели, как наиболее часто используемой при разработке различного рода ПО. Рассматриваются разновидности архитектур баз данных: архитектура "мейнфрейм", локальные базы данных, архитектуры "файл-сервер" и "клиент-сервер", многозвенная архитектура. Прослеживается эволюция архитектур СУБД от централизованных хост-компьютеров к моделям вычислений с локальной вычислительной сетью и файловым сервером, а затем к архитектуре "клиент-сервер" и многозвенной архитектуре. Рассматриваются достоинства и недостатки этих моделей. Так как часто при проектировании ИС приходится сталкиваться с тем, что информация о предприятии в целом распределена по его подразделениям, выполняющим различные функции, часто территориально-распределенные, особую актуальность приобретает использование распределенной базы данных (РБД). В главе приводится определение РБД, дается классификация РБД по типам. Исходя из проведенного анализа имеющихся моделей и архитектур баз данных, для реше-
ния поставленных в работе задач выбраны реляционная модель БД, реализованная в архитектуре "клиент-сервер".
Далее в главе описываются задачи синтеза оптимальной логической и физической структуры ИС. Вводится понятие этапа проектирования реализации, рассматриваются основные проблемы, которые требуется решить на данном этапе. Формулируются результаты этапа проектирования реализации - определения оптимальной логической структуры БД. Приводятся основные шаги процесса проектирования реализации, определяются критерии факта успешного завершения процесса проектирования.
Так как физическая организация данных оказывает основное влияние на эксплуатационные характеристики проектируемой ИС, в главе особое место отводится рассмотрению вопросов проектирования физической структуры интегрированных информационных систем (БД) с различными типами записей. Вводятся основные характеристики данных в физических структурах: понятие хранимой записи и ее отличие от логической записи, понятие файла, организации (структуры) файла, дается определение организации или структуры физической БД. Подробно рассматриваются шаги построения физической структуры БД: проектирование формата хранимой записи; решение вопроса о кластеризации записей; проектирование методов доступа; анализ требований целостности, безопасности и эффективности функционирования БД; проектирование программ. Формулируются результаты проектирования физической структуры.
Основным итогом первой главы является конкретизация целей и задач, решаемых в диссертации и обзор основных методов, с помощью которых выполняются различные этапы работ.
Вторая глава посвящена одному из (. основных этапов проектирования ИС - структурному анализу и формированию модели системы. Для определения сущностей или предметных областей пользователей в проекти-
руемой системе предложено использовать метод теории автоматической классификации, в частности, меры подобия, как количественной характеристики степени общности предметных областей различных пользователей. Таким образом определяется множество пользователей, для которых целесообразно создавать ИС, и множество сущностей, с которыми они оперируют.
Вводятся понятия таблиц, как информационного представления сущностей и атрибутов таблиц, т.е. таких характеристик сущности, которые с исчерпывающей полнотой описывают информационные свойства сущности в пределах создаваемой ИС. Для модели важными являются также количественные характеристики информации - число строк в таблице, объем (длина) строки в байтах и т.д.
Структуру информационной модели определяют также отношения, существующие между таблицами: один к одному, один к многим, многие к одному, многие к многим, называемые типом семантической связи. Для ее характеристики задается матрица, определяющая тип семантической связи между таблицами.
Важным компонентом модели являются требования пользователей, из которых вытекают функции над данными в БД, предназначенные для удовлетворения этих информационных потребностей. В дальнейшем функции над данными называются также пользовательскими приложениями. Вводятся количественные характеристики функций над данными: частота выполнения определенных функций, бинарный вектор, определяющий таблицы, к которым производится обращение при выполнении определенной функции и т.д. Важным этапом разработки модели является декомпозиция функций над данными на базовые операции. В качестве таких базовых операций используются команды языка системных запросов (SQL) [100,101]. В рамках системного структурного анализа последовательность этих команд является нижней границей декомпозиции функ-
ций пользователей. Вводятся частотные характеристики выполнения SQL-команд и объемные характеристики информации, подлежащей обработке.
Рассматривается автоматизация проектирования на базе CASE-технологий. Проводится анализ средств автоматизации и формализации этапов разработки ИС в рамках различных CASE-систем [102]. Выделяются общие этапы работы в CASE-системах и проводится обзор особенностей различных пакетов. Делается вывод о целесообразности использовании системы Oracle Designer/2000 [81,87,103] с точки зрения экономичности, доступности, набора инструментальных средств и возможностей. Рассматриваются основные методические приемы работы с Oracle Designer/2000.
Методология структурного анализа в рамках CASE-пакета Oracle Designer/2000 демонстрируется на примере разработки конкретной ИС сбора и обработки экономической информации Управления связи. Основное внимание уделяется процессу нормализации таблиц БД для построения канонической модели системы, то есть устранению избыточности данных и приведению таблиц к третьей нормальной форме (ЗНФ). Показано, что, вообще говоря, эта задача имеет не единственное решение, и приведено 4 варианта канонической модели конкретной ИС.
Ставится и решается задача прагматического подхода к выбору структуры БД, то есть такой структуры, которая с точки зрения проектировщика будет обладать лучшими эксплуатационными показателями. Способ решения этой задачи состоит в том, что проектировщик, имея определенный набор функций над данными, определяет таблицы, используемые совместно наиболее часто. После этого проектировщик, сообразуясь с техническими требованиями к проекту и на основе собственного опыта, осуществляет слияние таблиц. Результатом является модель БД, содержащая ненормализованные таблицы, но, обладающая улучшенны-
ми эксплуатационными свойствами. Представлено 2 варианта прагматической оптимизации модели ИС.
Решена задача анализа структур БД ИС сбора и обработки экономической информации. Из анализа структур (моделей) конкретных систем оказалось возможным выделить общие закономерности и предложить стандартный вариант основной части структуры ИС сбора и обработки экономической информации. Обосновывается необходимость включения в БД произвольной ИС таблиц, реализующих стандартную структуру, проводится анализ отличий структур конкретных систем от стандартной, показываются преимущества использования такого стандарта.
Третья глава посвящена построению эффективной логической и физической структуры ИС сбора и обработки экономической информации. В ней приводится схема проектирования и даются необходимые пояснения. Для построения оптимальной логической структуры вводится понятие числа обращений к логическим записям в БД и дается способ «эскизной» оценки проекта на основе расчета этого числа. На основе данной оценки предлагается отбирать для дальнейшего анализа наиболее перспективные проекты прагматической (ручной или интуитивной) оптимизации.
Определяются критерии оптимизации при различных постановках задачи проектирования. В частности, приводятся критерий поиска такой структуры ИС при которой суммарное время выбора требуемой информации по всем запросам пользователей является минимальным при всех возможных ограничениях, накладываемых на систему и критерий, согласно которому минимизируется время выполнения корректировок информации в БД.
Формулируется и обосновывается новый, предложенный в данной работе, критерий оптимизации, при котором пользовательские приложения (запросы и корректировки) классифицируются по степени актуальности выполнения действий над данными, и осуществляется поиск миниму-
ма линейной комбинации времени выполнения различных пользовательских приложений. Весовые коэффициенты в такой комбинации характеризуют степень актуальности (важности) выполнения соответствующих функций над данными. Сформулировано и обосновано также новое, предложенное в данной работе ограничение, обеспечивающее согласованность выполнения различных функций над данными.
Анализируются методы оптимизации логической структуры ИС. В качестве основного метода проектирования оптимальной логической структуры выбирается метод кластеризации атрибутов данных. При этом проводится поиск наиболее часто совместно используемых атрибутов в одной или различных таблицах и объединение таких атрибутов (столбцов) в один. Для такого поиска проводится анализ матрицы, образующейся при построении прямого произведения бинарных векторов, определяющих обращение определенного приложения к заданной таблице и ее атрибуту. Предложена последовательная итеративная схема поиска оптимальной структуры методом кластеризации атрибутов данных. Приводится алгоритм построения оптимальной логической структуры на основе метода кластеризации, реализующий интерактивный режим поиска.
Далее рассмотрены способы оптимизации физической структуры БД. Наиболее важными с точки зрения временных параметров выполнения функций над данными являются секционирование записей и их кластеризация. Под секционированием понимается размещение данных, принадлежащих одной записи, в одном секторе дисковой памяти (экстенте). Кластеризация хранимых записей означает последовательное размещение нескольких записей, принадлежащих одной или различным таблицам на физическом носителе. Вводятся основные физические характеристики, определяющие время выбора информации из БД при операциях ввода-вывода и даются необходимые соотношения между ними. Определяются понятия путей доступа и методов доступа, приводятся основные форму-
лы, определяющие время считывания информации из дисковой в оперативную память для прямого и последовательного доступа.
Приведен алгоритм поиска оптимальной физической структуры БД, основанный на имитационном моделировании [104-107] процессов выполнения пользовательских приложений с учетом структуры хранимой записи, путей и методов доступа. Выбор искомой структуры осуществляется путем сравнения временных характеристик выполнения приложений пользователей при различных параметрах секционирования записей, их кластеризации, а также объема оперативной памяти, отведенной под буфер системы.
Изложенные положения иллюстрируются примерами проектирования эффективной структуры ИС ОАО Управления связи.
В четвертой главе разрабатываются методы проектирования распределенных ИС. Изложены основные положения, касающиеся структуры распределенных БД, включая краткий обзор архитектуры, логическую и физическую структуру РБД. Важное место в процессе проектирования распределенной ИС занимает стратегия распределения данных, поэтому далее проводится анализ основных методов распределения данных. Рассматриваются преимущества и недостатки централизованной стратегии, стратегий расчленения, дублирования и смешанной стратегии. Поскольку централизованная стратегия фактически определяет односерверную систему с единой базой данных, рассмотренную в предыдущей главе, основное внимание уделяется стратегии расчленения и смешанной стратегии. При построении ИС сбора и обработки экономической информации эти стратегии являются наиболее подходящими и достаточно гибкими.
При определении методов проектирования, после изложения общих приемов, анализируется часто встречающийся в современных условиях тип предприятий, представляющих собой центральное предприятие (управление) и филиалы, имеющие определенную степень хозяйственной
самостоятельности. Для такого типа предприятий характерным является то, что филиалы имеют сходную или одинаковую сферу экономико-финансовой деятельности, а связи с центром осуществляются лишь с помощью обмена ограниченным объемом информации за ощутимый период времени. В связи с этим вводится понятие «квазизамкнутости» ИС филиала, основанной на одной или нескольких локальных БД. В качестве основного математического метода распределения базы данных используется анализ общности предметных областей пользователей теории автоматической классификации.
Для быстрой оценки качества проекта распределенной ИС в работе предложено использовать метод теории очередей, используемый обычно в теории телетрафика [108-115]. Этот полуаналитический подход дает возможность оценить качество проекта с хорошей точностью. Имеющиеся асимптотические решения основных уравнений позволяют в ряде случаев отказаться от использования численных методов. Другим способом оценки качества проекта является имитационное моделирование [104,107,116-136]. Его основой является алгоритм имитационного моделирования, разработанный в предыдущей главе. В силу квазизамкнутости локальных БД филиалов этот алгоритм с минимальными изменениями может применяться для анализа распределенных ИС. Основное отличие алгоритмов имитационного моделирования распределенных ИС от соответствующих алгоритмов для односерверных систем состоит в учете обмена между локальными БД филиала и центра. Приводятся формулы для расчета времени обмена с чужим сервером.
Проводится анализ адекватности имитационной модели путем сравнения модельных и реальных времен выполнения определенных функций над данными. Для сравнения средних времен и их дисперсий используются статистические методы и делается вывод о незначимости различий.
Основными методами оптимизации, используемыми в данной главе, являются метод дублирования информации в различных Л БД и метод поиска оптимального числа серверов нижнего уровня (филиалов). Метод дублирования информации на различных серверах является реализацией смешанной стратегии и позволяет, в принципе, снизить трафик в распределенной сети. Исследуются основные закономерности дублирования информации в зависимости от объемов и периодичности обмена и выделяются такие значения этих параметров, при которых окончательный вывод можно сделать, лишь проведя соответствующий компьютерный эксперимент.
В этой главе вводится также новая, разработанная в данной диссертации, оценка эффективности на основе соотношения «цена-качество». Необходимость этой оценки следует из того, что добавление каждого локального сервера может существенно увеличить стоимость системы. Основную роль, помимо количественной оценки соотношения «цена-качество» играют ограничения на время выполнения функций над данными, стоимость хранения и обработки информации и пропускную способность каналов связи.
Приведена схема алгоритма поиска наиболее эффективной структуры распределенной ИС на основе объединения локальных серверов, обслуживающих филиалы, в единый узловой сервер. На основе моделирования, проведенного при проектировании распределенной ИС Управления связи, получены зависимости коэффициента, характеризующего соотношение «цена-качество», от числа локальных серверов и числа узловых серверов.
Пятая глава посвящена созданию средств, необходимых для финансового анализа и постотчетной обработки информации, содержащейся в БД ИС сбора и обработки экономической информации. Информация содержащаяся в базе данных, может быть условно разделена на две большие группы. Одна из них носит "абсолютный характер" в том смысле, что она
строго определяется теми или иными факторами в рамках данного предприятия и не может колебаться в зависимости от случайных причин. Таковы, например, ставки налогов на прибыль.
Другая группа является случайной, поскольку образуется совокупным действием случайных факторов. При этом постоянно необходимо иметь в виду, что, например, капитал предприятия может быть обусловлен неслучайными, с точки зрения экономики, но неформализуемыми (качественными) показателями. По этой причине в экономической теории совокупное действие этих причин сводится к стохастичности количественных показателей. Таковыми являются доходная и расходная часть бюджета предприятия.
Проводится анализ основных показателей финансовой деятельности предприятия, необходимых для проведения разумной финансовой политики. Обосновывается утверждение, что для выявления закономерностей поведения основных показателей финансовой деятельности и квалифицированного финансового менеджмента необходима адекватная обработка информации, содержащейся в базе, методами статистического анализа. В частности, наиболее часто применяемые линейные методы статистической обработки могут оказаться слишком грубыми для поставленной цели. В связи с этим возникает проблема применения непараметрических нелинейных статистических методов обработки.
Приводится краткое описание методов статистической обработки финансовой информации, основное внимание при этом уделяется современным непараметрическим алгоритмам, разработанным для целей фар-макокинетики и впервые применяемым в данной работе для финансового анализа. Эти методы базируются на методе максимального правдоподобия и использовании функции условной вероятности, описывающей зависимость поведения наблюдаемой величины от ненаблюдаемой. Один из вариантов непараметрического алгоритма доведен до пошаговой итера-
ционной схемы и на модельной задаче продемонстрирована сходимость предложенного алгоритма.
Создана библиотека программ статистической обработки финансовой информации, включающая блоки выбора и обработки информации из базы, блоки подключения стандартной библиотеки программ линейного статистического анализа, подключения оригинальных программ, реализующих непараметрические алгоритмы, программ представления выходной информации, включая графическую форму.
Шестая глава посвящена практической реализации предложенных в диссертации методов проектирования. В первом параграфе описана реализация ИС сбора и обработки экономической информации Управления связи, имеющего разветвленную, территориально распределенную иерархическую структуру. Целью ИС сбора и обработки экономической информации Управления связи является оперативное получение данных, характеризующих хозяйственную и финансовую деятельность дочерних подразделений, их анализ и прогнозирование деятельности предприятия в целом.
Для реализации системы была выбрана архитектура клиент/сервер. С целью получения оптимального проекта ИС сбора и обработки экономической информации Управления связи использован CASE-пакет Oracle Designer/2000. Далее приводятся характеристики аппаратных и программных средств, требуемых для успешного функционирования системы. Подробно изложены основной состав и функции основных программных компонентов ИС, таких, как программные модули "Администратор Системы", "Корректировка нормативно-справочной информации", "Корректировка правил контроля Отчетов", "Ввод данных в Управлении Связи", "Ввод данных в филиалах", "Генерация Отчетов". Изложены приемы работы с ними, приведен ряд рисунков, наглядно демонстрирующих возможности и интерфейс каждого модуля системы.
Второй параграф посвящен описанию реализации системы обработки финансово-аналитической информации коммерческого банка, разработанной для функционирования в условиях российской банковской системы, требующей оперативно вносить коррективы из-за постоянно меняющейся нормативной базы, регулирующей банковскую деятельность. Приводятся ее отличия от достаточно распространенных банковских систем, использующих пакетный ввод и обработку информации. Приводятся основные возможности системы обработки финансово-аналитической информации коммерческого банка, основными из которых являются получение достоверной информации об оборотах и остатках средств на счетах на текущий момент и с начала дня; об экономическом положении банка на начало дня и текущий момент; получение данных о состоянии ссудной задолженности, картотеки неплатежей как по отдельному предприятию, так и по банку в целом; получение данных о хозяйственно-финансовой деятельности банка за день, месяц, квартал, год.
Система предусматривает автоматизацию таких важнейших банковских операций, как открытие счетов; кредитование предприятий и населения; расчетных, вкладных, депозитных, кассовых операций; автоматическое начисление процентов по счетам предприятий, по выданным и просроченным ссудам, по вкладам и депозитам с формированием мемориальных ордеров по совершенным проводкам; ведение картотеки неплатежей. Одновременно с операциями в рублях РФ возможно осуществлять операции в любой иностранной валюте.
Далее подробно описываются состав, структура и возможности основных программных компонентов Системы: программных модулей "Открытие счетов", "Ввод документов", "Касса коммерческого банка", "Внебалансовые счета", "Сторнирование операций", "Вкладные операции", "Депозиты", "Валютные операции", "Экономический отдел", "Администратор системы". Приводятся характеристики аппаратных и
программных средств, требуемых для эффективной эксплуатации системы.
Предложенные в диссертации методы проектирования позволили улучшить эксплуатационные характеристики информационных систем сбора и обработки экономической информации Управления Связи и обработки финансово-аналитической информации коммерческого банка в среднем на 20% по сравнению с проектами этих ИС, разработанными на основе прагматического подхода.
Задачи синтеза оптимальной логической и физической структуры информационной системы
Системный структурный анализ, проведенный в терминах сущностей, атрибутов и их взаимосвязей, а также функциональные отношения будем называть в данной главе концептуальным проектированием. Точную границу между концептуальным и физическим проектированием провести достаточно трудно. Принято считать, что на этапе концептуального проектирования данные в РБД рассматриваются без учета специфики используемой СУБД, а особенности физического хранения данных включаются в описание ее структуры на этапе физического проектирования. Однако, существует еще один этап - между концептуальным и физическим проектированием - в результате которого получается СУБД-ориентированная схема базы данных. Этот этап следуя работе [32] будем называть этапом проектирования реализации.
Цель этого этапа заключается в разработке такой СУБД-ориентированной схемы, которая удовлетворяет всему диапазону требований пользователей, от целостности и непротиворечивости проектируемой БД до показателей эффективности функционирования, в том числе при ее расширении и усложнении. В некоторых работах [12,33-35] этот этап называют синтезом оптимальной логической схемы БД. Термин "проектирование реализации" представляется более точным, по-скольку оптимизация логической схемы БД начинается еще на этапе концептуального проектирования.
Рассмотрим основные проблемы, решение которых требуется на этапе проектирования реализации. На рис. 1.3. приведена диаграмма входных и выходных данных этапа проектирования реализации. Исходными данными являются: 1. СУБД-независимая схема, как основной результат концептуального проектирования. 2. Количественная оценка эксплуатационных характеристик - спецификация требований к целостности, восстанавливаемости, безопасности, ограничений на времена отклика, а также прогноз роста объема и изменений структуры БД. 3. Количественная оценка объема БД и частоты выполнения приложений (клиентских программ). 4. Непротиворечивость - правила поддержания взаимной непротиворечивости элементов данных, ограничения на дублирование и обновление данных. 5. Программная спецификация высокого уровня - результаты анализа требований к программам. 6. Характеристики СУБД - правила задания СУБД-ориентированных логических схем и подсхем, а также синтаксиса программ. 7. Вычислительные средства - ограничения на конфигурацию и объем аппаратного и системного программного обеспечения. Результатом проектирования реализации должны являться: 1. СУБД-ориентированная схема - т.е. спецификация структуры БД, которая может быть реализована конкретной СУБД, и при этом не содержит (или использует по умолчанию) большинство физических параметров, определяющих группирование записей или размер блоков. Однако она может включать такие параметры, как упорядоченность, указатели и механизмы поиска. 2. Подсхемы - т.е. такая структура СУБД-ориетированной БД, которая совместима с представлениями клиентов и требованиями безопасности. 3. Спецификация для физического проектирования - полностью документированные схемы и подсхемы с указанием объема, частоты выполнения клиентских приложений и характеристик аппаратного и программного обеспечения, необходимые для этапа физического проектирования. 4. Руководство по проектированию программ - рекомендации для разработчиков программ по выбору путей доступа к данным, основанные на анализе характеристик предложенной структуры. 5. Руководство по эксплуатации БД - необходимые сведения для администратора ИС и ее пользователей. Процесс проектирования реализации - определения оптимальной логической структуры БД может осуществляться различными способами: от полностью ручных до автоматизированных [12,32-40,44,46,49,89-91]. На рисунке 1.4 приведены в общем виде основные шаги процесса проектирования реализации. Детализация каждого шага проведена в монографии [32]. Следует отметить, что процесс проектирования, представленный на рисунке дан в виде шагов алгоритма, однако этот алгоритм не претендует на полноту и не содержит оценок сходимости в целом или отдельных его частей. Первый шаг этого алгоритма - определение локальных информационных структур и их объединение - по сути является "привязкой" канонической модели базы данных к конкретным функциональным требованиям. На этом шаге для каждого приложения выбирается соответствующее подмножество информационных элементов или локальные информационные структуры. Исходная каноническая структура и выделенные таким образом локальные структуры могут быть объединены в новую информационную структуру. В некоторых случаях введение локальных структур приводит к расширению первоначальной структуры, так как может возникнуть необходимость новых сущностей и связей, и полученная в результате новая информационная структура может существенно отличаться от исходной. На основе пересмотренной структуры, используя связи между данными и процессами их обработки, а также характеристики поддерживаемых СУБД типов записей, можно задать исходные типы записей или сформулировать первоначальный вариант проекта. В простейшем варианте сущностям соответствуют типы записей, а атрибутам - типы элементов записей. Важнейшим шагом в представленном на рис. 1.4 алгоритме является оценка предложенной схемы. На этом шаге производится количественная оценка логической структуры на основе эффективности функционирования информационной системы. Одним из основных количественных показателей является объем обработки, определяемым двумя параметрами: частотой обработки, то есть частотой с которой должна проводиться обработка конкретного приложения, и объемом данных -количеством хранимых в данный момент экземпляров каждого типа записей. Факт успешного завершения процесса проектирования определяется выбранным критерием. Часто успешно используются такие простые критерии, как соответствие концептуальной схеме и обеспечение минимального объема передачи данных.
Прагматический подход к выбору структуры БД на основе структурного системного анализа
Несмотря на существование различных методик анализа предметных областей и построения эскизов БД, необходимо отметить следующее: процесс определения окончательной структуры БД является циклическим, то есть на разных этапах проектирования, начиная от эскиза структуры БД и заканчивая промышленной эксплуатацией готовых программных систем, приходится возвращаться к структуре БД и вносить в нее изменения; в процессе моделирования предметной области участвуют такие субъективные факторы, как прагматический подход разработчика, его интуиция, личностное восприятие проблемы, стереотипы мышления. Поэтому различные разработчики предлагают различные проекты структуры одной и той же БД, хотя в основных моментах, например, в определении большей части сущностей и связей между ними, эти проекты похожи.
Следовательно, с одной стороны, процесс проектирования структуры БД является процессом творческим, но с другой стороны, основные его моменты могут быть формализованы. Одной из таких формализации является требование, согласно которому реляционная база данных должна быть подвергнута процедуре нормализации.
Процесс нормализации имеет своей целью устранение избыточности данных и заключается в приведении таблиц БД к ЗНФ [157].
Для рассмотрения процесса нормализации структуры БД используем пример проектирования части структуры таблиц для "Информационной системы сбора и обработки экономической информации Управления связи". Задача состоит в автоматизации процесса сбора и обработки отчетных данных, получаемых из дочерних подразделений (филиалов) и характеризующих их финансово-хозяйственную деятельность. В частности, одним из требований, предъявляемых к проектируемой ИС является генерация так называемых сводных отчетов. Под сводным отчетом здесь понимается совокупность значений показателей на указанную дату, предоставляемых в головное подразделение филиалами, и характеризующих одну из сторон деятельности предприятия в целом. Сводный отчет должен содержать следующие позиции: наименование филиала, наименование показателя, единицу измерения показателя, значение показателя. Первичные данные поступают в головную организацию по электронной почте в виде отчетов. Понятие "Отчет" вводится для контроля полноты, правильности и своевременности предоставления филиалами в головное подразделение значений показателей. Примерная структура получаемой в головной организации информации приведена ниже:
Применяя средство проектирования Entity Relationship Diagrammer, входящее в пакет Oracle Designer/2000, последовательно построим каноническую модель БД. Существует несколько нормальных форм, из которых в практической разработке БД важны первые три - 1НФ, 2НФ, ЗНФ.
Первая нормальная форма (1НФ) требует, чтобы каждое поле таблицы БД было неделимым и не содержало повторяющихся групп столбцов. Неделимость поля означает, что значение поля не должно делиться на более мелкие значения. Повторяющимися являются поля, содержащие одинаковые по смыслу значения.
В начале проектирования, приводя данные к 1НФ, сведем имеющиеся данные в одну таблицу. Известно, что каждый филиал может в течении дня прислать несколько различных отчетов. В свою очередь, от четы могут состоять из нескольких показателей, каждый из которых имеет соответствующую единицу измерения. Кроме того, из приведенного выше примера видно, что в названиях показателей встречаются такие понятия, как отрасль деятельности (Городская телефонная связь, Сельская телефонная связь, Междугородная телефонная связь) и категория клиентуры (население, бюджетные организации). Для удобства представления в сводных отчетах отраслей и категорий клиентуры введем для них краткие названия (аббревиатуру). Выделим для филиалов, отчетов, показателей, единиц измерения, отраслей, категорий клиентуры и их аббревиатур отдельные поля. Кроме того, выделим отдельные поля для адреса электронной почты филиалов (далее Адрес), правил контроля значений показателей в отчете, и конечно же, самих значений показателей. Назовем полученную таблицу "РАБОЧЕЙ ТАБЛИЦЕЙ" (рис. 2.1).
Для того, чтобы продолжить нормализацию данных, приведем данные ко второй нормальной форме (2НФ). Вторая нормальная форма (2НФ) требует, чтобы все поля таблицы зависели от первичного ключа, то есть чтобы первичный ключ однозначно определял запись и не был избыточен. Те поля, которые зависят только от части первичного ключа, должны быть выделены в составе отдельных таблиц.
Продолжим рассмотрение описанного выше примера. Для приведения ко 2НФ выделим поля, которые входят в первичный ключ. Поле "Филиал" не может однозначно идентифицировать запись, поскольку его значение будет одинаковым для всех записей, относящихся к данному филиалу. Поэтому введем в первичный ключ поле "Отчет". Тем не менее этих двух полей не достаточно для уникального определения записей в таблице, так как отчеты состоят из нескольких показателей, а по совокупности полей "Филиал" и "Отчет" нельзя определить, к какой дате, показателю, отрасли и категории клиентуры относится конкретное значение показателя. Для полной идентификации значений показателей введем в первичный ключ поля "Показатель", "Дата отчета", "Отрасль" и "Категория клиентуры". Проведя смысловой анализ зависимостей между полями таблицы, нетрудно увидеть, что созданный первичный ключ однозначно определяет все записи таблицы и не является избыточным. Это означает, что первое требование 2НФ выполнено. На рисунке 2.2 приведена структура таблицы после выделения полей в составе первичного ключа (эти поля отчеркнуты от остальных линией и располагаются в верхней части структуры таблицы).
Имитационное моделирование как средство решения задачи построения оптимальной логической структуры ИС
В предыдущей главе сделан вывод о том, что каноническая структура БД не всегда является эффективной с точки зрения времени выполнения функций над данными и, следовательно, времени выполнения клиентских запросов. Этот вывод достаточно очевиден, и отход от канонической структуры в реальных разработках ИС не является экстраординарным. Как правило, разработчики при этом используют прагматический подход к оптимизации структуры РБД, а следовательно «качество» конкретной ИС зависит от опыта и мастерства разработчика. Однако в этом подходе даже опытные разработчики могут предложить несколько вариантов прагматической «оптимизации». В предыдущей главе даны несколько вариантов прагматической «оптимизации» конкретной ИС. При этом огромный объем информации, содержащейся в БД и множество функций, выполняемых над данными, делают невозможным «ручной» выбор из нескольких вариантов БД такой структуры, которая отвечала бы тому или иному критерию эффективности. Одним из наиболее эффективных методов оценки является имитационное моделирование работы ИС и анализ временных показателей с точки зрения критерия эффективности, определенного выше. При имитационном моделировании ИС может быть описана моделью массового обслуживания [108-112,175]. ИС характеризуется тем, что имеются случайный поток событий (клиентских запросов), поступающих на обслуживание, и операции обслуживания (обработки запроса), на выполнение которых требуется некоторое (разное) время.
При построении имитационных моделей исследуемых процессов ИС как системы массового обслуживания описываются следующие компоненты: - входной поток однородных событий; - дисциплина очереди заявок; - механизм обслуживания. Для моделирования ИС должен использоваться транзактный способ имитации [6,12,176,177]. Входным потоком событий в нашем случае является последовательность функций над данными, декомпозированных до уровня SQL-запросов. Входной поток должен быть однороден в том смысле, что значение имеет лишь факт поступления запроса в тот или иной момент времени. Запросы обслуживаются в порядке поступления, причем время обслуживания является случайной величиной [122]. Таким образом, ИС является системой обслуживания с несколькими каналами и несколькими очередями. Обслуживание запросов осуществляется одноканальным или многоканальными устройствами [108,120]. Функциональные действия при выполнении транзакта представляются задержками на время выполнения обработки. Собственно процессы, происходящие при обработке транзактов, не рассматриваются. Такой уровень детализации вполне обоснован, поскольку детали выполнения транзакта зависят от конкретной СУБД и являются «ноу-хау» фирмы-производителя. Параметрами имитационного моделирования являются величины, которые произвольно выбираются проектировщиком с целью изучения их влияния на исследуемую систему. Остальные характеристики - переменные модели - принимают вполне определенные значения.
В качестве переменных имитационной модели ИС выступают времена задержек на передачу запросов Tt и время считывания таблиц или их частей в кэш Т 1 cash Другая группа характеристик - это статистические характеристики моделирования, то есть задание способов выбора стохастических величин. Обычно для этого используются различные функции плотности распределения случайной величины, которые могут в принципе изменяться в ходе имитационного моделирования. Статистическими характеристиками имитационной модели ИС являются распределение вероятностей типов поступающих запросов, распределение вероятностей объемов запросов, распределение поступающих запросов во времени. Результатом моделирования являются статистические данные: средний и максимальный объем передаваемой информации, среднее и максимальное время обработки конкретного запроса, среднее и максимальное время ожидания обработки (длина очереди), сумма времен обработок всего множества запросов. Для ряда параметров, которые отражают элементы системы и условия ее функционирования, отсутствует возможность сбора фактических данных. Для таких параметров выдвигаются гипотезы и предположения об их возможных значениях. Разработчик должен быть экспертом для того, чтобы выдвигаемые им гипотезы соответствовали реальным эксплуатационным характеристикам ИС. Еще один путь - использование экспертной оценки другого специалиста или группы специалистов. Использование групповой экспертной оценки является наиболее предпочтительной, поскольку при этом снижается степень субъективности. При проведении такой работы следует учитывать также результаты анализа функционирования сходных систем (прототипов). Для переменных КОЛИ чественных параметров, которые варьируются в ходе имитационного моделирования, определяются границы их изменения. Транзактами в моделировании представлены запросы от клиентов ИС на получение или обновление информации в системе. Генерируемые в модели транзакты в зависимости от величины времени обработки могут образовывать очереди. Времена задержек транзактов при обработке различны. Они определяются объемом поступающей или выбираемой из БД информации и временем ее обработки (функциями над данными F = (fp\). Одним из главных атрибутов транзакта является тип заявки, соответствующий определенной функции над данными. Другими важнейшими, с точки зрения моделирования, атрибутами являются частота выполнения функций над данными и функция распределения этих частот. При моделировании предполагалось, что плотность распределения частотных характеристик является пуассоновой со средними значениями
Моделирование работы и оптимизация структуры ИС
Наибольшее развитие получил в настоящее время линейный регрессионный анализ, когда зависимость одной случайной переменной от другой является линейной. Более того, предполагается, что случайные переменные распределены нормально или их распределение является одной из модификаций нормального. В этом случае задача определения регрессионных параметров математически сводится к задаче решения системы линейных уравнений. Такой подход является хорошо известным методом наименьших квадратов. В работах [194-196] был предложен метод решения задачи нелинейного регрессионного анализа, основанный на линеаризации системы уравнений. Если экономист-аналитик считает, что для получения достоверного результата достаточно использовать стандартные распределения, у него должен быть инструмент линейного статистического анализа, а именно, пакет соответствующих программ.
Сложность статистического анализа финансовых показателей заключается в том, что в общем случае нельзя предположить, к какому определенному классу распределений принадлежит распределение случайных величин. В последнее время интенсивно разрабатываются нелинейные непараметрические методы статистического анализа, когда функция плотности распределения a priori неизвестна [197-204]. Эти методы развивались математической статистикой для целей фармакокине-тики, поскольку проблема оценки действенности фармакологических препаратов и доз по выборке, выполненной для различных возрастных групп, для различных индивидуумов является чрезвычайно сложной задачей. С точки зрения математической статистики задачи обработки данных в фармакокинетике и финансовых показателей имеют много общего. В частности, весьма сложной задачей является априорный выбор функции распределения вероятностей показателей. Весьма сложно обосновать применение одинаковых функций для различных предпри ятий одной и той же отрасли, и даже для филиалов одного и того же предприятия. В работе [58] было предложено использовать нелинейный статистический непараметрический анализ для финансового менеджмента.
Основой теоретического подхода как в линейном, так и в нелинейном статистическом анализе является метод максимального правдоподобия. Этот метод возник при оценке эмпирической информации, имеющей стохастический характер. Будем в дальнейшем называть выборкой совокупность наблюдаемых данных, представляемую в виде вектора у = (у\,У2 —Уы)- гДе N - число наблюдений. Считаем, что наблюдаемый вектор является реализацией случайного вектора Y = (Yl,Y2,...YN) с некоторой функцией плотности распределения вероятности (п.р.в.), которую называют функцией плотности выборки. Обозначим п.р.в. где e d .jO - неизвестные параметры, Q - множество значений, которые могут принимать параметры, g - известная функция. Функция правдоподобия 6 для вектора данных у определяется как 1(в;у) = а(у)8(у,в), где а(у)- произвольный коэффициент, зависящий от данных, но не от параметров. Этот коэффициент нужен лишь для упрощения вида функции правдоподобия. В наиболее простом и распространенном случае, когда случайные величины Yr независимы и одинаково распределены, п.р.в. выборки имеет вид: где / - общая функция плотности распределения вероятности переменных у . Если положить, как обычно принято, а{у) = 1, то 1{в\ у) = g(y; в). Линейный вариант статистических оценок по методу правдоподобия возникает при использовании известного вида для функции /, когда ставится задача нахождения параметров 6. Они определяются из уравнений Вместо функции правдоподобия в уравнениях (5.3) часто удобнее использовать ее логарифм. Оценка параметров распределений на основе такого подхода хорошо известна, и для большого класса распределений получены конечные формулы для оценки среднего, дисперсии, моментов и т.д [192]. Более того, получены и протабулированы распределения, с помощью которых получают достоверность этих оценок, то есть вероятность их отличия от истинных значений. Не останавливаясь на деталях такого "рутинного" метода, отметим, что к настоящему времени создано программное обеспечение для проведения такого рода оценок и их достоверности. Другая задача, которая ставится перед математической статистикой - задача нахождения зависимостей между статистическими переменными, является хорошо известной задачей регрессионного анализа. В общем случае эта задача может быть формализована уравнением где р - искомая функция условной вероятности случайной величины у в зависимости от случайной величины х (регрессионной переменной), rj -известная функция, 6 - регрессионные параметры. Величины у, х и 6 являются векторами, размерность которых будем обозначать соответственно п, гик.