Введение к работе
Актуальность темы. Сложность большинства экономических систем для управления проявляется прежде всего как недостаточная изученность, обусловленная большим числом разнородных объектов и характеризующих их разнотипных признаков с неустановленной структурой взаимосвязей. Классификация элементов сложных систем по осмысленным однородным группам является простейшей формой логического моделирования и исходным моментом дальнейшего анализа, методы классификации данных, реализующие геометрический подход к измерению сходства объектов как близости точек во многомерном признаковом пространстве, называются кластерным анализом.
В нашей стране опубликованы переводы трудов зарубежных специалистов по кластер-анализу и его приложениям в различных отраслях науки. Известен отечественный позитивный опыт построения многомерных классификаций и их использования в решении конкретных социально-экономических задач. Появились первые отечественные работы по общей методологии кластерного анализа, сравнению и оценке развиваемых в его рамках различными авторами подходов и методов. Ряд популярных алгоритмов многомерной классификации представлен вычислительными процедурами в составе пакетов программ статистической обработки данных на ЭВМ, которые легко могут быть применены даже при минимальном уровне подготовки пользователя.
Однако, корректное применение большинства кластерных алгоритмов предполагает априорное знание или предварительное оценивание исследователем характеристик внутренней структуры классифицируемого множества объектов, например, гипотетического числа классов, их размеров или набора эталонных точек. При отсутствии подобной обучающей информации классифиішцию приходится строить в итеративном режиме путем перебора как значений входных параметров, так и самих группировочных алгоритмов и поиска стабильного кластерного решения. Альтернативной и более дешевой стратегией вычислительных экспериментов является предварительное ' оценивание входных параметров
работы основного классификационного алгоритма с помощью процедур разведочного характера, позволяющих выявить существенные особенности неизвестной внутренней структуры данных. Большинство современных авторов подчеркивает узловое значение этапа разведочного анализа данных в проведении прикладного классификационного исследования.
Целью диссертации является разработка разведочных алгоритмов анализа данных, позволяющих до применения методов кластерного анализа составить набор объектов-представителей имеющихся в совокупности классов и оценить их гипотетическое число.
Цель исследования может быть достигнута решением следующих задач:
изучить современное состояние методологии и инструментальных средств кластерного анализа и специфики его применения к построению классификации экономических объектов;
разработать процедуры разведочного анализа данных, позволяющие выделить эталонные объекты, представлявше все классы исходной совокупности, и выбрать из них по одному представителю каждого класса;
осуществить программную реализацию предложенных алгоритмов средствами ПЭВМ;
провести тестирование предложенных алгоритмов на наборах данных известной структуры;
применить предложенные алгоритмы разведочного анализа данных для решения конкретной прикладной задачи классификации экономических объектов с использованием методов кластерного анализа.
методологической основой диссертации явились работы зарубежных и отчественных авторов, посвященные кластерному анализу и его;приложению к решению задач многомерной классификации объектов произвольной природы.
При реализации вычислительных процедур предложенных в диссертации алгоритмов использовалось стандартное программ-
І і
- 5 -ное обеспечение персональных ЭВМ: языки программирования Turbo-BASIC и СУБД dBASE Ш PLUS, электронные таблицы SuperCalc и универсальный пакет процедур статистической обработки данных STATGRAPHICS.
К числу основных результатов работы, обладающих научной новизной, можно отнести:
алгоритм упорядочения объектов по типичности, строящий их ранжирование на основе частотного анализа номинальной части вариационного ряда результатов парных сравнений по значениям выбранной меры сходства;
алгоритм выделения единственных представителей классов и оценивания их числа;
вывод о соответствии действующей практики исчисления условных обобщающих показателей загрязнения вод частной задаче многомерной классификации;
разработку общего подхода к построению классификации промышленных предприятий по загрязнению природной среды;
предложение использовать кластерный анализ для решения задачи классификации предприятий как источников промышленного загрязнения вод и разработанные алгоритмы разведочного анализа для предварительной оценки . параметров неизвестной кластерной структуры данных;
рекомендации по применению результатов классификации предприятий по загрязнению окружающей среды в региональном экономико-экологическом управлении. !
варианты программной реализации вычислительных процедур предложенных разведочных алгоритмов средствами ПЭВМ. \
Практическое значение диссертации состоит в том, что
і предложенные разведочные алгоритмы позволяют до применения
методов кластерного анализа оценить значения входных параметров (число классов или набор эталонных точек), необходимых для начала работы большинства известных процедур классификации множества объектов по большому набору признаков.
Отсутствие обучающей информации о неизвестной внутренней структуре исследуемого множества объектов ТИПИЧНО ДУЯ раннего этапа решения задачи классификации элементов сложных
- 6 -социально-экономических систем. Использование разработанных алгоритмов позволяет избежать перебора значений входных параметров и значительно сократить объем вычислений при проведении классификационных экспериментов в прикладных исследованиях поискового характера.
Результаты разведочного анализа первичных статистических данных о загрязнении водоемов бассейна Ладожского озера стоками промышленных предприятий в 1987 году позволили применить для построения классификации загрязнителей водной среды процедуры кластерного анализа, входящие в состав универсального пакета программ статистической обработки данных STATGRAPHICS.
Построение многомерной классификации предприятий региона по набору показателей их природоохранной деятельности развивает традиционный подход к оценке уровня загрязнения среды условными обобщающими показателями и может быть рекомендовано как основа принятия решений экономико-экологического управления.
Апробация работы. Основные положения и отдельные результаты диссертации докладывались на Всесоюзной научно-практической конференции "Новые формы хозяйствования в условиях перехода к рыночным отношениям" (Ленинград, 1991 год); научных конференциях экономического факультета СПбГУ, семинарах кафедры экономической кибернетики экономического факультета СПбГУ.
Публикации. Основные результаты исследования нашли отражение в 3 опубликованных работах.
Объем и структура работы. Диссертация состоит из введения, трех глав, заключения, четырех приложений и списка использованной литературы, включающего 85 наименований.
Основное содержание диссертации изложено на 98 страницах машинописного текста, приложения и список литературы - на 27 страницах. Основной текст и приложения содержат 49 таблиц и 16 рисунков.