Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Математические методы и модели анализа пространственной структуры системы городской торговли Файзлиев Алексей Раисович

Математические методы и модели анализа пространственной структуры системы городской торговли
<
Математические методы и модели анализа пространственной структуры системы городской торговли Математические методы и модели анализа пространственной структуры системы городской торговли Математические методы и модели анализа пространственной структуры системы городской торговли Математические методы и модели анализа пространственной структуры системы городской торговли Математические методы и модели анализа пространственной структуры системы городской торговли Математические методы и модели анализа пространственной структуры системы городской торговли Математические методы и модели анализа пространственной структуры системы городской торговли Математические методы и модели анализа пространственной структуры системы городской торговли Математические методы и модели анализа пространственной структуры системы городской торговли Математические методы и модели анализа пространственной структуры системы городской торговли Математические методы и модели анализа пространственной структуры системы городской торговли Математические методы и модели анализа пространственной структуры системы городской торговли
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Файзлиев Алексей Раисович. Математические методы и модели анализа пространственной структуры системы городской торговли: диссертация ... кандидата экономических наук: 08.00.13 / Файзлиев Алексей Раисович;[Место защиты: Волгоградский государственный технический университет].- Волгоград, 2014.- 178 с.

Содержание к диссертации

Введение

Глава I. Методы пространственного анализа данных в экономических исследованиях 11

1.1 Представление и обработка социально-экономической информации с помощью геоинформационных систем 11

1.2 Методы и модели анализа пространственных данных 18

1.3 Анализ концентрации 51

1.4 Анализ факторов, влияющих на характеристики объектов городской среды 58

Глава II. Методы кластеризации пространственных данных как инструмент анализа городской среды .72

2.1 Кластеризация характеристик плотности объектов городской среды 72

2.2 Алгоритм кластеризации пространственных данных с «комбинированным расстоянием» и методика выбора числа кластеров .77

2.2.1 Выбор числа кластеров по максимальному скачку расстояния и относительной энтропии Шеннона 81

2.2.2 Выбор числа кластеров по корреляционному отношению 86

2.3 Сравнение выбора числа кластеров по различным методам 97

Глава III. Эконометрические модели размещения торговых предприятий 104

3.1 Исходные данные для анализа размещения объектов городской среды 109

3.2 Регрессионные модели 113

3.3 Пространственные модели Кларка 140

3.4 Структурные модели 158

Заключение .168

Список использованной литературы .172

Введение к работе

Актуальность темы исследования. В экономической науке
исследованиям пространственного взаимодействия экономических объектов
до последнего времени не уделялось достаточно внимания. Методы
пространственного статистического анализа, лежащие в основе

геостатистики и пространственной эконометрики, использовались в основном географами и геологами. Лишь в последние годы эти методы стали применяться экономистами, изучающими особенности регионального развития с учетом пространственной корреляции между показателями, характеризующими экономические объекты.

В реальной жизни географические или пространственные данные
составляют более половины объема всей циркулирующей информации. Для
многих социально-экономических процессов, происходящих на смежных
территориях, характерно пространственное взаимодействие, т.е. взаимное
влияние и обусловленность. Пространственное представление

статистической информации позволяет ставить вопрос о наличии и силе таких взаимодействий, и делает актуальным разработку методов статистического анализа адекватно отображающих территориальный фактор. Применение специальных методов пространственного анализа, а также возможностей современных геоинформационных систем существенно повышает информативность проводимых экономических исследований.

Одной из задач, особенно важной для крупных городов, где методы пространственного анализа наиболее востребованы, является проблема планирования и размещения торговых предприятий на городской территории. Актуальность указанных вопросов предопределила выбор темы диссертационного исследования, обусловила научную и практическую значимость его результатов.

Степень разработанности проблемы. Большой вклад в построение методологии измерения территориальных взаимодействий социально-экономических процессов внесли зарубежные исследователи – разработчики различных направлений оценки пространственных связей: В. Алонсо, Л. Анселин, А. Гетис, Р. Дубин, П. Моран, Б. Финглетон, Р. Флоракс и многие другие.

Проблемы развития статистики и эконометрики, в том числе
формирования цен с учетом пространственных факторов, исследованы в
работах С.А. Айвазяна, В.Н. Афанасьева, В.А. Балаша, С.А. Бурцевой,
А.П. Дарманяна, С.И. Дудова, В.С. Мхитаряна, В.С. Занадворова,

А.В. Занадворовой, С.А. Прохорова и других отечественных авторов.

Проблематике моделирования социально-экономических процессов в современных городах и влияния на них центростремительных эффектов сосредоточения видов деятельности были посвящены теоретические и прикладные исследования А. Винейблса, П. Дерика, К. Кларка, Е. Милза, Р. Мута, П. Кругмана, М. Фуджицу, В. Хардина и др.

Несмотря на значительное количество публикаций посвященных
исследованию пространственных взаимодействий различных социально-
экономических процессов, в литературе отсутствует описание научно
обоснованной методики статистического исследования закономерностей
размещения и ценообразования рынка коммерческой недвижимости (на
уровне крупного города), позволяющей учесть пространственное

взаимовлияние различных объектов.

Необходимость разработки статистических методов анализа и моделирования закономерностей размещения коммерческой недвижимости и формирования цен на них с использованием геоинформационных систем и выявления на основе этих методов пространственных закономерностей размещения и ценообразования объектов коммерческой недвижимости определила актуальность темы настоящего диссертационного исследования.

Цель и задачи исследования. Цель диссертационной работы – разработка эконометрических методов и моделей пространственного анализа объектов городской среды, позволяющих учесть их пространственное взаимодействие при планировании размещения городских торговых предприятий.

Реализации обозначенной цели достигается путем последовательного решения комплекса взаимосвязанных задач:

- провести модернизацию существующих методов кластеризации пространственных данных, дополнив их новой методикой выбора числа

кластеров, учитывающей местоположение и размер объектов городской среды;

- разработать эконометрическую модель непараметрической регрессии,
связывающую плотности общей и торговой площади продовольственных и
промтоварных магазинов, а также их удельную стоимость с плотностью
взрослого населения;

- построить эконометрические модели оценки основных удельных
характеристик торговых предприятий города в зависимости от плотности
взрослого населения и близости от административных центров, с учетом
пространственных автокорреляций случайных отклонений;

- разработать модели пространственной авторегрессии, связывающие
значения плотности признаков торговых помещений в данном узле
квадратной сетки со значениями в соседних узлах;

- предложить структурную эконометрическую модель социально-
экономической системы «покупатель - торговые предприятия»,
позволяющую описать механизмы взаимодействия населения и элементов
городской среды.

Объектом исследования является система городской торговли.

Предметом исследования являются процессы формирования

пространственной структуры городских торговых предприятий.

Область исследования. Содержание диссертационной работы
соответствует пунктам 1.1 «Разработка и развитие математического аппарата
анализа экономических систем: математической экономики, эконометрики,
прикладной статистики, теории игр, оптимизации, теории принятия решений,
дискретной математики и др. методов, используемых в экономико-

математическом моделировании»; 1.4 Разработка и исследование моделей и
математических методов анализа микроэкономических процессов и систем:
отраслей народного хозяйства, фирм и предприятий, домашних хозяйств,
рынков, механизмов формирования спроса и потребления, способов
количественной оценки предпринимательских рисков и обоснования
инвестиционных решений» Паспорта специальности 08.00.13 -

Математические и инструментальные методы экономики.

Теоретико-методологической основой исследования послужили
труды отечественных и зарубежных ученых, посвященные проблемам
статистического анализа и эконометрического моделирования

территориально распределенных процессов. В исследовании использованы статистические методы выборочного наблюдения, сводки и группировки, методы пространственного анализа, включающие расчет пространственных средних и пространственных корреляций, построение пространственных диаграмм, методы кластерного и факторного анализа, эконометрического моделирования, табличные и графические методы представления результатов анализа. Обработка данных проводилась на ПЭВМ с помощью компьютерных программ «R», «MapInfo», «Gretl», «Lisrel» и «MS Excel».

Информационно-эмпирическую базу исследования составили

данные обследования предприятий розничной торговли, материалы выборочного обследования о ценах сделок с коммерческой недвижимостью в исследуемый период, сведения о плотности населения по территории города, рассчитанные автором на основании открытой информации о границах избирательных участков по численности зарегистрированных избирателей. Для пространственной привязки исследуемых объектов использовалась процедура геокодирования по адресам объектов недвижимости и границам избирательных участков.

Положения диссертации, выносимые на защиту:

1. Предложенный подход к пространственной кластеризации торговых
предприятий по удельной обеспеченности (плотности общей и торговой
площадей), основанный на разделении территории города на ячейки Дирихле
и введенном понятии комбинированного расстояния, дополненный
методикой выбора числа кластеров, включающей вычисление

корреляционных отношений и определение расстояния между кластерами, как среднего расстояния между объектами, дает наилучшие результаты по сравнению с другими методами выбора числа кластеров (по максимальному скачку расстояния между кластерами, по относительной энтропии) и другими способами определения расстояния между кластерами (по минимальному и по максимальному расстоянию между объектами).

  1. Эконометрические модели непараметрической регрессии (типа loess) показывают, что плотность общей и торговой площади продовольственных и промтоварных магазинов, а также стоимость коммерческой недвижимости нелинейно и монотонно зависят от плотности взрослого населения; при этом зависимость в области малых значений плотности населения имеет сублинейный характер, а в области больших значений становится сверхлинейной.

  2. Оценки моделей линейной регрессии для плотности торговых и общих площадей продовольственных и промтоварных магазинов, а также цены квадратного метра коммерческой недвижимости, полученные обыкновенным методом наименьших квадратов и обобщенным методом наименьших квадратов (вариант оценки максимального правдоподобия), учитывающим пространственные автокорреляции случайных возмущений (с экспоненциальной моделью вариограммы), существенно различаются, что подтверждает важность учета пространственной структуры данных; при этом характерное расстояние, на котором корреляция убывает в e раз, составляет для продовольственных магазинов – 3 км, для промтоварных магазинов – 4 км, а для цены квадратного метра коммерческой недвижимости наблюдаются волнообразные колебания пространственных автокорреляций для удаленности более 3 км.

  3. Модель пространственной авторегрессии, позволяющая прогнозировать значения характеристик в узлах сетки по их значениям в соседних узлах, является (согласно тесту Морана пространственной автокорреляции остатков) адекватной лишь для плотности торговых и общих площадей продовольственных магазинов, что объясняется тесной связью характеристик размещения продовольственных магазинов с плотностью населения, и не описывает характеристики размещения промтоварных магазинов, а также стоимость коммерческой недвижимости, на которые оказывает влияние большое количество латентных факторов.

  4. Структурная эконометрическая модель размещения торговых предприятий, экзогенными переменными которой служат плотность населения и удельная стоимость недвижимости, а эндогенными переменными – плотности общей и торговой площадей продовольственных и

промтоварных магазинов, а также цена квадратного метра коммерческой недвижимости, учитывающая их взаимовлияние, удовлетворяет критериям теста хи-квадрат и является адекватной.

Научную новизну содержат следующие результаты исследования:

– проведена модернизация существующих методов кластеризации пространственных данных, путем включения в них методики определения числа кластеров, основанной на расчете энтропии Шеннона и корреляционного отношения, позволяющая повысить информативность кластеризации по сравнению с известными методами, основанными на выявлении максимального скачка расстояний между кластерами;

- разработана эконометрическая модель непараметрической регрессии,
включающая диаграммы рассеяния и связывающая плотности общей и
торговой площади продовольственных и промтоварных магазинов, а также
их удельную стоимость с плотностью взрослого населения;

предложена методика оценки основных удельных характеристик торговых предприятий города (плотность общих торговых площадей промтоварных и продовольственных магазинов, стоимость квадратного метра коммерческой недвижимости, обеспеченность населения торговыми площадями и т.д.) в зависимости от плотности взрослого населения и близости от административных центров, учитывающая пространственные автокорреляции случайных отклонений, которая позволяет получать более точные оценки с учетом влияния пространственного фактора;

разработана авторегрессионная модель размещения предприятий торговли, включающая механизм пространственной взаимосвязи объектов городской среды, связывающий значения плотности признаков торговых помещений в данном узле квадратной сетки со значениями в соседних узлах, в которой для учета территориальных взаимодействий предусмотрены различные варианты соседства, описанные пространственными весовыми матрицами.

- построена структурная эконометрическая модель социально-
экономической системы «покупатель – торговые предприятия»,
представляющая собой систему одновременных уравнений, связывающих
плотность населения с различными характеристиками торговых

предприятий, позволяющая описать механизмы взаимодействия населения и объектов городской среды.

Теоретическая значимость исследования заключается в уточнении
теоретических представлений об использовании пространственной

информации в экономико-статистических исследованиях, расширении сферы
применения и модификации существующих методов и моделей

пространственного анализа данных для решения задач кластеризации и размещения объектов городской среды.

Практическая значимость заключается в разработке инструментов для анализа и количественной характеристики особенностей размещения предприятий розничной торговли в крупном городе. Предложенная методика может применяться органами государственного и муниципального управления на различных уровнях при планировании дальнейшего развития городских и региональных территорий, а также в учебном процессе при преподавании курсов «Эконометрика», «Оценка недвижимости».

Апробация результатов исследования. Основные положения

диссертационного исследования докладывались и получили одобрение на
международных научно-практических конференциях «Социально-

экономическое развитие России: проблемы, поиски, решения» (Саратов, 2005), «Математическое моделирование в управлении рисками» (Саратов, 2012), на Всероссийских научно-практических конференциях «Прикладные аспекты статистики и эконометрики» (Саратов, 2006) и «Математические методы в технических и социально-экономических системах» (Новосибирск, 2008), на конференциях «Математические методы в технике и технологиях» (Саратов, 2008), «Проблемы и перспективы развития региональной экономики» (Саратов, 2008), «Современные проблемы и тенденции развития внутренней и внешней торговли» (Саратов, 2009), «Ежегодная конференции студентов и сотрудников Механико-математического факультета СГУ» (Саратов, 2010-2013), на Российском экономическом конгрессе (Москва, 2009).

Основные результаты исследования отражены в 13 публикациях

автора общим объемом 5 п.л., в том числе в рецензируемых научных

журналах и изданиях, утвержденных ВАК РФ (3 статьи общим объемом 2,2 п.л.).

Структура диссертационной работы. В соответствии с целью и задачами исследования работа состоит из введения, трех глав, заключения, списка использованной литературы, включающего 102 наименований, содержит графический и табличный материал.

Диссертация имеет следующую структуру:

Введение

1 Методы пространственного анализа данных в экономических
исследованиях

  1. Представление и обработка социально-экономической информации с помощью геоинформационных систем

  2. Методы и модели анализа пространственных данных

  3. Анализ концентрации

  4. Анализ факторов, влияющих на характеристики объектов городской среды

2 Методы кластеризации пространственных данных как инструмент
анализа городской среды

2.1 Кластеризация характеристик плотности объектов городской среды

2.2 Алгоритм кластеризации пространственных данных с
«комбинированным расстоянием» и методика выбора числа кластеров

2.2.1 Выбор числа кластеров по максимальному скачку расстояния и
относительной энтропии Шеннона

2.2.2 Выбор числа кластеров по корреляционному отношению

2.3 Сравнение выбора числа кластеров по различным методам

3 Эконометрические модели размещения торговых предприятий

  1. Исходные данные для анализа размещения объектов городской среды

  2. Регрессионные модели

  3. Пространственные модели Кларка

3.4 Структурные модели
Заключение

Список использованной литературы

Представление и обработка социально-экономической информации с помощью геоинформационных систем

Многие виды экономической деятельности, связанные с решением задач оптимизации экономических процессов (транспортные задачи, задачи логистики, задачи оптимального размещения различных ресурсов и т.п.), требуют учета и анализа пространственного расположения объектов. При решении таких задач географические или пространственные данные могут составлять более половины объема всей циркулирующей информации, используемой организациями, вовлеченными в эту деятельность. Для обеспечения возможности принятия оптимальных управленческих решений на основе анализа пространственных данных в настоящее время широко применяются геоинформационные системы.

Географическая информационная система или геоинформационная система (ГИС) - это информационная система, обеспечивающая сбор, хранение, обработку, анализ и отображение пространственных данных и связанных с ними непространственных, а также получение на их основе информации и знаний о географическом пространстве [43]. Современные ГИС расширили использование карт за счет хранения графических данных в виде отдельных тематических слоев, а также качественных и количественных характеристик составляющих их объектов в виде баз данных. Геоинформационные системы позволяют определить, что находится в заданной области и где находится область, удовлетворяющая заданному набору условий. Такая организация данных при наличии удобных механизмов управления ими, обеспечивает и принципиально новые аналитические возможности. Анализ пространственных данных или пространственный анализ – является ключевым понятием в определении ГИС. Во многих задачах пространственного анализа необходимо знать не только объем пространства, занимаемого объектами, но и расположение объектов в пространстве, которое может характеризоваться количеством объектов в определенной области, например, распределение численности населения или торговых площадей в городе. Распределение точечных объектов является наиболее распространенным методом анализа. Геоинформационные технологии позволили автоматизировать многие трудомкие операции, связанные с анализом пространственных данных, ранее требовавшие больших временных, энергетических, психологических и других затрат от человека. Так как, большинство статистических данных могут быть привязаны к той или иной территории, то геоинформационные системы, несомненно, будут иметь преимущество перед другими информационными системами при решении задач пространственного анализа статистических данных. Как отмечено во введении в экономической науке основное внимание, как правило, уделялось анализу объектов экономики в предположении, что изучаемые экономические объекты не изменяют своего положения и не взаимодействуют в географическом пространстве. Пространственный статистический анализ использовался в основном географами и геологами. Лишь в последние годы такой анализ стал использоваться экономистами, изучающими особенности регионального развития с учетом влияния соседних регионов. Об этом свидетельствует возросшее число публикаций об исследовании пространственных экстерналий. Используя зарубежный опыт, можно выделить следующие основные направления применения геостатистики и пространственной эконометрики в экономике: 1) экономико-статистический анализ различных экономических показателей, учитывающий пространственную связь между экономическими объектами. В этом случае подразумевается использование ряда пространственных статистик, позволяющих выявить пространственную автокорреляцию между экономическими объектами. 2) эконометрический анализ панельных данных, учитывающий пространственную и временную корреляцию между экономическими объектами. Для этого необходимо использование ряда пространственных эконометрических моделей.

За рубежом геоинформационные системы уже давно используются в практике работы статистических органов [54-55, 73, 91-93]. В США ГИС используется национальным центром статистики здоровья (National Center for Health Statistics), бюро транспортной статистики (Bureau of Transportation Statistics), национальной сельскохозяйственной статистикой (National Agricultural Statistics Service), национальным картографическим агентством (National Imagery and Mapping), геологической службой (Geological Survey), бюром переписи (Bureau of the Census) и многими другими.

В Европе для координации работ по разработке методики представления статистической информации с помощью геоинформационных технологий создана организация GISCO (Geographic Information System of the Commission) [72]. Эта организация подготовила приблизительно 150 статистических карт на трех языках. Карты иллюстрируют статистическую информацию, характеризующую население, региональный ВВП, домашние хозяйства, бизнес, рынок труда и т.д. и доступны как для органов государственной власти, так и для коммерческих структур и частных лиц.

Пространственное представление статистических данных оказывается плодотворным при решении многих проблем на всех уровнях государственного регионального управления. Идея проектов в форме «интегрированной географии», построенных в среде ГИС, заключается в создании такого типа справочных систем, которые позволяют эффективно использовать большое количество данных, необходимых для реализации цели – интегрирования географической и статистической информации. Такое сотрудничество между географией и статистикой очень важно для статистического анализа пространственной информации. Проекты, которые осуществляет GISCO, основаны на пространственных методах анализа. В настоящее время проводятся работы по созданию хранилища пространственных данных о трудовых ресурсах, городских территориях и сельских районах, сравнение карт плотностей населения, построенных национальными статистическими институтами с европейской картой плотности населения и создание карт для европейской программы «Морская стратегия».

Кластеризация характеристик плотности объектов городской среды

Этот раздел посвящен разработке и применению нового метода пространственной кластеризации плотности населения и торговых площадей. Предлагаемый подход позволяет решить задачу зонирования городской территории, т.е. выделения пространственно однородных зон по выбранному признаку. В настоящей работе в качестве таких признаков используется обеспеченность населения торговыми площадями продовольственных и промтоварных магазинов, а также аналогичными характеристиками торговой недвижимости (по выборочным данным). Предлагается метод кластеризации, использующий меру близости, объединяющую различие логарифмов обеспеченности и пространственную удаленность. Также выполнено сравнение методов выбора числа кластеров и предложен новый метод выбора числа кластеров, основанный на корреляционном отношении логарифма плотности. Алгоритмы всех предлагаемых методов реализованы в форме набора функций для свободно-распространяемого пакета R.

Предлагаемый метод кластеризации ячеек Дирихле предназначен для выделения относительно компактных зон городской территории, в пределах которых плотность распределения zi относительно мало изменяется в сравнении с плотностями соседних зон (заметим, что не требуется односвязности зон). Для полного определения алгоритма кластерного анализа необходимо выбрать общую схему алгоритма (агломеративную, дивизимную, К-средних и др.), правило вычисления расстояния между отдельными объектами, правило вычисления расстояния между кластерами, а также метод выбора числа кластеров.

Предлагается использовать агломеративную схему, как одну из наиболее употребительных, и не требующую априорного задания числа кластеров.

Наиболее важным элементом алгоритма кластеризации является используемая формула расстояния между объектами. Особенностью городской среды является значительная вариация плотности (значения которой между ячейками могут различаться в десятки и даже сотни раз). В результате (предполагая, что все значения плотности положительны) приходим к следующей формуле расстояния между тройками5:

Данное расстояние автором называется «комбинированным», поскольку оно объединяет как пространственную близость ячеек, так и различие плотностей в них (в логарифмической шкале).

Константа о О, «уравнивающая» пространственную удаленность и различие логарифмов плотности, определяется как оценка коэффициента линейной регрессии без свободного члена множества пар евклидовых расстояний между объектами на абсолютные расхождения между логарифмами плотностей ячеек Дирихле:

Данная мера представляет собой настоящее расстояние; рефлексивность и симметричность очевидны, для обоснования неравенства треугольника рассматриваются четыре варианта определения максимума и используются неравенства треугольника для пространственной удаленности и для разности логарифмов плотности. использование МНК приводит к оценке с = Х&оЛу I hf-.

В целях сравнения результатов кластеризации рассматриваются три варианта расстояния между кластерами, определяемыми как подмножества номеров ячеек: С/,С/ с {1,2,...,я} (Таблица 2.1).

Таблица 2.1 Варианты определения расстояния между кластерами Вариант 2 Для изучения чувствительности результатов кластеризации к значению c проводились эксперименты, в которых значение c уменьшалось и увеличивалось на 20%. Они показали, что измененные значения c не дают преимуществ в смысле качества кластеризации (см. далее) по сравнению со значением, найденным по вышеприведенной формуле. Исследования пространственных аспектов социально-экономических явлений в г. Саратове в основном опирались на пространственную статистику и эконометрику (например, [5]), а также на использование нейронных сетей [39]. Для иллюстрации предлагаемых методов воспользуемся данными о размещении населения, предприятий торговли г. Саратова, коммерческой недвижимости по состоянию на конец 2006 г. – начало 2007 г. Данные о населении – численности жителей 18 лет и старше, приписанных к избирательным участкам, были предоставлены городской избирательной комиссией; данные о предприятиях торговли были предоставлены торговыми отделами районных администраций г. Саратова. Выборочная информация об объектах коммерческой недвижимости была получена из различных печатных изданий и Интернет. Для геокодирования информации была использована ГИС Управления по архитектуре г. Саратова. Поскольку город в большинстве случаев представляет собой «непрерывное» целое6, выбор числа кластеров по данным об объектах городской среды может представлять значительные трудности. Как и при реализации стандартных вариантов кластерного анализа, выбор числа кластеров определяет компромисс между точностью и полнотой представления исходных данных – положений точечных объектов и плотностей pi по ячейкам Дирихле, с одной стороны, и простотой результатов кластеризации, с другой. В ходе построения мозаики Делонэ-Вороного в областях, включающих высокую плотность наблюдений, получаются очень мелкие ячейки с высокой "плотностью", которые при кластеризации не объединяются с соседними. Это особенность данных по продовольственным и промтоварным магазинам. Таким образом, если реализовать основной алгоритм кластеризации по исходным данным, образуется некоторое количество очень мелких ячеек, (из-за наличия близко расположенных магазинов). Эти ячейки не имеют экономического смысла. Поэтому предлагается предварительно объединить близкорасположенные ячейки, агрегируя как "числитель", так и "знаменатель". Для этого также необходим алгоритм аггломеративной кластеризации, с дополнительным параметром — рост кластера продолжается, пока его размер не превышает заданного расстояния; алгоритм использует обычное евклидово расстояние.

Выбор числа кластеров по корреляционному отношению

Рассмотрим кластеризацию населения по ближнему соседу. На следующей диаграмме показано, как связаны между собой корреляционное отношение, параметр сглаживания и число кластеров. Эта диаграмма позволяет задать минимальное значение rf, например, 0.6. Получаем

взаимосвязь между параметром сглаживания и числом кластеров. Как видно из следующего рисунка 2.2, с уменьшением параметра сглаживания, число кластеров растет, и, наоборот, при увеличении параметра сглаживания, число кластеров уменьшается. Горизонтальные участки этой линии (для большого числа кластеров) не интересны. Для значения rf = 0.55 нужно около кластеров, при этом эти значения и будут являться оптимальными.

В целом получается, что этот метод не очень информативен, как это было показано ранее.

Для сравнения рассмотрим кластеризацию населения по дальнему соседу (рис. 2.3). Здесь интересны точки на линиях уровня 2, расположенные ближе всего к левому нижнему углу. Значение параметра сглаживания должно быть небольшим, в противном случае "базой для сравнения" кластеризации будет слишком обобщенная картина, сводящаяся к "здравому смыслу".

Слишком малые значения smo также нежелательны, поскольку оценка плотности становится "ненадежной". Для параметра сглаживания 0.9 достаточно взять 17 кластеров, тогда значение rf около 0.75 и уже не возрастает, для 0.41 достаточно 17 кластеров (для rf = 0.7), если "согласиться" на rf =0.45, получается smo = 0.2 при 9 кластерах, а если взять rf = 0.6, то "хороших" вариантов кластеризации 2:

а) smo=0.4 при 9 кластерах,

б) smo=0.28 при 17 кластерах.

Можно сделать общий предварительный вывод: в то время как при анализе статистических данных обычно имеют дело с небольшим числом кластеров, для города их требуется гораздо больше — около 20.

Далее рассмотрим кластеризацию населения по среднему расстоянию.

Как видно на рис. 2.4 "угол" 0.7 0.4 для 19 кластеров, "угол" 0.6 0.25 для 18 кластеров. Для rf = 0.6.

а) smo=0.85 при 7 кластерах (этот вариант не интересен)

б) smo=0.27 при 18 кластерах 2-й метод кластеризации в целом лучше 1 и 3, но 2 и 3 методы близки при относительно большом числе кластеров (вторые варианты при 772 =0.6 очень близки). Это соответствует рекомендации использовать разные меры расстояния между кластерами. В идеальном случае все такие расстояния должны привести к одному и тому же результату. Здесь получается, что методы 2, 3 дают именно такой стабильный результат. И даже 1 -й метод дает близкий результат при 19 кластерах. Рис. 2.4 Зависимость г/2 от числа кластеров и параметра сглаживания (кластеризация населения по среднему расстоянию)

На следующем рисунке 2.5 хорошо видно как хорошо согласуются методы (1-черный, 2-красный, 3-зеленый).

Для ]2 = 0.6 линия уровня для 2 метода лежит по большей части левее и ниже линий для 1 и 3 методов. Сравнивая две угловые точки для второго и третьего методов видим, что второй метод обеспечивает почти те же значение smo=0.25 для 17 кластеров, что и третий метод для 19 кластеров (раньше также был вывод о том, что второй метод дает более четкую картину).

Таким образом, снижение уровня шкалы измерения (кластеризация) — для повышения наглядности анализа и получения возможностей анализировать сложные взаимосвязи (для переменных на высоких уровнях шкалы легко моделировать простые взаимосвязи, например, линейные, и сложно — сложные), ниже начали рассматривать "множественные" углы; здесь (для 2-го метода) таким универсальным числом кластеров служит 17 — имеются четкие "углы" начиная с rf = 0.55 и выше, следовательно, хорошее

Объединенный анализ результатов кластеризации число кластеров здесь 17.

Для наглядности математических выкладок, приведенных выше, рассмотрим следующую диаграмму (Рисунок 2.6). По оси X отложено число кластеров (от 2 до 30 с шагом 1), по оси Y отложены значения параметра сглаживания (от 0.1 до 1 с шагом 0.1). Как отмечалось выше, исходя из рассматриваемых данных, минимальное значение корреляционного отношения принималось не менее 0.6 (для некоторых данных это значение пришлось уменьшить до 0.5). Так на диаграмме оранжевый оттенок соответствует 0.6 г,2 = 0.7. Горчичный 0.5 — 0.6. Как отмечалось выше, параметр сглаживания предлагается выбирать также, исходя из исследуемых данных. В данном случае параметр сглаживания берется 0.3 (300м.). Если взять такой параметр сглаживания, и значение корреляционного отношения не меньшее 0.6, то оптимальное число кластеров предлагается выбрать как соответствующее крайней левой ячейке оранжевого оттенка (20 кластеров), при котором параметр сглаживания = 0.3. Т.е. берется минимальное значение числа кластеров на данной горизонтали, соответствующее оранжевому оттенку. Такой выбор обусловлен, тем, что нет смысла увеличивать число кластеров, если значение корреляционного отношения при этом остается неизменным.

Пространственные модели Кларка

Предположение классической регрессионной модели, которое состоит в том, что случайные ошибки некоррелированы между собой и имеют постоянную дисперсию нереалистично при моделировании пространственных данных. В тех случаях, когда наблюдаемые объекты неоднородны, и сильно отличаются друг от друга, такое допущение будет не оправдано. В связи с этим для пространственно распределенных данных при построении моделей необходимо применять обобщенный метод наименьших квадратов (GLS, Generalized Least Squares) [1,40].

Для разработки модели были проделаны следующие шаги:

1. построены регрессионные модели без учета пространственных факторов;

2. найдены остатки модели (если остатки существенно превышают по модулю единицу, то это свидетельствует о наличии пространственных факторов, которые не учтены в модели);

3. определены центры локального влияния;

4. в модели учтены расстояния до центров локального влияния. Центрами локального влияния могут служить точечные или протяженные объекты, которые оказывают позитивное (как в данной работе) или негативное влияние на стоимость и плотность объектов коммерческой недвижимости. Такими центрами могут быть центральный деловой район города, крупные торговые центры, архитектурные ландшафты или промышленные районы. После определения центров локального влияния рассчитываются расстояния до этих объектов (это могут быть декартовы расстояния, время в пути до центра локального влияния и т. д.). Кроме того, в модель могут быть включены, помимо самих расстояний до центров, их вторые и третьи степени. Также можно расставить определенным образом веса для локальных центров. Такие манипуляции с локальными центрами позволят сформировать нелинейные параметры.

В данной работе помимо независимых переменных, используемых в предыдущих моделях, были включены пространственные регрессоры, включающие расстояния до центра города и до административных центров. Таким образом, предполагается, что введенные пространственные регрессоры окажут позитивное влияние на стоимость и плотность объектов коммерческой недвижимости. Регрессионные модели имеют следующие независимые переменные: население и его вторая и третья степени соответственно (nasel, nasel2, nasel3), общая стоимость объекта недвижимости и его вторая степень nedvc, nedvc2, а также пространственные регрессоры, соответствующие историческому центру города (Saratov) и административным центрам в заводском (Zavod) и ленинском (Lenin) районах города. Первоначальный набор регрессоров всех моделей один и тот же.

При построении моделей использован пошаговый отбор регрессоров. Оценивание производится с помощью обобщенного метода наименьших

1 квадратов с учетом пространственной корреляции остатков. Использована экспоненциальная модель вариограммы без "самородка" (наггета), показывающая степень статистической корреляции остатков от расстояния [19,21]. Вариограмма позволяет определить пространственную корреляцию между произвольно размещенными данными в зависимости от удаленности. В большинстве случаев вариограмма является «зеркальным отражением» ковариационной функции и определяется как разность значений дисперсии для данного интервала расстояний. Таким образом, предполагается, что близкие друг к другу объекты будут похожи, так что разность их значений будет мала. По мере дальнейшего удаления объектов друг от друга они становятся менее похожи, поэтому разность их значений станет больше.

Параллельно с построением модели регрессии (GLS) с отбором регрессоров, также оценивается модель с помощью МНК.

Для построения моделей данным методом были рассмотрены остатки регрессионных моделей без учта пространственного фактора. Как видно из приведенных выше моделей остатки существенно отличаются от единицы. Таким образом, можно сделать вывод, что в моделях не учтены пространственные характеристики, которые могли бы повлиять на качество модели.

Далее была построена поверхность остатков, показывающая, как распределены остатки моделей по территории города. Было определено три локальных центра влияния, описанные выше. Кроме того, около этих центров концентрируются объекты с наибольшими положительными остатками. В модели в качестве регрессоров были включены расстояния от всех объектов до локальных центров, рассчитанные как евклидовы расстояния (корень квадратный из суммы квадратов разностей координат).

В модели для логарифма плотности торговых площадей продовольственных магазинов (табл. 3.27) коэффициенты при nasel2, nasel3 (вторая и третья степень логарифма плотности населения) не значимы (соответственно они были исключены из данной модели), а также центр города не играет роли, как при оценке МНК, так и при GLS-оценке. Коэффициенты при пространственных регрессорах больше при GLS-оценке, при некотором ослаблении влияния других регрессоров.

Похожие диссертации на Математические методы и модели анализа пространственной структуры системы городской торговли