Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Математическое моделирование неоднородных социально-экономических совокупностей по случайным выборкам Черепанов Евгений Васильевич

Математическое моделирование неоднородных социально-экономических совокупностей по случайным выборкам
<
Математическое моделирование неоднородных социально-экономических совокупностей по случайным выборкам Математическое моделирование неоднородных социально-экономических совокупностей по случайным выборкам Математическое моделирование неоднородных социально-экономических совокупностей по случайным выборкам Математическое моделирование неоднородных социально-экономических совокупностей по случайным выборкам Математическое моделирование неоднородных социально-экономических совокупностей по случайным выборкам Математическое моделирование неоднородных социально-экономических совокупностей по случайным выборкам Математическое моделирование неоднородных социально-экономических совокупностей по случайным выборкам Математическое моделирование неоднородных социально-экономических совокупностей по случайным выборкам Математическое моделирование неоднородных социально-экономических совокупностей по случайным выборкам Математическое моделирование неоднородных социально-экономических совокупностей по случайным выборкам Математическое моделирование неоднородных социально-экономических совокупностей по случайным выборкам Математическое моделирование неоднородных социально-экономических совокупностей по случайным выборкам
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Черепанов Евгений Васильевич. Математическое моделирование неоднородных социально-экономических совокупностей по случайным выборкам: диссертация ... доктора экономических наук: 08.00.13 / Черепанов Евгений Васильевич;[Место защиты: Московский государственный университет экономики, статистики и информатики].- Москва, 2013.- 349 с.

Содержание к диссертации

Введение

Глава 1. Стохастические методы в социально-экономических исследованиях: состояние и направления развития 20

1.1. Специфика использования стохастического формализма в маркетинговых и социально-экономических исследованиях 20

1.2. Дихотомизация описания социально-экономических систем как основной принцип работы с эмпирическими нечисловыми данными 37

1.3. Проблема полноты и достоверности таблиц эмпирических данных. Статистическое прогнозирование в эконометрических и технико-экономических исследованиях 45

1.4. Статистическая классификация многомерных объектов. Соотношение понятий неопределенности, нечеткости и случайности

Выводы по главе 1 54

Глава 2. Многомерные обобщения гипергеометрического распределения и их асимптотика как основа изучения неоднородных (структурированных) множеств 59

2.1. Многомерные обобщения гипергеометрического распределения (ГГР) 59

2.2. Случайные и квотные оценки в социально-экономических исследованиях. Практическое формирование случайной выборки 71

2.3. Полиномиальное распределение (ПР) и его обобщения 84

2.4. Непрерывные аналоги распределений полиномиального типа для неоднородных совокупностей несчетной мощности 95

Выводы по главе 2 103

Глава 3. Статистические оценки частот встречаемости булевых признаков по случайной неоднородной выборке. Непараметрические полиграммные оценки 106

3.1. Статистические оценки частот встречаемости булевых признаков по случайной неоднородной выборке с использованием обобщений гипергеометрического распределения 106

3.2. Статистические оценки частот встречаемости булевых признаков для категорий населения с использованием обобщений полиномиального распределения 120

3.3. Метод группового анкетирования на «малых выборках» 128

3.4. Полиграммные оценки и их использование при анализе

непрерывных распределений экономических показателей 139 Выводы по главе 3 151

Глава 4. Статистические методы выборочного оценивания в эконометрических исследованиях 153

4.1. Анализ полноты и достоверности данных в эмпирических таблицах значений экономических показателей 153

4.2 Непараметрическое прогнозирование и статистическое планирование экономической динамики 164

4.3. Типологическое пространство, функция сходства и анализ уровня экономических объектов 174

4.4. Статистическая классификация многомерных экономических и технических систем на основе ранговых мер сходства 188

Выводы по главе 4 196

Глава 5. Стохастический анализ потребительских рынков 199

5.1. Математические характеристики потребительских рынков. Количественное описание однотоварного рынка 201

5.2. Статистический анализ потребительских предпочтений (на примере московского рынка табачной продукции) 223

5.3. Стохастический анализ негосударственной пенсионной системы в регионах РФ 231

5.4. Стохастический анализ рынков личного страхования в регионах РФ.. 248

Выводы по главе 5 261

Глава 6. Стохастический анализ социальных и экономических взглядов населения (на примере исследования казачества Юга России) 264

6.1. Цели, инструментарий и методика выборочного обследования казачества Северного Кавказа 264

6.2. Самоидентификация казачества Юга России и отношение казаков к идее о создании казачьей автономии 279

6.3. Изменения в жизни казаков Северного Кавказа . Самооценка казаками своего материального положения 289

6.4. Отношение казаков к несению Государственной службы. Использование метода группового анкетирования на малых 292

выборках в исследовании казачества Юга России

Выводы по главе 6 295

Основные выводы по диссертационной работе 296

Список литературы 300

Введение к работе

Актуальность темы исследования

В России с развитием рыночной экономики резко изменился характер экономических отношений между субъектами хозяйствования, отношение населения к собственности, а производителей к активам, условиям аренды и правилам налогообложения. У органов власти всех уровней резко усилилась потребность в объективной, полной и оперативно получаемой управленческой информации. Одним из основных источников данных о социальном, экономическом, демографическом и экологическом положениях страны сегодня являются результаты выборочных обследований населения и домашних хозяйств.

В настоящее время Федеральной службой государственной статистики страны проводятся регулярные выборочные обследование бюджетов домашних хозяйств и населения, занятости и безработицы, обследования по вопросам экономической активности населения и его потребительских ожиданий. В соответствии с Концепцией социально-экономического развития страны, в ближайшие годы планируется значительно расширить систему регулярных выборочных обследований, включив в нее мониторинг по таким вопросам, как: условия жизни и доходы населения; его участие в социальных программах; качество и доступность услуг в сферах образования, здравоохранения и социального обслуживания; содействия занятости населения; использование труда мигрантов и ряд других вопросов.

Отметим также, что в сферах разработки новых технологий и изделий техники, процессах промышленного производства и торговли для эффективного и рационального управления необходима обработка чрезвычайно больших массивов информации. Сегодня именно на основе выборочных обследований проводят маркетинговые исследования, изучают качество проектируемых и производимых технических систем, поступивших в продажу товаров, эффективность ценообразования и новых форм торговли, совокупный потребительский спрос и степень удовлетворения населения по различным видам товаров и услуг.

Все это обуславливает необходимость широкого использования выборочного метода в социально-экономических обследованиях, основу которого составляет закон больших чисел. Однако его использование требует наличия большого выборочного ансамбля наблюдений, случайным образом отобранных из однородной генеральной совокупности. В реальности любой социум (генеральная совокупность) является заведомо неоднородным множеством, структурированным по различным номинальным (классификационным) шкалам.

В эмпирических социально-экономических работах проблему неоднородности (структурированности) исследуемой социально-экономической совокупности можно решить на основе одного из двух подходов:

создав неслучайную выборку, репрезентативную изучаемой совокупности по многомерной структуре (хотя бы нескольким основным номинальным шкалам);

математически корректно учесть при компьютерной обработке данных различия между структурами генеральной совокупности и выборочного ансамбля.

Существует четыре основных типа неслучайных выборок, среди которых в эмпирических работах, несомненно, доминирует использование квотных выборочных ансамблей. По сути, формирование квотной выборки - синтез эвристических и стохастических элементов ее построения: выбор номинальных шкал носит абсолютно неслучайный характер, но отбор элементов в каждую квоту выборки псевдослучаен.

В этой связи вопрос о корректности применения стохастических выводов к оценкам и их погрешностям, полученным квотными методами, становится весьма дискуссионным. Квотный подход, по самой сути построения квот не может дать оценок частот встречаемости качественных признаков по категориям априорных классификаций, т.е. в принципе невозможен анализ структуры предпочтений и ожиданий населения. Кроме того, создание квотной выборки для населения, проживающего на большой территории, даже по 3-4 номинальным шкалам, дело методически сложное, дорогостоящее, а иногда и практически нереализуемое. И при формировании квотной выборки часто не учитываются многие классификации, которые также создают существенную неоднородность выборочного ансамбля.

Более перспективным является путь математически корректного учета различий между многомерными структурами неоднородной совокупности и случайной выборки ее элементов на этапе компьютерных расчетов. Этот подход пока не нашел заметного развития, хотя, требуя значительного объема компьютерных расчетов, и решает указанную задачу. В этой связи теоретически, методически и практически актуальной является проблема разработки и внедрения методов стохастического анализа и математического моделирования неоднородных совокупностей на основе случайных выборок, решению которой и посвящена диссертационная работа.

Степень разработанности проблемы.

В социально-экономических приложениях однородные выборочные ансамбли встречаются редко. Поэтому статистическая теория, развиваемая в фишеровских традициях, и выборочная методология, включая анализ эмпирических данных, в силу специфики стохастического анализа реальных совокупностей (неоднородность и малые объемы выборок, наличие «выбросов», ошибки в эмпирических таблицах данных, наличие смесей распределений), зачастую плохо работают в этих условиях.

С 60-х гг. XX в. стало принято отличать методы прикладной статистики (или, как их чаще называют на Западе, «анализа данных») от методов математической статистики. В 70-х гг. в развитии количественных методов социально-экономических исследований произошел «резкий скачок», в явном виде выделились 4-е направления разработки новых методов анализа данных и математического моделирования:

устойчивых к нарушениям априорных предпосылок (непараметрических и робастных) процедур оценивания характеристик непрерывных распределений;

анализа качественных (нечисловых) показателей (признаков);

классификации сложных многомерных объектов и систем;

прогнозирования многомерных последовательностей показателей.

Большой вклад в развитие прикладной статистики и многомерного анализа данных был внесен западными учеными, среди которых особенно выделяются труды Т. Андерсена, П. Бикеля, Г. Бокса, Г. Бриллинджера, Я. Гаека, М. Гупты, Э. Дидэ, Г. Дженкинса, Г. Дэйвида, М. Кендалла, Р. Литтла, Ф. Мостеллера, Д. Роджерса, А. Стюарта, Дж. Тьюки, Ф. Хампеля, М. Холлиндера, П. Хубера, Д. Эндрюса и др.

Не менее велик вклад в развитие математических и эконометрических методов социально-экономических исследований крупных российских ученых С.А. Айвазяна, Ю.И. Алимова, М.Г. Дмитриева, A.M. Дуброва, А.А. Ершова, Э.Б. Ершова, Н.Г. Загоруйко, B.C. Мхитаряна, А.И. Орлова, B.C. Пугачева, Г.В. Раушенбаха, Ф.П. Тарасенко, Ю.Н. Толстовой, В.Н. Тутубалина, Ю.Н. Тюрина и ряда других.

Важные результаты по развитию стохастической теории и эконометрического аппарата социально-экономических и социальных исследований, распознаванию образов, статистической классификации, факторному анализу, прогнозированию и смежным вопросам получили В.А. Балаш, Ю.Г. Дмитриев, Т.А. Дуброва, С.А. Дубровский, И.С. Енюков, Г.С. Жукова, А.О. Крыштановский, Г.С. Лбов, Ю.П. Лука-шин, Л.Д. Мешалкин, Б.Г. Миркин, В.И. Паниотто, А.Б. Пересецкий, А.Г. Постников, П.С. Ростовцев, С.А. Смоляк, В.И. Соловьев, Г.Г. Татарова, Н.П. Тихомиров, Б.П. Титаренко, Ю.К. Устинов, А.А. Филиппова и ряд других ученых.

Основные результаты, полученные в диссертационном исследовании, относятся к нечисловой статистике. Заметим, что анализ объектов нечисловой природы лежал в истоках всей стохастической математики (схема испытаний Бернулли, задачи выбора, с возвращением и без него, «разноцветных» шаров из урны). Именно при изучении этих явлений были получены теорема Муавра-Лапласа, биномиальное, Пуассона, гипергеометрическое и полиномиальное распределения. А в середине XX в. была создана методология статистического анализа качества массовой продукции, в основе которой лежат труды А.Н. Колмогорова, Б.В. Гнеденко и Б.Г. Литвака.

Разработка методов нечисловой статистики неразрывно связана с совершенствованием выборочной методологии. Интересные взгляды на природу случайности и репрезентативности выборочных ансамблей высказывались в работах А.А. Давыдова, Ф.Н. Ильясова, П.М. Козырева и М.С. Косолапова. Наиболее полное представление о современных взглядах на проведение выборочных обследований дают широко известные монографии западных исследователей У. Кокрена, Ф. Иейтса и Л. Киша. К сожалению, последняя из указанных работ на русский язык не переводилась.

Но и сегодня существует большое число (общих и частных) проблем в методиках анализа реальных социально-экономических данных (количественных и качественных). Решению некоторых из этих задач и посвящена диссертационная работа.

Цель и задачи исследования. Целью диссертационного исследования является разработка комплекса методов для моделирования неоднородных социально-экономических совокупностей на основе анализа случайных выборочных ансамблей ее элементов, характеризуемых качественными и количественными признаками.

Для достижения цели работы были поставлены и решены следующие задачи:

  1. проанализировать вероятностную основу выборочной методологии на совокупностях неоднородных данных, как основного научного инструментария эмпирических социально-экономических исследований;

  2. провести сравнительный анализ методик работы на квотных и случайных выборках; исследовать вопрос о стохастической корректности использования квотной методологии на выборках неоднородных (структурированных по априорным номинальным шкалам) экономических наблюдений;

  3. получить многомерные обобщения гипергеометрического и полиномиального распределений, которые адекватно описывают в эмпирических социально-экономических исследованиях случайный отбор элементов неоднородных совокупностей в выборочный ансамбль;

  4. получить непрерывные аналоги многомерных обобщений полиномиального распределения, описывающие случайное формирование «выборочных ансамблей» из неоднородных экономических совокупностей, заданных векторами непрерывных стохастических переменных;

  5. разработать методы статистического оценивания частот встречаемости качественных признаков, используя случайные выборки из неоднородных социально-экономических совокупностей, как в целом по исследуемой совокупности, так и среди ее априорных классификационных категорий;

  6. разработать и апробировать методику группового анкетирования на малых выборках, позволяющую получать количественные результаты при небольших объемах выборочной информации;

  7. разработать и математически обосновать методику количественного маркетинга потребительских рынков конкурентных товаров, позволяющую выявлять предпочтения различных категорий покупателей;

  8. разработать полиграммный метод непараметрического оценивания интегральных функционалов, линейно зависящих от функции плотности вероятностей аналитически неизвестного непрерывного распределения, который позволяет получить значения характеристик эмпирических распределений экономических показателей;

  1. разработать методы оценивания недостающих и недостоверных значений показателей в эмпирических таблицах экономических данных;

  2. разработать и апробировать методику непараметрического прогнозирования экономической динамики по короткой ретроспективе наблюдений;

  3. разработать и апробировать комплексную выборочную методологию выявления доминант предпочтений и ожиданий населения и его социально-демографических категорий по широкому спектру социально-экономических и общественно-политических проблем в целях повышения эффективности социальной политики;

  4. разработать и апробировать методику непараметрического анализа мер сходства и статистической классификации многомерных объектов техники и экономики, а также их ранжирования по уровню развития (качеству).

Объект исследования: неоднородные экономические и социально-экономические совокупности, элементы которых определены значениями конечного набора качественных и количественных показателей.

Предмет исследования: методы стохастического анализа и математического моделирования неоднородных экономических и социально-экономических совокупностей, многомерная структура и свойства которых оценивается по случайным выборочным ансамблям из элементов этих совокупностей.

Теоретическая и методологическая основа исследования включает труды отечественных и зарубежных ученых по стохастическому моделированию социально-экономических систем, методам выборочного оценивания и нечисловой статистике, эконометрике и многомерному анализу данных, прогнозированию экономической динамики, классификации и ранжированию сложных многомерных объектов.

Область исследования. Исследование выполнено в рамках Паспорта отрасли наук «Экономические науки», специальности по коду ВАК Минобрнауки РФ -08.00.13 «Математические и инструментальные методы экономики», пунктов:

1.1. Разработка и развитие математического аппарата анализа экономических систем:
математической экономики, эконометрики, прикладной статистики, теории игр,
оптимизации, теории принятия решений, дискретной математики и других методов,
используемых в экономико-математическом моделировании.

1.2. Теория и методология экономико-математического моделирования, исследование
его возможностей и диапазонов применения: теоретические и методологические
вопросы отображения социально-экономических процессов и систем в виде
математических, информационных и компьютерных моделей.

1.9. Разработка и развитие математических методов и моделей анализа и прогнозирования развития социально-экономических процессов общественной жизни: демографических процессов, рынка труда и занятости, качества жизни населения.

Информационная база диссертационной работы.

Фактографический материал диссертации составляют данные Института экономики и комплексных проблем связи (Институт «ЭКОС»), Института системных исследований и социологии (ИСИС), Академии менеджмента инноваций (АМИ), Информационно-аналитического агентства «МиК - Маркетинг и Консалтинг» (ИАА «МиК»), Сетевого агентства «Young & Rubicam Inc.», Информационно-аналитического агентства «Регион-Информ», данные Росстата и сети Интернет по исследуемой тематике. В диссертации также были использованы результаты исследований и разработок, выполненных под руководством и при непосредственном участии автора:

«Разработка аналитической подсистемы автоматизированной интегрированной базы данных для Государственной корпорации "Ростехнологии"» (2009-2010 гг.);

«Особенности региональной специфики и самоидентификации современного казачества Юга России в процессе модернизации гражданского общества» (2011 г.);

«Анализ потребительского рынка табачных изделий г. Москвы (2009 г.);

«Анализ рынков пенсионного страхования в регионах РФ (2006 г.)»;

«Анализ региональных рынков страхования от несчастных случаев» (2006 г.).

Научная новизна и теоретическая значимость исследования состоит в решении важной научной проблемы разработки методов анализа и математического моделирования неоднородных социально-экономических совокупностей по случайным выборкам, что имеет большое теоретическое и прикладное значение для планирования в экономике, изучения потребительских рынков и подготовки управляющих решений в области социально-экономической политики.

На основе проведенного исследования сформулированы основные научные результаты, полученные лично автором и выносимые на защиту.

  1. Разработана теоретико-вероятностная модель процесса формирования случайных выборочных ансамблей из неоднородных социально-экономических совокупностей, характеризуемых количественными и качественными признаками, в основу которой положены обобщения гипергеометрического и полиномиального распределений.

  2. Проведен сравнительный анализ оценки частот встречаемости качественных признаков на основе квотной методологии и методов случайного формирования выборки; показано, что оценивание по случайным выборкам позволяет значительно повысить точность оценок и полноту описания изучаемой социально-экономической системы, снизить стоимость и повысить оперативность получения эмпирических данных (за счет случайного формирования выборочного ансамбля).

3. Разработаны и исследованы многомерные распределения, являющиеся
обобщениями гипергеометрического и полиномиального распределения, которые
адекватно и математически корректно описывают формирование случайного
выборочного ансамбля из неоднородной социально-экономической совокупности.

4. Предложено вероятностное обоснование для выборочного метода на множествах,
описанных непрерывными показателями; найдены соответствующие распределения,
получены выражения для первых моментов, моды и ковариаций этих распределений.

  1. Разработаны и исследованы методы оценивания частот встречаемости качественных признаков по случайным выборкам, как для неоднородных социально-экономических совокупностей в целом, так и для их априорных классификационных категорий. Это позволяет существенно повысить точность получаемых результатов, снизить стоимость получения фактографических данных и повысить полноту описания изучаемой неоднородной совокупности, позволяя получить структуру предпочтений и ожиданий покупателей (населения, электората).

  2. Разработана и математически обоснована методика анализа многоаспектных и сложных социально-экономических проблем по выборкам малого объема, являющаяся формально корректным аналогом метода «фокус-групп», который широко применяется при анализе потребительских рынков и социально-экономических ожиданий и предпочтений населения. Предложенный метод позволяет получать, наряду с качественными (описательными), и количественные результаты анализа потребительских рынков и социально-экономических ожиданий населения.

  3. Предложена методика количественного маркетингового исследования потребительских рынков конкурентных товаров, основанная на анализе случайного выборочного ансамбля покупателей, которая позволяет объективно выявлять совокупный потребительский спрос и предпочтения различных категорий покупателей.

8. Разработан непараметрический метод полиграммного оценивания интегральных
функционалов, зависящих от функции плотности вероятностей аналитически
неизвестного непрерывного распределения; получены непараметрические
асимптотически нормальные и несмещенные оценки полиграммного типа для первых
моментов и моды таких распределений.

  1. Предложен и математически обоснован непараметрический метод оценивания недостающих и недостоверных показателей в эмпирических таблицах экономических и финансовых данных; метод позволяет повысить точность результатов за счет его циклического характера и использования свойств ранговых статистик.

  2. Разработан метод статистического прогнозирования экономической динамики, использующий процедуру непараметрического экстраполирования последовательностей значений экономических показателей по короткой ретроспективе данных. Метод основан на использовании аппарата конечных разностей, факторном анализе показателей, ранговых корреляциях и свойствах порядковых статистик, что позволяет повысить точность прогноза при наличии короткой ретроспективы наблюдений.

  3. Предложена и апробирована методика выявления доминант предпочтений и ожиданий населения в целом и его социально-демографических категорий по

широкому спектру социально-экономических и общественно-политических проблем, которая основана на анализе случайных выборок. Методика значительно повышает полноту описания изучаемой совокупности населения, что позволяет повысить объективность и эффектность планирования мероприятий социальной политики. 12. Разработана методика непараметрического анализа мер сходства многомерных экономических объектов, их статистической классификации и ранжирования по уровню развития. Меры сходства экономических объектов формируются стохастически с использованием свойств порядковых статистик. Методика ранжирования объектов по их уровню, которая основана на выявлении классов эквивалентности мажорант по отношению Парето, использовании компонентного анализа и свойств ранговых статистик, позволяет реализовать многокритериальный отбор (в заданном смысле) лучших экономических объектов.

Практическая значимость диссертационной работы.

Разработанные в диссертационном исследовании методы анализа неоднородных социально-экономических совокупностей, описанных качественными признаками, на основе использования случайных выборочных ансамблей их элементов позволяют:

значительно повысить точность оценивания и полноту описания предпочтений и ожиданий потребителей (населения, хозяйств) по сравнению с квотными методами при маркетинге потребительских рынков и социально-экономических обследованиях;

получать математически корректные количественные результаты при малых объемах выборочных данных обследований населения (покупателей), что дает возможность повысить адресность и эффективность рекламных кампаний и мероприятий, связанных с проведением социально-экономической политики;

повысить оперативность «полевых» исследований и снизить затраты на получение фактографической информации при проведении социально-экономических и маркетинговых обследований за счет случайного формирования выборки.

Основные теоретические результаты автора были успешно апробированы в эконометрических, социально-экономических, маркетинговых и технико-экономических исследованиях, выполненных для крупных отечественных и зарубежных компаний (Институт «ЭКОС», «Регион-Информ», «МиК - Маркетинг и Консалтинг», «Young & Rubicam Inc.» и др.), банков и финансово-промышленных групп («Газпромбанк», «Менатеп», «Союз-Интеграция», «Инкомбанк» и др.).

В 2011г. под руководством и при непосредственном участии автора было успешно проведено «социально значимое» комплексное научное исследование «Особенности региональной специфики и самоидентификации современного казачества Юга России в процессе модернизации гражданского общества», которое имело статус президентского гранта (в соответствии с Распоряжением Президента РФ от 08.05.2010 г. № 300-рп).

Апробация результатов диссертационной работы.

Изложенный в диссертации материал был апробирован на 24 Международных, Всесоюзных, Всероссийских и отраслевых научных конференциях, в том числе на:

XI Международной научно-практической конференции «Научная дискуссия: вопросы экономики и управления». М.: Международный центр науки и образования. -2013 г.;

Международной научно-практической конференции «Мировая наука и современное общество: актуальные вопросы экономики, социологии и права». Саратов: Центр профессионального менеджмента «Академия бизнеса». - 2013 г.;

Всероссийской научной конференции «Социологические методы в современной исследовательской практике». М.: НИУ ВШЭ, ИС РАН. - 2011 г.;

IX Всероссийской научно-практ. конфер. «Актуальные вопросы современной экономической науки и практики». Тверь: Центр экономических исследований. - 2013 г.;

IV Всероссийской научной конференции «Современные проблемы формирования методного арсенала социолога». М.: ГУ ВШЭ, ИС РАН. - 2010 г.;

XI отраслевой научной конференции «Проблемы технико-экономических исследований промышленности средств связи». М.: НИИ «ЭКОС». - 1990 г.;

IV Сибирской научно-практической конференции по надежности научно-технических прогнозов. Новосибирск: ВСНТО. - 1987 г.;

V Всесоюзной школе-семинаре «Непараметрические и робастные методы статистики». Красноярский край, г. Шушенское: Томский Госуниверситет. - 1986 г.;

III Сибирской научно-практической конференции по надежности научно-технических прогнозов. Новосибирск: ВСНТО. - 1984 г.;

IV Всесоюзном научном симпозиуме «Машинные методы обнаружения закономерностей». Новосибирск: ИМ СО АН СССР. - 1983 г.;

II Всесоюзной научной конференции «Оптимальное планирование и управление народным хозяйством». М.: ЦЭМИ АН СССР. - 1983 г.;

I Всесоюзной научной конференции «Математические методы распознавания образов». М.: ВЦ АН СССР. - 1983 г.

Публикации. По теме диссертации опубликовано 3 монографии (43,4 п.л.), 10 учебных пособий (34,7 п.л., авт.- 26,1 п.л.), 127 научных статей (94,8 п.л., авт.-68,6 п.л.), в том числе 22 - в рецензируемых изданиях, рекомендованных ВАК Минобрнауки РФ (38,1 п.л., авт.- 25,6 п.л.).

Структура диссертационной работы. Работа состоит из введения, шести глав, заключения и списка литературы, который содержит библиографические ссылки на 310 отечественных и зарубежных публикаций.

Дихотомизация описания социально-экономических систем как основной принцип работы с эмпирическими нечисловыми данными

Предметом исследования в прикладной статистике служат массивы данных, которые, как правило, трактуются как выборки из изучаемой генеральной совокупности. Традиционно данные подразделяют на два больших класса – количественные и качественные. Количественные данные представляют собой массив (обычно, действительных) чисел и измеряются в «сильных» шкалах. Качественные данные являются свойствами наблюдений, которые (по крайней мере, в традиционном понимании) в числах не выражаются. Например, мы обследуем выборку москвичей. Каждое «наблюдение» этой выборки обладает числовыми характеристиками (рост, доход, возраст, вес, размер обуви и т.п.) и качественными (нечисловыми - национальность, профессия, семейное положение, партийность, район и условия проживания и др.). Измерение в сильных шкалах, в большинстве случаев, представляет собой сопоставление результата опыта с некоторым эталоном, в качестве которого могут выступать любые оговоренные объекты (рубль или доллар, метр или парсек, тонна или масса покоя электрона и т.д.). Здесь уместно небольшое отступление. В изданном в 1637 г. трактате «Геометрия» Рене Декарт переосмыслил базовые принципы античной математики. Основным его достижением стал тот факт, что в европейскую математику пришло число «нуль», которое для философов Древней Греции, мыслящих натуралистически было нонсенсом [288, гл.2,3,16, Заключение]. Соответственно, в книгах «Начал» Евклида о математической точке, поверхностях и линиях нулевой толщины и т.п. объектах не могло быть и речи. (Матвеенков А.Т. К вопросу реконструкции некоторых забытых «Начал» Евклида. М.: 1997). Использовав понятие числа «нуль», пришедшее в Европу в начале XII веке из мавританских университетов, а также введя понятия переменной величины и функции, Р. Декарт описал в «Геометрии» свое видение евклидовой геометрии, которое по смыслу радикально отличалось от понимания геометрии самим Евклидом. В будущем это привело, помимо создания И. Ньютоном и Г. Лейбницем исчисления бесконечно малых, к принципиально иному, новому пониманию самих категорий «единица» и «число». В рамках античной традиции, «число» - это количество естественных «единиц», изначально возникших при создании Мироздания [137]. После переосмысления основ математики Р. Декартом «под числом мы понимаем не столько множество единиц, сколько отношение некоторой величины к другой величине того же рода, принятой (курсив мой. – авт.) нами за единицу» (И. Ньютон, «Всеобщая арифметика или книга об арифметических синтезе и анализе»).

В том случае, если в одном и том же наблюдении измеряются несколько количественных и/или качественных признаков, говорят о наличии векторного измерения. Причем (с позиций математической теории и здравого смысла) наблюдения в выборке должны быть однородны. Это условие является непременной априорной предпосылкой использования стохастического формализма в приложениях (см. п. 1.1). Следовательно, начальным этапом любого статистического исследования, что подчеркивает в своих работах Ю.Н. Толстова [232,237], является составление методики получения и описание результатов наблюдений.

В прикладной статистике иногда применяется процесс цензурирования данных. В этих случаях из выборочного ансамбля исключается некоторое (небольшое) число наблюдений (измерений). Причем цензурированные данные могут быть количественными (числовыми) и качественными. Процесс цензурирования может осуществляться как из формальных (например, исключение «грубых выбросов», аномальных значений [77] показателей), так и из абсолютно неформальных соображений. Пусть, рассматривается последовательность экономических показателей о некоторой отрасли промышленности России. Но имеет смысл рассматривать ретроспективные данные только с 1999 г. по настоящее время. В 1998 году (в силу дефолта) произошел «скачок в развитии» (термин, принятый в прогнозировании), вследствие чего данные до 1999 года описывают некоторую иную (чем сегодня) экономическую систему. И не могут быть корректно использованы в проводимом исследовании.

Для измерения признаков, зафиксированных в наблюдении, применяют различные шкалы. Каждый из используемых типов шкал определяет группу допустимых преобразований этой шкалы. Основное требование, принятое в теории измерений [178, гл.1; 194,231-234,237], гласит: выводы, полученные на основе данных, измеренных в некоторой шкале, не должны измениться при допустимом преобразовании этой шкалы.

Шкалы измерений подразделяют на сильные и слабые. В сильных шкалах измеряются количественные (числовые) признаки, в слабых – качественные. К сильным шкалам относятся абсолютные и интервальные шкалы, шкалы разностей и отношений. К числу основных слабых шкал относятся ранговые и порядковые, а также шкалы наименований (или номинальные шкалы), которые предназначены для классификации.

Абсолютные шкалы – это числовые шкалы, которые подразделяют на дискретные (с конечным или счетным числом значений) и недискретные. Из недискретных шкал наиболее часто используются непрерывные шкалы и шкалы, у которых не более чем счетное число разрывов справа, но слева во всех точках разрыва они непрерывны. Для абсолютных шкал допустимыми являются только тождественные преобразования.

Интервальная шкала образуется из абсолютной путем ее разбиения на конечное или счетное число непересекающихся интервалов. Таким образом, интервальная шкала представляет собой некоторое «огрубление» абсолютной, производимое в силу практических потребностей. Скажем, при построении непараметрических оценок плотности функции вероятностей непрерывной стохастической переменной (гистограммы или полиграммы) ось действительных чисел разбивают на конечное число интервалов. В шкале интервалов измеряются величины, для которых не удается указать ни естественное начало координат, ни естественную единицу измерения. Пример – положение точки на прямой. Для шкал интервалов допустимы любые монотонно возрастающие преобразования.

Для шкалы разностей характерно отсутствие «естественного» нуля (начала координат), но зато существуют «природные» единицы измерения. Как указывает А.И. Орлов [178, гл.1], мировое время измеряется в шкале разностей. С этим, вообще говоря, следует согласиться. Поскольку существуют естественные единицы измерения (сутки, год, стабильные периоды колебаний в молекулах и атомах и др.), но естественное начало отсчета времени сегодня точно указать нельзя.

Случайные и квотные оценки в социально-экономических исследованиях. Практическое формирование случайной выборки

До настоящего времени наблюдается тотальное использование квотных методик в социальных [102,103,182,232-235] и маркетинговых [59,126,179,303] исследованиях, остановимся на специфике их применения. Рассмотрим вначале однородные данные, подчиненные одномерному ГГР.

С удовлетворительной для приложений точностью, ограничимся значениями оценок погрешностей «сверху» для «прямых» оценок частот встречаемости булевых признаков У = mn. (2.15)

Учитывая, что при массовых социологических опросах (n«N), выражение для дисперсии ГГР [212, п.6.1.6] можно записать в виде

И для оценки погрешности частоты встречаемости V (на уровне доверительной вероятности не менее 0.9) по непараметрическому правилу «трех сигм» находим 8 = 3 DР = 3ylv(1-v)/n 32лn. (2.17)

В формуле (2.17) учтено, что максимум дисперсии Dv достигается при значении у =0.5 Используя это соотношение, легко вычисляются значения гарантированных погрешностей для «прямых» оценок (2.15) частот встречаемости дихотомического признака, подчиненного ГГР, в зависимости от п. Интересны и «обратные» оценки: каковы должны быть объемы выборки для заданных уровней гарантированной погрешности. Из неравенства (2.17) получаем приближение: Соответствующие данные приведены в табл. 2.1.

Заметим, что для (традиционных в выборочных обследованиях населения) объемов выборки порядка 2.0 тыс. человек гарантированная погрешность частоты равна примерно 3.5%, как обычно и указывается в публикациях. Но для точности оценок в 2% нужно уже порядка 5.5 тыс. наблюдений, а гарантия погрешности в 1% потребует опроса 22.5 тыс. респондентов. Важно и то, что, если нас интересуют статистические выводы по некоторой немногочисленной категории населения, то численность этой категории в репрезентативной выборке должна составлять (при разумном пороге точности в 5%) не менее 600 (!) человек.

Это значит, например, что для категории, которая составляет 5% населения (скажем, «военнослужащие в Краснодарском крае» или «грузины в Хакасии») нам потребуется квотная выборка порядка 12 тыс. человек. Практически методом квотного опроса это нереализуемо.

Хотя квотные методики исследования предпочтений потребителей и общественных ожиданий сегодня используются повсеместно, автор не нашел ни одной печатной публикации, в которой математически строго обосновывалась бы правомерность применения квотных статистических методов в социально-экономических и социологических исследованиях.

Описание и использование квотных выборок

Но по самому их построению квотные выборки, строго говоря, являются искусственными, а не случайными ансамблями элементов изучаемой совокупности. Следовательно, корректность полученных на них статистических выводов требует серьезного обоснования. Этот вопрос автор относительно полно рассмотрел в работах [279,280,282,289,290].

Рассмотрим суть квотного отбора. Пусть, как и ранее, население имеет априорные классификации по s номинальным шкалам, причем у-я шкала имеет г категорий. Тогда генеральная совокупность разбивается на г = П/7 непересекающихся подмножеств («квотных групп») численностью дг (/=1,7) . Частота встречаемости лиц 1-й «квотной группы» из генеральной совокупности, обозначим ее (=1, -) ,

Пример. Пусть построение квотной выборки производится по трем шкалам наименований: «пол», «уровень образования», «возраст». Первая шкала имеет два значения (г1 = 2). Вторая шкала (к=2) имеет три значения (г2= 3): «неполное среднее», «среднее» и «высшее» образование. Третья шкала (к=3) имеет четыре значения (г3 = 4): «молодежь» (до 30 лет), «лица среднего возраста» (31-45 лет), «зрелые люди» (46-60 лет) и «пожилые» (старше 60 лет). Тогда г = 2 3 4 = 24. Добавим четвертую номинальную шкалу - «национальность», например, с 15 значениями («русск.», «укр.», …, «калмык», «проч.»). Тогда число «квотных групп» возрастет до г = 15 24 = 360. И формирование такой квотной выборки становится практически нереальным. При квотном отборе, псевдослучайная выборка объема п всегда формируется (соответственно числу квот) путем г стохастически независимых случайных отборов (по каждой из квотных подвыборок) объемами Пщ . Вероятность получить вектор наблюдений т = { 1т2 ,..т ,} из лиц, обладающих изучаемым булевым признаком и входящих в соответствующую «квотную группу», равна наблюдений, обладающих изучаемым признаком, при квотном отборе определяется выражением, которое назовем распределением квотного отбора (РКО) По-видимому, путем комбинаторных преобразований, РКО можно придать вид, более обозримый, чем (2.20). Но в силу произвольности значений частот vy (=1,г), очевидно, что невозможно привести (2.20) к многомерному СГГР, математически строго определяющему случайный отбор. Следует ли отсюда, что квотный опрос со стохастической точки зрения некорректен для оценки частоты встречаемости заданного признака в исследуемой генеральной совокупности? Нет, не следует.

Статистические оценки частот встречаемости булевых признаков по случайной неоднородной выборке с использованием обобщений гипергеометрического распределения

В работе рассмотрены: структурированное биномиальное распределение (СБР), которое определяет вероятность того, что в случайной выборке из неоднородной совокупности обнаружено фиксированное число лиц -й категории заданной классификации, конкретное число которых обладают данным признаком;

условное биномиальное распределением (УБР), которое может использоваться в процедурах статистического оценивания частот встречаемости дихотомических признаков по категориям неоднородной совокупности;

распределение структурированной выборки (РСВ), которое определяет вероятность, что в случайной выборке окажется: (а) по данной классификации структура выборочного ансамбля имеет определенный вид; (б) изучаемый булев признак зафиксирован в виде заданного вектора;

многомерное биномиальное распределение (МБР) и условное полиномиальное распределение, которые (см. главу 3) могут быть использованы при построении выборочных оценок частот встречаемости дихотомических признаков по населению (покупателям, домохозяйствам, электорату) в целом и его социально-демографическим категориям.

4. Разработано и исследовано стохастическое описание выборочного метода для неоднородных совокупностей несчетной мощности, которые описаны случайными векторами непрерывных показателей. Найдены виды непрерывных распределений, адекватно отражающие процесс формирования «непрерывных выборок» в двух принципиально различных случаях формирования выборочного ансамбля из несчетного множества, заданного конечным числом непрерывных переменных. Получен вид характеристик этих распределений (моменты, ковариации, моды).

Найдена связь между «непрерывным полиномиальным распределением» и распределением Дирихле. Показана пригодность «структурированного непрерывного полиномиального распределения» для описания совокупного спроса на многотоварном потребительском рынке.

Статистические оценки частот встречаемости булевых признаков по случайной неоднородной выборке с использованием обобщений гипергеометрического распределения

Выборочные оценки частот встречаемости булевых признаков по совокупности в целом с использованием МСГГР

На основе обобщений гипергеометрического распределения (ГГР), предложенных в п. 2.1, возможны различные виды состоятельных оценок частот встречаемости дихотомических признаков как по совокупности в целом, так и по категориям ее априорных классификаций. Ниже приведен относительно простой метод, позволяющий получить стабильные и достаточно точные оценки частот встречаемости нечисловых признаков.

Используя условное распределение структурированной выборки (2.11), «грубую» оценку частоты встречаемости k–го исследуемого дихотомического признака (k = 1,p) среди лиц у-й категории /-й классификации (/ = 1 ) запишем в виде Обычно величины пк( ) и п (і) оказываются малы, поэтому оценки (3.1) используются только как вспомогательные. С учетом того, что все стохастические переменные пк(і) (которые стохастически независимы) подчинены ГГР вида hy[nh(І) Vh(І),П .(/)] , их дисперсии (при условии 1 n N) приближенно вычисляются в виде D k(i) = k(i) [ 1- k(i) ] / n-1(i) - N 1(i) ] . (3.2) Пусть /-я номинальная шкала имеет г. категорий классификации. 107 Определим оценку вида (k = YI О.(/) k (i) . (3.3) Дисперсия оценки (3.3) равна D ( =Yr [0(i) 2 D (i) ; i = 1,s. (3.4) Тривиально показать состоятельность и несмещенность оценок (k (к=1, р ; i=1, s) Каждую из s оценок (3.3) можно рассматривать как измерение искомой частоты встречаемости к-го признака, погрешность которого определена дисперсией (3.4). Заметим, что идея получения итоговой оценки в виде линейной суперпозиции ее неравноточных измерений соответствует естественнонаучной традиции обработки результатов экспериментов [158,171,202] в области физических наук. Запишем итоговую оценку в виде:

Для вычисления их дисперсий имеет вид После нахождения решения а\а системы уравнений (3.11), пара метр ОС определится из условия (3.9). Таким образом, реализация услов-ного критерия (3.8) сводится к решению системы уравнения (3.11).

Методы оценки ковариаций Ск подробно описаны в статье [4]. Но при работе с реальными данными выяснилось, что матрица С часто оказывается вырожденной и ее приходится аппроксимировать в некотором смысле «ближайшей» к ней невырожденной матрицей (для аппроксимации использовались методы, заимствованные из работы [57]). При этом возникает дополнительная ошибка, оценить величину которой аналитически не удается. Кроме того, оказалось, что в абсолютном большинстве случаев значения С . по модулю на два-три порядка меньше, чем значения D V(i).

Поэтому учет ковариаций в выражении для итоговой оценки дисперсии частоты (3.6) практического смысла не имеет и, как правило, является попыткой уточнить результат за пределами точности вычислений.

Содержательно сказанное понятно: оценивание частот встречаемости с помощью разных (и по своему смыслу практически между собой не связанных) номинальных шкал дает слабо коррелируемые результаты.

Поэтому vk (i) на практике, в первом приближении, можно считать стохастически независимыми.

Непараметрическое прогнозирование и статистическое планирование экономической динамики

Под объектом мы будем понимать наблюдение, выраженное вектором признаков, измеряемых в числовых шкалах (в том числе -дихотомической). Пусть множество Х, состоит из элементов х є X.

Любая классификация, в том числе и социально-экономическая, всегда основана на анализе какой-либо меры близости [195] многомерных объектов. Функцию S( х,у ), заданную на декартовом произведении Х Х, вида S: X X (0,1 ] называют мерой близости элементов множества Х в том случае, если выполнены аксиомы:

(а) условие нормировки: V х є X: S(x, х) = 1 (4.46) (мера близости S любого элемента х «к самому себе» равна 1);

(б) условие симметричности: Ух,уеХ: S(x,y) = S(y,x). (4.47)

Для того чтобы мера близости (сходства, подобия), определенная на основе аксиом (4.46-47), стала «рабочей», нужно договориться о том, как измеряется расстояние между парами элементов Х, т.е. определить на Х некоторое метрическое пространство [123, гл. 3,4].

Заметим в связи со сказанным, что в монографии Г.Г. Татаровой [218], посвященной вопросам социальной типологизации, сразу же после определения меры S( х,у ) приведены некоторые часто используемые величины такого рода (с.213). Но очевидно, что все они определены не просто для множества наблюдений Х, а на нормированных пространствах [123, гл. 3], построенных на Х. Метрика , определенная на множестве Х, представляет собой отображение вида ,о:Х Х- 91ф, где 91е-множество неотрицательных чисел, при условии выполнения аксиом:

Легко понять, что аксиомы (4.48) и (4.49), являясь аналогами аксиом меры подобия (4.46,47), описывают «сходство» наблюдений «с противоположной позиции». Условие (4.50) («аксиома треугольника») - обобщение той «истины», что «прямая есть кратчайшее расстояние между двумя точками».

Определим функцию сходства наблюдений. Причем сделать это наиболее удобно в стохастическом смысле. Пусть нормированное пространство N определено на множестве наблюдений Х. Производится опыт, состоящий в том, что из множествах случайным образом выбирается его элемент х. Оказывается, что норма [123, п.3.3] х равна г(х). В результате серии из п таких опытов образуется статистика вида {r1,r2,...,rn}. Величина г в описанной серии опытов (по схеме Бернулли) ведет себя как стохастическая переменная и, следовательно, имеет некоторое распределение Ч (г).

Функцией распределения нормы (фр.н.) Ч(г) элементов множества X, на котором определено нормированное пространство N, назовем вероятность того события, что норма наугад выбранного элемента х є N окажется меньше г:

V г0 є 9? : Y(r0) = Pr { r(x) r0 } , (4.5l) где r(x) - норма случайно выбранного наблюдения xeN, а Pr { … } -вероятность события { … }. Приведенное определение ф.р.н. является строгим, но опирается не на описание вероятности по А.Н. Колмогорову [94-98], а на описание вероятности по Мизесу -Смирнову - Виллю - Постникову [20,21,190,206,251,252].

Типологическим пространством назовем пару Т = (N, ), где N -нормированное пространство на множестве Х, а - функция сходства наблюдений из N. Впервые идея типологического пространства была предложена в работе [283], затем развита в монографиях [289,290].

Возникает естественный вопрос: а нужны ли все эти достаточно нетривиальные математические построения, нельзя ли ограничиться метрическим пространством, на котором задана любая мера близости наблюдений S, подчиненная аксиомам (4.46-47)?

Можно все, что не запрещено. Скажем, ничто не запрещает нам в качестве меры близости наблюдений в метрическом пространстве М = (Х,р) использовать выпуклую «вниз» функцию S = exp (-/?( ,;/)), или функцию S = ехр (-р2(х,у)), имеющую точку перегиба. Но выбранный способ определения меры подобия S в высокой степени предопределит результаты итоговой классификации. В этой связи становится непонятно, что же мы реально изучали: близость пар наблюдений или собственные домыслы о виде меры их сходства.

Привлекательность функции сходства в состоит в том, что типологическое пространство объективно описывает подобие наблюдений всего изучаемого ансамбля.

Пусть расстояние между данной парой элементов из метрического пространства М равно конкретному числу р. Много это или мало? Неясно, нет ориентиров для ответа на этот вопрос.

А в случае типологического пространства Т = (N, в) всегда существует некоторая ф.р.н. (г), совершенно неважно, является она эмпирической или задана теоретически. Но важно, что всегда 6{x,y) = \-4(p(x,y)), а это задает «геометрию» группировки всех наблюдений. И становится понятно, что же в действительности означает тот факт, что расстояние между фиксированной парой наблюдений равно конкретному числу р.

Замечание. Топологическим пространством, заданным на абстрактном множестве X, называется пара (Х,т), где топология г -система аксиом [18,123], задающих «правила» принадлежности границ всевозможных подмножеств X. Итак, типологическое пространство является частным случаем нормированного пространства, нормированное - метрического, а метрическое - частным случаем топологического пространства.

Вопрос состоит в том, как практически задать функцию сходства, учитывая, что в реальности практически всегда отсутствует какая-либо априорная информация об аналитическом виде (г). Применение методов параметрической статистики в социально-экономических и социологических приложениях часто крайне затруднено высокой неоднородностью данных и малыми объемами выборочных ансамблей.

Можно использовать методы робастной или непараметрической статистики. Применение оценочных процедур непараметрической статистики целесообразно (а иногда и единственно возможно), в тех многочисленных социологических и эконометрических исследованиях, где неизвестна функция распределениях изучаемых показателей.