Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Моделирование длительности безработицы по панельным данным опросов населения Фурманов Кирилл Константинович

Моделирование длительности безработицы по панельным данным опросов населения
<
Моделирование длительности безработицы по панельным данным опросов населения Моделирование длительности безработицы по панельным данным опросов населения Моделирование длительности безработицы по панельным данным опросов населения Моделирование длительности безработицы по панельным данным опросов населения Моделирование длительности безработицы по панельным данным опросов населения
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Фурманов Кирилл Константинович. Моделирование длительности безработицы по панельным данным опросов населения : диссертация ... кандидата экономических наук : 08.00.13 / Фурманов Кирилл Константинович; [Место защиты: Гос. ун-т - Высш. шк. экономики].- Москва, 2009.- 137 с.: ил. РГБ ОД, 61 10-8/8

Содержание к диссертации

Введение

ГЛАВА 1. Эконометрические модели длительности состояний 9

1.1. Анализ длительностей как особая область прикладной статистики 9

1.2. Основные понятия анализа длительностей 12

1.3. Наблюдаемая разнородность 17

1.4. Ненаблюдаемая разнородность 28

1.5. Особенности данных: цензурирование и урезание 32

1.6. Моделирование различных состояний выхода 42

ГЛАВА 2. Оценивание модели длительности состояний по данным опросов населения 44

2.1. Особенности данных опросов населения и смещение отбора 44

2.2. Анализ длительностей по данным опроса населения 49

2.3. Анализ длительностей по данным панели опросов: непрерывная модель 55

2.4. Анализ длительностей по данным панели опросов: дискретная модель 64

ГЛАВА 3. Моделирование длительности безработицы в России 75

3.1. Краткий обзор проведённых исследований 75

3.2. Теоретическая модель поиска работы. Временная зависимость 79

3.3. Использованные данные и определение безработицы 83

3.4. Результаты оценивания: средняя длительность безработицы, функции риска и дожития 93

3.5. Сравнительный анализ данных РМЭЗ, НОБУС и ОНПЗ о продолжительности безработицы 101

3.6. Результаты оценивания: детерминанты длительности и временная зависимость 107

Заключение 117

Список литературы 119

Основные понятия анализа длительностей

Пусть при отсутствии влияния детерминант распределение длительности состояния описывается некоторой функцией риска Xo(t), которую мы будем называть опорной функцией риска (baseline hazard). Будем считать, что опорная функция риска известна нам с точностью до набора параметров а, и чтобы подчеркнуть это, будем обозначать её Л0(А а). Допустим, что факторы х воздействуют на функцию риска мультипликативно, а степень и направление из влияния задаётся вектором коэффициентов р. То есть, функция риска с учётом влияния детерминант задаётся следующим образом: A(t\x,/3,a) = AX)(t\a)- p(x /3) (1.8) Здесь ср - некоторая функция, задающая форму зависимости риска от детерминант. При (p(x fi)—\ функция риска совпадает с опорной.

Как правило, в качестве функции р берётся экспонента: р(х Р) = ехр(х Р). Такая спецификация гарантирует неотрицательность функции риска. Среди других её достоинств укажем интерпретируемость коэффициентов, возможность линейного представления зависимости длительности от детерминант и удобство для оценивания.

Модель, описываемая выражением (1.8) называется моделью пропорциональных рисков (proportional hazards) и является, пожалуй, наиболее распространённой моделью длительности. Она была предложена Коксом (Сох, 1972а), который также предложил использование метода частного правдоподобия для оценивания коэффициентов при неизвестной форме опорного риска (Сох, 1972b).

Экспоненциальная (показательная) регрессия, а также регрессии Вейбулла и Гомперца имеют представление в форме (1.8) и, следовательно, описывают пропорциональное воздействие детерминант на функцию риска.

Модель пропорциональных рисков нашла широкое применение в эконометрике и используется практически во всех областях, связанных с анализом длительности. Например, в работе Роом (Room, 2003) с помощью этой модели анализируется продолжительность безработицы в Эстонии. Арженовский (2005) использовал модель Кокса, исследуя факторы, влияющие на принятие решения о начале курения в России, а Горелкина (2007) - изучая рождаемость. Модель ускоренного времени. Другой распространённый подход к включению внешних факторов в модели длительности заключается в предположении о том, что детерминанты длительности влияют на скорость течения процесса смены состояний - они как бы меняют масштаб времени.

Пусть в отсутствие влияния детерминант закон распределения длительностей задаётся опорной функцией дожития S0(t\a). К моделям ускоренного времени (accelerated failureime) относятся модели, в которых влияние детерминант может быть описано включением множителя при аргументе функции дожития: S(t\x,fl,a) = S0(t p(x J3)\a) (1.9) В качестве функции ср, опять же, обычно берётся экспонента. Можно показать (см., например, Савинцева, 2001), что в таком случае модель (1.9) отражает линейную зависимость логарифма длительности состояния от детерминант: -\а{Т) = х Р + е, (1.10) где случайная ошибка є имеет распределение зависящее от опорной функции дожития.

Представление в виде (1.9-1.10) имеют, в частности, логнормальная и логлогистическая регрессии. Показательная и вейбулловская модель могут быть представлены как в форме пропорциональных рисков, так и в форме ускоренного времени.

Модель ускоренного времени нашла меньшее применение в эконометрике, отчасти от того, что механизм влияния внешних факторов на скорость процесса часто неясен. Впрочем, в некоторых случаях модель является вполне обоснованной. Так, Браун и Энгельхардт (Braun, Engelhardt, 2002) приводят модель процесса инфекции, приводящую к логлогистическому распределению, которая может быть использована для моделирования начала курения или времени совершения первого преступления. По мере взросления, вероятность начала курения или криминальной активности увеличивается - в частности, потому что увеличивается число контактов с курильщиками или преступниками. Однако со временем человек становится более стойким к негативному влиянию внешнего мира и для тех, кто ещё не начал курить, вероятность начала курения уменьшается.

Однако, модель ускоренного времени применяется и в тех областях, где описание смены состояний с помощью инфекционных процессов не представляется обоснованным. Во-первых, потому что длительности некоторых состояний имеют распределение, близкое к логнормальному или логлогистическому (например, длительности существования новых предприятий). Во-вторых, в логнормальной регрессии случайные ошибки имеют нормальное распределение. Это удобно в тех случаях, когда нужно моделировать совместное распределение случайной ошибки с другими случайными величинами. Например, при оценивании систем уравнений, как в работах Аршакуни и Окатенко. В третьих, модель ускоренного времени используется просто как альтернатива модели пропорциональных рисков. Эти два вида моделей составляют основную часть регрессионных методов анализа длительностей, реализованных в пакетах анализа данных (Stata, Minitab). Если нет доводов в пользу какого-то конкретного типа, представляется разумным попробовать различные модели и выбрать ту, которая наилучшим образом описывает данные.

Хотя модель ускоренного времени применяется в эконометрике реже, чем модель пропорциональных рисков, область её применения также весьма широка. По уже оговорённым причинам, логлогистическая регрессия является распространённым способом моделирования времени начала курения (см., например, Douglas (1998) и Balia и Jones (2009)). Окатенко применила модель ускоренного времени для анализа длительности безработицы. К поклонникам этой модели можно отнести Кацуо Ямагучи: он анализировал продолжительность проживания на одном месте (Yamaguchi, 2003), рождаемость (Yamaguchi, Ferguson, 2008), стаж работы на одном рабочем месте (Yamaguchi, 1992).

Модель пропорционального отношения выбытия.

Ещё одним способом задания связи между длительностью и объясняющими переменными является спецификация, в которой детерминанты длительности мультипликативно влияют на отношение выбытия - отношение вероятности прекращения состояния к моменту t (вероятности «выбытия») к вероятности дожития до момента t. Такая модель называется моделью пропорционального отношения выбытия (proportional odds). В общем виде она может быть записана следующим образом: S(t\x,j3,a) Здесь B(t) - функция опорного отношения выбытия. B(t) является неубывающей, 5(0) =0.

Особенности данных: цензурирование и урезание

Если величины p(t) известны, то функция S(s) быть оценена. Такой метод анализа называется методом синтетической когорты (synthetic cohort method). Он был применён в известной работе Никеля (1979), а также в статье (Bowers, Harkness, 1979).

Если дополнительно предположить, что приток в изучаемое состояние не изменялся: p(t)=p, то выражение (2.2.2) можно упростить далее: /.М.тЖ-.7ад-=Ж (2.2.3) ]pS(T-u)du \s(u)du К f) -со О Обратим внимание, что в знаменателе дроби в правой части находится математическое ожидание величины Т/. (не Т0), к величине Т/ относится и функция дожития S(s).

Хотя предположение о постоянстве притока выглядит довольно жёстким ограничением, отметим, что если смена состояний, в которых могут находится наблюдаемые объекты, описывается марковским или полумарковским процессом, то величина притока сходится к постоянной величине. Подход, основанный на формуле (2.3) использовался для анализа длительности безработицы в работах (Kaitz, 1970), (Salant, 1977), (Flinn, 1986) и (Heath, Swann, 1999). Ямагучи (Yamaguchi, 2003) использовал его при анализе продолжительности проживания в одном месте, а Али, Маршалл и Бабикер (АН, Marshall, Babiker, 2001) - при исследовании продолжительности использования контрацептивов.

Оценивание функции плотности f0(s) (как и функции дожития S(s), что почти то же самое) сопряжено с рядом трудностей. Если для оценивания использовать параметрические методы, то нужно знать закон распределения случайной величины Т0. В случае, когда наблюдаемые длительности точно известны, нам достаточно выражения (2.2.3), однако, если имеет место какой-либо тип цензурирования, нужно знать функцию дожития или распределения величины Т0. При этом выражение для функции плотности, полученное с помощью формулы (2.2.3) может оказаться непростым для интегрирования.

Использование непараметрических методов наталкивается на другое препятствие. Так как функция дожития S(s) неубывающая, то такой же должна быть и функция f0(s). Поэтому использование эмпирической функции распределения для оценки закона распределения Т0 может привести к бессмысленным результатам - оценкам функции дожития S(s), возрастающим на некоторых участках и, возможно, превышающим единицу. Следовательно, при оценке функции f0(s) нужно учитывать ограничение монотонного неубывания.

К счастью, задача оценивания монотонной функции плотности уже поднималась и имеет решение. Гренандер (Grenander, 1956) показал, что для выборки из независимых и одинаково распределённых случайных величин с убывающей функцией плотности, оценкой функции распределения, полученной непараметрического метода максимального правдоподобия (НПММП), будет являться наименьшая вогнутая мажоранта эмпирической функции распределения, а оценкой функции плотности, соответственно, производная от оценки функции распределения. Таким образом, для оценивания функции дожития величины Т0 можно использовать наибольшую выпуклую миноранту эмпирической функции дожития (т.к. S0(s)=l-Fo(s)). Оценку Гренандера можно применять только к данным без цензурирования. В случае наличия цензурирования мы будем пользоваться параметрическими методами. Для этого рассмотрим, какие распределения величины Т0 соответствуют наиболее часто используемым законам распределения длительностей: показательному, вейбулловскому и логлогистическому.

Показательное распределение. Определим закон распределения наблюдаемых длительностей, соответствующий показательному закону распределения полных длительностей. Математическое ожидание показательной случайной величины с параметром 1 равно E(Tf)-\lЛ.

Подставив в формулу (2.2.3) выражение для математического ожидания и функции дожития (см. таблицу 1.1) получаем выражение для плотности распределения наблюдаемых длительностей: /ЛО = = Ле-и (2.2 А) /Я Как видно, наблюдаемые длительности в таком случае распределены также по показательному закону с тем же параметром масштаба, то есть, распределение наблюдаемых и полных длительностей совпадает! Это может показаться странным — как возможно такое, что полные длительности распределены одинаково с «урезанными», которые, вроде бы, должны быть всегда меньше? Объяснение кроется в том, что из-за смещения отбора момент наблюдения попадает на более продолжительные состояния, и это смещение полностью компенсируется тем, что наблюдается лишь неполная длительность этих состояний.

Таким образом, можно сделать следующий вывод: если есть основания полагать, что распределение полных длительностей некоторого состояния характеризуется слабой временной зависимостью, среднюю полную длительность этого состояния можно приближённо рассчитывать как среднюю наблюдаемую длительность.

Анализ длительностей по данным опроса населения

Если безработный в п-м раунде респондент в следующем раунде опроса указывал, что у него есть работа, считалось, что из состояния « быть безработным» он вышел в состояние «занятость». Тот же вывод заключался, если респондент указывал, что с последней работы он ушёл после раунда п, пусть даже в раунде п+1 он опять был безработным (т.е. за промежуток времени между раундами он перешёл из безработицы в занятость, а потом обратно). Респондент, не нашедший работу между раундами п и п+1, но и не оставшийся в составе безработных, классифицировался как вышедший из рабочей силы. Если в течение периода безработицы индивид стал старше 60 лет, учитывались только те наблюдения за ним, в которых его возраст удовлетворял нашим ограничениям, после 60 лет этот респондент считался выбывшим из рассмотрения (но не вышедшим из рабочей силы). Аналогично, не рассматривались наблюдения за индивидами младше 18 лет, но как только эти индивиды достигали совершеннолетия, они могли классифицироваться как безработные.

Такой подход не учитывает некоторые варианты переходов -например, индивид, осуществивший между двумя раундами опроса переход «быть безработным»-«не быть рабочей силой»-«занятость», будет рассматриваться, как вышедший в состояние « занятость», хотя состоянии «быть безработным» завершилось выходом в состояние "не быть рабочей силой». Аналогично, переход «быть безработным»-«не быть рабочей силой»-«быть безработным» приведёт к тому, что выход из состояния «быть безработным» вообще не будет зафиксирован. Такие переходы (как и другие, более сложные, варианты, приводящие к ошибкам классификации) маловероятны в силу того, что состояние «не быть рабочей силой» является наиболее стабильным из рассматриваемых состояний и вероятность выхода из него в течение года довольно мала. Тем не менее, был проведен ряд статистических испытаний, которые показали, что смещение оценки в результате ошибок классификации весьма невелико.

Для того, чтобы определить, был ли осуществлён выход из безработицы между двумя раундами опроса, необходимо, чтобы индивид наблюдался в обеих раундах. Вследствие этого возникало истощение выборки, так как некоторые индивиды выбывали из выборки РМЭЗ. В результате, итоговая подвыборка состояла из 2010 наблюдений за 1507 индивидами. Отметим, что так как для отслеживания переходов между состояниями нужны данные двух опросов, то данные, соответствующие одному индивиду в двух раундах, составляют одно наблюдение, в трёх раундах - два наблюдения и т.д.

При учёте временной зависимости считалось, что на вероятность выхода из безработицы влияет время, прошедшее с момента увольнения с последней работы (если месяц увольнения и месяц опроса совпадали, считалось, что респондент пребывает в состоянии безработицы 0 месяцев). Ошибки измерения, связанные с несовпадающими в разных раундах ответами на вопрос о дате увольнения, не учитывались - они не оказывают существенного влияния на результаты, о чём свидетельствует, в частности, близость оценок средней длительности безработицы в моделях с учётом и без учёта временной зависимости.

Время, прошедшее между двумя раундами опроса, рассчитывалось, исходя из данных о годе и месяце опроса респондента.

В выборе объясняющих переменных мы опирались на работы Фолея и Гроган и ван ден Берга. Данные об индивидуальных характеристиках безработных и месте их проживания брались из базы РМЭЗ, данные о региональном уровне безработицы - из сборников Федеральной Службы Государственной Статистики РФ. Так как опросы РМЭЗ проводились в конце года, то промежутку между раундами, например, 2000 и 2001 годов в соответствие ставился уровень безработицы 2001 года. Значения объясняющих переменных считались не изменяющимися в промежутке между раундами (кроме, конечно, времени пребывания в состоянии безработицы).

Единственное значительное отличие от работ Фолея, Гроган и ван ден Берга и Карцевой в выборе объясняющих переменных заключается в учёте доходов и расходов индивидов и домохозяйств. В работе Карцевой эти показатели вообще не рассматривались. Гроган и ван ден Берг использовали данные о заработной плате в один из предыдущих состоянию безработицы раундов и дамми-переменную для тех, чья заработная плата была неизвестна. Фолей включал в модель расходы домохозяйств.

Хотя расходы домохозяйства представляются важным фактором, влияющим на вероятность нахождения работы, его использование сопряжено с рядом трудностей. Во-первых, расходы домохозяйств нелегко рассчитать, и мы не знаем, насколько наши расчёты будут точны. Во-вторых, расходы стоит представить в расчёте на одного человека, и здесь встаёт вопрос, какую нагрузку создаёт каждый из членов домохозйства. В третьих, данные о расходах имеются в виде ответов на множество вопросов, и далеко не каждое домохозяйство отвечает на каждый из них. Таким образом, возникает истощение выборки.

В связи с вышеперечисленными проблемами, в данном исследовании вместо данных о расходах и доходах использовалась субъективная оценка богатства, данная индивидом при ответе на следующий вопрос (№62 в опроснике РМЭЗ для взрослых): «Представьте себе, пожалуйста, лестницу из 9 ступеней, где на нижней, первой ступени, стоят нищие, а на высшей, девятой — богатые. На какой ступени находитесь сегодня Вы лично?».

На рисунке 3.3.1 приведена гистограмма распределения ответов на этот вопрос в анализируемой подвыборке. За базовую категорию принимались индивиды, ставившие себя на третью, четвёртую и пятую ступени. Относительно них с помощью дамми-переменных выделялись две категории: бедных и богатых. Отметим, что на графике отображена доля ответов среди наблюдений, а не среди респондентов - одному респонденту могло соответствовать несколько наблюдений.

Результаты оценивания: средняя длительность безработицы, функции риска и дожития

Незначимость коэффициентов при переменной-индикаторе отсутствия опыта работы не означает, что наличие опыта работы не влияет на вероятность прекращения безработицы. Обратим внимание на то, что в модели присутствует дополнительная переменная — «не указано время увольнения» - добавленная для того, чтобы можно было включить в выборку индивидов без опыта работы, а так же тех, кто не указал дату увольнения с последнего места работы. Таким образом, коэффициент при переменной опыта отражает различие между теми, у кого нет опыта работы, и теми, у кого опыт есть, но кто не указал дату последнего увольнения - скорее всего, это те, кто ушёл с последней работы довольно давно. То есть, полученный результат может свидетельствовать о том, что мужчина, давно не работавший, занимает на рынке труда такую же позицию, как и вообще не имеющий опыта работы.

По абсолютному значению коэффициент при переменной «не указано время увольнения» является наибольшим из всех коэффициентов в уравнении. Из этого можно сделать вывод, что наличие или отсутствие опыта работы - фактор, наиболее сильно влияющий на длительность безработицы. Что касается женщин, то на них отсутствие опыта работы сказывается в несколько меньшей степени, чем на мужчинах, о чём говорит значимый положительный коэффициент при произведении переменных пола и отсутствия опыта. Регистрация в государственной службе занятости не увеличивает шансы найти работу, но зарегистрированные безработные меньше склонны покидать состав рабочей силы. Семейное положение. Замужние женщины более склонны выходить из рабочей силы. Вывод довольно очевидный, но выявляется только при высоком уровне значимости (10%). Субъективная оценка богатства. Индивиды, относящие себя к категории бедных, находят работу с меньшей вероятностью, чем остальные. Возможно, это связано с тем, что у них меньше связей, которые помогли бы в трудоустройстве. Другая возможная причина заключается в том, что люди оценивают собственное благосостояние с учётом шансов найти работу, PI принадлежность к категории бедных отражает некоторые ненаблюдаемые нами характеристики, отрицательно влияющие на вероятность трудоустройства. Также бедность может оказывать подавляющие и демотивирующее воздействие, приводя безработных в отчаяние.

Географические характеристики.

Наименьшую вероятность выхода в занятость имеют жители посёлков городского типа (ПГТ). Из оценок коэффициентов видно, что проживание в ПГТ — фактор, уступающий только наличию опыта работы по силе воздействия на вероятность трудоустройства. Сельские жители проигрывают в этом отношении жителям областных центров, но заметно выигрывают у жителей ПГТ. Однако, в селе также выше вероятность выхода из рабочей силы.

В регионах с более высоким уровнем безработицы меньше вероятность нахождения работы и больше вероятность выхода из состава рабочей силы.

Отрицательный знак коэффициента при индикаторе проживания в Москве и Санкт-Петербурге в уравнении выхода в занятость вовсе не означает, что для этих городов свойственна более продолжительная безработица. Это связано, во-первых, с тем, что в Москве и Санкт-Петербурге низкий уровень безработицы. То есть, отрицательный знак может говорить о том, что продолжительность безработицы в Москве и Санкт-Петербурге больше, чем можно было ожидать от городов с таким уровнем безработицы. Но есть и более веская причина. Переменная уровня безработицы фиксировала средний уровень безработицы в регионе — как в центре, так и на периферии. Различия внутри региона учитывались с помощью дамми-переменных, определяющих тип поселения Однако, для указанных двух городов уровень безработицы рассчитывается отдельно — он относится именно к Москве или к Санкт-Петербургу. То есть, он уже учитывает превосходство областных центров над другими поселениями.

Временная зависимость.

На рис. 3.6.1 представлены оценки функций срЕ и cpN, отражающих временную зависимость, для разных спецификаций. Для наглядности в приведённых графиках к функциям рв и срц прибавлялись оценки свободных членов (ЗЕ,О и PN.O ДЛЯ уравнений выхода в незанятость и из рабочей силы. Это было сделано для того, чтобы графики не только показывали характер временной зависимости, но и позволяли сравнивать отношение выбытия в разных спецификациях.

Как видно, вероятность нахождения работы со временем падает, в то время как вероятность выхода из рабочей силы ведёт себя немонотонно — резко падает вначале, после чего возрастает. Квадратичная спецификация не обнаруживает этой немонотонности в силу недостаточной гибкости. Она также оказывается не в состоянии описать значительное падение вероятности нахождения работы, происходящее на первых месяцах безработицы.

Похожие диссертации на Моделирование длительности безработицы по панельным данным опросов населения