Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Сравнительный анализ алгоритмов заполнения пропусков в социологических данных Зангиева, Ирина Казбековна

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Зангиева, Ирина Казбековна. Сравнительный анализ алгоритмов заполнения пропусков в социологических данных : диссертация ... кандидата социологических наук : 22.00.01 / Зангиева Ирина Казбековна; [Место защиты: Нац. исслед. ун-т "Высш. шк. экономики"].- Москва, 2012.- 220 с.: ил. РГБ ОД, 61 12-22/207

Введение к работе

Актуальность

Большинство методов многомерного статистического анализа данных, такие как факторный, кластерный, регрессионный анализ и многие другие, требуют отсутствия пропусков в анализируемых данных. Однако в реальных исследованиях респонденты по разным причинам не отвечают на отдельные вопросы, в результате чего в данных появляются пропуски, с которыми приходится бороться разными способами. Первый способ, предлагаемый всеми известными статистическими пакетами, предусматривает автоматическое исключение из анализа наблюдений (наблюдением мы называем данные, отвечающие отдельному изучаемому объекту, чаще всего—респонденту) с пропусками, что ведет к снижению валидности статистических выводов за счет сокращения размера выборки, возникновения в данных, а затем и в результатах их анализа, систематических смещений. Позже на их основе могут быть приняты ошибочные стратегические решения, устранение негативных последствий которых потребует дополнительных затрат.

Чтобы сгладить указанные недостатки удаления неполных наблюдений, оставшиеся полные наблюдения иногда взвешивают. Этот второй способ в большинстве случаев проблему тоже не решает. Корректировка пропусков в значениях одной характеристики путем взвешивания по ней всех имеющихся наблюдений вызовет неоправданные смещения в распределениях значений остальных характеристик, для которых все значения могли быть изначально известны.

Исследователю необходимы практические инструменты для восстановления отсутствующей информации. Эти инструменты обеспечивает третий (помимо удаления неполных наблюдений и взвешивания полных), на данный момент наиболее перспективный и бурно развивающийся подход — искусственное заполнение пропусков в данных.

На сегодняшний день разработано множество алгоритмов заполнения пропусков, однако сведения о них пока что не систематизированы и разбросаны по большому количеству работ. Отсутствуют обзорные работы, дающие представление о специфике, достоинствах и недостатках хотя бы наиболее распространенных в исследовательской практике алгоритмов заполнении пропусков. Крайне малочисленны и исследования, направленные на сравнительную оценку применимости отдельных алгоритмов заполнения пропусков в конкретных исследовательских ситуациях. Сказанное позволяет считать, что работа, направленная на систематизацию методов заполнения пропусков в данных и выявление условий их эффективного использования в социологии, является актуальной.

Разработанность проблемы

Рассмотрение проблемы использования в социологии алгоритмов
заполнения пропусков не может быть оторвано от условий применения других
способов «борьбы» с пропусками, от анализа причин возникновения последних.
Поэтому круг проанализированных в диссертации работ содержал отнюдь не
только публикации, посвященные непосредственно алгоритмам заполнения
пропусков, но и ряд работ, посвященных и другим аспектам изучения пропусков
в данных статистических обследований (особенно социологических) .

Проведенный анализ показал, что такой подход оправдан.

В работах, посвященных анализу случаев неполноты социологической (статистической) информации выделяются две большие темы: (1) недостижимость респондентов и (2) неответы на отдельные вопросы, или отдельные пропуски в данных. Диссертация посвящена исключительно второй теме.

В российской социологии изучением причин возникновения пропусков в данных, анализом роли пропущенных данных, разработкой отдельных алгоритмов заполнения пропусков в разное время занимались В.Г. Андреенков, В.Н. Вапник, Б.З. Докторов, Е.И. Злоба, Н.А. Клюшина, Г.С. Лбов, В.Ю. Королев, О.М. Маслова, А.Ю. Мягков, И.Б. Назарова, В.Е.Россиев, Снитюк А.А., ГГ. Татарова, ЮН. Толстова, П.Ю. Чеботарев, И.В Яцкив. Однако наиболее широкое освещение проблематика работы с пропусками данных получила в работах западных исследователей. Настоящая работа в значительной мере лежит в русле идей, предложенных западной школой.

Три основных подхода к работе с отдельными пропусками — удаление неполных наблюдений, взвешивание полных наблюдений и заполнение пропусков — анализировали и сравнивали между собой Р. Платек, Р. Литтл, Д. Рубин и др. На данный момент основное внимание в литературе уделяется заполнению пропусков как наиболее перспективному подходу.

В качестве фактора, определяющего выбор допустимого способа ликвидации пропусков, Р. Литтлом была выдвинута степень случайности пропуска:

1 Большинство рассмотренных нами работ посвящено обсуждению проблемы пропущенных данных в статистических обследованиях вообще, без привязки к конкретной тематике последних. Однако ситуации, складьшающейся в социологии, автор уделяет особое внимание. Проявляется это в основном при обсуждении характера случайности пропусков (где основное внимание уделяется причинам их возникновения); выбора учитываемых методов анализа восстановленных данных (это - наиболее употребительные в социологии методы, хотя они широко используются и в других отраслях науки),; выборе исследования для «обкатки» предлагаемой методики сравнения методов заполнения пропусков. 2Platek R. Causes of Incomplete Data, Adjustments and Effects II Survey Methodology, Statistics Canada. 1980. No. 6. P. 127; Little R.J. Survey Nonresponse Adjustments for Estimates of Means II International Statistical Review I Revue Internationale de Statistique. 1986. Vol. 54. No. 2.P. 140; Rubin D.B. Multiple Imputation for Nonresponse in Surveys. New York: Willey, 1987. P. 64-66.

возможность считать пропуск неслучайным, случайным или полностью случайным . Пропуски полностью случайны (missing completely at random — MCAR), если вероятность их возникновения не зависит ни от истинного значения данного признака, ни от значений других признаков. Пропуски случайны (missing at random — MAR), если вероятность их возникновения обусловлена известными значениями других признаков, но не связана с признаком, значение которого пропущено. Пропуски неслучайны (not missing at random — NMAR), если вероятность неответа на вопрос зависит от самого значения признака (возможного ответа), которое могло быть получено, если бы ответ был дан.

В данной работе не рассматриваются иные типологии пропусков (например, деление на реальные и артефактные, возникшие после удаления самим исследователем заведомо ложных значений), так как они, в отличие от типологии по степени случайности, не определяют допустимые способы работы с пропусками соответствующего типа.

Степень случайности пропуска в социологических исследованиях не в последнюю очередь зависит от причины его возникновения. Основные причины неответов респондентов на отдельные вопросы анализировали Р. Фербер, А. Шински, Г. Эссер, Т. Даублер, Р. Платек. Из российских авторов, разрабатывавших данную тематику, назовем упомянутых выше О.М. Маслову и В.Г. Андреенкова, Б.З. Докторова, Н.А. Клюшину, А.Ю. Мягкова, И.Б. Назарову4. Однако работы, содержащие анализ того, как именно причины пропусков определяют степень случайности признака, нам неизвестны.

Подводя итог сказанному, констатируем актуальность выработки рекомендаций по выбору допустимого способа ликвидации пропусков в зависимости от причин пропусков и определяемой этими причинами степени их случайности.

Общие принципы заполнения пропусков заложили в своих работах Р. Литтл и Д. Рубин. Они сформулировали основные задачи заполнения пропусков и

3См. например: Little R. J. A. A test of missing completely at random for multivariate data with missing values II Journal of the American Statistical Association. 1988. No. 83. P. 1198-1202.

4 Ferber R. Item Nonresponse in a Consumer Survey II Public Opinion Quarterly. 1966. Vol. 30. No 3. P.403-410; Sicinski A. Don't Know Answers in Cross-National Surveys II Public Opinion Quarterly. 1970. Vol. 34. No 1. P. 127; Esser H. Determinanten des Interviewer und Befragtenverhaltens: Probleme der theoretischen Erklarung und empirischen Undersuchung von Interviewreffekten II Allgemeine Bevolkerungsumfrage der Sozialwissenschaften. Frankfurt, 1984. S. 56-60; Daubler T. Nonresponseanalysen der Stichprobe F des SOEP. Berlin: DIW, 2002. P. 7-10; Platek R. Causes of Incomplete Data, Adjustments and Effects II Survey Methodology, Statistics Canada. 1980. Vol.6. P. 97; Андреенков В. Г., Маслова О. М. Эмпирический базис социологической науки // Социологические исследования. 1987. № 6. С. 115; Докторов Б.З. О надежности измерения в социологическом исследовании. Л.: Наука, 1979. С. 56; Клюшина Н.А. Причины, вызывающие отказ от ответа // Социологические исследования. 1990. № 1. С. 17-29; Мягков А.Ю. Обеспечение анонимности в социологическом опросе // Социологические исследования. 1999. №5. С. 45-61; Мягков А.Ю. Опросные методы сбора данных: Предпочтения респондентов // Социологические исследования. 2000. № 8. С. 36-49; Назарова И.Б. Непроведение опроса и отказ от интервью // Социологический журнал. 1998. № 1/2. С. 27-39.

принципиальные требования, которым должны удовлетворять отдельные алгоритмы заполнения. Р. Литтл разработал типологию отдельных алгоритмов заполнения пропусков в зависимости от степени их простоты и информации, используемой при восстановлении пропущенных значений. Однако на момент публикации соответствующей работы (1978 год) этим автором были классифицированы всего 5 алгоритмов (подстановка среднего арифметического, регрессионное моделирование пропусков, множественное заполнение, HotDeck, случайный подбор в подгруппе). С тех пор было разработано довольно много новых алгоритмов, которые до сих пор не систематизированы.

Отдельные алгоритмы заполнения пропусков в российской литературе описывали Е.И. Злоба В.Ю. Королев, А.А. Россиев, В.Е. Снитюк, П.Ю.Чеботарев, И.В. Яцкив. В англоязычной литературе отдельным алгоритмам заполнения пропусков посвящены работы К. By, Б. Дейлона, А.Демпстера, К. Эндерса, Дж. Гевики, Дж. Лью и Р. Чен, А. Конга, Р. Фей, У. Фулера, Г. Мидена, Г. Нортона, С. Липситца, Дж. Нелдера и Г. Смита, А. Гупты, Р. Гормана и Т. Сейновски, Г. Банга и Дж. Робинса и многих других. Публикации, посвященные описанию отдельных алгоритмов заполнения пропусков, составляют наиболее многочисленный класс работ, посвященных пропущенным значениям. На данный момент это один из наиболее распространённых и активно развивающихся подходов к работе с пропусками. Подтверждением этого является наличие большого числа статистических пакетов, включающих в себя модули для заполнения пропусков с помощью различных алгоритмов. Например, SPSS (модули Missing Value Analysis Multiple imputation), SAS , STATA, SOLAS, MICE, Mising Data Library for S-Plus.

Работы, посвященные сравнению разных алгоритмов заполнения пропусков, появились в 1960-70-е гг. Для сравнения использовались не только разные основания (метод анализа данных, который предполагается использовать после заполнения пропусков, и тип шкалы, по которой измерен признак, значения которого подлежат восстановлению), но и разные способы сравнения: теоретическое или экспериментальное. В соответствии со способами сравнения алгоритмов заполнения пропусков выделим два класса работ.

Первый класс относится к 1960-70-м гг. и посвящен результатам теоретического сопоставления методов анализа данных и алгоритмов заполнения пропусков. Основной фокус работ этого класса находится в теоретическом описании связи между используемыми алгоритмами заполнения пропусков и результатами последующего анализа данных определенным методом. Здесь можно назвать работы Р. Литтла, А. Афифи и Р. Илашоффа, И. Хайтовски, С. Бака,

Ф. Йейтса. А из российских авторов - упомянутых выше Н.В. Вапника и Г.С. Лбова5, разработавших собственные подходы к заполнению пропусков.

Второй класс работ, посвященных сравнению эффективности алгоритмов заполнения пропусков, объединяет публикации, в которых представлены результаты экспериментальных сравнений разных алгоритмов заполнения пропусков. Работы второго класса появились в конце 1980-х - начале 2000-х гг. В этом русле работали Л. Чен, Дж. Гилман и О. Данн, Д. Рубин и Н. Шенкер . Таким образом, в работах, посвященных сравнению эффективности алгоритмов заполнения пропусков, отчетливо виден переход от теоретического (дедуктивного) обоснования выводов к экспериментальному (индуктивному).

Однако, упомянутые примеры как теоретического, так и экспериментального соотнесения методов анализа данных и алгоритмов заполнения пропусков не позволяют составить более или менее полных рекомендаций для исследователя по выбору последних. В качестве причин можно назвать два обстоятельства. Во-первых, работы названных авторов охватывают далеко не все даже самые распространённые в социологии методы анализа данных. Во-вторых, в известных попытках сравнить эффективность разных алгоритмов заполнения пропусков не учитывается количество пропусков, имеющихся в данных.

Проблема исследования заключается в (1) отсутствии описания
социологических ситуаций, в которых для ликвидации пропусков в данных
допустимо их искусственное заполнение и (2) недостаточности наработок в
области сравнительного анализа эффективности отдельных алгоритмов

заполнения пропусков, в зависимости от характеристик исследовательской ситуации.

Цель исследования — определить, в каких случаях допустимо искусственное заполнение пропусков в социологических данных, и экспериментально сравнить эффективность отдельных алгоритмов заполнения пропусков, в зависимости от

5 Little R.J. Regression With Missing X's: A Review II Journal of the American Statistical Association. 1992. Vol.
87. No. 420. P. 1227-1237; Afifi A.A., Elashoff R.M. Missing Observations in Multivariate Statistics: I. Review of
the Literature II Journal of the American Statistical Association. 1966. Vol. 315. P. 595-604; Haitovsky Y.
Missing Data in Regression Analysis II Journal of the Royal Statistical Society. 1968. Series В (Methodological).
Vol. . LP. 67-82; Buck S.F. A method of estimation of missing values in multivariate data suitable for use
with an electronic computer II Journal of the Royal Statistical Society. 1960. Series В (Methodological). Vol. .
3.P. 302-307; Yates F. Lhe Analysis of Replicated Experiments When the Field Results Are Incomplete II Lhe
Empire Journal of Experimental Agriculture. 1933. No.l. P. 129-142; Вапник B.H. Восстановление
зависимостей по эмпирическим данным. М.: Наука, 1979; Лбов L.C. Методы обработки разнотипных
экспериментальных данных. Новосибирск: Наука, 1981.

6 Chan L.S., Oilman J.A., Dunn O.J. Alternative Approaches to Missing Values in Discriminant Analysis II Journal
of the American Statistical Associationro 1996. Vol. 71.No. 356. P. 842-844; Rubin D.B., Schenker N. Multiple
Imputation for Interval Estimation From Simple Random Samples With Ignorable Nonresponse II Journal of the
American Statistical Association. 1986. Vol. 81. No. 394.P. 366-374.

характеристик исследовательской ситуации: количества (доли) имеющихся пропусков и используемого метода анализа данных.

Объект исследования — алгоритмы заполнения пропусков в данных.

Предмет исследования — эффективность отдельных алгоритмов заполнения пропусков при использовании различных методов многомерного анализа данных с учетом количества пропусков.

В соответствии с целью, необходимо решить следующие задачи.

  1. Классифицировать основные причины появления отдельных пропусков (неответов респондентов на отдельные вопросы) в данных социологических исследований, выявить и проанализировать связь между этими причинами и степенью случайности пропусков и на основе этой связи установить соответствие между причинами возникновения пропусков и допустимыми способами их ликвидации.

  2. Дать систематическое описание основных алгоритмов заполнения пропусков в данных.

  3. Расширить типологию алгоритмов заполнения пропусков Р. Литтла, дополнив ее алгоритмами, разработанными позже.

  4. Разработать и теоретически обосновать методику экспериментального сравнения эффективности различных алгоритмов заполнения пропусков в данных.

5. Апробировать разработанную методику на «типичных» социологических
данных.

Методологические и теоретические основания исследования

В теоретико-методологическом плане ключевое значение для данного исследования, особенно в части планирования и реализации методического эксперимента, имеют наработки Д.Рубина и Р.Литла: (1) введенная ими типология отдельных пропусков по степени случайности (полностью случайные, случайные и не случайные пропуски), (2) установленное соответствие между типами пропусков и допустимыми способами их корректировки после завершения сбора данных (доказательство применимости методов искусственного заполнения пропусков только для тех случаев, когда последние полностью случайны или случайны). Эти положения были использованы нами при разработке методики эксперимента в качестве обоснования возможности сравнения алгоритмов заполнения пропусков только в ситуации, когда пропуски полностью случайны или случайны. В данной работе мы ограничились сравнением алгоритмов заполнения пропусков на примере

полностью случайных пропусков, что существенно сократило объем вычислений и облегчило интерпретацию результатов.

Для планирования методического эксперимента принципиальное значение имеет предложенное Литтлом деление алгоритмов заполнения пропусков на простые и сложные. Сложные алгоритмы, в свою очередь, Литтл разделил на глобальные и локальные. Данная классификация, дополненная 14-ю алгоритмами, описанными в литературе уже после выхода в свет работы Литтла, в нашем эксперименте стала основанием для формирования экспериментальной выборки из пяти сравниваемых алгоритмов. Выбор 1-3 алгоритмов из каждой группы позволил сократить количество экспериментально сравниваемых алгоритмов с 19, описанных в диссертации, до пяти.

Информационная база исследования

В качестве эмпирической базы для методического эксперимента были использованы данные проекта «Социальное партнерство и конфликт» (руководитель И.М. Козина), выполненного в рамках программы фундаментальных исследований НИУ ВШЭ в 2010 году. Исходный массив содержал результаты выборочного опроса 935 сотрудников, отобранных на 3-х промышленных предприятиях по 2-х ступенчатой выборке. На первой ступени отбирались структурные подразделения, в которых планировалось проведение опроса, с учетом численности и структуры работников и возможностей доступа. На второй ступени в отобранных подразделениях осуществлялась квотная выборка, рассчитанная пропорционально численности работников по должностным и квалификационным группам на каждом предприятии. Минимальный объем выборки на каждом предприятии составлял 300 работников.

Выбор массива данных определяются тремя основными аргументами. Во-первых, в рамках опроса в основном затрагивались стандартные, несенситивные темы. Во-вторых, данные собирались с помощью простых по форме анкетных вопросов. В опроснике не использовались сложные для восприятия табличные и графические вопросы, сложные методики задавания вопросов (парные сравнения, семантический дифференциал и так далее). В-третьих, несмотря на упомянутую простоту собранных данных, разнообразие содержательных тем и типов шкал (номинальные, порядковые и интервальные), отраженных в опроснике данного исследования, позволяет сформулировать содержательные задачи, решаемые каждым из рассматриваемых в данной работе методов анализа данных.

Перечисленные аргументы позволяют утверждать, что экспериментальные данные получены на типичных, а не на уникальных социологических данных, и

предположить, что аналогичные или похожие результаты могут быть получены при реализации эксперимента по идентичной методике, но на других данных, типичных в том же смысле.

Научная новизна работы

Научная новизна диссертационного исследования проявляется в том, что автором были получены следующие результаты.

  1. На основе рассмотрения корпуса релевантных научных публикаций проанализирована связь между причинами возникновения пропусков в социологических данных и их типами: полностью случайными, случайными и неслучайными пропусками; даны рекомендации по выявлению ситуаций, в которых недопустимо искусственное заполнение пропусков.

  2. Впервые дано систематическое описание большинства известных алгоритмов заполнения пропусков в социологических данных.

  3. Классическая типология алгоритмов заполнения пропусков Р. Литтла дополнена четырнадцатью новыми алгоритмами, В нее были добавлены алгоритмы ColdDeck, ЕМ, Бартлетта, Resampling, Zet, ZetBraid, предикативный подбор среднего значения, оценивание пропусков методом максимального правдоподобия, оценивание пропущенных значений с помощью метода наименьших квадратов, Байесово заполнение пропусков, ковариационное заполнения пропусков, моделирование пропущенных значений с помощью нейронных сетей, последовательное заполнение пропусков, вероятностное заполнения пропусков.

  4. Разработана и апробирована методика экспериментальной оценки эффективности заполнения пропусков с помощью различных алгоритмов, в зависимости от количества пропусков в данных и метода последующего анализа данных (рассматривались методы анализа данных, чаще всего используемые в социологических исследованиях).

  5. Экспериментально установлено, что эффективность заполнения пропусков зависит в некоторых случаях (в частности, при построении регрессионных моделей с фиктивными переменными и расчете мер описательной статистики) не просто от метода анализа данных, но и от характера решаемой социологической задачи.

Основные положения, выносимые на защиту

  1. Выбор способа корректировки пропусков в ответах на определенные вопросы (удаление неполных наблюдений, взвешивание имеющихся данных или заполнение пропусков) зависит от причин возникновения пропусков, наличия связи между этими причинами и степенью случайности порождаемых ими пропусков (неответов). Если пропущенные данные могут быть отнесены к полностью случайным (MCAR) или случайным (MAR), возникшие пропуски можно корректировать путем их заполнения или взвешивания выборки. Если же результаты анализа причин говорят о зависимости вероятности пропуска от возможного ответа (неслучайный пропуск, NMAR), то такие отсутствующие значения после сбора данных корректировать методом заполнения или взвешивания выборки недопустимо.

  2. Предлагаемая в диссертации система контролируемых параметров сравнения результатов применения ряда методов анализа данных позволяет оценивать устойчивость этих результатов относительно использованного алгоритма заполнения заданного количества пропусков. Эта система состоит из следующих совокупностей параметров, определенных, соответственно, для перечисленных ниже методов анализа данных:

для описательной статистики: для номинальных шкал - доля точных подстановок (когда подставленное значение совпадает с истинным), мода и коэффициент качественной вариации; для порядковых шкал - доля точных подстановок, медиана и квартальный размах, для интервальных шкал -среднее арифметическое и дисперсия.

для факторного анализа - общий процент объясненной дисперсии и матрица факторных нагрузок;

для регрессионного анализа с фиктивными переменными - коэффициент детерминации (R ) и ошибка измерения зависимой переменной;

для однофакторного дисперсионного анализа - величина F -критерия и его уровень значимости;

для критерия «ХИ-квадрат» - значение критерия «Хи-квадрат» и его уровень значимости;

для коэффициентов корреляции Спирмена и Пирсона - значение самого коэффициента корреляции и его уровень значимости.

3. Эффективность алгоритмов заполнения пропусков определяется не только их
объективными свойствами, но и различными сочетаниями следующих
характеристик исследовательской ситуации, в которой эти алгоритмы
используются: долей пропущенных дынных, методом анализа, который будет

применен к данным после заполнения пропусков, характером решаемой социологической задачи. 4. С помощью разработанной методики эффективность алгоритмов заполнения пропусков может исследоваться применительно к другим, не рассмотренным в диссертации, методам анализа данных, что потребует разработки отдельной системы контролируемых параметров оценки результатов для каждого такого метода.

Теоретическая и практическая значимость работы.

Полученные автором теоретические и методические результаты могут быть
использованы социологами, экономистами, политологами, маркетологами и
другими специалистами в конкретных эмпирических социологических

исследованиях. В частности, могут использоваться:

уточненная классификация причин возникновения пропусков;

принципы обоснования допустимости разных способов ликвидации пропусков (удаление неполных наблюдений, взвешивание имеющихся данных, искусственное заполнение пропусков), на базе анализа связи причин возникновения пропусков (с использованием упомянутой классификации) и степени случайности последних;

систематизированное описание математической сущности, достоинств и недостатков наиболее распространенных алгоритмов заполнения пропусков и их классификация;

методика проведения экспериментального сравнения эффективности алгоритмов заполнения пропусков в зависимости от заданных характеристик исследовательской ситуации;

схемы для выбора алгоритма заполнения пропусков в зависимости от заданных характеристик исследовательской ситуации (доли имеющихся пропусков и метода анализа данных), рассматриваемые как экспериментально полученные гипотезы, требующие дальнейшей статистической верификации.

Работа может служить базой для дальнейших методических исследований, направленных на оценку устойчивости выводов об эффективности алгоритмов заполнения пропусков (в зависимости от количества пропусков и метода анализа данных), полученных по результатам эксперимента.

В педагогической деятельности результаты диссертационного исследования

могут быть использованы в рамках общих курсов по методологии сбора (способы

профилактики пропусков) и анализа социологических данных (способы корректировки имеющихся пропусков), а также могут лечь в основу специального курса по работе с неполными социологическими данными.

Апробация результатов

Результаты диссертации докладывались в рамках выступлений автора на:

  1. Научно-исследовательском семинаре кафедры методов сбора и анализа социологической информации НИУ ВШЭ для магистров 2-го года обучения программы «Прикладные методы социального анализа рынков» с докладом «Сравнительный анализ алгоритмов заполнения пропусков в данных при использовании методов многомерного статистического анализа»;

  2. IV конференции памяти А.О. Крыштановского «Современные проблемы формирования методного арсенала социолога» (Москва, 2010) с докладом «Способы заполнения пропусков в данных массовых социологических опросов»;

  3. V конференции памяти А.О. Крыштановского «Социологические методы в современной исследовательской практике» (Москва, 2011) с докладом «Опыт использования регрессионного моделирования и ЕМ-алгоритма для заполнения пропусков в данных массового социологического опроса»;

  4. VI конференции памяти А.О. Крыштановского «Современная социология — современной России» (Москва, 2012). Тема доклада «Экспериментальное сравнение эффективности пяти алгоритмов заполнения пропусков при использовании факторного анализа»;

  5. XIV Междисциплинарном ежегодном научном семинаре «Математическое моделирование социальных процессов» им. Героя Социалистического труда академика А.А. Самарского (Москва, 2011) с докладом «Экспериментальное сравнение эффективности алгоритмов заполнения пропусков».

Полученные в диссертации результаты встроены в процесс преподавания ряда дисциплин на факультете социологии НИУ ВШЭ: «Методы измерения в социологии» (4-й курс бакалавриата, специализация «Прикладные методы социологических исследований»), «Теория измерения в социологии» (1-й курс магистратуры, программа «Прикладные методы социального анализа рынков»).

Логика и структура работы

Диссертация состоит из введения, трех глав, включающих 6 параграфов, заключения, библиографического списка и приложений. Общий объем работы -221 страница, в том числе, 5 приложений на 66 страницах, 11 страниц библиографии, 28 таблиц и 23 рисунка. Диссертация имеет следующую структуру:

Введение

Похожие диссертации на Сравнительный анализ алгоритмов заполнения пропусков в социологических данных