Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методы и практика защиты индивидуальных статистических данных Нечаева Елена Георгиевна

Методы и практика защиты индивидуальных статистических данных
<
Методы и практика защиты индивидуальных статистических данных Методы и практика защиты индивидуальных статистических данных Методы и практика защиты индивидуальных статистических данных Методы и практика защиты индивидуальных статистических данных Методы и практика защиты индивидуальных статистических данных Методы и практика защиты индивидуальных статистических данных Методы и практика защиты индивидуальных статистических данных Методы и практика защиты индивидуальных статистических данных Методы и практика защиты индивидуальных статистических данных
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Нечаева Елена Георгиевна. Методы и практика защиты индивидуальных статистических данных : 08.00.13 Нечаева, Елена Георгиевна Методы и практика защиты индивидуальных статистических данных (На примере статистики науки) : Дис. ... канд. экон. наук : 08.00.13 Москва, 1999 236 с. РГБ ОД, 61:99-8/1128-5

Содержание к диссертации

Введение

Глава 1. Проблемы защиты конфиденциальных данных в статистике науки 13

1.1. Статистика науки в условиях перехода к рыночной экономике и современные задачи обеспечения безопасности информационных ресурсов статистики 13

1.2. Информационно-вычислительная система статистики науки 21

1.3. Основные требования к методам защиты индивидуальных статистических данных 31

Глава 2. Методические основы применения математико-статистических методов защиты индивидуальных данных в статис тике науки 61

2.1. Микроагрегирование как метод защиты индивидуальных статистических данных по научным организациям 61

2.2. Методические подходы к оценке качества результатов микроагрегирования 79

2.3. Рекомендации по применению методов микроагрегирования к статистическим данным по научным организациям 85

Глава 3. Реализация метода микроагрегирования применительно к индивидуальным данным по научным организациям России 92

3.1. Разработка программных средств для микроагрегирования индивидуальных данных по статистике науки 92

3.2. Формирование базы микроагрегированных данных по статистике науки с использованием разработанных программных средств 98

3.3. Оценка качества микроагрегированных данных 105

Заключение 128

Литература

Введение к работе

Актуальность проблемы. Радикальные перемены, происходящие в нашей стране в течение последнего десятилетия, ставят принципиально новые задачи в экономике, социальной сфере, политике. Решение возникающих при этом проблем невозможно без доступной и достоверной статистической информации, спрос на которую увеличивается и становится все более разнообразным. Значительно расширился круг пользователей статистических данных - сегодня наряду с государственными органами управления он включает широкие деловые круги, средства массовой информации, политические партии, общественные организации, аналитические и исследовательские организации, причем не только отечественные, но и зарубежные. Внедрение международных стандартов в статистическую практику, их адаптация к особенностям национальной экономики увеличивают возможности международного информационного обмена, обеспечивая тем самым необходимую базу для международного сотрудничества и привлечения инвестиций в российскую экономику. Информационные ресурсы становятся товаром, имеющим высокую стоимость. Возможность получения информации, требуемой для принятия обоснованных решений, в условиях рыночной конкуренции часто становится решающим фактором успеха.

В этой ситуации органы государственной статистики призваны уделять серьезное внимание обеспечению безопасности информационных ресурсов статистики, в том числе соблюдению конфиденциальности, гарантируемой поставщикам информации статистическими органами. Так, в проекте федерального закона "О государственной статистической деятельности" предусмотрена обязанность органов государственной статистики в пределах своей компетенции "обеспечивать в соответствии с законодательством хранение и защиту статистической информации и данных бухгалтерской отчетности, соблюдение

государственной и коммерческой тайны, необходимую конфиденциальность статистической информации". Конфиденциаль-

* ность должна быть обеспечена на всех этапах осуществления
статистических работ, включая подготовку статистического
наблюдения, сбор данных, их передачу, обработку и распространение.

Как правило, информация, доступная пользователям, представле
на в агрегированном виде, т.е. в виде сводных таблиц, содержащих уже
обработанные статистические данные, реконструировать которые невоз-
#> можно. Потеря информации в результате агрегирования статистических

данных значительно ограничивает возможности детального статистического анализа. Поэтому для целей анализа и обоснования принимаемых решений огромную важность имеют именно индивидуальные данные, служащие основой для построения аналитических моделей, применения различных методов статистического анализа. В большинстве случаев индивидуальные данные являются конфиденциаль-

* ными [43] или представляют собой коммерческую тайну. Речь при этом
идет не только об официальной информации, собираемой органами
государственной статистики, но и о результатах различных выборочных
обследований и социологических опросов.

Характерным примером статистических данных, представляющих значительный интерес для исследователей, является информация по

* статистике науки. Повышение роли науки в социально-экономическом
прогрессе и, как следствие, важность принятия обоснованных
стратегических решений в области научно-технической деятельности
способствует росту интереса к изучению процессов ее развития во всей
их полноте и сложности. В этих условиях "умелое использование

^ подобной информации, владение терминологией и показателями,

* приемами анализа и прогнозирования становится необходимым
признаком эффективного управления процессами научно-технического
развития на всех его уровнях, составной частью управленческой

культуры" [10]. Возможность проведения межстрановых сопоставлений
количественных и качественных характеристик национальных научных
% потенциалов позволяет реально оценить достигнутый уровень развития

* науки, состояние ее ресурсов, конкурентоспособность и место в

мировом научном потенциале, что обусловливает интерес к изучению
статистики науки не только в России, но и за рубежом [11]. Однако
соответствующие статистические данные, характеризующие исследова
тельский, производственный и коммерческий потенциал научных
_ организаций России, а также включающие динамические ряды

** показателей науки и инноваций, во многих случаях носят

конфиденциальный характер и не подлежат широкому распростране
нию. В связи с этим возникает необходимость построения такой
системы защиты статистической информации, которая наряду с
комплексом различных мер по обеспечению сохранности и конфиден
циальности информации, позволит обеспечить возможность широкого
J использования накопленных ресурсов статистики.

Анализ зарубежной и отечественной статистической практики
свидетельствует о преобладании в настоящее время одностороннего
подхода к решению проблемы защиты конфиденциальных данных. В
качестве главной задачи, которая должна быть решена при организации
защиты конфиденциальных данных, ставится задача защиты информа-
^ ции при ее передаче по каналам связи, а также исключения несанкцио-

* нированного доступа к информации при ее обработке и хранении, т.е.
физическая защита данных. В этой части разрабатываются программно-
технические средства защиты систем управления базами данных,
создаются аппаратно-программные средства криптографической защи
ты информации в каналах связи, программные средства и организа-

ционно-технические мероприятия контроля доступа к данным. При этом
нередко упускаются из виду такие перспективные направления, как
разработка и внедрение средств и методов защиты конфиденциальных

данных, позволяющих обеспечить возможности полноценного использования статистической информации. Создание и применение подобных средств позволит осуществить, с одной стороны, фактическую защиту прав и интересов юридических и физических лиц, представивших информацию, а с другой стороны, откроет возможность свободного доступа к данным для проведения аналитический исследований. Одним из возможных путей решения этой проблемы является предоставление доступа к индивидуальным данным, модифицированным с использованием математико-статистических методов защиты. Основным назначением таких методов является предотвращение возможности идентификации объектов исследования при сохранении основных свойств совокупности исходных данных для получения достоверных результатов их анализа.

Актуальность проблемы обеспечения конфиденциальности индивидуальных статистических данных, отсутствие в отечественной статистике практики применения математико-статистических методов их защиты от разглашения, недостаточная проработка математического аппарата методов защиты конкретных данных и методических подходов к оценке качества получаемых результатов обусловили выбор темы диссертационного исследования, определили цель, структуру и содержание настоящей работы.

Цель и задачи исследования. Целью диссертационного исследования является разработка теоретических и методологических положений, математического аппарата, методических подходов и программных средств, позволяющих обеспечить конфиденциальность при организации доступа к индивидуальным данным по статистике науки.

В соответствии с поставленной целью в работе сформулированы и решены следующие основные задачи:

1. Для обоснования необходимости и возможности использования
средств защиты индивидуальных статистических данных от

* разглашения:

исследовано современное состояние проблемы защиты
конфиденциальных статистических данных;

определены основные требования к методам защиты
индивидуальных статистических данных от разглашения;

исследованы существующие методические подходы к

* организации защиты конфиденциальных статистических данных,
v качественные и количественные параметры, позволяющие оценить

эффективность их практической реализации.

2. Для решения задачи защиты индивидуальных данных от
разглашения применительно к статистике науки:

обоснован выбор микроагрегирования как наиболее эффективного способа защиты индивидуальных данных по статистике науки;

* - проведен анализ существующих методов микроагрегирования
применительно к статистическим данным о деятельности научных
организаций России;

разработан новый эффективный метод микроагрегирования -индивидуальное ранжирование с компенсацией;

выработаны методические рекомендации по оценке качества

* результатов микроагрегирования;

разработано программное обеспечение для защиты индивидуальных данных методами микроагрегирования;

подготовлены рекомендации по применению методов микроаг
регирования для защиты индивидуальных данных по статистике науки;
р - проведена оценка результатов решения практических задач на

* основе индивидуальных данных по научным организациям России,
защищенных с помощью методов микроагрегирования с точки зрения

сохранения полноты информации и соответствия полученных выводов реальным данным.

* Предмет и объект исследований. Предметом исследования
*" являются математико-статистические методы защиты индивидуальных

статистических данных от разглашения. В качестве объекта исследования выступают индивидуальные статистические данные по научным организациям России.

Методика исследования. Теоретическую и методологическую
ф, основу проведенного диссертационного исследования составляют

* Федеральная целевая программа реформирования статистики в 1997-
2000 гг., методические и нормативные документы Госкомстата Рос
сийской Федерации, законы Российской Федерации. В процессе иссле
дования изучены и использованы публикации ведущих отечественных и
зарубежных специалистов, материалы конференций и семинаров по
вопросам организации государственной статистики, теории и практики

к использования математико-статистических методов защиты

конфиденциальных данных, машинной обработки статистической
информации, организации информационно-вычислительного

обслуживания. В работе использован системный подход к решению задачи защиты индивидуальных данных по статистике науки при организации доступа к массивам первичных данных и публикации

* агрегированных статистических данных. В качестве инструментария
щ использовались математические методы, применяемые в экономике и

статистике, методы экспертных оценок, теория баз данных, элементы
теории множеств. Процедура микроагрегирования и статистический
анализ данных выполнялись на ЭВМ с использованием специальных
^ программных средств, в том числе разработанных автором.

* Научная новизна диссертации. Научная новизна проведенного
исследования заключается в следующем:

- разработан новый метод микроагрегирования - индивидуальное
ранжирование с компенсацией, обеспечивающий наиболее полное

4 удовлетворение требований, предъявляемых к качеству

микроагрегированных данных, по сравнению с существующими методами;

- разработан методический подход к оценке качества результатов
микроагрегирования;

- выработаны методические рекомендации по применению
.*. методов микроагрегирования для защиты индивидуальных данных по
* статистике науки.

Практическая ценность. Результаты проведенного исследования
могут быть использованы при построении системы информационной
безопасности ресурсов статистики. Практическое значение имеют
разработанный автором новый метод микроагрегирования
индивидуальных статистических данных; рекомендации по применению
*' методов микроагрегирования к статистическим данным; методика

оценки качества результатов микроагрегирования; программное обеспечение для микроагрегирования индивидуальных данных.

Разработанный метод микроагрегирования применяется для
построения размещаемых в информационно-телекоммуникационной
системе "InfoScience" Министерства науки и технологий Российской
#- Федерации баз данных, предназначенных для открытого доступа, а

также для баз данных интегрированной информационной системы Министерства науки и технологий Российской Федерации, разрабатываемой в настоящее время.

Предложенные в диссертации система методов и
л соответствующее программное обеспечение могут быть также

использованы Госкомстатом России и его территориальными органами.

Реализация и апробация. Представленная в диссертации методика

защиты индивидуальных статистических данных и программное

*'' обеспечение использованы в Центре исследований и статистики науки

* Миннауки России и РАН при разработке и эксплуатации баз данных по
статистике науки (темы №4 "Актуализация базы данных по научным
организациям России", №16 "Разработка базы данных по бюджетному
финансированию науки за 1995 г." Заказа Миннауки России Центру
исследований и статистики науки Миннауки России и РАН в 1996 г.,

ш темы №3 "Актуализация базы данных по научным организациям

Ь России", №6 "Разработка базы данных по бюджетному финансированию

науки за 1996 г." Заказа Миннауки России Центру исследований и статистики науки Миннауки РФ и РАН в 1997 г., №20 "Формирование базы данных по основным показателям ежегодной статистической отчетности научных организаций", №3 "Внедрение формы государственной статистической отчетности № 2-наука (краткая) и

k/k организация ежеквартального сбора и обработки данных" Заказа

Миннауки России Центру исследований и статистики науки Миннауки РФ и РАН в 1998 г.), а также для защиты индивидуальных данных, предоставляемых ВАК России Центру исследований и статистики науки Миннауки РФ и РАН. Индивидуальные статистические данные по научным организациям России, защищенные от разглашения

^ представленным новым методом микроагрегирования с помощью

* разработанных автором программных средств, были включены в
информационно-программный комплекс "Система поддержки принятия
решений в области региональной научно-технической политики" (тема
№ 15 Заказа Миннауки РФ Центру исследований и статистики науки
Миннауки РФ и РАН на проведение НИР в 1996 и 1997 гг.). Данный

* комплекс установлен и успешно эксплуатируется в Отделе развития

научно-технического потенциала регионов Министерства науки и технологий Российской Федерации.

Основные выводы и результаты исследования обсуждались и получили положительную оценку на российских и международных

* научных конференциях и семинарах, в том числе:

* - совместных семинарах по статистике науки и инноваций

Евростата и Центра исследований и статистики науки Миннауки России и РАН (Москва, октябрь 1994 г. и сентябрь 1998 г.);

- Второй научно-практической конференции "Проблемы
современной эконометрии" (Межвузовский центр экономического

ш образования, Московское общество испытателей природы, Москва,

V- апрель 1996 г.);

Третьем международном семинаре "Статистическая конфиденциальность" (Евростат, Словения, октябрь 1996 г.);

Третьем международном семинаре "Новые методы и технологии в статистике" (Евростат, Италия, ноябрь 1998 г.).

Публикации. Основные положения диссертации отражены в
> восьми публикациях общим объемом 5,33 п.л.

Состав и структура работы. Диссертация состоит из введения, трех глав, заключения, списка используемой литературы и приложений.

*

*

Информационно-вычислительная система статистики науки

Информационно-вычислительная система статистики (ИВСС) представляет собой совокупность информационных статистических ресурсов, методов и средств автоматизации процессов сбора, обработки, хранения, накопления, актуализации, анализа, представления, распространения, использования и защиты статистической информации на федеральном, региональном и районном уровнях на основе применения перспективной вычислительной техники, программных средств и новых технологических решений [51]. Информационно-вычислительная система статистики науки как одной из отраслей государственной статистики, строится на тех же принципах и является неотъемлемой частью статистической информационной системы. Поэтому основные используемые определения, принятая технология работы со статистической информацией имеют прямое отношение и к статистике науки.

Статистическая информационная система подобно другим информационным системам может быть описана и проанализирована по трем аспектам: прагматическому (состав пользователей, заинтересованных в статистической информации, цели использования информации), семантическому (виды статистических данных, необходимых различным пользователям для достижения различных целей) и синтаксическому (методы сбора статистических данных, способы представления данных, передачи и обработки, т.е. все, что связано с комплексом технических средств для обработки информации) [18, с.58; 19, с.41].

Рассмотрим с предложенных позиций информационно-вычислительную систему статистики науки.

Основными целями создания и поддержки информационно-вычислительной системы статистики науки являются: - информационная поддержка принятия решений Правительством Российской Федерации, подразделениями Министерства науки и технологий РФ; - информационное обслуживание других федеральных органов исполнительной власти; " - подготовка и выпуск аналитических материалов по актуальным проблемам состояния и развития науки; - проведение статистического мониторинга научного и инновационного потенциала России; - развитие и сопровождение системы моделей кратко-, средне- и долгосрочного прогнозирования основных показателей научного w потенциала; - разработка статистического инструментария для проведения обследований; - подготовка и выпуск статистических сборников; - подготовка и выпуск оперативных информационных материалов. , В число пользователей информационно-вычислительной системы статистики науки входят: - Правительство Российской Федерации; - Министерство науки и технологий Российской Федерации; - другие федеральные министерства и ведомства; - Российская академия наук, отраслевые академии; - органы исполнительной власти субъектов федерации; - общественность и средства массовой информации; - международное сообщество; - отдельные организации, предприниматели, исследователи.

К основным требованиям, предъявляемым к информационно-вычислительной системе статистики науки, относятся [7; 18, с.57; 57, с. 104]: - независимость от влияния правительства, государственных учреждений, влиятельных политических деятелей; - потребительские качества статистики, т.е. репрезентативность, достаточность (полнота), доступность для пользователей, актуальность, своевременность, точность, достоверность и устойчивость.

Состав основных статистических показателей науки определяется используемой методологией статистики науки. В настоящее время основным источником статистической информации о научном потенциале страны, его распределении по секторам науки и регионам, структуре объема исследований и разработок по видам работ, численности исследователей являются данные, собираемые по форме государственной статистической отчетности № 2-наука "Сведения о выполнении научных исследований и разработок", в которой реализована новая методология статистического наблюдения, отвечающая как особенностям организации российской науки, так и требованиям международных стандартов (см. Приложение 1). Наряду с 4 годовой формой отчетности № 2-наука действует полугодовая форма № 2-наука (краткая), в которую включены наиболее значимые показатели формы № 2-наука.

Основные требования к методам защиты индивидуальных статистических данных

Проблема разглашения конфиденциальных данных связана с возможностью идентификации индивидуальных объектов или респондентов, являющихся физическими или юридическими лицами, представившими данные в статистические органы, посредством использования открытой статистической информации, т.е. имеет отношение к такой статистической информации, которая в ее классификации по назначению определена как исходящая информация (см. раздел 1.2). Считается, что в статистике имеет место разглашение конфиденциальных данных в том случае, если использование статистических данных делает возможным для внешних пользователей получить более точную оценку конфиденциальной части информации, чем это могло бы произойти без использования статистических публикаций или общедоступных баз данных [68, с. 18-1; 85, с.2]. Проблема разглашения данных возникает также в случае, когда возможна недопустимо точная оценка значений конфиденциальных данных респондента.

До опубликования информации, полученной на основе конфиденциальных данных, статистическая служба должна быть уверена в том, что индивидуальные объекты не могут быть идентифицированы. Избежать разглашения данных в полной мере невозможно, поэтому в статистической практике применяется понятие допустимого уровня раскрытия конфиденциальных данных - это "цена, которая должна быть заплачена за информацию, предоставленную статистическими публикациями" [68, с. 18-1].

Задача сохранения конфиденциальности данных заключается в том, чтобы обеспечить защиту респондентов без нарушения целостнос ти, точности и полезности полученной на основе этих данных информации. Для решения подобной задачи может быть использован широкий спектр статистических методов, удовлетворяющих поставленным условиям. Эти методы агрегируют или искажают данные таким образом, чтобы, с одной стороны, в достаточной степени снизить риск идентифи м- кации отдельных респондентов, а, с другой стороны, сохранить макси мальную информативность полученных данных для пользователей. При этом не только исключается возможность полного (точного) установления значений статистических показателей, но и снижается вероятность частичного или приблизительного восстановления данных. Говорят, что имеет место полное или точное установление значении, если внешний пользователь имеет возможность определить точное значение атрибута А І индивидуального объекта /, представленного в исходной совокупности объектов [59, с.521].

Под частичным или приблизительным установлением значений понимается возможность пользователя статистики определить оценку атрибута А{ индивидуального объекта /, дисперсия которой удовлетворяет условию: D(Aj) с2, где с - заранее заданный фиксированный параметр. Другими словами, частичное установление значений имеет место, если возможна недопустимо точная оценка параметра индивидуального объекта.

С точки зрения применения методов защиты индивидуальных данных исходные данные по своему формату подразделяются на агрегированные и индивидуальные.

Агрегированные данные - это индивидуальные данные, сведенные в таблицы. Значение каждой ячейки определяется пересечением . некоторых показателей, являющихся обычно качественными, например, "тип организации" и "территория". Если показатели количественные, то используется интервальное измерение: например, в практике статистики науки приняты определенные интервалы значений показателя численности персонала научной организации (до 100 чел., от 101 до 500 чел., от 501 до 1000 чел., 1001 чел. и более).

Если каждая ячейка сводной таблицы представляет собой s количество объектов, соответствующих заданным значениям качествен ных показателей или интервальным значениям количественных показателей, то такая таблица называется "таблицей частот".

Если агрегируются количественные показатели, такие как, например, "валовые внутренние затраты на исследования и разработки" или "численность исследователей", для всех объектов, попадающих в д ячейку таблицы, то такая статистика определяется как "агрегированная" или "значимая", а таблица называется "таблицей величин". Как известно, для обоих видов агрегированных данных - таблиц частот и таблиц величин - используются следующие способы предоставления информации: статистические отчеты (публикации), компьютерные базы данных или другие файлы. Ячейка таблицы, содержащая данные в какой-либо агрегированной форме, является конфиденциальной и не может быть опубликована, если велик риск разглашения индивидуальных данных, агрегированных в данной ячейке. Обычно используются три критерия, по которым определяется, является ли ячейка таблицы конфиденциальной [69, с.423-444]:

Методические подходы к оценке качества результатов микроагрегирования

Основным элементом экономического исследования является анализ и построение взаимосвязей переменных. Изучение таких взаимосвязей осложнено тем, что они не являются строгими функциональными зависимостями. Именно по этой причине для решения подобного рода задач исследователь нуждается в индивидуальных данных, чтобы иметь возможность строить экономические модели и оценивать их параметры, проверять гипотезы о свойствах экономических показателей и формах их связи, что в конечном счете служит основой для экономического анализа и прогнозирования, создавая возможность для принятия обоснованных экономических решений [16, 40, 41].

При использовании методов защиты индивидуальных статистических данных получение выводов о свойствах статистических показателей, виде распределения, параметрах и др. будет основано на изучении совокупности суррогатных индивидуальных данных. В этих условиях выбор метода микроагрегирования должен основываться прежде всего на оценке его преимуществ по сравнению с остальными с позиций сохранения основных свойств совокупности исходных данных.

В [60, с.64] предложен подход к оценке качества суррогатных данных, основанный на их тестировании. В процессе тестирования рассчитываются некоторые статистические характеристики совокупности суррогатных данных (средние значения, коэффициенты

У корреляции, средние квадратические отклонения), проводится регрессионный анализ. Затем фиксируются отклонения в оценке этих характеристик от их значений, полученных при аналогичных исследованиях исходных данных. Основным недостатком такого подхода является то, что в итоге только констатируется факт наличия отклонений, нет разработанной методики расчета величины отклонения для каждой статистической характеристики, отсутствуют критерии оценки качества результата.

Достаточно высокие требования к качеству суррогатных данных, предъявляемые со стороны пользователей, приводят к необходимости создания системы контроля качества суррогатных данных. При этом следует уделять особое внимание не только проблеме повышения

А- качества суррогатных данных, но и надежности защиты конфиденциальных данных, т.е. необходимо стремиться достичь некоторого баланса между уровнем защиты и качеством результата.

С учетом данных требований качественную оценку результатов проведения сравнительного анализа исходных и суррогатных данных предлагается дополнить расчетом относительной количественной оцен " ки возникших в результате микроагрегирования отклонений и анализом их с точки зрения выработанных критериев оценки качества результата.

Для оценки качества суррогатных данных при решении задачи выбора на этой основе метода микроагрегирования индивидуальных статистических данных по научным организациям предлагается следующий подход:

1) расчет статистических характеристик показателей в исходных и суррогатных данных с последующей количественной оценкой возникших отклонений;

2) оценка внутренних взаимосвязей между показателями в у совокупности изучаемых данных путем расчета парных коэффициентов корреляции с последующей количественной оценкой возникших отклонений;

3) анализ структурной зависимости между переменными в совокупности для исходных и суррогатных данных на основе факторного анализа с последующей количественной оценкой возникших отклонений оценок величины факторных нагрузок первой главной компоненты;

4) сравнительный анализ результатов решения практических задач на основе исходных и суррогатных данных. Наиболее важным моментом количественной оценки является вопрос о величине допустимых погрешностей. Причем вопрос о коли честве и составе исследуемых статистических величин является открытым и может варьироваться в зависимости от конкретных условий.

В качестве основных статистических характеристик показателей используются простейшие средства описательной статистики, которые позволяют получить представление об особенностях исследуемого показателя и перспективности использования более глубоких методов у анализа - это среднее значение (характеристика положения частотного распределения) и среднее квадратическое отклонение (мера ширины или разброса распределения вокруг среднего значения) [16,45,13].

Формирование базы микроагрегированных данных по статистике науки с использованием разработанных программных средств

Практическая реализация метода микроагрегирования для защиты индивидуальных данных по организациям, выполняющим научные исследования и разработки, проводилась с целью выбора метода микроагрегирования для формирования суррогатных данных, которые могут быть использованы в двух основных направлениях исследования эмпирических данных [49, 50]:

1) для выявления закономерностей развития научно-технического потенциала и анализа взаимосвязей между статистическими показателями;

2) для расчета статистических характеристик исследуемых совокупностей данных (средних, абсолютных и относительных статистических величин и т.д.) по различным группам объектов.

Для решения данной задачи использовался массив исходных данных по форме государственной статистической отчетности № 2-наука "Сведения о выполнении научных исследований и разработок" за 1996 г., имеющий структуру, описанную в разделе 2.3 и состоящий из 4122 объектов.

Работа производилась в соответствии с рекомендациями, приведенными в разделе 2.3.

На первом этапе, с учетом структуры данных, был произведен отбор качественных и количественных показателей для последующего включения в суррогатную базу данных. Качественные показатели в исходном массиве данных представлены прямым идентификатором (код ОКПО), шестью косвенными идентификаторами объектов в соответствии с общесистемной классификацией, проставляемых на основе ЕГРПО (код отрасли, код вида деятельности предприятия, код территории, код министерства (ведомства), код формы собственности, код организационно-правовой формы), и двумя косвенными идентификаторами в соответствии со специфическими классификациями статистики науки (код сектора деятельности и код типа организации). Прежде всего была произведена анонимизация объектов путем исключения из числа качественных показателей прямого идентификатора научных организаций - кода ОКПО. Затем были отобраны косвенные идентификаторы, так как включение их в полном объеме в массив суррогатных данных недопустимо по следующим причинам: - анализ базы данных показал, что в расчете на 4122 записи число различных комбинаций косвенных идентификаторов составляет 2541, из которых 2054 комбинации, т.е. половина всех записей, являются уникальными в данной совокупности объектов, что может привести к идентификации объекта по комбинации косвенных признаков; - в случае изучения дескриптивной статистики для групп суррогатных объектов, сформированных по качественным признакам, возможно появление недопустимых отклонений в значениях сводных статистических показателей у тех групп, в которые попало малое количество объектов. Следовательно, большое количество отобранных качественных признаков, в конечном счете, не расширит возможности анализа данных из-за низкого качества суррогатных данных.

В первую очередь были исключены косвенные идентификаторы, имеющие большое количество допустимых значений: код министерства (до 115 возможных значений) и код вида деятельности (до 58 возмож " ных значений). Код отрасли народного хозяйства является многознач ным, т.е. отражает многоуровневую структуру классификатора отраслей народного хозяйства. Реальные данные содержат как коды отраслей первого уровня (из пяти позиций кода указаны только первые две), так и более детальную классификацию, когда указаны все пять позиций кода. щ. Такие различия в кодировке объектов сужают возможности анализа до первого-второго уровней отраслевой классификации, поэтому в суррогатные данные для каждого объекта был включен код отрасли только первого уровня (указаны две первые цифры кода). Таким образом, количество возможных значений кода отрасли народного хозяйства сократилось с 45 до 13. В результате для внесения в суррогат ные данные были отобраны следующие качественные признаки: 1. Код отрасли народного хозяйства (первый уровень); 2. Код территории; 3. Код формы собственности; 4. Код организационно-правовой формы; 5. Код сектора деятельности; 6. Код типа организации.

Состав количественных показателей может варьироваться каждый раз, когда будет решаться вопрос о предоставлении доступа к индивиду альным данным. Для решения задачи выбора оптимального метода микроагрегирования в данной работе были отобраны наиболее важные показатели, которые в дальнейшем будут использованы при проведении расчетов по оценке качества результатов микроагрегирования.

Похожие диссертации на Методы и практика защиты индивидуальных статистических данных