Содержание к диссертации
Введение
1. Анализ межфакторных связей 10
1.1. Основные термины и определения 10
1.2. Задача исследования связей с нечисловыми факторами 14
1.3. Методы анализа межфакторных связей 15
1.4. Современные средства анализа зависимостей между факторами 31
1.5. Выводы 35
2. Методы оценивания связей между количественным и номинальным факторами 36
2.1. Связь между влияющим количественным и зависимым номинальным факторами 36
2.2. Связь между влияющим номинальным и зависимым количественным фактором 39
2.3. Методы оценивания связей с преобразованием типов шкал 41
2.4. Мера на основе расстояния Бхаттачария 50
2.5. Мера на основе соотношения дисперсий 52
2.6. Выводы 54
3. Исследование методов оценивания связей между количественным и номинальным факторами на имитационных данных 55
3.1. Задачи исследования 55
3.2.Имитационная модель 57
3.3. Сравнение различных методов оценки связи между количественным и номинальным факторами 62
3.4. Статистические свойства 71
3.5. Определение значения настроечного параметра а для оценки силы связи с использованием МРБ 71
3.6. Сравнение объема вычислений при оценивании силы связи с использованием МРБ и коэффициента Спирмена 75
3.7. Рекомендации по выбору метода оценки силы парной межфакторной связи для различных типов используемых шкал 78
3.8. Выводы 80
4. Описание программного обеспечения для решения задач анализа межфакторных связей 82
4.1. Вводная часть 82
4.2. Функциональное назначение 82
4.3. Описание логической структуры 83
4.4. Состав и функции 88
4.5. Условия применения 91
4.6. Выводы 92
Анализ данных с использованием разработанных методов и программного обеспечения 94
5.1. Обработка данных об организации научно-исследовательских работ в вузах России 94
5.2. Применение разработанного ПО в лабораторном практикуме по дисциплине «Системы поддержки принятия решений» 101
5.3. Выводы 104
Заключение 105
Литература 107
Приложения 121
- Методы анализа межфакторных связей
- Связь между влияющим количественным и зависимым номинальным факторами
- Сравнение различных методов оценки связи между количественным и номинальным факторами
- Описание логической структуры
Введение к работе
Диссертационная работа посвящена разработке и исследованию статистических методов оценки силы связей, содержащих нечисловые факторы.
Актуальность работы. Одной из наиболее актуальных областей применения современных информационных технологий при решении задач управления сложными объектами как технической, так и нетехнической природы стало в последнее время создание систем поддержки принятия решений (СППР). Основу СППР составляют средства сбора, обработки и анализа данных об объектах управления. Развитость средств анализа данных характеризует общий уровень реализации СППР, поэтому в последние годы в мире активно ведется разработка новых методов, средств и технологий анализа данных, которые в литературе часто объединяются под общим названием «добыча данных» (Data Mining).
Во многих системах управления накопились значительные объемы данных, отражающие их деятельность за предыдущие периоды времени функционирования. Есть основания полагать, что в этих массивах присутствует очень важная информация, использование которой может позволить существенно повысить эффективность деятельности, обеспечить её более высокое качество. Вопрос состоит в том, как выделить эту полезную информацию.
СППР, как правило, применяется при решении задач управления сложными объектами. Под сложностью понимаются:
многоаспектность происходящих в объекте процессов и их взаимосвязанность; в силу этого невозможно вычленение и детальное исследование отдельных явлений – все происходящие в них явления должны рассматриваться в совокупности;
отсутствие достаточной количественной информации об объекте, что вынуждает переходить к его качественному анализу.
В качественных моделях объект описывается в терминах некоторого набора его характеристик – факторов, между которыми устанавливаются связи.
При анализе связей в сложных объектах можно выделить три последовательных этапа. Сначала выясняется сам факт наличия связи между факторами, в терминах которых описывается объект. Если установлено наличие связи, выясняют, какова сила этой связи. Если необходима дальнейшая детализация описания связи, переходят к разработке ее математической модели.
Построение полноценной математической модели связи зачастую является крайне трудоемким процессом, поэтому второй шаг, на котором происходит анализ связей на качественном уровне и которому посвящено данное исследование, является крайне важным с точки зрения эффективного распределения ресурсов исследователя – математическая модель будет строиться только в тех случаях, когда это действительно целесообразно.
Выделение факторов и выдвижение гипотез о наличии связей между ними осуществляется экспертом, строящим модель. Одной из основных характеристик связи между факторами является её сила. Она может быть оценена двумя методами – экспертным (на основании знаний эксперта) и формальным (на основании анализа данных наблюдений факторов). До сих пор при качественном моделировании в основном применялись экспертные методы, что во многом обусловлено широтой области их применения и относительной простотой. Однако в настоящее время в данной задаче становится весьма перспективным и формальный метод – ввиду объективности результатов, которые могут быть получены на основе анализа накопленных данных наблюдений.
Оценка силы связи между количественными факторами формальным методом может быть осуществлена с использованием получившего особенно широкое распространение в технических дисциплинах анализа корреляций. В литературе, посвященной анализу данных, рассматриваются меры, позволяющие оценивать силу связи между факторами, измеренными в нечисловых шкалах: порядковой и номинальной.
Связи, в которых типы шкал факторов совпадают, будут называться однородными. В практической работе часто требуется анализировать неоднородные связи, то есть связи, в которых типы шкал факторов не совпадают. Эти связи, естественным образом, содержат нечисловые факторы. Анализ литературы не позволяет выявить каких-либо мер или четких рекомендаций по оценке силы неоднородных связей, поэтому становится актуальной задача их разработки и исследования.
Среди всех возможных типов связей с участием нечисловых факторов особый интерес представляют связи между количественным и номинальным факторами, что обусловлено их широкой распространенностью.
Цель диссертационной работы
Разработка и исследование методов оценивания силы связей между количественным и номинальным факторами и создание средств автоматизации процесса вычисления оценок силы этих связей с использованием данных наблюдений, полученных на объекте управления.
Задачи исследования
-
Нахождение методов преобразования типов шкал факторов для приведения задачи оценивания силы неоднородных связей к задаче оценивания силы однородных связей.
-
Разработка мер силы связи между количественным и номинальным факторами для расчета оценок этой силы без использования преобразования типов шкал.
-
Систематизация методов оценки силы однородных и неоднородных связей и разработка методических рекомендаций по выбору мер для оценивания силы связей, содержащих нечисловые факторы.
-
Разработка программного средства поддержки анализа межфакторных связей и исследования их статистических свойств.
Научная новизна
-
Предложены не рассматривавшиеся ранее в литературе методы приведения задачи оценивания силы связи между факторами, измеренными в количественной и номинальной шкалах, к задачам оценивания однородных связей за счет преобразования шкал факторов. Эти методы позволяют использовать для неоднородных связей известные из литературы меры силы однородных связей.
-
Разработана новая мера силы направленной связи между влияющим количественным и зависимым номинальным факторами на основе расстояния Бхаттачария, дающая возможность вычислять оценки без использования преобразования шкал факторов.
-
Разработана новая мера силы направленной связи между влияющим номинальным и зависимым количественным факторами на основе соотношения компонентов дисперсии количественного фактора, также дающая возможность вычислять оценки силы связи без использования преобразования шкал.
-
С использованием имитационного моделирования обоснованы условия применения различных мер силы связи.
Достоверность и обоснованность научных результатов и положений диссертации подтверждается использованием методов статистического анализа данных, планирования имитационных экспериментов, а также совпадением результатов, полученных с помощью предлагаемых мер и с помощью известных мер силы связи на задачах, в которых такие меры могли одновременно применяться.
Практическая ценность результатов
-
Разработаны методические рекомендации по выбору метода оценивания силы связи в зависимости от типов входящих в нее факторов, а также от имеющихся предположений о ее свойствах.
-
Для автоматизации процесса расчета оценок сил межфакторных связей разработана библиотека программ для среды MATLAB, позволяющая оценивать силы однородных и неоднородных связей.
-
Получены оценки сил ряда связей между факторами, описывающими задачу организации научно-исследовательских работ в России.
-
Создано программное средство учебного назначения, реализующее функции расчета оценок силы однородных и неоднородных межфакторных связей, предназначенное для использования при проведении лабораторных работ по дисциплине «Системы поддержки принятия решений».
Апробация работы.
Результаты работы обсуждались на XVIII научно-техническом семинаре «Современные технологии в задачах управления, автоматики и обработки информации» в г. Алушта в 2009г., на XVIII международной научно-технической конференции «Информационные средства и технологии» в г. Москва в 2010г, а также на XVI международной научно-технической конференции студентов и аспирантов «Радиоэлектроника, электротехника и энергетика» в г. Москва в 2010г.
Получено свидетельство о регистрации разработанного программного средства учебного назначения в Объединенном Фонде Электронных Ресурсов «Наука и Образование» (ОФЭРНиО) Института Научной Информации и Мониторинга (ИНИМ)
Публикации.
По материалам диссертации было опубликовано 7 работ, в том числе – 2 работы в журналах из перечня ВАК.
Структура и объем работы.
Диссертационная работа состоит из введения, 5 глав, заключения, списка библиографических источников из 168 наименований. Общий объем работы составляет 120 страницы.
Методы анализа межфакторных связей
Интервальная шкала задается группой линейных возрастающих преобразований. Данная шкала позволяет численно выразить результаты сравнения двух значений. Примерами таких шкал могут являться шкалы Цельсия и Фаренгейта, используемые для измерения температуры.
Шкала отношений задается группой преобразований, изменяющих только масштаб (преобразования подобия). В ней присутствует нулевая точка отсчета, но нет естественной единицы измерения. Так, например, стоимость какого либо товара может быть измерена в валюте одного государства, а может быть с использованием некоторого курса переведена в эквивалент в валюте другого государства. В данной шкале измерены большинство физических величин - масса, длина и т.д. Абсолютная шкала задается тождественным преобразованием. Пример такой шкалы - натуральные числа.
В случае совпадения типов шкал факторов, образующих связь, будем называть связь однородной, иначе - неоднородной. Однородные связи традиционно исследуются в физических науках, по причине того, что, как говорилось выше, большинство физических величин измерены в количественных шкалах, физические законы, соответственно, представляют собой однородные связи между этими величинами. Примеры неоднородных связей широко встречаются в общественных науках. Особенно часто встречаются связи между факторами, измеренными в количественных и номинальных шкалах, которые естественным образом возникают в задачах классификации групп населения на основе финансово-экономических показателей. В зависимости от количества участвующих в связи факторов, она может быть парной или множественной. На практике чаще всего применяются парные связи или связи один к одному, которые являются самым простым, интуитивно понятным и часто.используемым типом связи. Такой тип связей рассматривается, в частности, в когнитивном моделировании и экспертном анализе. Так, например, закон Ома, связывающий напряжение и силу тока при постоянном значении сопротивления является типичным примером парной связи. Связи типа многие к одному, один ко многим и многие ко многим в данном исследовании рассматриваться не будут.
При рассмотрении парной направленной связи между факторами будем обозначать влияющий фактор через X, а зависимый — через Y.
Состояние объекта управления описывается К факторами, которые могут быть измерены в трех типах шкал: количественной, порядковой и номинальной. Факторы рассматриваются как случайные. Между ними существуют парные связи, среди которых могут быть как однородные, то есть связи между факторами, измеренными в однотипных шкалах, так и неоднородные, то есть связи между факторами, изхмеренными в разнотипных шкалах. При рассмотрении отдельной связи будем обозначать влияющий фактор через X, а зависимый — через Y. Значения факторов X и Y подчиняются совместному распределению f(X,Y), которое является неизменным в процессе функционирования объекта.
Эмпирическая информация о совместном распределении факторов доступна в виде данных наблюдений, каждое из которых представляет пару значений факторов, измеренных в соответствующих им шкалах в некоторый фиксированный момент времени: {(х,, )},/ = l,N, где N — количество наблюдений, а д;, и у І — значения факторов в /-ом наблюдении. В данных наблюдений отсутствуют измерительные ошибки. Они обладают свойством представительности, то есть достаточно полно отражают характеристики связи. Таким образом, задача формулируется следующим образом: для заданных влияющего фактора X и зависимого Y необходимо оценить силу связи s, а также ее знак а, если он определен. Шкала хотя бы одного из факторов X или Y, является-номинальной,
Статистика нечисловых данных исторически возникла практически одновременно со статистикой числовых данных. Например, тот же К.Пирсон, в честь которого названа классическая мера силы связи количественных факторов -коэффициент корреляции Пирсона - внес также существенный вклад и в нечисловую статистику. Однако особенно широкое применение она получила во второй половине XX века в связи с необходимостью анализа сложных систем, значительная часть информации в которых представлена именно в нечисловом виде. Значительный вклад в развитие нечисловой статистики был внесен такими исследователями как А.Агрести ([1]-[3]), С.А. Айвазян ([82]), Б.Г.Миркин ([45],[120]-[127]), А.И.Орлов ([128]-[136]), Ю.Н. Толстова ([149]-[154]).
Исторически самыми хорошо изученными связями оказались связи между количественными факторами, для которых существуют общепринятые меры силы связи - коэффициенты парной и множественной корреляции. Для связей между факторами, измеренными в порядковых шкалах, существует две общепринятые меры — коэффициенты ранговой корреляции Спирмена [65] и Кендалла [23]-[24]. Для парных связей чаще всего используется коэффициент Спирмена, который будучи применен к количественной связи оказывается близким по значению к коэффициенту корреляции. В то же время для работы с множественными связями чаще применяется коэффициента Кендалла. В случае связей между факторами, измеренными в номинальных шкалах, существует еще большее разнообразие мер. Чаще всего используются меры связи на основе хи-квадрат статистики : коэффициенты сопряженности Пирсона, Крамера [9] и Чупрова [159]. Но наряду с ними применяются и показывающие сильно различающиеся значения информационные направленный и ненаправленный коэффициенты [39].
Все указанные подходы используют измерения факторов в исходном виде. Однако возможен и другой подход. Шкалы, в которых представлены наблюдения факторов, входящих в связь могут быть преобразованы к другим типам и к ним могут быть применены соответствующие этим типам меры. Так, например, количественная шкала может быть легко преобразована к порядковой или номинальной и вместо коэффициента корреляции в данной связи могут быть использованы коэффициенты Спирмена или, например, Чупрова. Данный подход может быть интересен для однородных связей по причине существования проблемы сравнимости. Так, например, если для количественной связи 1 получено значение коэффициента корреляции г, а для номинальной связи 2 получено значение меры Чупрова Т иТ г, из этого по данным наблюдений нельзя сделать вывода о том, что сила связи 2 больше, чем сила связи 1.
Связь между влияющим количественным и зависимым номинальным факторами
Методы оценки силы для однородных связей хорошо изучены. С использованием процедур преобразования типов шкал задача оценки неоднородных связей может быть сведена к задаче оценки однородных связей. Однако при этом возникают две проблемы. Во-первых, преобразование типов шкал неизбежно искажает информацию, содержащуюся в данных наблюдений, а, следовательно, сказывается и на оценке силы связи. Во-вторых, сами процедуры преобразования типов шкал могут оказаться нетривиальными и требуют детальной проработки.
Прежде чем рассматривать преобразования типов шкал, необходимо остановиться на вопросе их взаимоотношений и построении основанной на этих взаимоотношениях классификации. Это было предложено сделать на основе понятий степени абстракции значений шкалы. Под степенью абстракции будем понимать меру обобщения информации, содержащейся в характеристиках моделируемых объектов, при их измерении с помощью определенной шкалы. Базируясь на этом понятии, введем порядковую меташкалу со значениями «низкая», «средняя» и «высокая», в которой типы шкал будут ранжированы по мере увеличения степени абстракции следующим образом (рис. 2.1): 1. Количественная шкала обладает низкой степенью абстракции. Факторы, измеренные в данной шкале, отражают какую-то одну конкретную характеристику. При этом значения могут быть описаны наиболее конкретно за счет использования непрерывной числовой шкалы. Эта шкала часто используется при измерении характеристик с помощью технических средств измерения. 2. Порядковая шкала обладает средней степенью абстракции. На ней устанавливается отношение порядка. В простейшем случае эта шкала используется для факторов, которым соответствует какая-то одна характеристика объекта реального мира, возможные значения которой могут быть упорядочены. В более сложном случае описывается не одна, а группа в некотором смысле однородных характеристик. Их однородность дает возможность упорядочить наборы значений этих характеристик. Вне зависимости от того, описывает ли измеренный в порядковой шкале фактор одну или группу характеристик, значения порядковой шкалы по своей природе дискретны, поэтому данная шкала позволяет абстрагироваться от различия между близкими значениями, разница между которыми полагается несущественной. Шкала фактора «Численность населения города» со значением «Малая», «Средняя» и «Большая» описывает одну характеристику, но при этом в рамках указанных значений элиминируется разница между городами с близкой, но не равной численностью населения. 3. Номинальная шкала обладает высокой степенью абстракции, в связи с чем, может использоваться для факторов, отражающих сложные, комплексные понятия. Измеренные в данной шкале факторы сопоставляются, как правило, объектам реального мира, описываемым не одной конкретной, а целой группой, вообще говоря, разнородных характеристик. Так, например, значения «Москва», «Лондон», «Токио» фактора «Город» отражают сразу целый набор физических, экономических, со циальных и политических характеристик комплексного понятия «Город». На рисунке 2.1. проиллюстрированы данные рассуждения. Типы шкал расположены таким образом, что слева направо увеличивается уровень абстракции, присущий шкалам данного типа. В связи с разной степенью обобщения, присущей разным шкалам при преобразовании их типов возникает две проблемы: 1. при переходе от шкалы с меньшей степенью абстракции к шкале с большей степенью абстракции происходит обобщение информации. 2. возможны различные варианты перехода от шкалы с большей степенью абстракции к шкале с меньшей степенью абстракции. Для устранения этой субъективности можно произвести доопределение преобразования с помощью некоторой гипотезы. Подобно тому, как в методе максимального правдоподобия (ММП) используется гипотеза о том, что наилучшей оценкой является та, которая доставляет максимум функции правдоподобия, доопределим преобразование типов шкал с уменьшением степени абстракции гипотезой о том, что наилучшим преобразованием является то, которое максимизирует оценку силу связи между факторами, вычисленную после преобразования шкал. Использование этой гипотезы приводит к тому, что для осуществления преобразования с уменьшением степени абстракции шкалы требуется использование обоих факторов, входящих в связь. Поэтому такое преобразование, будем называть двухфакториым, в отличие от однофак-торного преобразования с увеличением степени абстракции шкалы. Рассмотрим постановку задачи анализа неоднородной связи. Пусть из исходного набора факторов выбраны два фактора — номинальный, который обозначим через Y, и количественный, который обозначим через X:
Сравнение различных методов оценки связи между количественным и номинальным факторами
Проведение научно-исследовательских работ (НИР) в вузах России направлено как на получение новых научных результатов, так и на повышение качества учебного процесса за счет использования в нем последних достижений науки, а также за счет привлечения студентов к участию в НИР. Значительная часть НИР в вузах финансируется за счет средств федерального бюджета. Большое значение приобретает задача организации проведения НИР, финансируемых за счет средств бюджета. С этой целью в Министерстве образования и науки РФ осуществляются планирование и сбор данных о результативности НИР в ВУЗах. Эти данные используются для принятия управленческих решений, направленных на улучшение организации НИР. Значительная часть факторов, характеризующих выполняемые НИР, представлена в порядковой или номинальной шкалах. До последнего времени при анализе таких данных ограничивались формированием аналитических отчетов, представляющих результаты НИР в виде сводных таблиц, обобщающих данные в заданных информационных разрезах. Анализ сил связи между факторами может предоставить экспертам, работающим с этими данными, новую информацию, полезную для выработки рекомендаций по принимаемым решениям. Такой анализ позволит определить влияние одних факторов на другие и, в конечном счете, выявить возможности воздействия на те или другие факторы для получения требуемых результатов научной и учебной деятельности.
Для целей анализа используется информация из базы данных Минобрнауки России. Эти данные собраны за один отчетный год и в них представлены достаточно полные сведения о результатах выполнения НИР в вузах России. Состав сведений определен регламентом предоставления отчетности о НИР в Минобрнауки.
Результативность научно-исследовательской деятельности в ВУЗах, являющаяся объектом принятия решений в рамках данной задачи, характеризуется рядом факторов, отражающих полезные результаты в научной и учебной деятельности, достигнутые в итоге выполнения НИР. При этом используются как количественные, как, например, "количество статей", "количество диссертаций", "количество патентов", так и нечисловые факторы, например, "создание новых дисциплин", "создание учебного оборудования" и т.д. В таблице 5.1 приведены факторы, характеризующие НИР, и их атрибуты. Каждая запись содержит описание одной научно-исследовательской работы, выполненной в одном из ВУЗов. В базе данных содержится более двух тысяч таких записей. Решение задачи состоит из следующих операций: 1. На начальном этапе высказываются экспертные предположения о наличии связей между некоторыми факторами. Эти предположения формулируются в содержательных терминах предметной области. 2. Далее они формализуются в виде предположений о наличии парных межфакторных связей. 3. После этого проводится поочередный анализ предполагаемых межфакторных связей 4. Для очередной связи из имеющейся базы данных поочередно отбираются данные, относящиеся к рассматриваемой паре факторов. 5. Определяются шкалы представления факторов и с их учетом выбирается метод оценки силы связи 6. С использованием имеющихся данных рассчитываются оценки силы межфакторных связей 7. Делается вывод о справедливости сделанного предположения о связи факторов.
Описание логической структуры
При проведении лабораторной работы «Исследование силы межфакторных связей по данным наблюдений» по дисциплине «Системы поддержки принятия решений» студентам предлагается проанализировать реальные данные, соответствующие различным практическим задачам, с целью определения силы межфакторных связей. Одна из целей лабораторного практикума состоит в приобретении студентами навыков применения программных средств анализа данных при обосновании рекомендаций по принятию управленческих решений. Благодаря использованию реальных данных, удается обеспечить максимальное приближение к реальным условиям решения практических задач.
В качестве примера применения разработанного программного обеспечения при выполнении лабораторных заданий рассмотрим анализ данных по использованию различных приборов и услуг при проведении исследовательских работ. Знание связей между факторами, в терминах которых описывается данная задача, дает возможность наиболее эффективно использовать дорогостоящее научное оборудование.
Исходные данные представлены в виде таблицы формата электронной таблицы Excel. Студентам предлагается проанализировать ряд гипотез о нали 1 чий связей между факторами, присутствующими в данных наблюдений.
Пусть, например, высказывается предположение о том, что интенсивность услуг, оказываемых с использованием имеющейся в распоряжении приборной базы, различна в разных городах страны. Из этого предположения вытекает предположение о наличии связи между факторами «Число услуг, оказанных с использованием прибора» и «Город».
С помощью предлагаемого программного средства студенты имеют возможность импортировать данные наблюдений из файла Excel и рассчитать оценки силы связей. При этом значения оценок МРБ и МСД составили 0.34 и 0.27 соответственно, меры связи с использованием преобразования типов шкал дают существенно более низкие оценки силы связи. На основании данных оценок студенты могут сделать вывод, что предположение об умеренной связи между интенсивностью услуг, оказываемых с использованием имеющейся в распоряжении приборной базы, и городом, в котором эти услуги оказываются, подтверждается данными наблюдений.
В данной главе было рассмотрено применение разработанных методов и программного обеспечения в процессе анализа связей по реальным данным об организации научно-исследовательских работ в РФ. При этом были сделаны выводы о взаимосвязях факторов.
Также рассмотрен пример из лабораторной работы по курсу «Системы поддержки принятия решений», в котором студентам предлагалось на основе данных наблюдений проверить предположение о наличии взаимосвязи между факторами с применением разработанного программного обеспечения. Таким образом, было показано, что разработанные методы и программное обеспечение могут использоваться как в практических, так и в учебных целях.