Содержание к диссертации
Введение
1 Методы математического моделирования в медицине 11
1.1. Использование методов математического моделирования в медицине 11
1.2. Использование методов математического моделирования в акушерстве и педиатрии 18
1.3. Математические методы диагностики перинатального поражения центральной нервной системы 25
II. Статистические методы анализа данных 27
2.1 Предварительный статистический анализ 27
2.2 Дискриминантный метод анализа данных 36
2.3 Кластерный метод анализа данных 46
2.4 Факторный метод анализа данных 53
2.5 Анализ полученных результатов 66
III. Нейросетевая система анализа данных и диагностики перинатального поражения центральной нервной системы 68
3.1 Нейросетевой метод анализа данных 68
3.2. Обоснование выбора математического аппарата системы анализа данных и диагностики перинатального поражения центральной нервной системы 80
3.3. Структура и функциональность системы анализа данных и диагностики перинатального поражения центральной нервной системы 85
3.4. Модификации диагностической системы для различных типов входных данных 97
Заключение 102
- Использование методов математического моделирования в медицине
- Использование методов математического моделирования в акушерстве и педиатрии
- Предварительный статистический анализ
- Факторный метод анализа данных
Введение к работе
Актуальность. Проблема нахождения функциональной зависимости по эмпирическим данным встает перед многими исследователями в различных отраслях науки. Данная проблема обычно решается при помощи методов интерполяции или экстраполяции. Применяются различные статистические методы, в большинстве случаев сводящиеся к построению линейных регрессионных уравнений. Однако встречаются ситуации, когда найти зависимости при помощи такого подхода невозможно. В таких случаях применяются «интеллектуальные методы», такие как экспертные системы, нейронные сети, генетические алгоритмы и т.д. С помощью методов и алгоритмов интеллектуальной поддержки принятия решений решаются задачи сжатия массивов эмпирической информации, прогнозирования, классификации, диагностики и т.д. Указанные выше методы находят свое применение и в медицине. Хотя в большинстве случаев в медицине, традиционно применяется статистический анализ.
В науках, занимающихся изучением человека, к которым относится и медицина, отсутствует четкая функциональная связь между причиной и следствием [1]. Присущие закономерности можно обнаружить при помощи системного анализа путем статистической и нейросетевой проверки результатов многих опытов, принимая или отклоняя определенные гипотезы. Необходимость обобщения большого количества информации об исследуемых физиологических системах, возможность прогноза развития заболеваний привели к тому, что стали широко использоваться модели, оценивающие эффективность диагностики на основе системного подхода к рассматриваемым явлениям.
Одной из наиболее важных проблем в современной медицине является сложность выявления перинатального поражения центральной нервной системы. В связи с анатомической и функциональной незрелостью нервной системы новорожденных и большой лабильностью клинических проявлений
бывает трудно провести топическую диагностику и оценить тяжесть поражений головного мозга. Таким образом, диагностика больных затруднена постоянным изменением данных, в силу которого приходится обрабатывать большие массивы информации. Поэтому, одним из путей повышения эффективности диагностики, является применение математических методов анализа информации и разработка проблемно-ориентированных систем обработки информации.
Данная диссертационная работа посвящена разработке математической модели диагностики больных с перинатальным поражением центральной нервной системы (ЦНС). Перинатальные поражения ЦНС являются одной из наиболее важных проблем в современной педиатрии. В связи с анатомической и функциональной незрелостью нервной системы новорожденных и большой лабильностью клинических проявлений бывает трудно провести топическую диагностику и оценить тяжесть поражений головного мозга.
Последние исследования свидетельствуют о том, что поражения мозга, возникающие в перинатальный период приводят к следующим последствиям:
Инвалидизация ребенка - 35-40% всех детей инвалидов - это инвалиды вследствие перинатальных поражений нервной системы;
Перинатальные поражения центральной нервной системы наряду с генетическими и социальными факторами приводит у детей старшего возраста к минимальной церебральной дисфункции. Это, например, проявляется повышенной склонностью к наркомании, неадекватностью поведения. Ребенок замыкается, имеет частые конфликты в семье, классе и т.д.
Высокая значимость тематики также основывается на том, что в последние годы имеется постоянный рост рождаемости детей с данной патологией. Становиться очевидным, что этот фактор приводит к ощутимым изменениям в обществе.
Большое значение для решения поставленной задачи, является изучение состояния здоровья детей с перинатальным поражением головного мозга
именно в периоде новорожденности (один месяц после родов) по следующим причинам:
Этот период является основополагающим для дальнейшего развития ребенка, состояния его здоровья;
В этот период педиатру сложно определить границу между физиологическим адаптационным состоянием новорожденного, возникающим сразу после родов и начинающей развиваться энцефалопатией.
Это связано со сходством симптомов этих двух состояний. Сходство проявлений этих состояний связано с тем, что в период новорожденности у ребенка идет быстрое формирование различных структур головного мозга и других органов. Это приводит к быстрой смене различных клинических признаков. Именно в данный момент педиатру важно вовремя оценить начало формирования патологического процесса и начать проводить рациональную терапию.
Изложенные выше факты свидетельствуют о необходимости проведения исследований в целях создания системы обработки информации и интеллектуальной поддержки принятия решений на основе применения методов системного анализа. Это позволит на ранних стадиях развития перинатального поражения своевременно и точно оценивать вид поражения и проводить лечебные мероприятия. В силу этого актуальной является задача исследования и разработки нейросетевой автоматизированной диагностики перинатального поражения центральной нервной системы.
Состояние вопроса. В последнее время большое внимание уделяется диагностическим исследованиям, так как совершенствование диагностики становится невозможным без использования научно - обоснованных методов прогнозирования [2].
Главной задачей диагностического подхода в педиатрии является не только охрана жизни ребенка, но и поддержание его здоровья на высоком уровне. С этих позиций такой подход должен способствовать наиболее
6 эффективной организации помощи детям, сохранению и укреплению здоровья подрастающего поколения. Однако диагностическая значимость многих факторов, оказывающих влияние на постановку диагноза, недостаточно изучена. Часто неясно, какие показатели необходимо выбирать, и каковы критерии их отбора. Это связано с большими трудностями создания алгоритмов диагностики, адекватно отражающих сложные процессы, происходящие в развивающемся организме.
Основной целью является исследование взаимосвязей между симптомами и разработка проблемно-ориентированной системы обработки информации и принятия решения для диагностики перинатального поражения ЦНС на основе нейросетевых алгоритмов. Диагностическая модель интеллектуальной поддержки врача основывается на статистической обработке исходной информации о пациенте, и дальнейшем анализе полученных данных при помощи нейросетевых алгоритмов. Для достижения поставленной цели необходимо решить следующие задачи исследования:
Исследовать системные связи и закономерности взаимодействия характерных симптомов перинатального поражения центральной нервной системы между собой.
Определить комплекс значимых признаков, описывающих состояние ребенка на различных стадиях перинатального поражения.
Разработать методику оценки вида перинатального поражения ЦНС.
Создать программный продукт, реализующий систему анализа данных и интеллектуальной поддержки решений.
Научная новизна заключается в достижении следующих научных результатов:
1. Предложен методический подход к решению задачи диагностики
перинатального поражения центральной нервной системы.
Предложена модель взаимодействия нейросетевых и статистических методов для диагностики перинатального поражения центральной нервной системы.
Построены конкретные структуры нейронных сетей, осуществляющих диагностику различных видов перинатального поражения центральной нервной системы.
Положения, выносимые на защиту.
Нейросетевая система анализа данных и принятия диагностического решения, позволяющая в режиме реального времени оценить вид перинатального поражения центральной нервной системы.
Взаимосвязи между симптомами, позволяющие существенно сократить исходную выборку симптомов, при сохранении уровня безошибочности диагностики больных с перинатальным поражением центральной нервной системы.
Реализация системы нейросетевой диагностики перинатального поражения центральной нервной системы с близким к оптимальному соотношением чувствительности и специфичности.
Теоретическая значимость результатов работы. В ходе исследований оценены возможности статистических и нейросетевых методов в качестве диагностических моделей. Получены статистически значимые различия симптомов для различных видов перинатального поражения ЦНС. Выявлены также статистически значимые симптомы для диагностики различных видов перинатального поражения ЦНС.
В ходе нейросетевого анализа выявлено, что при диагностике перинатального поражения ЦНС безошибочность нейронных сетей остается примерно постоянной при изменении числа скрытых слоев. Однако при увеличении нейронов в скрытом слое до определенного значения, безошибочность нейронных сетей возрастает. Для анализа данных необходимо использовать нейронные сети либо с одним нейроном, либо с числом нейронов,
равным максимальному количеству классифицируемых состояний. Исследования показали, что нейронные сети с минимальным числом нейронов в выходном слое обладают высокой специфичностью, а с максимальным количеством нейронов - высокой чувствительностью. Соответственно при проектировании нейросетевой системы анализа данных и принятия .диагностических решений необходимо использовать комбинацию нейронных сетей.
Практическая значимость результатов работы. Использование статистических и нейросетевых методов составляет практическую основу для построения системы поддержки принятия диагностических решений. Рекомендации системы могут использоваться врачами для принятия решений о состоянии здоровья ребенка с перинатальным поражением ЦНС на различных стадиях его развития. Нейросетевая система диагностики оценивает состояние здоровья плода во время беременности на основе показателей протекания беременности, оценивает возможность исхода родов, основываясь на показателях протекания родов, и осуществляет диагностику пациентов, используя показатели протекания беременности и родов. Диагностика осуществляется без привлечения высококвалифицированных экспертов в условиях периферических медицинских учреждений. Использование проблемно-ориентированной системы принятия решений повышает оперативность принятия решений и снижает уровень субъективизма при постановке диагноза.
Основные результаты диссертационной работы реализованы в виде программы диагностики перинатального поражения центральной нервной системы, внедрены в два медицинских учреждения Алтайского края и используются в медицинской практике.
Публикации. Результаты работы отражены в двух статьях и тринадцати тезисах докладов на конференциях. Была создана и официально зарегистрирована программа для ЭВМ «Диагностика больных с перинатальным
поражением ЦНС»
Апробация результатов. Основные положения и отдельные результаты исследования докладывались и обсуждались на XI всероссийском научном семинаре «Нейроинформатика и ее приложения» (Красноярск, 2003), 5-й международной конференции «Радиоэлектроника в медицине» (Москва, 2003), 5-й научно-практической конференции «Молодежь-Барнаулу» (Барнаул, 2003), XII всероссийском научном семинаре «Нейроинформатика и ее приложения» (Красноярск, 2004).
Внедрение. Программа для ЭВМ «Диагностика больных с перинатальным поражением ЦНС» была внедрена в двух клинических больницах Алтайского края. В Алтайском государственном университете на физико-техническом факультете в учебном процессе использовалась реализованная в программе для ЭВМ модель диагностики.
Структура работы. Во введении формулируются объект, предмет, актуальность, цели и структура работы. Указывается новизна разработок, апробация результатов и их внедрение.
Первая глава посвящена способам построения проблемно-ориентированных систем диагностики пациентов с помощью статистических и нейросетевых методов. Изложены основные идеи математического подхода, в рамках которого производится системный анализ и формализация процесса эмпирической диагностики.
Во второй главе рассмотрена физическая и математическая постановка задачи. Описан эксперимент, в результате которого была построена математическая модель и получены данные, позволяющие оценить степень влияния симптомов на постановку диагноза. Приведены результаты исследований возможностей статистических методов анализа информации для диагностики перинатального поражения центральной нервной системы.
В третьей главе разработана методика создания системы анализа данных и принятия решений диагностики перинатального поражения центральной
нервной системы на основе нейросетевых методов. Представлено описание построенного диагностического комплекса. Указаны возможные модификации и причины их возникновения. Приведены достоинства и недостатки применяемых математических моделей.
В заключении формулируются основные результаты работы.
Использование методов математического моделирования в медицине
В медицине накоплен большой опыт диагностики заболеваний и их исходов. Однако до недавнего времени диагностика пациентов носила субъективно-эмпирический характер, и лишь в последние годы получил развитие научно-обоснованный подход. Этот подход стад возможным с развитием вычислительной техники и разработкой методов математического моделирования.
Разработка методов диагностики начинается после четкого определения цели, обуславливающей направленность действий: получение необходимой информации, ее обработку, анализ, выбор метода, определение перспектив и вероятности правильного определения диагноза. Большое значение для успешной разработки модели имеют качество и полнота исходной информации об объекте. Наиболее перспективным способом ее получения является системный подход [2], главный принцип которого состоит в понимании организма как целостной системы с упорядоченной структурой и наличием внутренних и внешних связей.
Выделяют две большие группы методов диагностики - эвристические и фактографические [3]. Эвристические методы основаны на получении и обработке оценок объекта путем систематизированного опроса высококвалифицированных специалистов - экспертов. То есть первостепенное влияние на постановку диагноза оказывает мнение эксперта, основанное на личном опыте и умении. Такие методы позволяют определять диагноз при высокой степени неопределенности будущего в условиях недостаточной информации об объекте [4].
В отличие от эвристических, фактографические методы опираются на конкретные данные, характеризующие пациента. Диагноз в этих случаях выставляется с помощью методов математической статистики. Главным при их использовании является эволюционный тип развития объекта без выраженных скачков [5].
Следует добавить, что методы диагностики, основанные на применении нейросетевых алгоритмов - занимают промежуточное положение между этими двумя методами. Нейронные сети при обучении используют численные анамнестические сведения, результаты лабораторного и других видов обследования и т.д. Однако настройка весовых коэффициентов в матрице синаптических весов в процессе обучения - напоминает эвристический метод диагностики.
Состояние пациента может определяться с помощью одного или нескольких методов. Различают симплексные и комплексные подходы диагностики [5]. Комплексная диагностика осуществляет системный подход к объекту и отражает взаимосвязь многих факторов. Симплексная диагностика основана на анализе отдельных факторов. Однако симплексные методы могут применяться последовательно, параллельно, синтезироваться и объединяться между собой [2].
Одним из симплексных методов диагностики является экстраполяция. Этот метод предполагает:
1. Определение тенденций развития на основании анализа имеющихся данных, представленных в виде динамического ряда и характеризующих изменения объекта во времени.
2. Подбор аппроксимирующей функции, наиболее точно описывающей поведение в ретроспективный период.
Экстраполяция используется при исследовательском подходе и дает хорошие результаты, если правильно определена форма кривой, отражающей выявленную закономерность [6]. Экстраполяционный метод используют для оценки эффективности терапии острого лейкоза [7]. В качестве используемого показателя выступает динамика активности ферментов в опухолевых клетках в процессе лечения. Экстраполяционная функция, экспоненциального типа также позволяет предсказывать эффективность терапии в ближайшем будущем [7].
Однако за последние годы в статистике произошли изменения, связанные с использованием современных компьютерных технологий. Если раньше, исходя из обработки данных исследования, рассчитывались основные параметры вариационного ряда, и с учетом необходимой достоверности определялась численность выборки, то в последнее время, все чаще используются вероятностные методы и подходы. Наряду с использованием методов оценки достоверности различий: Т-критерий Стьюдента, Х-квадрат, и т.д., применяются более сложные модели и методы: линейные и многофакторные корреляционный, регрессионный, дисперсионный анализы и т.д.
Для комплексной диагностики в медицине используются статистические модели многофакторных оценок. К таким моделям можно отнести корреляционный анализ. В практических наблюдениях часто бывают случаи, когда зависимости не имеют функционального характера. То есть равномерному изменению одного признака соответствует изменение величины другого признака в среднем. Исследование взаимной зависимости между признаками приводит к теории корреляции [8]. Выделяется также случай функциональной зависимости между величинами, измерения которых подвержены ошибкам наблюдений или измерений [9]. Полученные в результате применения линейных методов корреляционного анализа выводы могут подтвердить или опровергнуть предложенную диагностическую гипотезу. В частности, используя основные показатели активности в лейкозных клетках, вводя численные связи между цитохимическими показателями и клиническими характеристиками онкологического заболевания, представляется комплекс прогностических неблагоприятных и благоприятных признаков. На его основе осуществляется оценка течения острого лейкоза [10]. При прогнозировании продолжительности жизни больных с тяжелой дыхательной недостаточностью методом корреляционного анализа установлено, что основными факторами, позволяющими предсказать ожидаемую продолжительность жизни, являются степень выраженности легочного сердца и отсутствие эффекта от проводимой терапии [11].
Использование методов математического моделирования в акушерстве и педиатрии
Для того, что бы получить достаточно надежный диагноз здоровья ребенка, необходимо выбирать признаки, которые не только описывали бы состояние организма в прошлом и настоящем, но и отражали особенности его реактивности и адаптационные возможности при различных воздействиях внешних факторов. Такими признаками являются:
1. Сведения о здоровье родителей, позволяющие выявить наследственно - генетический фон;
2. Информация о течении беременности и родов, дающая представление о действии неблагоприятных факторов во внутриутробный период и перинатальный периоды;
3. Клинические особенности периода новорожденности, характеризующие способность организма адаптироваться к внеутробным условиям существования;
4. Данные о перенесенных в прошлом заболеваниях, определяющих реактивность и резистентность ребенка;
5. Результаты инструментальных видов обследования.
Описывая применение фактографических методов в педиатрии, можно отметить, что одним из количественных методов диагностики, нашедших применение в педиатрии, является экстраполяция. Ее сущность состоит в переносе на будущее тенденций развития объекта, имевшихся в прошлом и настоящем. При помощи такого метода успешно прогнозируется уровень активности ферментов в периоде новорожденности как у «здоровых» недоношенных, так и у детей с внутричерепной родовой травмой. При этом прогнозируется время нормализации активности ферментов у детей с внутричерепной родовой травмой [32,33]. Используемые в этом случае экстраполяционные данные представляются в виде динамических рядов
Экстраполяционный метод в педиатрии успешно используется не только для описания динамики отдельных показателей, но и для выявления интегративных показателей (тяжесть заболевания, его течение и т.д.). Например, экспоненциальные экстраполяционные функции диагностируют вакцинальные процессы на основе показателей активности ферментов, измеренные до и после введения вакцины [35], или динамику клинического состояния при острой пневмонии у детей раннего возраста [36].
В педиатрической диагностике часто стоит задача по ряду нескольких косвенных признаков оценить наиболее важный, но трудно определяемый признак. Для получения таких многофакторных прогнозов используются и такие статистические модели, как корреляционный и регрессионный анализ. Например, по косвенным диагностическим признакам, такой подход используется для определения степени анатомического поражения, оценки вероятности осложнений, срока выживания, биологического возраста [37,38].
Разработка предсказывающих моделей часто требует использования метода множественной регрессии. Предсказательная функция таких моделей была использована для выявления особенностей течения бронхиальной астмы у детей [39], внутричерепной родовой травмы и сепсиса у новорожденных [40] и др. Так для определения длительности пост- и межприступного периодов при бронхиальной астме используются показатели активности нескольких ферментов [39,41].
В частности, для выявления лейкозов используют не только экстраполяционный метод, но и диагностические модели, включающие в себя корреляционный и регрессионный анализ [42]. Для этого в качестве исходных данных применяются прогностические таблицы, включающие в себя гематологические показатели, длительность начального периода клинических проявлений, число перенесенных других заболеваний и т.д. В последнее время с помощью модели логистической регрессии оценивается влияние образа жизни на риск мозгового паралича [43,44] и опрееляется риск возникновения перинатального поражения у новорожденных [45,46,47]. Данная модель довольно успешно работает с медицинскими данными, однако для более правильной диагностики необходимо наличие врача-эксперта. В работе [46] отмечается, что при учете оценок врача-эксперта, прогнозирующая способность модели улучшается на 6,5%. Кроме этого метод логистической регрессии можно использовать для выявления статистически значимых и незначимых симптомов [47]. В частности ряд работ показывает, что диабет у матери не оказывает влияние на рождение ребенка с перинатальным поражением [43,48,49]. В других научных публикациях [50,51] показан ряд статистически значимых факторов, на которые стоит обращать внимание врачам при оценке состояния здоровья ребенка.
Таким образом, применение статистических моделей на основе корреляционного и регрессионного анализа позволяет не только прогнозировать состояние больного, но и оценивать значимость факторов, влияющих на развитие заболеваний.
Следует отметить тот факт, что в последние годы широкое распространение в клинической педиатрии нашли методы, основанные на теории распознавания образов [52]. Процедура диагностики заключается в классификации нескольких генеральных совокупностей и выработке решающего правила, позволяющего на основе признаков отнести новый элемент к одному из классов. Для решение задач такого плана используется факторный, кластерный и дискриминантный анализы.
Предварительный статистический анализ
Для построения модели диагностики использовались данные, взятые в Алтайской краевой клинической детской больнице и содержащие сведения о пациентах, проживающих на всей территории Алтайского края за 3 года (1999-2001 гг.). Каждая запись в базе данных содержала информацию, состоящую из трех логических блоков:
Диагноз ребенка, закодированный следующим образом:
1. гипоксически - ишемическое поражение ЦНС - 384 ребенка;
2. гипоксически-геморрагическое поражение ЦНС - 82 ребенка;
3. натальная спинальная травма — 357 детей;
4. натальная краниоспинальная травма - 147 детей;
5. отсутствие перечисленных выше диагнозов - 1294 ребенка.
Качественная информация об анамнезе беременности матери ребенка, содержащая сведения о перенесенных заболеваниях матери во время беременности и осложнениях, возникших у плода во время внутриутробного развития (32 параметра). Эта информация кодировалась следующим образом:
1 - заболевание или осложнение присутствует; 0 - заболевание или осложнение отсутствует.
Количественная информация о состоянии здоровья ребенка при рождении и после родов, а так же количество родов и беременностей у матери (7 параметров).
Диапазон изменения количественных исходных данных сильно различался. Так, например, показатели количества беременностей изменялись в 18 раз, а значения роста при рождении изменялся менее, чем в два раза. Так же максимальное значение оценки по шкале Апгар равнялось 10, а минимальный вес при рождении определялся числом 2200. В тоже время качественная информация по анамнезу беременности представлялась только двумя числовыми значениями - 0 или 1, в зависимости от того, присутствует, либо отсутствует симптом.
Исходная информация разбивалась на две группы еще по одному признаку. В базе содержались данные, полученные во время внутриутробного развития плода (20 значений), и полученные во время рождения ребенка и сразу после родов (19 значений). Вид исходных данных представлен в приложении 1 (табл. 1).
Таким образом, исходная база данных была представлена большим объемом разнородной информации, содержащей как качественные, так и количественные оценки состояния здоровья пациентов. Так же данные характеризовались различной степенью достоверности. То есть такие параметры как вес ребенка или его рост определялись инструментально, а, например, оценка по шкале Апгар определялась врачом только на основании визуального обследования.
В силу большой разнородности исходных данных необходимо было осуществить предварительные статистические исследования с целью определения вида распределения исходных данных, нахождения статистически значимых различий между ними, оценивания целесообразности исследований при помощи многопараметрических статистических и нейросетевых методов.
Так как диапазоны значений входных данных сильно отличались, то все данные были нормированы в единый диапазон. После нормировки исходные данные исследовались различными статистическими методами с целью выявления статистически значимых различий, и оценивался вид распределения.
Для определения статистически значимых симптомов влияющих на выявление конкретного диагноза для больных с перинатальным поражением ЦНС применялся метод хи-квадрат, с порогом значимости равным 0,05 (р=0,05) для качественных данных [85,86]. В ходе исследований были определены статистически значимые различия между симптомами, представленные в приложении 1 (табл. 2). Так же количественные исходные данные были проверены на нормальное распределение. Проверка нормальности распределения признака осуществлялась следующими способами [87]:
1. Визуальный. Строились гистограммы и визуально оценивалось, насколько гистограмма близка к колоколу нормального распределения.
2. Численный. Проводилась оценка коэффициентов асимметрии и эксцесса. Если по абсолютной величине оценки ассиметрии и эксцесса имеют тот же порядок, что и их ошибки, следовательно можно сказать что данные согласованы с гипотезой нормальности.
3. Статистический с использованием критерия Шапиро-Уилка. Если значение полученного уровня статистической значимости больше критического уровня, принятой исследователем (р=0,05), то распределение исследуемого признака можно считать нормальным.
Факторный метод анализа данных
Главными целями факторного анализа являются сокращение числа переменных и определение структуры взаимосвязей между переменными, т.е. классификация переменных. Поэтому факторный анализ используется или как метод сокращения данных или как метод классификации. Так как задачей кластерного анализа является разбиение переменных на группы, наиболее удаленные друг от друга и классификация объектов, а факторный анализ занимается исследованием связей между ними, то оба метода не исключают, а дополняют друг друга. Поэтому применение метода факторного анализа позволяет отыскать скрытые закономерности, которые определяются воздействием внутренних или внешних причин на изучаемый процесс, а так же выявить статистические связи признаков с факторами или главными компонентами [8,88].
Подтверждающий факторный анализ позволяет проверять частные гипотезы о факторной структуре для множества переменных в одной или нескольких выборках.
Анализ соответствий содержит описательные/разведочные методы, предназначенные для анализа двух- и многовходовых таблиц, содержащих некоторые взаимосвязи между строками и столбцами. Результаты этого анализа позволяют изучить структуру категориальных переменных, входящих в таблицу.
Объединение двух переменных в один фактор. Зависимость между переменными можно обнаружить с помощью диаграммы рассеивания. Полученная путем подгонки линия регрессии дает графическое представление зависимости. Если определить новую переменную на основе линии регрессии, изображенной на этой диаграмме, то такая переменная будет включить в себя наиболее существенные черты обеих переменных. Анализ главных компонент. Объединение двух коррелированных переменных в один фактор, показывает главную идею факторного анализа или, более точно, анализа главных компонент. Если алгоритм объединения двух переменных распространить на большее число переменных, то вычисления становятся сложнее, однако основной принцип представления двух или более зависимых переменных одним фактором остается в силе.
Анализ главных компонент является методом сокращения или редукции данных, т.е. методом сокращения числа переменных. В процессе последовательного выделения факторов они включают в себя все меньше и меньше изменчивости. Решение о том, когда следует остановить процедуру выделения факторов, главным образом зависит от точки зрения на то, что считать малой "случайной" изменчивостью.
Как только получена информация о том, сколько дисперсии выделил каждый фактор, оценить количество оставляемых фактором можно на основе критериев:
Критерий Кайзера. Сначала отображаются только факторы, с большими собственными значениями. По существу, это означает, что если фактор не выделяет дисперсию, эквивалентную, по крайней мере, дисперсии одной переменной, то он опускается. Этот критерий предложен Кайзером, и является, вероятно, наиболее широко используемым.
Критерий каменистой осыпи является графическим методом, впервые предложенным Кэттелем (Cattell, 1966). Кэттель предложил найти такое место на графике, где убывание собственных значений слева направо максимально замедляется. Предполагается, что справа от этой точки находится только "факториальная осыпь". В соответствии с этим критерием можно оставить в этом примере 2 или 3 фактора.
Первый критерий (критерий Кайзера) иногда сохраняет слишком много факторов, в то время как второй критерий (критерий каменистой осыпи) иногда сохраняет слишком мало факторов. Однако оба критерия вполне хороши при нормальных условиях, когда имеется относительно небольшое число факторов и много переменных. На практике возникает важный дополнительный вопрос, а именно: когда полученное решение может быть содержательно интерпретировано. Поэтому обычно исследуется несколько решений с большим или меньшим числом факторов, и затем выбирается одно наиболее "осмысленное". Термин факторный анализ включает как анализ главных компонент, так и анализ главных факторов. Если известно количество факторов, то тогда необходимо узнать значимость факторов, то есть, можно ли интерпретировать их разумным образом и как это сделать. Чтобы проиллюстрировать, каким образом это может быть сделано, производятся действия "в обратном порядке", то есть, начинают с некоторой осмысленной структуры, а затем смотрят, как она отражается на результатах.
Факторные нагрузки. С помощью пакета STATISTICA можно изобразить факторные нагрузки в виде диаграммы рассеивания. На этой диаграмме каждая переменная представлена точкой. Можно повернуть оси в любом направлении без изменения относительного положения точек; однако действительные координаты точек, то есть факторные нагрузки, должны, без сомнения, меняться. Существуют различные методы вращения факторов. Целью этих методов является получение понятной (интерпретируемой) матрицы нагрузок, то есть факторов, которые ясно отмечены высокими нагрузками для некоторых переменных и низкими - для других. Эту общую модель иногда называют простой структурой. Типичными методами вращения являются стратегии варшіакс, квартшіакс, и эквгшакс. В ходе эксперимента должно найтись вращение, максимизирующее дисперсию по новым осям. Другими словами, должна получиться матрица нагрузок на каждый фактор таким образом, чтобы они отличались максимально возможным образом и имелась возможность их простой интерпретации.
Косоугольные факторы. Некоторые авторы (например, Харман, Дженнрих и Сэмпсон; Кларксон и Дженнрих) обсуждали довольно подробно концепцию косоугольных (не ортогональных) факторов, для того чтобы достичь более простой интерпретации решений. В частности, были развиты вычислительные стратегии, как для вращения факторов, так и для лучшего представления "кластеров" переменных без отказа от ортогональности (т.е. независимости) факторов. Однако косоугольные факторы, получаемые с помощью этих процедур, трудно интерпретировать. Косоугольное вращение должно дать, очевидно, коррелирующие факторы с меньшей, чем ранее, ф выразительностью, то есть с большими перекрестными нагрузками.