Содержание к диссертации
Введение
1. Пути повышения эффективности системы управления дополнительной диспансеризации работающих граждан в государственных и муниципальных учреждениях 11
1.1. Анализ нормативной базы национального проекта «Здоровья» 11
1.2. Методы многовариантного моделирования состояния и прогнозирования развития заболеваемости населения для рационального управления ДД 19
1.3. Цель и задачи исследования 25
2. Анализ и оценка развития заболеваемости работающих граждан воронежской области 26
2.1. Анализ результатов дополнительной диспансеризации граждан по Воронежской области за 2006 и 2007 гг 26
2.2. Оценка динамики развития заболеваемости населения в Воронежской области 41
Выводы второй главы 61
3. Прогнозирование и моделирование развития заболеваемости в воронежской области 62
3.1. Прогнозирование развития заболеваемости на основе экстраполяции временных рядов 62
3.2. Ранжирование районов Воронежской области по уровню заболеваемости 98
3.3. Классификация и оценка уровня риска заболеваемости региона на основе кластерного анализа и метода «деревьев решений» 103
Выводы третей главы 117
4. Реализация моделей и алгоритмов для автоматизации управления дополнительной диспансеризацией 118
Заключение 126
Список литературы 128
Приложение 135
- Методы многовариантного моделирования состояния и прогнозирования развития заболеваемости населения для рационального управления ДД
- Оценка динамики развития заболеваемости населения в Воронежской области
- Ранжирование районов Воронежской области по уровню заболеваемости
- Классификация и оценка уровня риска заболеваемости региона на основе кластерного анализа и метода «деревьев решений»
Введение к работе
Актуальность темы. Наиболее острыми проблемами здоровья населения за последние десятилетия являются высокий уровень общей смертности, особенно среди мужчин трудоспособного возраста, низкий уровень рождаемости, отрицательный прирост населения. В настоящее время по показателю ожидаемой продолжительности жизни для мужчин Россия занимает 134-е место в мире, для женщин - 100-е место.
В январе 2006 г. в Воронежской области стартовала реализация приоритетного Национального проекта «Здоровье». Одной из задач, поставленных приоритетным Национальным проектом в сфере здравоохранения России на 2006-2008 гг., является усиление профилактической направленности здравоохранения, формирование у населения культуры здоровья, проведение дополнительной диспансеризации (ДД), формирование паспорта здоровья для каждого жителя страны.
ДД работающих граждан осуществляется в виде дополнительной диспансеризации граждан, работающих в государственных и муниципальных учреждениях сферы образования, здравоохранения, социальной защиты, культуры, физической культуры и спорта и в научно-исследовательских учреждениях (постановление Правительства РФ от 31.12.2005 N 868 "О порядке предоставления в 2006 году из бюджета Федерального фонда обязательного медицинского страхования территориальным фондам обязательного медицинского страхования субсидий на проведение дополнительной диспансеризации граждан, работающих в государственных и муниципальных учреждениях сферы образования, здравоохранения, социальной защиты, культуры и спорта и в научно-исследовательских учреждениях").
Одним из определяющих условий рационального управления является информационное обеспечение процесса управления, поиск, сбор, накопление и переработка необходимой информации, в условиях ограниченных ресурсов. Внедрение мониторинговых подходов к слежению за состоянием здоровья населения с учетом воздействия на него факторов окружающей среды, условий труда и быта, качества медицинской помощи требует принципиально иных методов накопления информации и ее аналитической обработки. Особое значение требуется уделять медицинскому мониторингу по общей заболеваемости и по отдельным нозологиям в области и в ад-
министративных территориях. Управление процессом проведения ДД должна опираться на прогнозирование развития уровня заболеваемости в области и административно-территориальным единицам региона.
Таким образом, актуальность темы диссертационного исследования определяется, необходимостью формирования комплексного подхода в повышении качества проведения дополнительной диспансеризации и оказания населению медицинской помощи с применением многовариантного моделирования социальных процессов, на базе современных информационных технологий.
Работа выполнена в соответствии с региональной программой «Здоровье» и в соответствии с основным научным направлением ГОУ ВПО «Воронежский государственный технический университет» «Проблемно-ориентированные системы управления» при выполнении научно-исследовательской работы Б.5.06 «Теоретические основы геоинформационного статистического анализа и прогнозирования развития территориально распределенных систем».
Цель и задачи исследования. Целью диссертационной работы является разработка методов и моделей прогнозирования медико-социальных процессов региона, обеспечивающих повышение эффективности дополнительной диспансеризации работников бюджетной сферы Воронежской области.
Для достижения поставленной цели необходимо решить следующие задачи:
проанализировать базу данных о состоянии здоровья работников бюджетной сферы (группам состояния здоровья) по территориальным единицам и нозологическим формам и сформировать информационный мониторинг по результатам диспансерных показателей, на основе статистической информации;
изучить развитие заболеваемости населения области по различным нозологиям и административно территориальным единицам региона и построить их прогностические оценки;
провести анализ уровня заболеваемости населения области на основе статистического моделирования и применения метода «деревьев решений» для планирования дополнительной диспансеризации;
разработать многоуровневый комплекс алгоритмов рационального управления дополнительной диспансеризацией для оптимизации взаимо-
действия на стратегическом, тактическом и оперативном уровнях в условиях инновационных преобразований и алгоритм оценивания и контроля дополнительной диспансеризации;
реализовать и внедрить информационно-аналитическую систему управления дополнительной диспансеризацией на основе комплекса алгоритмов рационального управления.
Методы исследования. Для решения поставленных задач использовались методы системного анализа, теории управления, экспертного оценивания и принятия решений, методы теории искусственного интеллекта, основные положения теории вероятности, моделирования и математической статистики.
Научная новизна результатов исследования. В работе получены следующие результаты, характеризующиеся научной новизной:
информационный мониторинг итогов дополнительной диспансеризации региона на основе статистического анализа, позволяющий получать оперативные данные по гражданам работающих в государственных и муниципальных учреждениях;
прогностические модели уровня риска заболеваемости и оценка динамики развития заболеваемости по районам области, позволяющие оптимальным образом планировать проведение дополнительной диспансеризации;
методы оценки уровня риска заболеваемости региона, основанные на использовании кластерного анализа и метода «деревьев решений», позволяющие учитывать значимость предикторных переменных, для обеспечения рационального принятия управленческих решений при проведении дополнительной диспансеризации;
методика интеллектуальной поддержки принятия решения для оптимизации управления дополнительной диспансеризацией и оценки эффективности проводимых мероприятий, направленные на повышение качества оказания медицинской помощи;
информационная система управления дополнительной диспансеризацией, реализующая интеграцию методов, моделей и алгоритмов рационального принятия решений.
Практическая значимость и результаты внедрения.
В результате проведенного исследования разработана и научно обоснована методика управления дополнительной диспансеризацией. Раз-
работанные методы оценки позволяют планировать лечебно-профилактические мероприятия, осуществлять рациональное распределение ограниченных ресурсов как на уровне области, так и на уровне районов и его структурных подразделений.
Результат применения информационной системы управления дополнительной диспансеризацией показал, что предложенные подходы и разработанные модели и алгоритмы позволили оптимизировать проведение дополнительной диспансеризации в лечебно-профилактическом учреждении.
Результаты исследований в виде информационной системы управления дополнительной диспансеризацией апробированы и внедрены в Территориальном фонде ОМС Воронежской области, МУЗ городского округа г. Воронеж «Городская клиническая больница № 11», МУЗ городского округа г. Воронеж «Городская поликлиника №10».
Апробация работы. Основные положения и научные результаты диссертационного исследования докладывались и обсуждались на следующих конференциях, совещаниях и семинарах: Всероссийской конференции «Интеллектуальные информационные системы» (Воронеж, 2008); Всероссийской конференции "Интеллектуализация управления в социальных и экономических системах" (Воронеж, 2008, 2009), научно-тематическом семинаре кафедры управления в социальной сфере и медицине ГОУ ВПО «Воронежский государственный технический университет» (Воронеж, 2008,2009).
Публикации. Основные результаты диссертации опубликованы в 8 научных работах, в том числе 2 - в издании, рекомендованном ВАК РФ.
В работах, опубликованных в соавторстве и приведенных в конце автореферата, лично соискателю принадлежат: построенные прогностические модели развития заболеваемости по районам области [1]; проведенная оценка риска заболеваемости по районам области на основе многомерного статистического анализа [4, 5]; анализ результатов дополнительной диспансеризации граждан Воронежской области [6, 7]; предложенные методы рационального управления проведения дополнительной диспансеризацией работающих граждан [2]; сформированный информационный мониторинг по результатам диспансерных показателей и на основе статистической информации [3, 8].
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 91 наименования, приложения. Основная часть работы изложена на 135 страницах, содержит 53 рисунка, 35 таблиц.
Методы многовариантного моделирования состояния и прогнозирования развития заболеваемости населения для рационального управления ДД
Комплексное изучение здоровья населения является основой для разработки политики и определения приоритетов в системе охраны здоровья населения Российской Федерации. Процесс формирования здоровья населения за последние десятилетия отражает общие тенденции социально-экономического развития страны. Наиболее острыми проблемами здоровья населения являются высокий уровень общей смертности, особенно среди мужчин трудоспособного возраста, низкий уровень рождаемости, отрицательный прирост населения. В настоящее время по показателю ожидаемой продолжительности жизни для мужчин Россия занимает 134-е место в мире, для женщин - 100-е место. Решение этих проблем невозможно без разработки государственной стратегии сбережения и улучшения здоровья, основанной на углубленном изучении современных тенденций здоровья населения Российской Федерации. Задачу улучшения популяционного здоровья можно решать, только опираясь на современные достижения профилактической медицины и большие возможности компьютерных технологий. Приложение методов профилактической медицины практически к каждому гражданину России, независимо от возраста, с их нацеленностью на раннее выявление заболеваний, своевременное лечение и реабилитацию выявленных больных, организацию мониторинга здоровья, невозможно реализовать без широкого использования средств вычислительной техники и коммуникационных технологий, которые становятся уже достаточно привычными для медицинских учреждений.
Нужны инструменты для раннего выявления хронических заболеваний, которые позволили бы уйти от медицины «по обращаемости», которая вынуждает работать практическое здравоохранение с запущенными, тяжелыми и трудноизлечимыми формами хронических заболеваний. Современная система мониторирования здоровья населения должна отвечать, по крайней мере, нескольким принципиальным требованиям - быть актуальной, оперативной, высокоточной, иметь обратную связь с корреспондирующими структурами. Истоки достоверности информации о состоянии здоровья населения лежат в сфере первичного здравоохранения, в грамотном эффективном стандартизованном учете медицинских обследований здоровья каждого человека [37, 38, 78]. Современная медицина должна уметь не только эффективно распознавать болезнь, но оперативно формировать аналитику, работать со статистикой, очень активно вмешиваясь в принятие ответственных государственных решений в сфере охраны здоровья населения. Одним из определяющих условий рационального управления ДД является информационное обеспечение процесса управления, включающее поиск, сбор, накопление и переработку необходимой информации. Действующая система статистического учета информации о работе территориального здравоохранения опирается на годовые отчеты определенных отраслевых служб, отражающих состояние системы здравоохранения за прошедший год в среднем. Многочисленность предъявляемых в вышестоящие органы форм отчетов требует сил и средств для их переработки для прогнозирования и управления.
Отчеты, направляемые в областные комитеты по здравоохранению, фактически поступают в организационно-методические отделы областных больниц и диспансеров, бюро медицинской статистики, где после заполнения "паспортов" на районы, составления статистических справочников по ведущим показателям деятельности сети здравоохранения и после предъявления в министерстве здравоохранения, практически хранятся в архивах без проведения более глубокого, всестороннего анализа с элементами прогноза ситуации. Одной из проблем управления здравоохранением, является, по существу, отсутствие средств оперативного управления, построенного по принципу прогноза и своевременного упреждения неблагоприятной ситуации. Действующая система здравоохранения несет большие затраты сил, средств и времени на поиск, накопление и переработку поступающей информации, значительная доля которой малоинформативна либо не анализируется и не используется для целей управления. Корректное использование мониторинговых подходов к оценке и прогнозированию медико-экологических ситуаций, выбору управляющих воздействий на основе данных медицинского и экологического мониторингов, учитывающих пространственный аспект объектов исследования, во многом определяет эффективность лечебно-профилактической работы на разных уровнях здравоохранения. Принятие решений базируется на оценках прогноза состояний исследуемых объектов относительно фиксируемых территориальных единиц (и их совокупностей) на основе достоверной информации. Оценка динамики медико-экологических показателей связана с анализом динамических рядов, построением многофакторных регрессионных моделей, корреляционным анализом. Стратегической информацией является выбираемые критерии организации и проведения медицинских мониторингов, мероприятия по повышению эффективности работы медицинских служб, планирования лечебно-профилактических мероприятий, оценки эффективности выбранных стратегий [37].
Рационализация управления территориальными медицинскими системами должна основываться на реструктуризации отрасли, использовании нового хозяйственного механизма, ориентации на страховую медицину и повышении значимости лицензионно-аккредитационной деятельности и информатизация. Главной целью создания системы медико-экологического мониторинга является организация на базе информационных технологий системы сбора, обработки, хранения и представления информации, обеспечивающей динамическую оценку здоровья населения по нозологическим формам заболеваемости и территориально распределенным системам и информационную поддержку принятия решений, направленных на улучшение ситуации [78]. Процесс управления является разновидностью информационных технологий, которые определяются как совокупность систематических и массовых способов создания, накопления, обработки, хранения, передачи и распределения информации с применением средств вычислительной техники. Процесс накопления и обработки данных требует соответствующей информационной, компьютерной и технологической поддержки. Большинство задач, для которых требуется информационная поддержка принятия решений, являются многокритериальными, где по каждому критерию существуют ограничения, накладываемые внешней средой (ресурсные и временные ограничения, экологические требования, социально-экономическая обстановка и т.п.). Поэтому сложность задач по принятию рациональных управленческих решений при распределении медицинских ресурсов, выбору и корректировке стратегии лечебных мероприятий с учетом большого числа независимых и коррелируемых показателей обусловливают необходимость применения компьютерных систем информационной поддержки принятия решений. Принятие решения в большинстве случаев заключается в выборе лучшей альтернативы, который осложняется противоречивыми требованиями, неоднозначностью оценок, ошибками в выборе приоритетов и неопределенностью. Неопределенность в процессах принятия решений связана со следующими факторами: неполнотой знаний о проблеме, по которой принимается решение;
Оценка динамики развития заболеваемости населения в Воронежской области
Высокий уровень болезненности работников бюджетной сферы, подтвержденный ДД, убеждает в своевременности и необходимости ее проведения. Для дальнейшего исследования проведен анализ динамики заболеваемости населения по основным нозологическим формам за период 2000-2007 гг. по Воронежской области, г. Воронежу и районам области. Абсолютное изменение уровней (в данном случае его можно назвать абсолютным приростом) - это разность между сравниваемым уровнем и уровнем более раннего периода, принятым за базу сравнения. Если эта база -непосредственно предыдущий уровень, показатель называют цепным, если за базу взят, например, начальный уровень, показатель называют базисным. Формулы абсолютного изменения уровня: цепное: Система показателей должна содержать не только абсолютные, но и относительные статистические показатели. Относительные показатели динамики необходимы для сравнения разных объектов, особенно если их абсолютные характеристики различны [6, 33]. Темп роста - это отношение сравниваемого уровня (более позднего) к уровню принятому за базу сравнения (более раннему). Темп роста исчисляется в цепном варианте к предыдущему уровню или в базисном варианте - к одному и тому же, обычно начальному уровню (2.3). Он говорит о том, сколько процентов составляет сравниваемый уровень по отношению к уровню, принятому за базу, или во сколько раз сравниваемый уровень больше уровня, принятого за базу. При этом если уровни снижаются со временем, то сказать, что последующий уровень «больше в 0,33 раза», или составляет 33,3 % базового уровня, это означает, что уровень уменьшился в 3 раза. Темп изменения в разах всегда говорит о том, во сколько раз сравниваемый уровень больше [3, 6, 32]. Рассмотрим связь абсолютных и относительных показателей динамики. Обозначим темп изменения через к. Тогда имеем: цепной темп роста: Величину А, :уы или A0l : y0, т.е. отношение абсолютного изменения к предыдущему или базисному уровню, часто называют относительным приростом (относительным изменением) или же темпом прироста. Он равен к-1 или к-100 %. Темп прироста может иметь как положительные, так и отрицательные значения. Средние показатели динамики - средний уровень ряда, средние абсолютные изменения и ускорения, средние темпы роста - характеризуют тенденцию.
Они необходимы при обобщении характеристик тенденции за длительный период, по различным периодам и незаменимы при сравнении развития за неодинаковые по длительности отрезки времени, при выборе аналитического выражения тренда. При наличии в динамическом ряду существенных колебаний уровней определение средних показателей тенденции требует использования специальных методов статистики [16, 33]. Средний темп изменения определяется наиболее точно при аналитическом выравнивании динамического ряда по экспоненте. Если можно пренебречь колеблемостью, то средний темп определяют как геометрическую среднюю из цепных темпов роста за п лет или из общего (базисного) темпа роста за п лет: Соотношения основных заболеваний среди населения Воронежской области по различным нозологическим формам представлены на рисунке 2.11. Из полученной гистограммы видно, что наибольший уровень заболеваемости в области приходится на заболевания органов дыхания и болезни сие Тенденции общей заболеваемости за период 2000-2007 гг. по Воронежской области, г. Воронежу, г. Нововоронежу и районам представлены на рисунке 2.12, из которых следует, что уровень общей заболеваемости возрастает на протяжении последних восьми лет.
Цепной темп роста к,/,.і по общей заболеваемости среди населения Воронежской области в общем случае носит положительный характер: Ьо/=+3,94 %, W=+4,51 %, к200з=+Ъ,Ъ %, кШ4=+6,75 %, к2005=+2,75 %, к2оо +3 99 0/ к2оо7=+Ъ,65 %. Базисный темп роста kl/0 общей заболеваемости за последние восемь лет составляет kg=+39,74 %, что характеризует о росте общей заболеваемости среди населения Воронежской области. Средний темп изменения за последние восемь лет составляет = 4,58%. Сведения о росте по различным нозологическим формам Воронежской области приведены в таблице 2.6 [25]. Значения в таблице 2.6 представлены в процентном соотношении. Из представленных данных можно сделать вывод, что практически по всем нозологическим формам, за исключением инфекционных и паразитарных заболеваний наблюдается рост уровня заболеваемости за последние восемь лет. Соотношение различных нозологических форм по
Воронежской области за период с 2000 по 2007 гг. представлено на рисунке 2.13. Показатели общей заболеваемости по районам Воронежской области представлены на рисунке 2.14, соотношения показателей по другим заболеваниям - в приложение 2. Как видно из рисунка 2.14, наибольший уровень общей заболеваемости наблюдается в Петропавловском, Бобровском, Хо-хольском и Богучарском районах.
Ранжирование районов Воронежской области по уровню заболеваемости
Задача нормировки решается введением относительно безразмерных показателей, представляющих собой отношение «натурального» частного показателя к некоторой нормирующей величине, измеряемой в тех же единицах, что и сам показатель: где у - некоторое «идеальное» значение /-го показателя. Выбор нормирующего делителя для перевода частных показателей в безразмерную форму в значительной мере носит субъективный характер и должен обосновываться в каждом конкретном случае [28, 53]. Возможно несколько подходов к выбору нормирующего делителя: нормирующий делитель можно задавать с помощью ЛПР, и это предполагает, что значение является образцовым; нормирующий делитель у. = шах у..; нормирующий делитель определяется как разность между мак симальным и минимальным допустимым значениями [28]. Для получения нормированных значений воспользуемся формулой: где ун0Рм — нормированный показатель заболеваемости, У УУ - значение уровня заболеваемости, i = l,I, j = 1, /; J— количество рассматриваемых нозологических форм, /— количество территориальных единиц.
Нормированные показатели по каждому, из районов области рассматриваемых нозологических форм представлены в таблице 3.13. Окончательно ранговые оценки районов получаются путем перемножения весовых коэффициентов нозологических форм заболеваний в общей структуре заболеваемости района области и результата нормированных значений. На основании проведенного ранжирования районов Воронежской области по уровню заболеваемости в 2007 году можно выявить районы с наилучшими и наихудшими показателями. Ранги районов области, полученные на основе весового нормирования, представлены на 3.32. На рисунке 3.32 введены следующие обозначения: I - класс, с низким уровнем заболеваний, II - класс, с средним уровнем заболеваний, III - класс, с высоким уровнем заболеваний Районы с наихудшими показателями требуют более детального рассмотрения, принятия адекватных мер по снижению общего уровня заболеваемости. Существует множество различных ме тодов кластеризации, основанных на использовании матриц сходства, оценивании функций плотности статистического распределения, эвристических алгоритмах перебора, идеях математического программирования и др. Наиболее распространенную группу эвристических методов кластеризации составляют методы, основывающиеся на иерархической агломератив-ной процедуре.
Смысл иерархический агломеративной процедуры заключается в следующем. Перед началом кластеризации все объекты считаются отдельными кластерами, т.е. имеется р=п кластеров, каждый из которых включает по одному элементу. На первом шаге алгоритма определяются два наиболее близких или сходных объекта, которые объединяются в один кластер, общее количество которых сокращается на 1. Итеративный процесс повторяется, пока на последнем (р - 1)-м шаге все классы не объединятся. На каждом последующем шаге агломеративной процедуры требуется пересчет лишь одной строки и одного столбца матрицы, т.е. рассчитываются расстояния от образованного кластера до каждого из оставшихся кластеров [30, 34, 50, 75]. Использовать построенную дендрограмму для выделения того или иного количества отдельных кластеров можно путем "разрезания" этой дендро-граммы на определенном значении шкалы. Фактически это означает, что мы проводим горизонтальную линию, рассекая дерево связей в том месте, где наблюдается максимальный скачок в изменении межкластерного расстояния. Для определения расстояния между произвольной парой кластеров {Х{}, і = 1,...к} и {YJ, j = 1,...к2 с использованием различных версий алгоритмов классификации были сформулированы следующие подходы: метод "одиночной связи или минимального локального расстояния", когда для включения объекта в кластер требуется максимальное сходство всего лишь с одним членом кластера; метод "полной связи или максимального локального расстояния", когда последовательность сцепления между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах (т.е. "наиболее удаленными соседями"); метод "средней связи Кинга или попарного арифметического среднего", где мера сходства между "кандидатом" и членами кластера устанавливается как арифметическое среднее
Выделяется также совокупность методов, использующих статистические расстояния между кластерами (метод групповых средних, центроидный метод, метод Уорда и т.д.), где предполагается объединение, приводящее к минимизации суммы квадратов отклонений между каждым объектом и центром кластера, содержащим этот объект [30, 50, 75]. Кроме иерархических методов классификации большое распространение получили также различные итерационные процедуры, которые пытаются найти наилучшее разбиение, ориентируясь на заданный критерий оптимизации, не строя при этом полного дерева. В начале последовательных итераций в качестве центра выбирается один из элементов и формируется кластер из элементов, удаленных от него не далее чем на г. Далее процедура повторяется
Классификация и оценка уровня риска заболеваемости региона на основе кластерного анализа и метода «деревьев решений»
Существует множество различных ме тодов кластеризации, основанных на использовании матриц сходства, оценивании функций плотности статистического распределения, эвристических алгоритмах перебора, идеях математического программирования и др. Наиболее распространенную группу эвристических методов кластеризации составляют методы, основывающиеся на иерархической агломератив-ной процедуре. Смысл иерархический агломеративной процедуры заключается в следующем. Перед началом кластеризации все объекты считаются отдельными кластерами, т.е. имеется р=п кластеров, каждый из которых включает по одному элементу. На первом шаге алгоритма определяются два наиболее близких или сходных объекта, которые объединяются в один кластер, общее количество которых сокращается на 1. Итеративный процесс повторяется, пока на последнем (р - 1)-м шаге все классы не объединятся. На каждом последующем шаге агломеративной процедуры требуется пересчет лишь одной строки и одного столбца матрицы, т.е. рассчитываются расстояния от образованного кластера до каждого из оставшихся кластеров [30, 34, 50, 75]. Использовать построенную дендрограмму для выделения того или иного количества отдельных кластеров можно путем "разрезания" этой дендро-граммы на определенном значении шкалы. Фактически это означает, что мы проводим горизонтальную линию, рассекая дерево связей в том месте, где наблюдается максимальный скачок в изменении межкластерного расстояния. Для определения расстояния между произвольной парой кластеров {Х{}, і = 1,...к} и {YJ, j = 1,...к2 с использованием различных версий алгоритмов классификации были сформулированы следующие подходы: метод "одиночной связи или минимального локального расстояния", когда для включения объекта в кластер требуется максимальное сходство всего лишь с одним членом кластера; метод "полной связи или максимального локального расстояния", когда последовательность сцепления между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах (т.е. "наиболее удаленными соседями"); метод "средней связи Кинга или попарного арифметического среднего", где мера сходства между "кандидатом" и членами кластера устанавливается как арифметическое среднее
Выделяется также совокупность методов, использующих статистические расстояния между кластерами (метод групповых средних, центроидный метод, метод Уорда и т.д.), где предполагается объединение, приводящее к минимизации суммы квадратов отклонений между каждым объектом и центром кластера, содержащим этот объект [30, 50, 75]. Кроме иерархических методов классификации большое распространение получили также различные итерационные процедуры, которые пытаются найти наилучшее разбиение, ориентируясь на заданный критерий оптимизации, не строя при этом полного дерева. В начале последовательных итераций в качестве центра выбирается один из элементов и формируется кластер из элементов, удаленных от него не далее чем на г. Далее процедура повторяется для остальных элементов, причем в качестве очередного центра выбирается, например, "типическая" точка - лежащая на минимальном расстоянии от центра оставшегося множества объектов. После выполнения очередного шага выясняется, достигнуто ли желательное разбиение. Существуют различные методы определения критерия остановки процедуры: получено определенное заранее количество кластеров; все кластеры содержат более определенного числа элементов; кластеры обладают требуемым соотношением внутренней однородности и разнородности между собой.
На первом условии основывается наиболее популярный алгоритм - метод k-средних Мак-Кина, в котором сам пользователь должен задать искомое число конечных кластеров, обозначаемое к. Принцип классификации заключается в следующем: выбираются или назначаются к наблюдений, которые будут первичными центрами кластеров; остальные наблюдения приписываются к ближайшим заданным кластерным центрам; текущие координаты первичных кластерных центров заменяются на кластерные средние; предыдущие два шага повторяются до тех пор, пока изменения координат кластерных центров не станут минимальными. Наиболее важным свойством, используемым при анализе, является плотность распределения объектов внутри кластеров. Это свойство дает нам возможность определить кластер в виде скопления точек в многомерном пространстве, относительно более плотного по сравнению с иными областями этого пространства, которые либо вообще не содержат точек, либо содержат малое количество наблюдений. Несмотря на достаточную очевидность этого свойства, однозначного способа вычисления такого показателя плотности не существует. Наиболее удачным показателем, характеризующим компактность "упаковки" многомерных наблюдений в данном подмножестве, является дисперсия расстояния от центра кластера до отдельных его точек. В результате работы этих методов получаются неперекрывающиеся классы, представленные в виде дендрограммы (древовидной диаграммы), которая графически изображает внутреннюю структуру группы, порожденную матрицей сходства и правилом объединения объектов в кластеры.
В качестве меры сходства между объектами, описанными количественными интегральными показателями, целесообразно использовать Евклидово расстояние [34, 50, 75]: где Yy pr,k) -значение /-го показателя для у-го (&-го) объекта. Данная мера применяется при однородных по смысловой нагрузке и одинаково важных показателей. В качестве правил объединения объектов в классы в медицине широко используется стратегия средней связи в случае классов эллипсоидной формы и метод Уорда - при приблизительно равных классов, имеющих гиперсферическую форму. Для классификации районов по набору медицинских показателей использовался кластерный анализ. В качестве меры близости использовалось расстояние Евклида. Обработка проводилась при помощи пакета Statistica 6.0. Результат кластерного анализа районов Воронежской области по нозологическим формам представлен на рисунке 3.33 ив таблице 3.15 [21, 24].