Содержание к диссертации
Введение
1. Анализ информационных технологий в области обработки статистической информации о заболеваемости 13
1.1. Организация и проблемы учета медико-статистических сведений... 13
1.2. Анализ информационных систем обработки статистических данных в здравоохранении 19
1.3. Современные методы и средства поддержки принятия решений 29
1.3.1. Технология оперативной аналитической обработки данных.. 29
1.3.2. Методы интеллектуального анализа данных 34
1.3.3. Методы восстановления пропусков в данных 36
1.4. Актуальные задачи анализа данных медицинской статистики 39
1.5. Выводы 41
2. Разработка методологических подходов к проектированию информационно-аналитической системы поддержки принятия решений «сиамед» в сфере муниципального здравоохранения 43
2.1. Организация структуры учета сведений на основе технологий OLAP и хранилищ данных 43
2.1.1. Преимущества использования хранилищ данных в аналитических системах 44
2.1.2. Агрегация (формирование сводов) медико-статистической отчетности с использованием механизма OLAP 50
2.1.3. Формирование основной отчетной формы сети медицинских лечебно-профилактических учреждений «Сведения о сети и деятельности медицинских учреждений» (формы №47) с использованием технологии OLAP 53
2.2. Анализ пропусков и некорректных значений медико- статистических данных с использованием кластерного и оптимизационного подходов 58
2.2.1. Постановка задачи кластеризации. 62
2.2.2. Математический аппарат самообучающихся карт Кохонена.. 65
2.2.3. Оптимизационный подход к заполнению пропусков в медико-статистических данных 67
2.3. Анализ статистических данных о заболеваемости на основе поиска ассоциативных правил 73
2.3.1. Постановка задачи поиска ассоциаций 73
2.3.2. Алгоритмы поиска ассоциативных правил 15
2.3.3. Разбиение исходных значений показателей на диапазоны 80
2.3.4. Поддержка истории данных при расчете ассоциаций 84
2.4. Выводы 87
3. Применение разработанных методов и моделей в системе «СИАМЕД» для анализа данных сферы муниципального здравоохранения 89
3.1. Структура системы «СИАМЕД» 89
3.2. Загрузка, редактирование и медико-статистический контроль данных 92
3.3. Формирование сводов и расчет основной отчетной формы сети медицинских лечебно-профилактических учреждений (формы №47) с применением методов оперативной аналитической обработки 95
3.4. Поиск и исправление некорректных значений 101
3.4.1. Настройка модуля аналитического контроля данных и кластеризации 101
3.4.2. Выявление дублирующих записей о ЛПУ 106
3.4.3. Нахождение ЛПУ с некорректными значениями сведений об обслуживаемом населении 109
3.4.4. Заполнение пропусков и некорректных значений в данных об обслуживаемом ЛПУ населении 114
3.5. Формирование статистически обоснованных ассоциативных правил в анализе статистических данных о заболеваемости 121
3.5.1. Настройка модуля поиска ассоциаций 121
3.5.2. Разбиение числовых значений показателей на интервалы 124
3.5.3. Поиск численных ассоциативных правил с учетом сведений нескольких отчетных периодов 126
3.6. Выводы 131
Основные результаты работы 133
Список использованной литературы 134
Приложение. Акт о внедрении 149
- Анализ информационных систем обработки статистических данных в здравоохранении
- Формирование основной отчетной формы сети медицинских лечебно-профилактических учреждений «Сведения о сети и деятельности медицинских учреждений» (формы №47) с использованием технологии OLAP
- Формирование сводов и расчет основной отчетной формы сети медицинских лечебно-профилактических учреждений (формы №47) с применением методов оперативной аналитической обработки
- Поиск численных ассоциативных правил с учетом сведений нескольких отчетных периодов
Введение к работе
В настоящее время в здравоохранении Российской Федерации используется технология сбора государственной медицинской статистической отчетности разработанная в СССР. Она обеспечивает учет данных о состоянии здоровья населения, количестве и типах заболеваний, уровне медицинского обслуживания и т.п. Эти сведения являются основой для анализа заболеваемости населения и планируемой медицинской помощи. Несомненным преимуществом существующей технологии сбора медицинской статистики является наличие большого числа показателей, отражающих самые разные аспекты области здравоохранения. Однако растущий объем, разнородность и многомерность данных, а также увеличение сложности задач обработки сведений создают существенные барьеры в ходе анализа. Кроме того, в последнее время у работников области здравоохранения формируется критический взгляд на качество информации, содержащейся в этой системе, а также мнение о том, что их анализу обязательно должны предшествовать дополнительные процедуры оценки непротиворечивости, полноты и достоверности материалов. Главной причиной этого является наличие пропусков и некорректностей исходных данных, а также неудовлетворительные результаты оценок достоверности сведений, проводящихся последнее время средствами автоматического контроля. Кроме того, общепризнанным мнением сотрудников в данной области является то, что система государственной медицинской отчетности способна оказывать ещё большее содействие в управлении здравоохранением при условии использования новых методов обработки данных.
Современные технологии учета информации, такие как хранилища и интеллектуальный анализ данных, а также оперативная аналитическая обработка сведений созданы для обработки, хранения и анализа больших объёмов сложно структурированных данных. Применение указанных походов в обработке статистической информации о заболеваемости обеспечит подготовку качественно нового информационного слоя с целью оказания помощи лицу принимающему решение (ЛПР).
Проведенный обзор литературы, а также анализ существующих программных продуктов показал актуальность тематики настоящей работы по проектированию информационно-аналитической системы поддержки принятия решений для учета и обработки данных медико-статистической отчетности.
Целью работы является разработка информационно-аналитической системы в сфере муниципального здравоохранения для обеспечения качественного учета, хранения, обработки и анализа данных медико-статистической отчетности, повышения обоснованности принимаемых решений.
Для достижения поставленной цели решаются следующие задачи.
Анализ существующих технологий обработки статистической информации о заболеваемости, а также современных методов анализа данных.
Математическая постановка и разработка методов решения задач нахождения некорректных значений медико-статистических данных, заполнения пропусков, а также поиска ассоциативных правил в сведениях области здравоохранения.
Разработка комплекса алгоритмов для корректировки и анализа исходных данных, а также представления результатов в удобном для восприятия виде.
Разработка схемы функционирования информационно-аналитической системы в области обработки медико-статистических данных, поддерживающей существующую технологию учета показателей заболеваемости.
Программная реализация пользовательского интерфейса информационно-аналитической системы поддержки принятия решений в области обработки медико-статистических данных.
Методы исследования: Полученные результаты исследования базируются на использовании методов и средств системного анализа, теории ре- ляционных баз данных, теории построения автоматизированных информационных систем, теории хранилищ данных, статистического и кластерного анализа, теории принятия решений, технологии оперативной аналитической обработки OLAP (On-Line Analytical Processing), интеллектуального анализа данных.
Научная новизна работы
Впервые разработаны OLAP-модели построения сводов (агрегации) медико-статистических форм, а также расчета основной отчетной формы сети медицинских лечебно-профилактических учреждений «Сведения о сети и деятельности медицинских учреждений».
Разработаны новые методы обнаружения некорректных значений показателей, а также оптимизационный алгоритм заполнения пропусков в данных медико-статистической отчетности, обеспечивающие повышение достоверности проводимого анализа.
Предложен подход и разработан соответствующий метод для численно обоснованного поиска ассоциативных правил с учетом сведений различных отчетных периодов в анализе статистической информации о заболеваемости.
Основные результаты, выносимые на защиту
Комплекс OLAP-моделей построения сводов (агрегации) форм медико-статистической отчетности, а также расчета основной отчетной формы сети медицинских учреждений «Сведения о сети и деятельности медицинских учреждений».
Методы определения некорректных значений и заполнения пропусков в данных медико-статистической отчетности, обеспечивающие повышение достоверности проводимого анализа.
Подход к численно обоснованному поиску ассоциаций с учетом сведений различных отчетных периодов в анализе статистической информации о заболеваемости.
Структура СППР на основе использования технологий OLAP и хранилищ данных, обеспечивающая эффективное преобразование и
7 представление информации, а также позволяющая автоматизировать процесс анализа сведений современными методами и моделями принятия решений.
5. Программная реализация информационно-аналитической системы, обеспечивающая поддержку принятия решений на основе применения разработанных методов и моделей.
Практическая ценность работы
Разработанная в диссертации информационно-аналитическая система поддержки принятия решений позволяет осуществлять сбор, контроль и предобработку сведений по используемым в настоящее время формам медико-статистического мониторинга; обеспечивать процедуру расчета основной отчетной формы сети медицинских учреждений «Сведения о сети и деятельности медицинских учреждений» (формы №47) и формировать агрегированные (сводные) отчеты остальных форм; проводить комплексный контроль правдоподобности и исправление некорректных значений показателей; находить обоснованные по нескольким отчетным периодам численные ассоциации между различными заболеваниями; представлять информацию в удобном для пользователя виде.
Внедрение результатов
Результаты диссертационной работы официально зарегистрированы в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам в виде программы для ЭВМ (№ 2008614296 Система сбора и анализа медицинских данных «СИАМЕД» от 8 сентября 2008 г.) и базы данных (№2008620336 База данных системы сбора и анализа медицинских данных «БД СИАМЕД» от 8 сентября 2008 г.).
Разработанная в рамках диссертационного исследования система «СИАМЕД» внедрена в аналитико-статистическом отделе Управления здравоохранения администрации Сергиево-Посадского муниципального района Московской области, что подтверждено актом о внедрении.
8 Апробация работы
Основные положения и результаты работы представлены на научно-теоретической конференции «Право, общество, власть и современность» (Сергиев Посад, СПФ ГОУ МГИУ, 2005 г.), международной молодежной конференции «XXXIII Гагаринские чтения» (Москва, МАТИ, 2007 г.), на V Международной научно-практической конференции «Проблемы демографии, медицины и здоровья населения России: история и современность» (Пенза, МНИЦ, 2007 г.), второй научно-практической конференции «Виртуальные и интеллектуальные системы 2007» (Барнаул, АГТУ, 2007 г.), 50-й юбилейной научной конференции МФТИ «Современные проблемы фундаментальных и прикладных наук» (Москва, МФТИ, 2007 г.), юбилейной XX всероссийской научно-технической конференции «Биомедсистемы-2007» (Рязань, РГРУ, 2007 г.), всероссийской научно-практической конференции «Математика, информатика, естествознание в экономике и обществе» (Москва, МФЮА, 2009 г.), 52-й научной конференции МФТИ «Современные проблемы фундаментальных и прикладных наук» (Москва, МФТИ, 2009 г.).
Публикации
По материалам диссертации опубликовано 15 работ, в том числе одна статья в журнале, входящем в список рекомендованных изданий ВАК для публикации основных результатов диссертационных исследований [13]. В работах с соавторами лично соискателем выполнено следующее: в [3, 10] -выбор, обоснование и проектирование структур хранения данных; [7] - разработка специализированных методов кластеризации объектов; [15] - разработка подхода к поиску численных ассоциированных правил с учетом данных различных отчетных периодов.
Получены 2 свидетельства РОСПАТЕНТ об официальной регистрации базы данных и программы для ЭВМ.
Структура и объем работы
Диссертационная работа состоит из введения, трёх глав, заключения и списка литературы из 140 наименований, содержит 148 страниц текста.
Основное содержание работы
Во введении обосновывается актуальность темы, формулируется общая характеристика и цели диссертационной работы.
В первой главе «Анализ информационных технологий в области обработки статистической информации о заболеваемости» представлено краткое описание предметной области учета показателей в сфере здравоохранения РФ, аналитический обзор существующих систем обработки медико-статистических данных, а также современных методов обработки информации. Обосновывается актуальность разработки комплексной системы поддержки принятия решений для учета и анализа сведений о заболеваемости.
Несомненным преимуществом используемой в настоящее время в здравоохранении Российской Федерации системы сбора государственной медицинской статистической отчетности является наличие большого числа показателей, отражающих широкий спектр информации о деятельности лечебно-профилактических учреждений. Однако растущий объем, разнородность и многомерность данных создают существенные барьеры в ходе анализа. Кроме того, в последнее время у работников области здравоохранения формируется критический взгляд на качество информации, содержащейся в этой системе, а также мнение о том, что их анализу обязательно должны предшествовать дополнительные процедуры оценки непротиворечивости, полноты и достоверности материалов.
В настоящий момент на российском рынке присутствует немало программных продуктов для области здравоохранения, однако проведенный в рамках первой главы аналитический обзор не позволил выявить систем, соответствующих всем современным требованиям хранения, учета и обработки сведений государственной медицинской статистики.
Сфера здравоохранения является ярким примером прикладной области, в которой эффективное применение на практике традиционных средств OLAP-технологий может быть затруднено из-за специфики конкретных ситуаций. Решение всё большего числа практических задач требует проведения
10 сложного анализа данных, связанного с применением современных аналитических алгоритмов. Поэтому качественный OLAP-анализ медико-статистической информации будет в достаточной степени эффективен только в комплексе с использованием современных методов расчета показателей, решения задач планирования и прогнозирования, применения математических моделей для поэтапной обработки и анализа многомерных данных в области здравоохранения.
Во второй главе «Разработка методологических подходов к проектированию информационно-аналитической системы поддержки принятия решений «СИАМЕД» в сфере муниципального здравоохранения» рассматриваются основные этапы функционирования информационно-аналитической системы как системы поддержки принятия решений, анализируются вопросы реализации её структуры, математического и алгоритмического обеспечения. Основными задачами современных информационно-аналитических систем являются: сбор, хранение, обработка и анализ данных. Решение этих задач при проектировании системы целесообразно рассматривать комплексно.
На базе технологии OLAP в разрабатываемой системе спроектированы модели формирования сводов форм медико-статистической отчетности и расчета таблиц основной отчетной формы сети медицинских лечебно-профилактических учреждений «Сведения о сети и деятельности медицинских учреждений» (формы №47), что позволит хранить хронологию данных вместе с параметрами расчета, повысить наглядность их представления, подготовит информационную базу для дальнейшего анализа. Формируемые таким образом OLAP-кубы для сводов и элементов формы №47 являются основными источниками информации разрабатываемой системы поддержки принятия решений и будут использоваться как основа для последующего анализа [3, 4].
С целью повышения достоверности и обоснованности принимаемых решений разработан интеллектуальный поход к обеспечению корректности исходных данных на основе методов кластеризации. Для обнаружения некорректных значений предложен подход на основе использования алгоритма самообучающихся карт Кохонена, применение которого способствует наглядности восприятия результата благодаря понижению размерности исходного признакового пространства, а также упорядоченности векторов на итоговой карте относительно совокупной характеристики их удалённости. В качестве метода заполнения отсутствующих, либо определенных как некорректные, значений медико-статистических показателей разработан оптимизационный подход, учитывающий особенности предметной области и основанный на проверке модели по данным других отчетных периодов [5,6].
Для поиска взаимосвязей между заболеваниями, регистрируемыми в различных лечебно-профилактических учреждениях (ЛПУ), в системе реализован алгоритм формирования правил следующего вида: «Если числовая характеристика заболевания 1 находится в диапазоне [ац..Ьц], то числовая характеристика заболевания 2 будет находиться в диапазоне [a2i..b2i]>>. При этом предложен метод разбиения исходных численных характеристик на диапазоны значений на основе кластеризации [7]. В качестве решения проблемы большого количества результирующих правил и повышения их обоснованности разработан алгоритм последовательного расчета ассоциаций для нескольких временных периодов с последующим отбором правил, соответствующих всем периодам [8, 9].
В третьей главе «Применение разработанных методов и моделей в системе «СИАМЕД» для анализа данных сферы муниципального здравоохранения» рассматривается применение разработанных методов и моделей в системе «СИАМЕД» для анализа данных сферы муниципального здравоохранения, представлена программная реализация системы, а также описание настроек, функционирования и взаимодействия рабочих модулей и подсистем [10-12]. Информационно-аналитическая система поддержки и принятия решений «СИАМЕД» спроектирована как совокупность подсистем,
12 отвечающих за различные этапы работы с данными медико-статистической отчетности [13, 14].
В главе также представлены примеры практического использования разработанных методов и алгоритмов для обработки данных о заболеваемости. Подробно описано применение методов формирования и использования OLAP-кубов, обнаружения и корректировки неправдоподобных значений показателей медико-статистической отчетности на примере анализа сведений лечебно-профилактических учреждений Московской области. Также показано, что разработанный алгоритм построения ассоциаций позволяет значительно уменьшить количество генерируемых алгоритмом Apriori правил, повысив вместе с этим их обоснованность, что существенно облегчает задачу аналитика [15].
Автор выражает глубокую благодарность научному руководителю кандидату технических наук, доценту Людмиле Андреевне Ткаченко за неоценимый вклад и руководство процессом подготовки работы, а также начальнику аналитико-статистического отдела управления здравоохранения администрации Сергиево-Посадского муниципального района, кандидату технических наук Проскрякову Федору Ивановичу за плодотворное сотрудничество и помощь в выполнении работы.
Анализ информационных систем обработки статистических данных в здравоохранении
В настоящий момент на российском рынке программных продуктов пока не существует системы, соответствующей всем современным требованиям хранения, учета и обработки данных государственного медицинского статистического наблюдения [42]. Министерством здравоохранения и социального развития РФ сертифицирована и рекомендована как обязательная для использования в большинстве лечебных учреждений только одна система - программа «Медстат», разработанная для операционной системы DOS в городе Новосибирске в 1991 г. и доработанная в 2001 г. для использования в среде Windows. В течение определенного периода времени программа отвечала требованиям, предъявляемым к медико-статистическому учету, однако, по ряду объективных причин данная программа перестала удовлетворять поставленным перед ней задачам: поддержка новых форм статистического учета, необходимость получения дополнительной, как отчетной, так и аналитической информации, производительность обработки, эргономичность и защищенность данных [29, 38, 42].
Необходимо отметить, что в ряде регионов используются собственные системы анализа медико-статистических данных [29, 42-45], однако эти разработки имеют локальный характер и не имеют широкого распространения.
Рассмотрим возможности наиболее распространенных систем учета данных медицинской статистической отчетности. A. Система формирования и контроля статистических отчетных форм «Медстат» [38]. B. Программа «Статистика», разработанная в медицинском информа ционно-аналитический центре РАМН. «Статистика» предназначена для ввода и обработки данных медико-статистических наблюдений. Функционал системы включает возможности контроля и печати данных, составления сводных отчетов [46]. C. Программный комплекс «МедИнфо». Система реализует функции сбора, обработки и формирования отчетов, как по статистическим формам, так и по индивидуальному запросу. Программа способна выполнять следую щие основные задачи: создание базы данных статистической информации; формирование сводных отчетов по различным территориальным образовани ям; расчет данных для основной отчетной формы сети медицинских лечебно профилактических учреждений «Сведения о сети и деятельности медицин ских учреждений» (формы №47); формирование справок в различных разре зах; контроль полученных отчетов на полноту и правильность заполнения; загрузку и выгрузку статистических данных стандарта «Медстат» [47]. D. «Медстат» (ФГУ ЦНИИОИЗ МЗ РФ). База данных системы «Мед стат» содержит широкий спектр информации по государственной статистике о состоянии здоровья населения и деятельности ЛПУ, а также полный пере чень показателей системы здравоохранения. Система позволяет печатать за готовки форм статистической отчетности, а также хранить данные по ЛПУ [48]. E. Автоматизированная информационная система (АИС) «Медстати стика-Плюс» разработана Федеральным государственным унитарным пред приятием «Научно-исследовательский центр информационных технологий экстремальных проблем» (ФГУП НИЦ ИТЭП) и предназначена для обеспе чения автоматизации процесса подготовки данных годовых отчетов. Про грамма позволяет вводить данные, осуществлять их проверку, производить свод данных и печать информации [42, 49]. F. АИС «Медстатистика». Система предназначена для учета, анализа и хранения данных государственной статистической отчетности по различным формам. Для корректной и компактной передачи информации большого объема используется алгоритм на основе языка XML, для хранения данных -СУБД Microsoft Access, а для печати форм - Microsoft Excel [42]. G. АИС «Сбор и анализ медико-статистической информации» [45]. Эта система содержит набор программных средств, с помощью которых можно решать задачи сбора и хранения, обработки и анализа статистической, экономической, бухгалтерской отчетности. Авторы продукта отмечают открытый интерфейс программы, наглядность и простоту в эксплуатации. В системе существует возможность без изменения внутреннего кода строить разнообразные проблемно-ориентированные информационные подсистемы - от территориальных систем обработки статистической, бухгалтерской, экономической и прочей отчетности медицинских учреждений до автоматизированных рабочих мест руководителей лечебных учреждений. Система состоит из двух подсистем: «Статистика» и «Анализ данных», которые предоставляют пользователю возможность ввода табличных данных в экранные формы, автоматического контроля, формирования отчетов и сводов, печати статистических отчетных форм и таблиц, вычисления заданных показателей, автоматического расчета итоговых строк и граф, а также проверки правильности заполнения таблицы с точки зрения математики и логики. При наличии в отчете нескольких таблиц проводится также межтабличный контроль.
Н. Система оперативной обработки медицинской статистической информации «СІЕТ-МЕДСТАТ» [44]. Система предназначена для автоматизации процесса ввода, накопления и обработки статистической информации об оказанных услугах пациентам. Областью применения системы являются лечебные учреждения и здравоохранение в целом. Функциональные возможности позволяют хранить и редактировать информацию о результатах обследования и лечения пациентов, накапливать и использовать статистическую информацию, генерировать отчеты. Авторы отмечают быстроту поиска данных в системе, а также точность и достоверность результатов.
Система сбора и анализа отчетно-статистических данных «СтатЭкс-пресс» и система оперативного анализа данных «Аналитик» [50]. Программы предназначены для автоматизированного сбора данных, формирования отчетности о состоянии здоровья населения и ресурсах здравоохранения, а также для проведения оперативного анализа информации с применением технологий OLAP (On-Line Analytical Processing - оперативная аналитическая обработка) и хранилищ данных.
Формирование основной отчетной формы сети медицинских лечебно-профилактических учреждений «Сведения о сети и деятельности медицинских учреждений» (формы №47) с использованием технологии OLAP
В ходе вычисления показателей таблиц используются дальнейшие срезы этого куба, что позволяет оперативно определить набор условий для расчета определенного показателя в каждой таблице формы №47. Полученный срез параметров для расчета применяется к срезу куба сведенных данных по определенному группирующему подразделению для соответствующего года.
В итоге, наряду с результатами расчета, пользователь оперативно получает доступ к параметрам расчета каждого значения с промежуточными параметрами вычислений. На рис. 2.7 и рис. 2.8 представлены общие схемы формирования формы № 47.
Формируемые таким образом OLAP-кубы для сводов и элементов формы №47 являются основными источниками информации, разрабатываемой системы поддержки принятия решений, и будут использоваться в качестве базиса для последующего анализа. Такой подход также позволит сохранить хронологию данных, что повысит наглядность их представления, подготовит информационную базу для применения методов анализа. Кроме того, благодаря такой реализации свода уменьшится загруженность машинных ресурсов, снизится время обработки данных при сложных запросах. с использованием кластерного и оптимизационного подходов
Достоверность и непротиворечивость исходных данных, безусловно, является необходимым условием для проведения любого вида исследования. Очевидно, что принятие решений в области здравоохранения на основе неверной информации может грозить самыми серьёзными последствиями.
В действующей системе сбора государственной медицинской статистики присутствует процедура проверки информации на непротиворечивость после ввода/загрузки исходных данных. Так для всех утвержденных отчетных форм действует около 3000 условий табличного, межтабличного и межформенного контроля. Эта настраиваемая система проверки (условия могут редактироваться и добавляться в зависимости от нужд конкретного медицинского информационно-аналитического центра) создана для информирования пользователя о наличии пропусков и несоответствий в исходных данных -абсолютных значениях показателей заболеваемости. Однако, перед формированием отчетной информации и справочников, проведением сравнительных процедур, анализом тенденций и составлением прогнозов, показатели приводят к соразмерному виду: большинство показателей рассчитывается на 1000 человек населения (некоторые, например, заболевания вирусным гепатитом А - на 100000 человек). Существующая система контроля не накладывает ограничений на число населения, характеристики которого загружаются также из файлов исходных данных в специальную форму «Паспорт ЛПУ» или могут быть отредактированы вручную. Это в свою очередь может являться причиной появления недостоверной информации на отчетном уровне [33, 34, 90-92].
В связи с этим существуют ряд наиболее типичных проблем, которые не могут быть обнаружены существующими методами контроля: 1. Отсутствие данных об обслуживаемом населении. В этом случае вся информация о заболеваемости, зарегистрированной в ЛПУ, не будет принята к расчету сводов и отчетов. 2. Некорректные сведения о населении. В этом случае все показатели ЛПУ, приведенные к соразмерному относительно населения виду, будут иметь неверные значения. 3. Дублирование данных о ЛПУ. Такая ситуация может возникнуть из-за идентификации ЛПУ по имени файла с исходными данными [38]. Поступление двух файлов с одинаковой информацией, но разными наименованиями, например, по ошибке оператора, приводит к некорректным данным всей группируемой выше по административной иерархии отчетности - сведения одного ЛПУ будут учтены в сводах несколько раз. Основными характеристиками ЛПУ относительно зарегистрированного за ним населения являются следующие величины: А - общее число населения, обслуживаемое лечебным учреждением; В - число взрослого населения (с 18-ти лет); С - число подростков (с 15 до 17-ти лет); D - число детей (с 0 до 14-ти лет); Е - общее число женщин; F - число женщин фертильного возраста (от 15 до 44 лет). При этом, в общем случае AoB+C+D из-за особенностей некоторых В таблице 2.1 представлены примеры ЛПУ Московской области с незаполненными или заполненными неправдоподобными значениями (выделены жирным шрифтом) численности населения.
Формирование сводов и расчет основной отчетной формы сети медицинских лечебно-профилактических учреждений (формы №47) с применением методов оперативной аналитической обработки
В результате разбиения исходных данных на интервалы значений по разработанной методике и последующего применения алгоритма Apriori были получены правила, фрагмент которых представлен в таблице 3.7.
Отметим, что правила, соответствующие максимальным значениям поддержки и достоверности являются тривиальными, т.е. содержат легко объяснимые и уже известные закономерности. Поэтому специалисты рекомендуют рассматривать правила, характеризующиеся средними значениями поддержки и достоверности как статистически обоснованные и потенциально содержащие полезную информацию [ПО, 120].
При значениях минимальной поддержки и достоверности на уровне 65% алгоритмом для каждого отчетного года было сгенерировано порядка 6000 правил для 70-ти ЛПУ и 20-ти диапазонов значений атрибутов. При понижении поддержки и достоверности до 55% число правил для каждого отчетного года составляет порядка 50000. Очевидно, что анализ такого количества данных с точки зрения информации для принятия решения едва ли возможен.
Учитывая, что результаты расчета ассоциаций обычно сложно поддаются проверке альтернативными методами, в качестве оценки статистической взаимосвязи параметров, входящих в условие и следствие некоторых правил, можно воспользоваться расчетом коэффициента корреляции. Отметим, что метод Пирсона для расчета корреляции не устойчив к выбросам, имеющим место в данных медико-статистической отчетности. Поэтому, в качестве меры взаимосвязи будем использовать его непараметрический аналог - коэффициентз ранговой корреляции, рассчитываемый по методу Спирмена. Он характеризует степень произвольной нелинейной зависимости между пе 128 ременными в рамках модели «рост одной переменной приводит к росту другой». Следует отметить, что коэффициент корреляции Спирмена может использоваться для оценки зависимости между переменными независимо от их распределения. Также он менее чувствителен к выбросам, что является ещё одним важным качеством при обработке экспериментальных данных [54].
Расчет коэффициента корреляции возможен только для правил, имеющих одноэлементные условия или следствия. Для повышения достоверности, коэффициенты рассчитаны только для тех наборов (ij,Cj), для которых первоначальное значение атрибута удовлетворяет границам получившегося при разбиении интервала, то есть где с,- e[ajk,bJk].
Данные таблицы 3.8 подтверждают статистическую обоснованность правил для средних значений поддержки и достоверности, а также показывают, что ассоциации, характеризующиеся средней поддержкой и достоверностью, зачастую обладают более высоким уровнем корреляции, чем правила с большими значениями supp и conf.
Рассмотрим применение разработанного подхода к учету различных отчетных периодов в поиске ассоциаций. В 2.3.4 показано, что после генерации правил по данным различных периодов происходит поиск ассоциаций с идентичными следствиями и условиями для разных отчетных лет по формулам (2.27) и (2.28). При этом сами границы интервалов элементов правил могут быть различны. В таблице 3.9 представлен пример таких правил.
Покажем на примере данной таблицы работу условий (2.29) и (2.30), предложенных в разделе 2.3.4. Запишем наборы границ диапазонов представленных правил для всех отчетных периодов в следующем виде:
болезни кожи и подкожной клетчатки): [0,0,0,0...24,29,32,30]. Для определения того, насколько сильно могут отличаться границы интервалов условий и следствий правил для разных лет, указанные наборы подвергнем проверке по формулам (2.29) и (2.30). В результате проведения дан 130 ной процедуры при значении параметра g, равного 0,008, все представленные наборы оказались допустимыми, из чего следует, что правила таблицы 3.9 можно назвать схожими для всех отчетных периодов. Однако при значении параметра g, равного 0,012, набор {72, 44, 71, 80} не удовлетворяет условию (2.29), из чего следует, что указанные правила нельзя назвать соответствующими для всех лет наблюдений.
В таблице ЗЛО представлены примеры наборов границ интервалов соответствующих и несоответствующих схожим правилам в зависимости от заданного пользователем значения параметра g.
Стоит отметить, что недопустимые наборы, где исключение одного элемента делает набор допустимым, например {80, 72, 44, 71}, могут требовать дополнительного анализа ЛПР, исходя из условий предметной области. В текущей реализации алгоритма, правила с подобными наборами границ диапазонов выводятся на экран, как соответствующие только для N-1 (в данном случае — трёх) отчетных периодов.
Значение коэффициента g является также определяющим для числа результирующих правил: чем больше величина g, тем строже задано соответствие между границами диапазонов для объединения правил и тем меньшее их число будет отобрано алгоритмом. Так, из 22000 правил за 4 года наблюдений при g=0,008 были отобраны всего 14 правил, имеющих схожие правила для всех отчетных лет (фрагмент представлен в таблице 3.11), и 100 правил, имеющих схожие правила для трёх лет наблюдений. Для g=0,012 результаты составили 1 и 28 правил соответственно.
Время работы алгоритма поиска правил, обоснованных по данным различных временных периодов на компьютере Intel 1,6 ГГц и 1 Гб ОЗУ составляет 1 час для 20000 правил, 4 часа для 50000 и порядка 60 часов для 200000 правил, соответствующих каждому из рассматриваемых отчетных периодов. Отметим, что рассмотренный подход к поиску ассоциаций является аналитическим методом, который применяется не так часто как оперативные процедуры. Поэтому указанное время ожидания не будет вносить значимых неудобств в работу аналитико-статистических отделов и медицинских информационно-аналитических центров.
Поиск численных ассоциативных правил с учетом сведений нескольких отчетных периодов
Стоит отметить, что недопустимые наборы, где исключение одного элемента делает набор допустимым, например {80, 72, 44, 71}, могут требовать дополнительного анализа ЛПР, исходя из условий предметной области. В текущей реализации алгоритма, правила с подобными наборами границ диапазонов выводятся на экран, как соответствующие только для N-1 (в данном случае — трёх) отчетных периодов.
Значение коэффициента g является также определяющим для числа результирующих правил: чем больше величина g, тем строже задано соответствие между границами диапазонов для объединения правил и тем меньшее их число будет отобрано алгоритмом. Так, из 22000 правил за 4 года наблюдений при g=0,008 были отобраны всего 14 правил, имеющих схожие правила для всех отчетных лет (фрагмент представлен в таблице 3.11), и 100 правил, имеющих схожие правила для трёх лет наблюдений. Для g=0,012 результаты составили 1 и 28 правил соответственно.
Время работы алгоритма поиска правил, обоснованных по данным различных временных периодов на компьютере Intel 1,6 ГГц и 1 Гб ОЗУ составляет 1 час для 20000 правил, 4 часа для 50000 и порядка 60 часов для 200000 правил, соответствующих каждому из рассматриваемых отчетных периодов. Отметим, что рассмотренный подход к поиску ассоциаций является аналитическим методом, который применяется не так часто как оперативные процедуры. Поэтому указанное время ожидания не будет вносить значимых неудобств в работу аналитико-статистических отделов и медицинских информационно-аналитических центров.
Разработана структура системы «СИАМЕД», позволяющая интегрировать применение технологий хранилищ данных и OLAP с моделями обработки и анализа информации.
Осуществлена программная реализация пользовательского интерфейса системы «СИАМЕД» для информационной поддержки принятия решений в области здравоохранения с учетом положений, изложенных в главе 2.
Работа модулей и подсистем разработанной системы «СИАМЕД» по обработке и анализу данных продемонстрирована на практических примерах. 4. Показано, что реализация процедур свода форм статистической отчетности с использованием технологий хранилищ данных и OLAP повышает прозрачность этапов процесса свода, а также наглядность восприятия результата. 5. Проиллюстрировано, что разработанные во второй главе подходы к исправлению некорректных значений и заполнению пропусков формируют оценки, адекватные истинным значениям показателей. 6. Показано, что применение предложенного во второй главе метода нахождения численных ассоциаций значительно уменьшает число результирующих правил по сравнению с существующими алгоритмами, а также повышает их обоснованность. 1. На основании проведённого аналитического обзора технологий и программных продуктов учета статистической информации о заболеваемости показана актуальность разработки специализированной системы поддержки принятия решений. Выявлен ряд проблем, решение которых позволит автоматизировать подготовку данных для принятия решений в сфере здравоохранения. Показано, что такие факторы как недостоверность и разнородность данных, низкая производительность процесса обработки могут быть устранены применением современных технологий хранения и методов анализа данных. 2. Впервые разработаны OLAP-модели формирования агрегированных отчетов (сводов) форм медико-статистической отчетности, а также расчета основной отчетной формы сети медицинских лечебно-профилактических учреждений «Сведения о сети и деятельности медицинских учреждений». 3. Разработаны новые методы определения некорректных значений и заполнения пропусков, обеспечивающие повышение достоверности проводимого анализа данных. 4. Предложен подход и разработан соответствующий метод численно обоснованного поиска ассоциативных правил по данным различных отчетных периодов в анализе медико-статистических сведений. 5. Разработана модель системы поддержки принятия решений, поддерживающая существующую схему функционирования процессов документооборота в органах учета статистической информации здравоохранения РФ. 6. Спроектирована структура информационно-аналитической системы, оптимизированная для хранения, обработки и последующего анализа имеющейся информации. 7. Выполнена программная реализация системы, обеспечивающей возможность поддержки принятия решений в области обработки медико-статистических данных. 8. В ходе внедрения и использования спроектированной системы поддержки принятия решений подтверждена состоятельность разработанных методов и моделей.