Содержание к диссертации
Введение
Глава 1. Подходы к разработке семантических систем для обработки и анализа данных. Семантические медицинские информационные системы 15
1.1 Анализ семантических систем для обработки и анализа данных 15
1.1.1 Анализ семантических систем для обработки и анализа данных в прикладных предметных областях 16
1.1.2 Анализ технологий в семантических системах для обработки и анализа данных 17
1.1.3 Анализ моделей данных, информации, знаний в семантических системах для обработки и анализа данных 20
1.1.4 Анализ архитектурных подходов к разработке семантических систем для обработки и анализа данных 22
1.1.5 Перспективные направления развития семантических систем для обработки и анализа данных в прикладных предметных областях 24
1.2 Анализ состояния и направления развития предметной области медицины 25
1.2.1 Анализ особенностей предметной области медицины 26
1.2.2 Потребности в информационной поддержки процессов медицинской деятельности 26
1.2.3 Классификация медицинских информационных систем и интеллектуальных медицинских информационных систем обработки данных
1.2.4 Перспективные направления развития и проблемы медицинских информационных систем обработки данных
1.3 Анализ онтологий и онтологических платформ для решения задач предметной области медицины 35
1.3.1 Анализ онтологий для формализации медицинских знаний 35
1.3.2 Анализ онтологических платформ для формализации медицинских знаний
1.4 Постановка задачи 39
1.5 Представления предметной области медицины для семантических медицинских информационных систем
1.5.1 Бизнес-модель предметной области медицины 41
1.5.2 Модель данных предметной области медицины 43
1.5.3 Процессная модель предметной области медицины 44
1.6 Выводы по главе 1 47
Глава 2. Архитектура семантических систем обработки данных для предметной области медицины 49
2.1 Основные понятия и определения 49
2.1.1 Понятия области информационных технологий 49
2.1.2 Понятия семантической системы обработки данных 51
2.2 Классификация семантических медицинских информационных систем 52
2.2.1 Семантические медицинские информационные системы как подкласс интеллектуальных систем 52
2.2.2 Иерархия классов семантических медицинских информационных систем 55
2.2.3 Требования к классам и подклассам семантических медицинских информационных систем 56
2.3 Функциональная модель семантической медицинской информационной системы 60
2.3.1 Общая функциональная модель семантической медицинской информационной системы 60
2.3.2 Частные функциональные модели семантической медицинской информационной системы 63
2.4 Информационная модель семантической медицинской информационной системы 66
2.4.1 Иерархическая структура информационной модели семантической медицинской информационной системы 68
2.4.2Информационная модель семантической медицинской информационной
системы 69
2.4.3 Онтологическая модель семантической медицинской информационной системы 73
2.4.3.1Иерархия онтологий семантической медицинской информационной системы 73
2.4.3.2Структура онтологии семантической медицинской информационной системы 74
2.4.3.3Спецификация импортируемых онтологий семантической медицинской информационной системы 76
2.4.3.4Разработка связующей онтологии для семантической медицинской информационной системы 78
2.4.4 Объектная модель для семантической медицинской информационной системы 81
2.5 Архитектурная модель семантической медицинской информационной системы 86
2.5.1 Модель слияния данных для семантической медицинской информационной системы 86
2.5.2 Архитектурное представление JDL для семантической медицинской информационной системы 90
2.5.3 Спецификация уровней модели слияния для семантической медицинской информационной системы 93
2.6 Выводы по главе 2 96
Глава 3. Организация семантической медицинской информационной системы обработки данных 98
3.1 Требования к семантической медицинской информационной системе обработки данных 98
3.2 Процессная модель семантической медицинской информационной системы обработки данных
3.2.1 Процесс создания типовых шаблонов планов лечения 101
3.2.2 Процесс расчета динамики комплексного показателя состояния пациента
3.3 Сервисная модель семантической медицинской информационной системы обработки данных 104
3.4 Технологии семантической медицинской информационной системы обработки данных 108
3.4.1 Алгоритмы наполнения модели семантической медицинской информационной системы обработки данных 108
3.4.2 Алгоритмы обработки данных в семантической медицинской информационной системе 111
3.5 Реализация семантической медицинской информационной системы обработки данных 112
3.6Модули семантической медицинской информационной системы обработки данных 114
3.7 Компоненты и сервисы семантической медицинской информационной системы обработки данных 117
3.8 Структура платформы семантической медицинской информационной системы 120
3.9 Методика построения семантической медицинской информационной системы обработки данных
3.9.1 Методика определение и описания сервисов и процессов 123
3.9.2 Методика разработки модулей взаимодействия с системой 124
3.9.3 Методика развертывания семантической медицинской информационной системы 125
3.10 Выводы по главе 3 128
Глава 4. Реализация семантической медицинской информационной системы обработки данных для ФГБУ «СЗФМИЦ имени Алмазова» 129
4.1 Инфраструктура и специализация ФГБУ «СЗФМИЦ имени Алмазова» 129
4.2 Реализация семантической медицинской информационной системы 131
4.3 Апробация семантической медицинской информационной системы
4.3.1 Сценарий многомерного анализа и вычисления комплексных показателей «боткинский лист» 139
4.3.2 Сценарий обработки записей врача с применением шаблонов обработки текстовых данных 145
4.4 Выводы по главе 4 148
Заключение 150
Перечень сокращений и условных обозначений 152
Список литературы 153
- Анализ архитектурных подходов к разработке семантических систем для обработки и анализа данных
- Архитектурное представление JDL для семантической медицинской информационной системы
- Алгоритмы наполнения модели семантической медицинской информационной системы обработки данных
- Апробация семантической медицинской информационной системы
Анализ архитектурных подходов к разработке семантических систем для обработки и анализа данных
Проблемы обработки и анализа данных, извлечения и связывания знаний средствам семантических технологий не являются новыми для науки. Они доказали свою эффективность результатами применения. В настоящее время разработано большое число методов обработки с применением семантических технологий: формализации предметных областей; - агрегации и связывания данных; - обработки мультимодальных данных; - извлечения знаний; - обработка и анализ текстовых документов. Ниже приведены используемые на сегодняшний момент технологии для решения этих задач с применением семантических систем. Rajagopa и соавторы[82] описывают подход, основанный на графах знаний, позволяющий извлекать концепты из текста на естественном языке и находить между ними сходство для решения задач классификации документов. Подход основан на первичном анализе синтаксического дерева предложений с последующей семантической обработкой результатов анализа. Проблемами кластеризации текстовых данных занимались Wei и др. [96]. Традиционный подход не учитывает семантические отношения между словами, однако авторы предлагают метод, позволяющий преодолеть этот недостаток: в процесс обработки вводится онтология, позволяющая решить проблему синонимии и многозначности концептов. Экспериментальная проверка говорит о значительном повышении эффективности в сравнении с классическими методами. Altnel и соавторы [28] в задачу категоризации вводят семантическое ядро, основанное на своде терминов.
Существуют и методы семантической классификации, не зависимые от языка классифицируемого текста. Kim и др. [55] предлагают метод классификации текстов небольшого объема, позволяющий выявить сходство между небольшим фрагментами текста без использования грамматических признаков и баз данных лексики (которые являются существенным недостатком прочих методов, так как представляют собой тяжеловесные структуры). Нашли применение семантические подходы к классификации текстовых данных и в задачах отбора научных исследований. Предложенный Jian Ma и соавторами [71] метод позволяет сгруппировать большое количество полученных предложений о проведении исследований по признаку сходства.
Семантические технологии и онтологический подход активно применяются в задачах агрегации и связывания данных и знаний. Семантическим технологиям, в частности, связыванию данных, посвятил книгу A. Smith [88]. Mukherjee и соавторы [75] предлагают технологию с применением онтологии ConceptNet2 для решения задач агрегации мнений о продукции. Авторы исследуют взаимосвязь между качествами продукции и мнениями о нём. ConceptNet при решении этой задачи применяется для автоматического создания онтологии продукта, отражающей иерархическую связь между атрибутами продукции.
Связыванию данных с применением LOD3 посвящена работа Isabelle Augenstein и соавторов [30]. В работе рассматриваются вопросы извлечения и распознавания сущностей в тексте, разрешение неоднозначности смысла для последующего связывания с DBPedia4.
Нашли семантические технологии применение и в обработке многомерных данных. Alberto Abell и соавторы рассматривают в своей работе [25] новый подход к применению OLAP5-технологий, интегрируя их с семантическими технологиями для поиска и получения данных, требующихся для эффективного анализа информации, поступившей из внешних ресурсов. Таким образом, многомерные данные дополняются контекстом и позволяют осуществить более точную ситуативную аналитику. Khalid Mahmood и Hiro Takahashi [74] для решения аналитических задач в спорте применяют семантический подход к обработке данных большого объема.
Проведённый обзор позволяет установить, что существует множество эффективных методов, позволяющих решать задачи обработки и анализа текстовых, числовых и многомерных данных, а эффективность методов доказана экспериментально. Методы позволяют извлекать концепты из текстов, классифицировать и структурировать их, а также предоставляют возможности для интеллектуального многомерного анализа.
Архитектурное представление JDL для семантической медицинской информационной системы
Настоящая глава посвящена вопросам разработки информационных систем семантической обработки и анализа медицинских данных (ССОАМД). Приведена классификация СМИС, требования к классам и подклассам, типовые архитектуры СМИС. Представлены функциональная, доменная, онтологическая и объектная модель системы. Представлены алгоритмы верхнего уровня обработки данных.
В соответствие со стандартом ISO/IEC/IEEE 42010:2011 [51] под системой понимается взаимосвязанная совокупность средств, методов и персонала, используемая для сохранения, обработки и выдачи информации с целью решения конкретной задачи.
Под информационной системой (ИС) понимается система обработки информации, работающая совместно с организационными ресурсами, такими как люди, технические средства и финансовые ресурсы, которые обеспечивают и распределяют информацию. Понятие определено в стандарте [20]. В информационную систему входит совокупность содержащейся в базах данных информации и информационных технологий и технических средств для её обработки.
Интеллектуальная информационная система (ИИС) — комплекс программных, лингвистических и логико-математических средств для реализации основной задачи – осуществления поддержки деятельности человека и поиска информации [22]. Ядром ИИС является база знаний. Формирование новой информации в таких системах происходит путём логического вывода. К таким системам относятся экспертные системы, информационные системы полнотекстового поиска, системы аналитических вычислений. Автоматизированная система (АС), в соответствие с ГОСТ 34.003 90 [5], – система, состоящая из персонала и комплекса средств автоматизации его деятельности, реализующая информационную технологию выполнения установленных функций. Совокупность нескольких взаимосвязанных автоматизированных систем определяет интегрированную автоматизированную систему. Функционирование одной системы в ней зависит от функционирования других. Архитектура – фундаментальные принципы и свойства системы и окружения, встроенного в элементы системы, а также взаимосвязи и принципы проектирования и эволюционирования [51]. Фреймворк — совокупность соглашений, принципов и практики описания архитектуры, установленная в рамках определённой области применения и/или между заинтересованными лицами [51]. Платформа — в широком смысле, любая среда выполнения, в которой выполняется вновь разрабатываемый фрагмент или объектный модуль программного обеспечения с учётом ограничений и предоставляемых возможностей среды.
Под интеллектуальной информационной системой в настоящей работе понимается взаимосвязанная совокупность методов и средств, ориентированных на сбор, обработку и анализ формализованных и не формализованных связанных данных от совокупности гетерогенных источников, включая, средства диагностирования, записи медицинского персонала. Обязательным является интеграция ССОАМД с БД МИС. Системы построены на основе интеллектуальных технологий, ориентированы на интеграцию средств ИИ (экспертные системы, методы работы сознаниями).
Под фреймворком ССОАМД в настоящей работе понимается инструмент для создания СМИС на базе семантических средств. Платформа системы семантической обработки и анализа медицинских данных (ССОАМД) – основа для построения конечной системы, поддерживающей процессы преобразования медицинских данных с применением семантических средств анализа.
Алгоритмы наполнения модели семантической медицинской информационной системы обработки данных
Информационная модель системы определяет основные сущности, участвующие в реализации процессов обработки данных и поддержке принятия решений в ходе медицинской деятельности (см. рисунок 2.9). Для построения моделей объектов реального мира (МОРМ) и их поэтапного наполнения средствами ССОАМД используется иерархическая информационная модель обработки и анализа данных (МОАД). Модель определяет этапы обработки данных с использованием статистических алгоритмов и методов машинного обучения, а также способы формализованного представления результатов каждого из этапов. Информационная модель системы представляется комбинацией моделей, уточняющих, дополняющих и специфицирующих друг друга.
Иерархическая структура информационной модели семантической медицинской информационной системы МОАД может быть описана на трех уровнях общности. Модель верхнего уровня содержит описания понятий и процессов в общем виде, а по мере снижения уровня абстракции модель детализируется, обеспечивается реализуемость. В состав МОАД входят концептуальная модель, доменные модели, объектные модели. 1) Концептуальная доменная модель является абстрактной моделью. Модель предназначена для решения прикладных задач за счёт обработки и анализа результатов измерений параметров объектов. Состав информации и методов работы с ней, которые определены в модели, описаны на верхнем уровне, позволяющем после детализации применять их в различных предметных областях, включая область медицины, где источниками данных являются разнородные измерительные устройства. Данные, собираемые с устройств, дополняются текстовыми записями. 2) Онтологическая доменной собой модель предметной области. Модель строится на основе концептуальной модели, которая детализируется и расширяется за счет данных, информации и знаний о предметной области. 3) Объектная модель является реализацией онтологической модели. Модели определяют реализации конечных систем. Они могут быть представлены в виде ER-диаграмм отношений реляционной базы данных или в виде программных структур / классов / объектов.
Информационная доменная модель системы (см. рисунок 2.10) позволяет описать исследуемый объект на основе получаемых с объекта данных. Сбор данных осуществляется системой сбора и предобработки данных (IoT-подобная платформа). Для их последующей обработки и анализа используется ССОАМД. Каждый элемент процесса, вовлечённый в сбор и обработку данных, описывается в виде модели. Модели объектов строятся на основе обобщенной модели. Название моделей совпадают с названиями моделируемых объектов. Модели объектов формируются при проектировании систем, обобщенные модели определяются для ССОАМД априорно (предоставляются предметной областью). Блок обработки и анализа данных определяет состав и способы применения моделей, методов и алгоритмов для решения прикладных задач. Логика определяется экспертами и современными возможностями библиотек анализа данных.
Применим модель обработки и анализа данных к разрабатываемой системе. В результате проведения диагностических мероприятий приборами регистрируются объективные значения параметров, отражающих состояние пациента. Врач в процессе ведения больного ведет текстовые записи. Все результаты объективных анализов, а также экспертные текстовые описания фиксируются в электронной карточке больного с разбиением на периоды, соответствующие этапам протекания болезни.
С точки зрения структуры модели обработки и анализа данных сбор информации о состоянии пациентов можно рассмотреть как процесс получения данных об объектах исследования. Объективные и экспертные данные передаются от систем сбора данных в систему обработки и анализа. ССОАМД в результате выполнения преобразований над получаемыми данными формирует информационную модель, отражающую состояние и ход лечения пациентов по доступной оперативной, исторической и общей информации (информационная модель объектов области медицины, ИММ). Структура модели показана на рисунке 2.11, назначение моделей – в таблице 2.9, а описание трансформаций приведено в таблице 2.10.
Апробация семантической медицинской информационной системы
Процессы подразделяются на пользовательские и процессы обработки. ССОАМД даёт возможность экспертам определять пользовательские процессы, а сотрудникам учреждения определять процессы обработки. Процессная модель обеспечивает поддержку пользовательских процессов, служит формальным описанием, обеспечивает реализацию функций системы, при этом даёт возможность решать задачи семантического поиска, сравнения графов, выделения групп данных, оценочного анализа и др. Процессы обработки, определённые экспертами и медицинским персоналом, поддерживаются готовым математическим аппаратом, описанным в виде сервисной модели (см. раздел 3.3). Процессы и сервисы описываются в онтологии, могут быть сконфигурированы медицинским персоналом. Некоторые из задач, решаемых медицинским персоналом: 1. построение плана лечения на основе типовых шаблонов; 2. построение типовых планов лечения на основе выделенных закономерностей; 3. мониторинг и контроль состояния пациента; 4. своевременное и полное представление нужной врачу информации; 5. поиск схожих случаев; 6. поддержка принятия решений в ходе врачебной деятельности; 7. выявление фактов о состоянии пациента из врачебных записей; 8. вычисление и оценка статистических параметров и характеристик; 9. мониторинг и контроль оперативных данных – данных о состоянии пациентов для своевременного информирования врача об изменении состояния пациента; Задачи реализуются процессами, процессы являются контекстно-зависимыми и могут реализовываться в нескольких контекстах. Это является одной из важных особенностей ССОАМД. Процессы контекстно-зависимы не только с точки зрения данных, но и с точки зрения области применения процесса. Единый процесс применим для многих пользователей с различных точек зрения. Пример контекстов представлен на рисунке 3.1. Ниже представлены процессы, реализующие некоторые из отобранных задач по отдельным функциям.
Пациенты внутри отделения имеют ограниченный набор основных диагнозов. Это позволяет на основании анализа пациентов с одним диагнозом строить статистическую картину реакции на различные методы лечения. При этом требуется учитывать ряд факторов, такие, как возраст, сопутствующие заболевания, пол пациента. На основе статистических данных по успешным схемам лечения могут строиться типовые шаблоны.
Процесс построения шаблона предусматривает: 1. формирование исторической выборки пациентов с аналогичной возрастной группой, полом и тем же диагнозом; 2. отбор пациентов с благоприятным исходом лечения заболевания; 3. формирование выборки по схемам лечения у пациентов с благоприятным исходом лечения заболевания; 4. шаблонизация схем на основе алгоритмов сравнения графов. Итогом обработки является шаблон схемы лечения, приведшей к благоприятному исходу при заданном диагнозе и сопутствующих заболеваний, при этом шаблон подтверждается (или дорабатывается) экспертом и сохраняется в базу знаний. В процессе задействуются внутренние процессы обработки, включающие в себя процессы формирования запросов к БЗ, фильтрации и 103 сортировки выборок, анализа графов. Процесс создания типовых шаблонов схем лечения представлен на рисунке 3.2.
Лечебно-диагностический процесс включает в себя интеллектуальный просмотр и анализ истории болезни пациента, в частности динамики изменения состояния пациента. Динамика определяется на основе отдельных измерений отдельных показателей систем организма, имеющих «привязку» ко времени, а также на основании интегрального показателя состояния, рассчитанного по отдельным показателям на интервале времени в рамках эпизода болезни: 1. выборка эпизодов по основному диагнозу и выборка анализов пациента из истории болезни; 2. статистическая обработка сформированного массива данных; 3. сегментирование временной шкалы на основании событий; 4. расчет интегрального показателя для каждого из выделенных сегментов. Результатом выполнения сценария является массив значений, представляющий собой интегральный показатель состояния пациента на временной шкале, разбитой на интервалы. По показателям возможно отслеживание и прогнозирование динамики состояния пациента и корректировка схемы лечения при негативной динамике. Процесс включает в себя ряд внутренних процессов обработки: формирование выборок, фильтрация и сортировка данных, статистическая обработка, обработка матриц, расчет функционалов, лежащих в основе комплексных показателей. Процесс расчета динамики комплексного показателя представлен на рисунке 3.3.