Содержание к диссертации
Введение
1. Постановка задачи построения автоматизированного центрального аналитического регистра (АЦАР) 10
1.1. Цель создания автоматизированных регистров 10
1.2. Основные задачи и функции центральных регистров 17
1.3. Состав и объем данных центральных регистров. Кодирование входной информации 22
1.4. Статистическая обработка данных о состоянии объек
тов слежения в АЦАР 26
2. Разработка программного обеспечения автсматизированного центрального аналитического регистра с автоматическим кодированием наименований понятии (АЦАР) 47
2.1. Методика адаптации автоматизированных регистров 48
2.1.1. Описание входных документов 48
2.1.2. Методы автоматизированного контроля. Язык задания контроля входной информации . 49
2.1.3. Генератор отчетов (таблиц). Язык описания выходных документов 57
2.1.4. Вычисление табличных данных 62
2.2. Информационная база системы '. 63
2.3. Структура программного обеспечения регистра 73
2.3.1. Управление работами. Средства защиты данных 76
2.3.2. Ввод данных 80
2.3.3. Организация многофакторного поиска по дискретним признакам
3. Методика. автоматизированной обработки естественно--языковых текстов 91
3.1. Этапы автоматизированной обработки текстов 92
3.1.1. Описание структуры тезауруса 94
3.1.2. Формирование тезауруса 100
3.1.3. Метод автоматического членения предложения на семантические составляющие 102
3.1.4. Организация поиска по тезаурусу. Морфологический анализ текста 15
3.1.5. Семантико-синтаксический анализ текста. Преобразование текста в формальные структуры 109
3.2. Методика машинного сравнения формальных структур
естественно-языковых текстов . И6
3.2.1. Критерий смыслового соответствия двух структур... 117
3.2.2. Алгоритм сравнения двух формальных структур І2?
4. Методика. примененш автоматизированной обработки тексто вой информации при построении центрального регистра 134
4.1. Функциональная схема и структура системы автоматического кодирования. 135
4.2. Построение информационной базы системы автоматического кодирования 140
4.3. Организация кодирования текстовой информации 145
4.4. Поиск данных по запросам на нормализованном русском языке ^49
5. Эффектишость применения центрального аналитического регистра с автоматическим кодиро ванием наженований понятий 156
5.1. Техническая эффективность 157
5.1.1. Полнота и точность I58
5.1.2. Достоверность и надежность 159
5.1.3. Время реакции системы 161
5.1.4. Форма выдачи результатов поиска 162
5.2. Эффективность программного обеспечения 163
5.2.1. Простота эксплуатации 163
5.2.2. Типизация АЦАР 165
5.2.3. Анализ различных модификаций диалоговых операционных систем на мини - ЭВМ типа СМ-4 168
5.3. Результаты практического использования онкологического регистра 1?9
Список литературы
- Состав и объем данных центральных регистров. Кодирование входной информации
- Методы автоматизированного контроля. Язык задания контроля входной информации
- Метод автоматического членения предложения на семантические составляющие
- Построение информационной базы системы автоматического кодирования
Состав и объем данных центральных регистров. Кодирование входной информации
Для информационного обеспечения центрального автоматизированного регистра необходимо решение следующих задач: - ведение документации об объектах учета и слежения с обязательным отражением в ней всех реквизитов, подлежащих регистрации; - организация передачи информации в центральные пункты регистрации; - кодирование информации первичной документации; - ввод информации в ЭВМ; - проведение контроля за качеством и полнотой заполнения первичной документации; - осуществление контроля за своевременным поступлением данных слежения; - контроль за повторной регистрацией объекта.
Для осуществления процесса ведения документации от момента заполнения первичного документа до ввода его в ЭВМ необходимо решение следующих вопросов: - определение состава данных; - разработка способа представления информации; - определение периодичности поступления информации; - определение объема хранимой информации; - обоснование выбора машинного носителя; - разработка системы классификации; - разработка способов контроля входной информации; - разработка инструкций по подготовке первичных документов. Разработка автоматизированных центральных аналитических регистров (АЦАР) сопровождается изменением форм документов. Разрабатывая новые документы, ориентированные на машинную обработку, состав данных выбирался исходя из действующего документооборота и интересов заказчика. Состав данных уточнялся в процессе опытной эксплуатации. Ко всему документообороту системы было предъявлено общее требование - объем дублирующей информации должен быть сведен к минимуму: допускается дублирование лишь той информации, которая необходима для идентификации объекта наблвдения. В связи с этим при разработке АЩР была введена возможность описания характера изменения значений реквизитов: - однозначный постоянный (/? ) ; - многозначный постоянный (А/ ); - однозначный, динамически изменяющийся (Р ) ; - многозначный, динамически изменяющийся ( _,).
Для функционирования центрального регистра достаточно двух видов документов: документ анкетного типа для первичного учета объекта наблюдения и документ для периодического сбора сообщений о состоянии объекта. Оба вида документов являются структурированными, представленными в виде перечня признаков, заполняемых в низовых учреждениях текстовыми значениями.
В приложении I.I представлены первичные документы, принятые для онкологического регистра. В 1976 году в соответствии с Постановлением Совета Министров СССР "О мерах по дальнейшему улучшению онкологической помощи населению". был издан соответствующий Приказ министра здравоохранения СССР от 29 апреля 1976 г. Этим Приказом было определено внедрение в краях, областях, республиках централизованной автоматизированной обработки статистических материалов об онкологических больных. Для автоматизации обработки статистической информации по онкологии введены новые учетно-отчетные формы, приспособленные для обработки на ЭВМ: 1. Извещение о больном с впервые в жизни установленным диагнозом рака или другого злокачественного новообразования (уч. форма № У-28І-6). 2. Карта диспансерного наблюдения за больным злокачественным новообразованием (уч. форма & У-30-6)
Объем входной информации зависит от уровня регистра: городского, областного, республиканского, межреспубликанского. В документах содержатся анкетные данные больного: фамилия, имя, отчество, пол, дата рождения, национальность, профессия, адрес. Кроме того, имеются данные, которые описывают состояние объекта наблюдения на момент взятия на учет и косвенно организационно-профилактическую и диагностическую работу учреждений: диагноз, наследственность, вредные привычки, обстоятельства выявления заболевания, сведения о методе подтверждения диагноза, гистологической структуре опухоли.
Методы автоматизированного контроля. Язык задания контроля входной информации
Для обеспечения гибкости и адаптируемости автоматизируемого регистра в функциональной схеме регистра (см. рис. I.I) выделены внешние функции регистра, являющиеся функциями переноса информации и служащие для связи с внешней средой, с конкретной предметной областью. К ним относятся прежде всего функции ввода входной информации и выдачи выходных документов. Остальные функции являются внутренними функциями собственно информационной среды.
Для адаптируемости выделенных процедур к конкретной области применения разработаны методы описания входных и выходных документов, задающих форму, описывающих требуемый состав документов в задаваемой системе классификации и кодирования. Так как одним из основных требований, предъявляемых к информационным о системаш, является обеспечение достоверности информации, то необходимым ус-ловем адаптируемости регистра является возможность задания формального и логического контроля входной информации, в том числе описание характера изменения значений реквизитов (многозначность и динамичность реквизитов), связь реквизитов в пределах документа.
Совокупность всех параметров, описывающих каждый из объектов наблюдения, задается описанием реквизитов входных документов. Перечень описателей реквизитов (каталог реквизитов) является средством настройки системы на конкретную систему документации и обеспечивает гибкость информационной базы,позволяя при необходимости изменять структуру документа, добавлять к нему новые реквизиты и исключать неинформативные.
Описатель реквизитов содержит фиксированное число полей со справочной информацией, используемой программным комплексом на всех этапах приема и обработки данных: - первая координата начала названия пункта на поле видеотерминала; - вторая координата на поле видеотерминала; - название реквизита; - номер реквизита; - координата начала поля ввода значений реквизита; - вид входных данных; - пределы числовых значений; - пределы кодовых значений (для контроля входной информации в кодовом представлении); - имя модуля, осуществляющего контроль входных данных; - тип изменения значений реквизита; - признак организации поисковых цепочек; - имя классификатора; - имя модуля, кодирующего входную информацию,
Необходимым условием адаптируемости функций ввода к различ ным предметным областям, к различным входным документам является адаптируемость процедур контроля. Для решения этой задачи раз работаны соответствующие языковые и программные средства.
Методы автоматизированного контроля. Язык задания контроля входной информации
Одно из основных требований, предъявляемых к информационным системам, - обеспечение достоверности информации. Для обеспечения защиты информации от программных ошибок, аппаратных сбоев, так же как и от неразрешенной модификации данных или их разрушения, разработаны некоторые способы контроля информации и возможности восстановления данных в случае их повреждения или внесения ошибочных данных. Анализ возможных случаев искажения данных при функционировании центрального регистра позволяет выделить несколько типов ошибок на причинном (табл. 2.1) и симптоматическом уровнях. Тип ошибок на причинном уровне указывает на источник ошибок. Источником ошибок ввода, как правило, является оператор и только 10 % таких ошибок возникают на этапе заполнения документов или ручного кодирования данных. В их состав входят в большинстве случаев отсутствие значений реквизитов во входных документах или повторная регистрация объекта в результате дублирования документов первичного учета.
Основная особенность процедуры контроля, реализуемой в диалоговом режиме, состоит в том, что пользователь может ошибки ввода исправить оперативно после их обнаружения до окончания ввода всего документа.
Ошибки, возникающие в результате порчи физического носителя данных, ошибок программного или математического обеспечения, а также ошибочных действий пользователей или программистов, могут быть зафиксированы программами регистра при его функционировании во времени, отсроченном от момента возникновения их. Выявление таких ошибок происходит на симптоматическом уровне. Основными видами ошибок на симптоматическом уровне являются: - незавершонность обработки данных; - невыполнение регистром заданной функции; - неверная обработка данных; - зацикливание; - превышение затрат времени на обработку данных; - неверная передача управления;
Метод автоматического членения предложения на семантические составляющие
Членение текста производится в два этапа. На первом происходит графический анализ текста по формальным признакам. Границами слов является фиксированный набор символов: точка с запятой (конец предложения), пробел, запятая, двоеточие, скобки,тире (конец слов), знак " @ " - конец текста.
На втором этапе уточняется членение каждого предложения. Задание предела семантического членения предложений осуществляется созданием полного дескрипторного словаря. Система для каждого выделенного на первом этапе слова отыскивает соответствующую статью словаря, из которой считывает грамматическую и семантическую информацию о словоформе.
Наряду с отдельными словами в тезаурус включены устойчивые словосочетания, состояющие из двух, трех, а иногда и большего числа отдельных слов. Задача выделения устойчивых терминологических словосочетаний - одна из существенных задач тезауруса. Решение ее необходимо для снятия неоднозначности выражения одного и того же содержания, осуществляющего на основе парадигматических отношений между статьями словаря: синонимии, отношений род-вид, часть-целое.
По синтаксической структуре словосочетания можно разбить на словосочетания, состоящие из прилагательного и существительного, из двух и более существительных (вторые существительные в родительном падеже). Это весьма распространенные способы обозначения явлений в любой предметной области и во всех языках.
В системе НОРМИН задача определения терминологических словосочетаний решена путем введения процедуры упорядочивания всех статей тезауруса с одинаковыми первыми словами: из двух словосочетаний с одинаковыми первыми словами более длинное должно предшествовать в списке понятий более короткому.
Под длиной словосочетания понимается число слов, образующих его. При этом последовательность отдельных слов, не зафиксированная словарем как словосочетание, воспринимается системой как производное от значений слов, их составляющих, что может привести к неверному восприятию системой информации.
При составлении запроса или документа следует помнить о принятом порядке следования словосочетаний, в том случае, если объединение слов в словосочетание нежелательно и реальна возможность наличия такого словосочетания в словаре, следует использовать другие возможности построения предложений на русском нормализованном языке, чтобы нарушить порядок следования слов в тексте. Можно, например, изменить порядок слов в предложении или разбить данное сочетание слов другими членами предложений. Надо сказать, что возникает потребность не связывать отдельные слова в словосочетания очень редко и обычно.при формировании условно-постоянной информации (классификатора, например), а не при вводе документов или запросов.
Автоматическое членение предложений производится с помощью текстового словаря. Текст обработки помещается в массив /7 Л На этапе поверхностного графического анализа он делится на отдельные слова, которые последовательно помещаются в массив ТРР. Следующий этап анализа текста - поиск по словарю словоформ и уточнение графического анализа.
Для анализа словосочетаний в тексте во входной язык не вводятся никакие дополнительные требования, помечающие их. Определяется список словосочетаний на уровне создания текстового словаря. В записи словаря составляющие словосочетание отдельные слова объединяются знаком подчеркивания или пробелам Словосочетание, как и обычное слово, делится на две части: неизменяемую часть (основу) и .изменяемую (список окончаний). В обе части словосочетаний могут входить несколько слов. В том случае, если основа словосочетания состоит более чем из одного слова (она содержит разделители), то требуется на первом этапе полное совпадение ее первой составляющей со словом входного текста. Если тождественного совпадения не происходит, выбирается следующая запись словаря. Если совпадение произошло, то производится сцепление текста в ТХ со следующими словами из массива ТРР. При этом присоединяется столько слов, сколько разделителей в словосочетании из словаря. Дальнейший анализ аналогичен анализу отдельных слов. Если основа словосочетания содержит не более одного слова, то проверка вложения основы из записи словаря происходит по тому же алгоритму, что и в обычном случае, система еще "не знает", что в записи словаря словосочетание. Такое словосочетание можно ввести в словарь только по второму варианту ввода, поэтому анализ на словосочетание подключается во время поиска соответствующего окончания по списку окончаний.
Построение информационной базы системы автоматического кодирования
Для составления регламентных отчетных статистических документов широко используется способ представления информации в виде числовых кодов. Система классификации и кодирования разрабатывается на этапе постановки задачи и фиксирует известную уже информацию. Хранение и поиск по запросу заранее не регламентированных данных об объекте требует использования другого способа представления и обработки данных. Естественный язык как способ представления информации обладает наибольшей семантической силой. v
Система автоматизированной обработки текстов на нормализованном русском языке НОРШН используется в регистре не только при кодировании наименований понятий, но и для поиска документов по запросу. В онкологическом регистре сведения о диагнозе (пункт I.I3) и видах лечения (пункт 2.II) могут представляться не только в виде числовых кодов, но и в виде текстов на ШРМИНе. Это обеспечивает возможность более детального изучения данных о заболеваемости и методах эффективного лечения. Применительно к поиску документов, информация в которых представляется на языке НОРШН, режимы работы системы выглядят следующим образом.
Первый режим совпадает с режимом работы системы при кодировании наименований понятий. Он обеспечивает ведение первичных информационных массивов.
Второй режим предусматривает индексацию текста документа, представление его во внутримашинную форму в виде деревьев подчинения, которые являются поисковым образом документа. Прямой поисковый массив - это основной информационный массиЕ документов. При использовании в АЦАР структуризованного документа, информация в котором делится по смысловому содержанию на пункты и подпункты, представление информации в виде формальных древовидных структур осуществляется не по всем пунктам. Требование на представление информации в виде формальных структур задается при описании документа.
Третий режим обеспечивает поиск по запросам. Тексты запросов на русском языке вводятся в систему и запоминаются в массиве запросов. Число запросов к системе не ограничено. Предложения текстов запросов обрабатывается комплексом САИ и преобразуются в формальные структуры - поисковые образы запросов.
Из прямого поискового массива выбираются поисковые образы документов (ПОД), которые сравниваются с формальными представлениями запросов на смысловое вхождение ПОДов в запрос. Результаты поиска выдаются пользователю на терминал. Пользователь после анализа результатов принимает решение об окончании поиска, уточняет вид выдачи введенной информации, либо производит модификацию запроса без его полного повторения и продолжает работу с системой. Координация работ в режиме поиска осуществляется диспетчером САИ - модулем DIS.
В качестве информационного поля, содержащего сведения о представлении информации на НОМИНе, служит четырнадцатое поле записи справочного массива H)F . По признаку в этом поле текст запоминается в массиве документов IDW, кодируется, для чего обращением к САИ - системе автоматической индек сации, текст преобразуется в формальную структуру и запоминается в массиве документов /DM. На этом процессе формирования массива документов заканчивается.
Для предварительного поиска используются кодовые значения реквизитов и поисковые цепочки документов с одинаковыми значениями реквизитов.
Запрос к системе состоит из двух частей: задания на поиск и задания на выдачу данных. Задание на поиск представляет собой документ, в котором перечислены значения реквизитов. Система воспринимает запрос как требование на поиск документов с перечисленными значениями реквизитов. Тексты запросов запоминаются в глобальном массиве запросов IDS.
После ввода всех запросов происходит индексация текстов запросов системой автоматической индексации ТЄКСТОЕ СМ. Результат индексации в виде древовидных формальных структур заносится в массив запросов IDS . Текстовая информация на нормализованном русском языке подвергается кодированию и кодовые значения запоминаются в дереве запроса. Эти значения группируются по номеру запроса и номеру пункта.
Кодовые значения данных используются для предварительного поиска по запросам. Для каждого запроса автоматически составляется запрос на формальном языке запросов, описанном во второй главе, то есть в виде перечня кодовых значений реквизитов документа. Обращением к программе поиска по набору признаков, заданных в запросе, определяется предварительный список номеров документов. Результата поиска запоминается в дереве запросов.