Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка специального математического обеспечения для отождествления записей в базах данных на основе операций нестрогого соответствия Федоркова Галина Олеговна

Разработка специального математического обеспечения для отождествления записей в базах данных на основе операций нестрогого соответствия
<
Разработка специального математического обеспечения для отождествления записей в базах данных на основе операций нестрогого соответствия Разработка специального математического обеспечения для отождествления записей в базах данных на основе операций нестрогого соответствия Разработка специального математического обеспечения для отождествления записей в базах данных на основе операций нестрогого соответствия Разработка специального математического обеспечения для отождествления записей в базах данных на основе операций нестрогого соответствия Разработка специального математического обеспечения для отождествления записей в базах данных на основе операций нестрогого соответствия Разработка специального математического обеспечения для отождествления записей в базах данных на основе операций нестрогого соответствия Разработка специального математического обеспечения для отождествления записей в базах данных на основе операций нестрогого соответствия Разработка специального математического обеспечения для отождествления записей в базах данных на основе операций нестрогого соответствия Разработка специального математического обеспечения для отождествления записей в базах данных на основе операций нестрогого соответствия
>

Диссертация - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Федоркова Галина Олеговна. Разработка специального математического обеспечения для отождествления записей в базах данных на основе операций нестрогого соответствия : Дис. ... канд. техн. наук : 05.13.11 Липецк, 2005 158 с. РГБ ОД, 61:05-5/3233

Содержание к диссертации

Введение

1. Идентификация объектов в базах данных 10

1.1. Направления развития современных баз данных 10

1.2. Модели данных для интеграции баз данных 12

1.2.1. Реляционная модель данных и ограничения целостности 15

1.2.2. Операции реляционной математики 16

1.3. Расстояние между строками 19

1.3.1. Способы определения расстояния 19

1.3.2. Алгоритмы вычисления расстояния Левенштейна . 20

1.4. Методы поиска строк по сходству 23

1.5. Средства обработки текстовых данных 27

1.6. Постановка цели и задач исследования 30

2. Нестрогие реляционные операции 32

2.1. Введение 32

2.2. Построение морфизма алгебраических систем 33

2.3. Нестрогие реляционные операции 37

2.3.1. Нестрогие алгебраические выражения 37

2.3.2. Свойства нестрогих реляционных операций 39

2.4. Алгоритм выполнения операции нестрогого соединения на основе хэширования по сигнатуре 41

2.4.1. Применение хеширования по сигнатуре к задаче нестрогого соединения 41

2.4.2. Объем промежуточной таблицы 44

2.4.3. Определение оптимальной хеш-функции 45

2.4.4. Анализ эффективности метода хеширования по сигнатуре 47

2.5. Алгоритм выполнения операции нестрогого соединения на основе trie-деревьев 48

2.5.1. Соединение на основе trie-деревьев 48

2.5.2. Анализ вычислительной сложности алгоритма нестрогого соединения 51

2.5.3. Анализ вычислительной сложности алгоритма построения trie-дерева 55

2.6. Анализ количества ошибок 56

2.6.1. Связь расстояния между строками с вероятностью появления ошибки 56

2.6.2. Количество ошибок первого рода 57

2.6.3. Количество ошибок второго рода 58

2.7. Заключение 61

3. Разработка библиотеки программ для реализации нестрогих операций 62

3.1. Введение 62

3.2. Структура программного обеспечения 63

3.3. Процедуры и функции для работы с системой управления базами данных 65

3.3.1. Типы данных 65

3.3.2. Процедуры и функции, доступные пользователю . 65

3.3.3. Закрытые процедуры и функции (доступные внутри пакета) 67

3.4. Библиотека внешних функций 67

3.4.1. Типы данных 67

3.4.2. Функции, отвечающие за загрузку и сохранение данных 72

3.4.3. Функции, отвечающие за работу с trie-деревом . 73

3.4.4. Функции, выполняющие построение индекса 75

3.4.5. Функции, выполняющие операцию нестрогого соединения 76

3.4.6. Диаграммы вызовов функций 78

3.5. Вызов функций нестрогих реляционных операций 78

3.5.1. Нестрогое соединение 78

3.5.2. Нестрогая разность 81

3.5.3. Нестрогое объединение 81

3.6. Заключение 82

4. Практическое применение алгоритмов отождествления записей баз данных 83

4.1. Введение 83

4.2. Информационные потоки в страховой медицинской организации 84

4.3. Анализ быстродействия выполнения основных функций библиотеки 87

4.3.1. Время выполнения операции нестрогого соединения . 87

4.3.2. Время построения индекса 89

4.4. Отождествление записей баз данных страховой компании и лечебно-профилактических учреждений 91

4.4.1. Используемые таблицы 91

4.4.2. Примеры применения операции нестрогого соединения 93

4.4.3. Эффективность процедуры отождествления записей . 98

4.5. Заключение 100

Заключение 101

Список литературных источников 103

Введение к работе

Актуальность темы. Обеспечение обмена данными между удаленными организациями требует установления соответствий распределенных отношений - множеств однотипных объектов баз данных (БД) и элементов этих множеств - отдельных объектов. В первом случае говорят об интеграции схем баз данных, во втором о построении процедур отождествления объектов БД.

Построение процедур отождествления объектов в распределенных БД осложняется наличием ошибок операторского ввода при наборе первичных ключей, что влечет за собой существенные информационные потери при выполнении алгебраических операций над отношениями. Различие между строками, вызванное ошибками операторского ввода, хорошо описывается при помощи расстояния Левенштейна. Однако, современные системы управления базами данных (СУБД) не предоставляют возможности поиска близких в смысле расстояния Левенштейна записей, а использование для вычисления расстояния внешних функций приводит к непомерно временным затратам.

Поэтому актуальна задача разработки специального математического и программного обеспечения для отождествления записей в базах данных с целью снижения информационных потерь, вызванных ошибками операторского ввода данных.

Работа выполнения в соответствии с научным направлением ЛГТУ "Современные сложные системы управления".

Цель исследования состоит в разработке специального математического обеспечения процедур отождествления записей реляционных баз данных и создании реализующего эти процедуры программного обеспечения, встраиваемого в СУБД промышленного типа.

Задачи исследования:

провести анализ методов и моделей, возникающих при интеграции объектов в базах данных;

разработать и исследовать специальные реляционные операции, возникающие в задаче отождествления записей баз данных, учитывающие возможность наличия ошибок операторского ввода;

разработать программное обеспечение, реализующее специальные реляционные операции и дополняющее реляционные СУБД возможностями отождествления записей;

применить разработанное специальное и программное обеспечение к задаче отождествления записей реестров лечебно-профилактических учреждений с базой данных страховой компании.

Методы исследования основаны на теории множеств, абстрактной алгебре, теории графов, дискретной математике, математической статистике, методах модульного и структурного программирования.

Научная новизна. В диссертации получены следующие результаты, характеризующиеся научной новизной:

метод отождествления объектов баз данных, отличающийся построением морфизма алгебраических моделей, позволяющий находить решение в наиболее общем виде;

операции нестрогого реляционного соединения, объединения и разности, отличающиеся использованием условия непревышения расстоянием Левенштейна заданного порогового значения, реализация которых позволяет снизить информационные потери, обусловленные

наличием ошибок операторского ввода в ключевых полях;

алгоритм ускоренного выполнения нестрогих реляционных операций, отличающийся применением в реляционных базах данных метода хэширования по сигнатуре, что позволяет сократить время выполнения операций;

метод идентификации параметров функции хэширования по сигнатуре для выполнения нестрогого реляционного соединения, отличающийся использованием генетического алгоритма, позволяющий оценить целесообразность применения хэширования;

алгоритм выполнения нестрогих реляционных операций над таблицами большого объема, отличающийся применением в реляционных базах данных trie-деревьев.

Практическая значимость состоит создании на основе разработанных методов и алгоритмов программной библиотеки функций, являющейся надстройкой к промышленной СУБД реляционного типа и обеспечивающей отождествление записей реляционных таблиц, хранящихся в отдельных БД. Использование функций этой библиотеки позволяет сократить количество записей, требующих ручной обработки для устранения ошибок операторского ввода.

Разработан программный комплекс, осуществляющий отождествление записей застрахованных и пациентов лечебно-профилактических учреждений, в 2-5 раз сокративший количество обрабатываемых вручную данных за счет интеграции информационной системы и реализации разработанного специального математического обеспечения.

Реализация и внедрение результатов работы. Разработанный программный комплекс внедрен при модернизации информационных систем страховых обществ г. Липецка: ООО "Новолипецкая страховая компания", 000 СМК "Арго-Шанс".

Результаты диссертационной работы используются в учебном процессе ЛГТУ при подготовке инженеров по специальности "Прикладная математика".

Апробация работы. Теоретические и практические результаты, полученные в процессе исследования, докладывались и обсуждались на XXXV Международной научной студенческой конференции "Студент и научно-технический прогресс" (Новосибирск, 1997), П-й Республиканской электронной научной конференции "Современные проблемы информатизации" (Воронеж, 1997), III.VI-й Международных электронных научных конференциях "Современные проблемы информатизации" (Воронеж, 1998), Научно-технической студенческой конференции технических ВУЗов центральной России (Орел, 1999), VI.VIII-й Международных электронных научных конференциях "Современные проблемы информатизации в технике и технологиях" (Воронеж, 2001, 2003), Международной научно-практической конференции "Современные сложные системы управления CCCy/HTCS'2005" (Тула, 2005).

Положения работы поддержаны грантами по фундаментальным исследованиям:

Министерством образования РФ - Г00 4.1-68 "Разработка теории оптимизации проектирования информационных систем";

Российским фондом фундаментальных исследований - N 03-01-96487 "Оптимизация схем баз данных и запросов на основе теории преобразований реляционных выражений", N 03-01-96487 "Формализация алгоритма оптимизации реляционных запросов" и N 05-01-96402 "Совершенствование методологии проектирования информационных систем для управления производственными объектами".

Публикации. По материалам диссертационной работы опубликовано 18 работ, из них 10 без соавторов. В [7, 9, 10] автором предложен алгоритм построения конечных алгебр; в [8] разработан алгоритм синтеза тождеств; в [54, 55, 56] введена операция нестрогого реляционного соединения и предложена реализация введенной операции на основе хэширования по сигнатуре; в [57] предложен основанный на использовании trie-деревьев алгоритм выполнения операции нестрогого соединения.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, библиографического списка из 121 наименования, приложений. Основная часть работы изложена на 117 страницах машинописного текста, содержит 19 рисунков и 11 таблиц.

Операции реляционной математики

Под моделью часто понимают как парадигму моделирования (различаются реляционные, сетевые, иерархические, объектные, объектно-реляционные, функциональные и многие другие виды моделей данных), так и результат моделирования, то есть схему данных. Дело в том, что первоначально понятие модели данных употреблялось как синоним структуры данных в конкретной базе данных. Структурная трактовка полностью согласовывалась с математическим определением понятия модели как множества с заданными на нем отношениями [48].

В процессе развития теории систем баз данных термин "модель данных" приобрел новое содержание [38]. Проблемы отображения данных потребовали решения на метауровне, позволяющего оперировать множествами всевозможных допустимых представлений баз данных в рамках заданной СУБД, или, что эквивалентно, инструментальными средствами, используемыми для их спецификации. В этой связи возникла потребность в термине, который обозначал бы инструмент, а не результат моделирования, и воплощал бы, таким образом, множество всевозможных баз данных некоторого класса. Для этих целей стал использоваться все тот же термин "модель данных".

Поскольку инструмент моделирования баз данных должен по необходимости включать не только средства структурирования данных, но и операционные возможности для манипулирования данными, модель данных в инструментальном смысле стала пониматься как алгебраическая система — множество всевозможных допустимых типов данных, а также определенных на них отношений и операций. Позднее в это понятие стали включать еще и ограничения целостности. Модель БД стали называть схемой БД, хотя иногда по-прежнему используют неоднозначный термин "модель". В результате проблема отображения данных в многоуровневых СУБД и системах распределенных баз данных стала рассматриваться как проблема отображения моделей данных [24].

Сказанное в п. refch2intro о необходимости построения общей модели при интеграции БД требует, с одной стороны, выбрать средство моделирования, с другой, построить схему общей БД. Если исходные БД - реляционные [85], то представляется естественным выбор реляционной модели и для общей (интегрированной) БД. С другой стороны, интеграция данных вызывает множество вопросов, требующих дополнительных средств: - интеграция с использованием семантической информации предполагает использование семантически более богатой модели [36, 39, 71, 73, 83, 84, 88, 93, 102, 105, 106, ПО, 111]; - интеграция слабо связанных между собой источников может привести к слабо структурированным данным, для которых будут удобны специальные модели - объектные (OMG), иерархические (XML) и другие [13, 14, 33, 52, 82, 103, 106, 108]; - неоднозначность и противоречивость данных, полученных из различных источников, предполагает наличие средств для отображения неоднозначности, неопределенности или противоречивости [72, 99, 100, 102]; - нерегулярное поступление данных из большого числа источников может вызвать необходимость в использовании темпоральных моделей [80, 116, 118]; - введенная отдельной исследовательской группой методика интеграции порождает отдельные модели [18, 91, 92]. Актуальность проблематики моделирования в технологиях баз данных определяется не только необходимостью абстрагирования при отображении объектов реального мира в используемые в информационных системах структуры данных, но также и необходимостью использования модельных средств для обеспечения функционирования механизмов самой СУБД. Так, например, базы данных систем поддержки принятия решений (дедуктивные, экспертные) используют свои модели представления информации; информационные системы, направленные преимущественно на поиск информации, используют модели, поддерживающие запросы с квотами (впрочем, согласно [96], это по-прежнему реляционная модель, а не ее расширение). Ни одна из перечисленных выше моделей не имеет специальных средств для выполнения отождествления объектов. Для хранения объектов, которые могут быть одинаковыми можно использовать нечеткие реляционные модели или реляционную модель с оценками в гейтинговых алгебрах [72, 99, 100, 102]. Однако процедуры, определяющие степень тождественности объектов, или не предлагаются, или опираются на заданное заранее расстояние между объектами. Таким образом, в этих моделях отсутствуют специальные операции, позволяющие отождествлять объекты БД.

Применение хеширования по сигнатуре к задаче нестрогого соединения

Для нахождения оптимальной хеш-функции (в смысле минимизации (2.12)) при заданном значении к можно воспользоваться процедурой, рассчитывающей Cij и оценивающей щ по достаточно большому объему словаря. На начальных стадиях вычислительного эксперимента ее оптимальное значение находилось методом случайного перебора. Однако, используя кодирование разбиения алфавита в виде вектора длиной, соответствующего размеру алфавита, становится возможным применение генетического алгоритма для оптимального его разбиения. Множества, на которые разбивается алфавит, нумеруются от 1 до к и і-я позиция вектора показывает, какому множеству принадлежит г-я буква алфавита. Следует отметить, что такой способ кодирования не однозначен, и одно и то же разбиение будет задавать к\ различных векторов. Общая схема генетического алгоритма описана, например, в [62], а конкретные реализации отличаются только функциями выполнения кроссовера и мутации.

Простейшая реализация кроссовера, ставящего на г-ю позицию нового вектора с равной вероятностью значение г -й позиции одного из родителей, будет давать практически случайное (не близкое родителям) потомство, если множества разбиений пронумерованы различным образом. Пример для первых 10 букв алфавита приведен в таблице 2.2.

В таблице 2.2 показано образование потомка от пары родителей для двух вариантов кодирования родителя 2. Очевидно, что в случае кодировки 1 потомок наследует сочетания букв, присутствующие у обоих родителей, а при кодировке 2 - нет, поскольку используются другие обозначения множеств алфавита.

Для нахождения наилучшей хеш-функции разработана программа, которая по количеству бит к, пороговому значению h и набору строк рассчитывает матрицу С и далее с помощью генетического алгоритма находит оптимальное разбиение алфавита для заданного набора строк. В программе был реализован кроссовер, приводящий обозначения одного из родителей к такому виду, при котором вектора отличаются друг от друга в наименьшем числе позиций. Для этого вычислялась матрица D = {d }, i,j = 1,к, где dij - число позиций, на которых в первом векторе стоит і, а во втором - j. Как следствие, d Є {0,1,... ,32}, E j = 32 (32 - число символов алфавита за вычетом Ё ).

Для квадратной матрицы D Є Цкхк решалась задача о назначении методом Мака [5] и получившийся результат применялся для перенумерации позиций векторов. В приведенном примере результатом (оптимальное решение выделено подчеркиванием), то есть замена 1 н- 2, 2 н- 3, 3 ь- 1, что согласуется с кодировкой 1.

Мутация с заданной фиксированной вероятностью заменяет каждую позицию вектора произвольным значением от 1 до к. Таким образом, были найдены разбиения алфавита на 4, 5, б и 7 множеств, оптимизирующие выражения в Двух вариантах: 1) хеш-функция вычисляется на основе значений простого первичного ключа; 2) хеш-функция вычисляется как исключающее ИЛИ функций по значениям первичного ключа, состоящего из трех слов. При этом D показывает, какая доля из пар записей подлежит проверке при хешировании по сигнатуре.

При использовании хеширования по сигнатуре время, затрачиваемое на проверку условия p{R\.atr, R2.atr) h, снижается до D -й доли. Если обозначить i?i - количество записей в таблице R\, \RitxiC \ - количество записей после выполнения операции Лі ixi C h\ то время на выполнение операции соединения с R2 увеличивается до К = \R\ схС /і?і раз.

Значения целевой функции являются оценкой величины D h\ а не точным ее значением, поскольку частоты pj значений функции среди записей таблицы R2 не известны. Предполагалось, что они не значительно отличаются от частот таблицы Ri. Действительные значения D — \R\ іхз C R2\/\Ri R2\ K h\ полученные непосредственно из данных, приведены в таблице 2.3. При этом, если время выполнения соединения относится ко времени проверки условия как 1 : Т, то общее время выполнения операции составит (К + TDW) - при использовании хеширования по сигнатуре или (1+Т) - при вычислении расстояния для всех пар записей. Результаты приведены в таблице 2.3, где выделены оптимальные значения. Строки, не имеющие выделения (все значения больше единицы), отвечают такому соотношению времен, при котором хеширование по сигнатуре применять нецелесообразно. На рассмотренных данных фактические значения отличались от оценок не более чем на 0,6%.

Функции, выполняющие операцию нестрогого соединения

Предложена процедура, позволяющая свести задачу отождествления объектов, представленных независимо в отдельных реляционных БД, к построению морфизма алгебраических моделей. К достоинствам такого подхода относится возможность отождествления сложных объектов, представленных в реляционной модели более чем одной записью.

Разработаны операции нестрогого реляционного соединения, объединения и разности и исследованы их алгебраические свойства. Введенную операцию нестрогого соединения можно использовать для отождествления объектов, ключевые атрибуты которых содержат ошибки операторского ввода. Операция нестрого объединения позволяет добавлять в БД объекты из другой БД, а операция нестрогой разности - найти объекты, не имеющие соответствия в другой БД.

Разработаны два алгоритма выполнения операции нестрогого реляционного соединения и проведен анализ временной сложности этих алгоритмов. Показано, что алгоритм, использующий хеширование по сигнатуре, имеет тот же порядок сложности, что и последовательный вызов функции вычисления расстояния для каждой пары записей. Алгоритм, использующий trie-деревья, должен приводить к существенному сокращению временных затрат. Для практической реализации выбран алгоритм, основанный на использовании trie-деревьев.

Настоящая глава посвящена разработке программного обеспечения, реализующего специальные реляционные операции и дополняющего реляционные СУБД возможностями отождествления записей. Для решения поставленной задачи на основе описанного в п. 2.5.1 алгоритма была создана программная разработка "Нестрогое реляционное соединение v.1.0" [57]. Она предназначена для выполнения соединения реляционных таблиц СУБД Oracle версий 8. по условию близости строковых значений атрибутов. В разделе 3.2 приводятся основные принципы работы разработанной библиотеки функций. Функции, взаимодействующие с СУБД и вызываемые пользователем посредством обращения к СУБД, описаны в разделе 3.3. Эти функции реализованы на процедурном языке PL/SQL, или объявлены как внешние функции. Поскольку соединение таблиц предлагается выполнять на основе построенных для обоих таблиц trie-деревьев, необходимо сохранять построенные индексы (деревья) в БД в специальной таблице trie_idx, содержащей BLOB-поле для хранения индекса в виде блока двоичных данных. Структура блока описана в разделе 3.4.1. Требуемое программное обеспечение должно содержать функции, выполняющие основные действия алгоритма нестрогого соединения -работу с trie-деревьями. Работа со сложными структурами данных, такими как деревья, более эффективно реализуется на алгоритмических языках (например, на языке С), чем на процедурных языках СУБД (таких, как язык PL/SQL). Библиотека функций, реализованых на языке С, представлена в разделе 3.4. Возникающие при работе функций библиотеки ошибочные ситуации обрабатываются при помощи механизма исключений. Библиотека использует предоставляемый СУБД Oracle диапазон значений для определения собственных исключительных ситуаций. Наконец, в разделе 3.5 приведен синтаксис обращения к разработанной библиотеке функций. Подробное описание функций библиотеки приведено в приложении 3. Основу интерфейса пользователя с библиотекой программ представляет функция ns_join, к результату выполнения которой можно обращаться как к таблице, содержащей идентификаторы записей (ROWID), отвечающих условию близости значений. Кроме того, используются процедуры построения и удаления индексов на основе trie-деревьев. Индексы хранятся в специальной таблице БД trie_idx, содержащей BLOB-поле для хранения индекса в виде блока двоичных данных. Структура блока описана в разделе 3.4.1. Все операции с индексом -построение и использование при соединении - выполняют написанные на алгоритмическом языке С функции [58, 74], СУБД отвечает только за его хранение. При нестрогом соединении таблиц результат соединения запоминается в памяти библиотеки и возвращается по одной записи при вызове соответствующей функции из процедуры Oracle Таким образом, разработка включает в себя пакет процедур и функций Oracle, написанную на алгоритмическом языке С библиотеку внешних (по отношению к Oracle) функций (DLL), установочные SQL-сценарии (scripts) и справочное руководство. Процедуры и функции пакета разделяются на открытые (доступные пользователю СУБД) и закрытые, относящиеся к реализации пакета и видимые только из функций пакета).

Информационные потоки в страховой медицинской организации

Настоящая глава посвящена различным аспектам практического применения разработанной операции нестрогого реляционного соединения и созданного на ее основе программного обеспечения к задаче отождествления представленных в БД объектов. В разделе 4.2 описана практическая задача организации обмена данными между страховой компанией и лечебными учреждениями.

При отождествлении записей по условию близости значений ключевых атрибутов могут возникать ошибки двух видов. Ошибкой первого рода назовем решение, когда при отождествлении записей, принадлежащих нестрогому соединению, пара описывающих один объект записей не будет отождествлена. Отождествление близких, но описывающих разные объекты, значений назовем ошибкой второго рода. В разделе 2.6 приведен анализ количества ошибок первого и второго рода при отождествлении объектов БД а основе предложенной операции.

Анализ времени выполнения операции нестрогого соединения и времени построения индекса, выполненный в разделе 4.3, согласуется с полученными во второй главе результатами и позволяет сделать вывод о возможности практического применения предложенных алгоритмов и программ. В разделе 4.4 описано применение операции нестрогого соединения для отождествления записей баз данных страховой компании и реестра ЛПУ.

Деятельность страховой компании включает с себя много аспектов. Помимо обыкновенной хозяйственной деятельности, присущей любой организации (аренда помещений и оплата коммунальных услуг; покупка, поддержание и списание оборудования; выплата заработной платы) и специфической отраслевой деятельности (учет договоров страхования, расчет страховых резервов), страховая компания вынуждена предоставлять отчеты разного рода в контролирующие учреждения и обеспечивать взаимодействие с большим числом организаций (корпоративные клиенты, медицинские учреждения).

Разработка собственной информационной системы, полностью учитывающей свою специфику, не по силам небольшой организации и экономически неэффективна. Автоматизация большинства процессов может быть выполнена с использованием готового программного обеспечения (ПО). Так, общая хозяйственная деятельность может быть обеспечена бухгалтерскими учетными программами общего назначения, значительная часть страховой деятельности (там, где она регулируется федеральным законодательством) - специализированным отраслевым ПО.

Однако, часть задач ограничена рамками региона или отдельных клиентов и не имеет готовых решений. К ним относятся формирование отчетов уровня региона (в регионе установлены свои правила), получение данных от корпоративных клиентов и лечебно-профилактических учреждений (ЛПУ).

ЛПУ предоставляют данные по оказанным медицинским услугам (реестр ЛПУ) в формате, определяемом областным фондом обязательного медицинского страхования (ОФОМС). Формат различается для разных типов ЛПУ и даже для отдельных ЛПУ. Страховая компания сверяет данные реестра с собственной базой застрахованных, то есть проверяет, что указанный пациент застрахован. После этого осуществляется проверка правильности оказания медицинских услуг, основывающаяся на медико-экономических стандартах (МЭС) и международном классификаторе болезней (МКБ), и ряд дополнительных проверок. В итоге формируется список отвергнутых записей. Структура обмена данными при оказании услуг обязательного медицинского страхования приведена на рис. 4.1. Процесс сверки передаваемых ЛПУ записей со своей БД представляет для страховой компании значительную проблему, поскольку введенные в ЛПУ данные содержат множество ошибок [6, 63]. Часть ошибок полностью случайна (ошибки набора и слухового восприятия при наборе), часть объясняется отсутствием единого формата записи значения (адреса), часть составляют практически намеренные ошибки (сокращения при наборе имен, отчеств, названий улиц). Решением этой проблемы вынуждена была заниматься именно страховая компания, поскольку она является коммерческим предприятием, в отличие от остальных участников взаимодействия (ОФОМС, ЛПУ). Естественным решением проблемы было бы создание единого информационного пространства, но: - подобная задача может быть решена на уровне региона, но не в отдельной страховой компании; - нет единой информационной системы, охватывающей страховые компании и ЛПУ; - проблема сверки передаваемых ЛПУ записей с базой данных застрахованных требует безотлагательного решения. Таким образом, потребовалась разработка самостоятельного решения задачи сопоставления содержащих ошибки реестров ЛПУ с БД застрахованных лиц.

Похожие диссертации на Разработка специального математического обеспечения для отождествления записей в базах данных на основе операций нестрогого соответствия