Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Средства интеграции, улучшения качества и координации данных в информационных потоках металлургического холдинга Кожитов Сергей Львович

Средства интеграции, улучшения качества и координации данных в информационных потоках металлургического холдинга
<
Средства интеграции, улучшения качества и координации данных в информационных потоках металлургического холдинга Средства интеграции, улучшения качества и координации данных в информационных потоках металлургического холдинга Средства интеграции, улучшения качества и координации данных в информационных потоках металлургического холдинга Средства интеграции, улучшения качества и координации данных в информационных потоках металлургического холдинга Средства интеграции, улучшения качества и координации данных в информационных потоках металлургического холдинга Средства интеграции, улучшения качества и координации данных в информационных потоках металлургического холдинга Средства интеграции, улучшения качества и координации данных в информационных потоках металлургического холдинга Средства интеграции, улучшения качества и координации данных в информационных потоках металлургического холдинга Средства интеграции, улучшения качества и координации данных в информационных потоках металлургического холдинга Средства интеграции, улучшения качества и координации данных в информационных потоках металлургического холдинга Средства интеграции, улучшения качества и координации данных в информационных потоках металлургического холдинга Средства интеграции, улучшения качества и координации данных в информационных потоках металлургического холдинга
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Кожитов Сергей Львович. Средства интеграции, улучшения качества и координации данных в информационных потоках металлургического холдинга : диссертация ... кандидата технических наук : 05.13.01 / Кожитов Сергей Львович; [Место защиты: Моск. ин-т стали и сплавов].- Москва, 2009.- 190 с.: ил. РГБ ОД, 61 09-5/1430

Содержание к диссертации

Введение

ГЛАВА 1. Актуальные задачи интеграции, улучшения качества и координации данных в информационных потоках металлургического холдинга 10

1.1. Развитие процессов интеграции в неоднородных информационных системах ... 10

1.2. Холдинг как организационно-производственная структура на современном металлургическом рынке 14

1.3. Проблемы построения системы управления нормативно-справочной информацией металлургического холдинга 16

1.4. Характеристика полнотекстового документооборота на металлургическом предприятии 21

1.5. Интеграция данных при создании КИС 23

1.6. Проблемы интеграции разнородных данных 24

1.7. Интеграция данных приложений : 26

1.8. Решение проблем интеграции данных на основе федеративных хранилищ данных 29

1.9. Управление неоднородным контентом в системе корпоративного документооборота 36

1.10. MDM системы 37

1.10.1. Типы MDM-систем 40

1.10.2. Зарубежные системы MDM-класса 41

1.10.3. Отечественные системы MDM-класса '. 45

1.10.4. Сертификация данных на соответствие ISO 8000 48

1.11. Корпоративная поисковая система и ее предназначение 52

1.12. Современные подходы к автоматической классификации текстов 53

1.13. Анализ методов построения мер близости текстовых реквизитов 54

1.13.1. Принцип оптимальности в задаче динамического программирования 54

1.13.2. Понятие редакционного расстояния между двумя строками 56

1.13.3. Метод выравнивания строк vs редакционного предписания 57

1.13.4. Алгоритмы анализа строк 57

1.14. Модели оптимизации, построенные на эволюционных принципах 62

1.15. Генетические алгоритм и его особенности 63

1.16. Выводы 66

ГЛАВА 2. Методы и модели интеграции, улучшения качества и координации данных в неоднородных системах 68

2.1. Выявление двойников в справочных информационных массивах металлургического холдинга 68

2.1.1. Проблемная постановка задачи 68

2.1.2. Содержательная постановка задачи 69

2.1.3. Математическая постановка задачи 71

2.1.4. Метод вычисления минимального редакционного расстояния 73

2.1.5. Методы решения с использованием N-грамм 75

2.1.6. Формальный синтаксический анализ 79

2.1.7. Алгоритм построения модели с учетом формального синтаксического анализа 80

2.1.8. Задача принятия решений и обучение алгоритма 84

2.1.9. Алгоритм определения коэффициентов сходства строк 88

2.1.10. Проверка адекватности построенной модели 89

2.1.11. Результаты работы программы 91

2.2. Задача классификации документов в MDM-системе холдинга 95

2.2.1. Проблема классификации текстов в СЭД 95

2.2.2. Общая постановка задачи классификации 96

2.2.3. Технология классификации по методу Rubryx 97

2.2.4. Описание коллекции Reuters-21578 101

2.2.5. Поиск оптимальных значений весовых коэффициентов wl, w2, w3. для меры близости по методу Rubryx 104

2.3. Решение задачи выбора весовых коэффициентов с использованием генетических алгоритмов 111

2.3.1. Исходная постановка 111

2.3.2. Описание модификации генетического алгоритма 111

2.3.2.1. Методы отбора 112

2.3.2.2. Кроссинговер и мутация 115

2.3.3. Программное обеспечение 117

2.3.4. Описание основных модулей программы 117

2.3.5. Пользовательский интерфейс 117

2.4. Выводы 120

ГЛАВА 3. Практическая реализация модели расчета сводного коэффициента релевантности при решении задач повышения качества основных данных в металлургическом холдинге 122

3.1. Описание проблемной ситуации 122

3.2. Содержательная постановка задачи 122

3.3. Автоматизированное рабочее место «Контроль контрагентов» 123

3.3.1. Основные функции АРМ «Контроль контрагентов 123

3.3.2. Поисковая система АРМ «Контроль контрагентов» 124

3.3.3. Организация системы поиска 125

3.3.4. Варианты поиска 127

3.3.4.1. Точный поиск (LIKE-поиск) 127.

3.3.4.2. НОМ-поиск 129

3.3.4.3. Особенности НОМ-поиска. Ранг и коэффициент релевантности 131

3.3.4.4. Особенности НОМ-поиска. Вспомогательные справочники 134

3.3.5. Сценарий автоматического поиска двойников в АРМ «Контроль контрагентов» 137

3.3.6. Ручной поиск двойников в АРМ «Контроль контрагентов» 139

3.3.7. Методология работы АРМ «Контроль контрагентов» 143

3.4. Результат доработки АРМ «Контроль контрагентов» 144

3.5. Программный комплекс «Брэдфорд» 147

3.6. Выводы 148

Заключение 149

Список литературы 151

Список сокращений 164

Приложения 167

Введение к работе

В современных условиях успешно координировать бизнес, и управлять бизнес-процессом возможно, лишь проанализировав и структурировав огромное количество информации. Поэтому очень важно максимально автоматизировать операции с данными: ввод, первичную обработку, структурирование и дальнейшее представление в виде удобном для лица, принимающего решение (ЛПР). Этой цели на предприятиях служат корпоративные информационные системы. Функциями КИС являются, в частности, такие важные разделы, как поддержка принятия решений и мониторинг на предприятии. Под мониторингом понимается процесс периодического обследования состояния какой-либо системы, отслеживания изменений этого состояния с течением времени, выявление и ранжирование факторов, обусловливающих эти изменения. Задача не сводится только к принятию решения о внедрении информационной системы на предприятии. Каждому предприятию нужна информационная система, разработанная под его индивидуальную схему функционирования. Например, данные, которые подлежат обработке, накапливаются годами. Из-за отсутствия единой системы они могут быть избыточными или неполными, различными по структуре, представленными в разных форматах. А формы отчётности и представления информации для ЛПР на каждом предприятии свои, зависящие от специфики его деятельности. Поэтому придётся использовать специализированные программные средства, предназначенные для работы с заведомо некачественными данными, позволяющие упорядочивать, согласовывать и выверять данные, прогоняя их через долгую цепочку сложных трудоёмких процедур. Итог как правило заключается в виде потери времени и немалых материальных затратах на дорогостоящее программное обеспечение и оборудование для него.

Острота проблемы возрастает в случае, если КИС внедряется в условиях холдинга, составные части которого являются самостоятельными бизнес-структурами, обладающими собственными стандартами представления и обработки данных.

Актуальность работы обуславливается необходимостью создания методики и инструментальных средств, обеспечивающих интеграцию и взаимную согласованность данных в информационных потоках управления металлургического холдинга (MX).

В последнее время в черной металлургии стали заметны организационные преобразования. Если раньше металлургические комбинаты являлись хозяйственными унитарными субъектами, то за период 1999 по 2002 годы они активно стали преобразовываться в холдинги. Кроме того, современная рыночная конъюнктура демонстрирует успешные примеры интеграции и российских металлургических компаний в глобальный рынок. Выход с IPO1 на ведущие биржевые площадки, консолидация активов в России и за ее пределами на базе крупных металлургических комплексов, происходящие в последние годы, свидетельствует и мощном потенциале российской металлургии. В этих условиях, требования к корпоративной информационной системе поднимаются до уровня наилучших мировых стандартов, что в свою очередь определяет актуальность исследований по направлению диссертационной работы.

Рост холдингов резко нарушил устоявшийся на уровне унитарных предприятий баланс между объемами основных учегао-аналитических операций, совершаемых в приложениях ERP-контура с их жестко контролируемой методологией обработки данных.

Проблему низкой эффективности управления в холдингах пытаются решать не всегда верными способами. Полная автоматизация на базе решений ERP на уровне холдинга будет стоить намного дороже внедрения ERP-системы на отдельном предприятии.

Основные трудности, возникающие при создании информационных систем на крупном промышленном предприятии, связанны с наличием неоднородной среды, включающей различные аппаратные платформы, операционные системы, СУБД и средства разработки приложений.

Одним из перспективных направлений является применение интеграционных технологий для построения гибких, легко адаптируемых информационных систем, а также разработка методов и моделей интеграции, улучшения качества и координации данных в неоднородных системах. 

Развитие процессов интеграции в неоднородных информационных системах

При создании информационных систем на крупном промышленном предприятии возникают проблемы, связанные с неоднородностью информационных систем. Общесистемные болезни роста и конкуренции информационных технологий практически повсеместно породили слабосовместимую гетерогенную ИТ-среду, включающую различные аппаратные платформы, операционные системы, СУБД и средства разработки приложений. Неудовлетворенность качеством и взаимосогласованностью данных, поступающих из разных подсистем управления предприятием, явилась мощным стимулом развития интеграционных технологий. ИТ-идеология, основанная на принципах кусочной автоматизации, считала атомарными объектами информационной среды разного рода функциональные модули, программные системы, приложения. Поэтому чисто интеграционное ПО создавалось прежде всего для организации эффективного обмена сообщениями между разноплатформенными приложениями. Однако массовое использование Middleware технологий было затруднено их внутренней сложностью и затратностью написания коннекторов к многочисленным унаследованным приложениям. В итоге интеграционные процессы на предприятиях развивались в большей степени в трех других направлениях, что выразилось в повсеместном внедрении жестко подогнанных друг к другу ERP-модулей3 для автоматизации типовых повторяющихся бизнес-процессов в сфере производственного, оперативного и бухгалтерского учета; тотальным использованием электронных таблиц во всех случаях, когда требовалось решать задачи нестандартной обработки данных - прежде всего на уровне управленческого учета и применением всевозможных «зонтичных» или «надстроечных» технологий для консолидации контента в персонифицированных инструментах пользователей -корпоративных порталов, органайзеров, Doc-Flow OLAP- и DSS- средств визуализации данных и документов .

Постепенно произошло осознание важного факта: в области ИТ-технологий наметился сдвиг в понимании фундаментальных ценностей - Applications (приложения, функциональные модули) могут морально устаревать и замещаться на более современные, тогда как данные и структура их отношений являются более незыблемой категорией и в большей степени отражают сущность конкретного бизнеса. По материалам корпорации Robertson&Blums [1]:

".... Меняется представление о том, как нужно строить КИС. Долгое время считалось, что модульный подход - это хорошо. Что если на каждую задачу есть свой модуль - это панацея. Оказалось, нет. Когда мы выходим на уровень таких объектов, то инструментами автоматизации должны быть не модули (ограниченные и зажатые рамками решаемых ими задач), а данные и способы доступа к ним, и их обработки..."

Другой сдвиг произошел в структурной организации экономики: стремительный рост холдинговых новообразований резко нарушил устоявшийся на уровне унитарных предприятий баланс между объемами основных учетно-аналитических операций, совершаемых в приложениях ERP-контура с их жестко контролируемой методологией обработки данных, и операциями, выполняемыми в гибкой, но неконтролируемой среде электронных таблиц. Если на уровне унитарных предприятий такой баланс поддерживался где-то, скажем, в пропорции 70 к 30, что в целом гарантировало вполне допустимый уровень искажений, неизбежно возникающий на этапе произвольной доводки OLTP-данных5 Excel-ориентированными пользователями, то в управляющих компаниях новоявленных холдингов слой методологически не закрепленной обработки упорно разъедает длинные, оторванные от «земли» цепочки вычислений, привнося в них чрезмерно высокую долю субъективности. Результат - критически высокая степень искаженности итоговых данных, несогласованность и противоречивость параллельных потоков информации.

Проблему низкой эффективности управления в холдинговых структурах пытаются решать старыми методами. Но тотальная автоматизация на базе решений ERP на уровне холдинга будет стоить на несколько порядков дороже внедрения ERP-системы на отдельном предприятии. И во столько же раз эта система будет менее эффективна, ибо неизбежно будет тормозить бизнес. Жесткая регламентация бизнес-процессов в микроэкономике хороша только до определенного уровня, а выше ее эффективность резко снижается. Неспроста SAP вдруг выступил в последнее время за отказ от традиционного бюджетирования. Новая концепция SAP "За пределами бюджетирования" «спроектирована для того, чтобы обходить традиционные препятствия и создавать гибкую, легко приспосабливаемую организацию...» Надо думать, что SAP понимает разницу между автоматизацией отдельного предприятия и автоматизацией всего холдинга, ибо предлагает для последнего не R3 систему, а интеграционный инструментарий пакета mySAP.com.

Скорее всего слой ERP-контура в КИС6 холдинга и впредь будет сосредоточен на нижних, «учетных» этажах управления, и в совокупности вряд ли «закрепит» в себе более половины об общего объема вычислений, связанных с обработкой данных. Схожую оценку (тем более - относительно типового предприятия, а не холдинга) дают в статье [2]:

"Несмотря на усилия многих разработчиков создать решение по типу "все в одном", достичь этой цели не удалось никому - даже сложные интегрированные пакеты наподобие систем ERP нынче покрывают потребности типового предприятия максимум на 50-60%."

Но с другой стороны, практика показывает, что слой Ехсеї-обработки данных должен быть предельно сокращен, ибо уровень вносимой им субъективности резко снижает качество данных, если объем операций в этой среде выходит за пределы 20 процентов.

Значит, в архитектуре информационной среды холдинга существует технологический разрыв в размере не менее 30 наших условных процентов. Следовательно, такой объем операций должен быть возложен на новую, промежуточную интеграционную среду, достаточно гибкую, чтобы обеспечить быструю адаптацию бизнеса к изменяющимся условиям рыночного хозяйствования, но и достаточно методологически контролируемую, дабы минимизировать субъективные ошибки в процессе преобразования всего множества информационных ресурсов КИС в формат требуемых руководству знаний (желательно сразу в виде показателей МСФО7 , Balanced Scorecard , KPI , иерархии бюджетных статей и показателей и т.п., то есть полностью исключить процесс Excel-доводки).

Методы решения с использованием N-грамм

Таким образом, модель отбора определяет, как следует строить популяцию следующего поколения. Как правило, вероятность участия индивидуума в скрещивании берется пропорциональной его приспособленности. Часто используется так называемая стратегия элитизма, при которой несколько лучших индивидуумов переходят в следующее поколение без изменений, не участвуя в кроссовере и отборе. В любом случае каждое следующее поколение будет в среднем лучше предыдущего. Когда приспособленность индивидуумов перестает заметно увеличиваться, процесс останавливают и в качестве решения задачи оптимизации берут наилучшего из найденных индивидуумов.

Результаты исследований генетических алгоритмов были опубликованы в [148, 152] Возвращаясь к задаче оптимального распределения инвестиций, поясним особенности реализации генетического алгоритма в этом случае: 1) индивидуум = вариант решения задачи = набор из 10 хромосом; 2) хромосома Xj= объем вложения в проекту = 16-разрядная запись этого числа; 3) так как объемы вложений ограниченны, не все значения хромосом являются допустимыми. Это учитывается при генерации популяций; так как суммарный объем инвестиций фиксирован, то реально варьируются только 9 хромосом, а значение 10-й определяется по ним однозначно. Приведем некоторые выводы по результатам работы генетического алгоритма для трех различных значений суммарного объема инвестиций К. 1) При малом значении К инвестируются только те проекты, которые прибыльны при минимальных вложениях; 2) если увеличить суммарный объем инвестиций, становится прибыльным вкладывать деньги и в более дорогостоящие проекты; 3) при дальнейшем увеличении К достигается порог максимального вложения в прибыльные проекты, и инвестирование в малоприбыльные проекты опять приобретает смысл. Генетический алгоритм - новейший, но не единственно возможный способ решения задач оптимизации. С давних пор известны два основных пути решения таких задач— переборный и локально-градиентный. У этих методов свои достоинства и недостатки, и в каждом конкретном случае следует подумать, какой из них выбрать. Рассмотрим достоинства и недостатки стандартных и генетических методов на примере классической задачи коммивояжера. Суть задачи состоит в том, чтобы найти кратчайший замкнутый путь обхода нескольких городов, заданных своими координатами. Оказывается, что уже для 30 городов поиск оптимального пути представляет собой сложную задачу, побудившую развитие различных новых методов (в том числе нейро-сетей и генетических алгоритмов). Каждый вариант решения (для 30 городов) — это числовая строка, где на у -м месте стоит номер у -го по порядку обхода города. Таким образом, в этой задаче 30 параметров, причем не все комбинации значений допустимы. Естественно, первой идеей является полный перебор всех .вариантов обхода. Переборный метод наиболее прост по своей сути и тривиален в программировании. Для поиска оптимального решения (точки максимума целевой функции) требуется последовательно вычислить значения целевой функции во всех возможных точках, запоминая максимальное из них. Недостатком этого метода является большая вычислительная стоимость. В частности, в задаче коммивояжера потребуется просчитать длины более 10 вариантов путей, что совершенно нереально. Однако если перебор всех вариантов за разумное время возможен, то можно быть абсолютно уверенным в том, что найденное решение действительно оптимально. Второй популярный способ основан на методе градиентного спуска. При этом вначале выбираются некоторые случайные значения параметров, а затем эти значения постепенно изменяют, добиваясь наибольшей скорости роста целевой функции. Достигнув локального максимума, такой алгоритм останавливается, поэтому для поиска глобального оптимума потребуются дополнительные усилия. Градиентные методы работают очень быстро, но не гарантируют оптимальности найденного решения. Они идеальны для применения в так называемых унимодальных задачах, где целевая функция имеет единственный локальный максимум (он же — глобальный). Легко видеть, что задача коммивояжера унимодальной не является. Типичная практическая задача, как правило, мультимодальна и многомерна, т.е. содержит много параметров. Для таких задач не существует ни одного универсального метода, который позволял бы достаточно быстро найти абсолютно точное решение. Однако, комбинируя переборный и градиентный методы, можно надеяться получить хотя бы приближенное решение, точность которого будет возрастать при увеличении времени расчета. Генетический алгоритм представляет собой именно такой комбинированный метод. Механизмы скрещивания и мутации в каком-то смысле реализуют переборную часть метода, а отбор лучших решений — градиентный спуск. Итак, если на некотором множестве задана сложная функция от нескольких переменных, то генетический алгоритм — это программа, которая за разумное время находит точку, где значение функции достаточно близко к максимально возможному. Выбирая приемлемое время расчета, получим одно из лучших решений, которые вообще возможно получить за это время. Компанией Ward Systems Group подготовлен наглядный пример решения задачи коммивояжера с помощью генетического алгоритма. Для этого была использована библиотека функций продукта GeneHunter. Города можно располагать на карте с помощью мыши, а поиск кратчайшего пути занимает не более 1 мин.

Настоящая работа касается проблемы интеграции, улучшения качества и координации данных в информационных потоках металлургического холдинга. Эти проблемы обусловлены неоднородностью информационных систем, которая возникает, с одной стороны в процессе создания и развития приложений в рамках КИС каждого предприятия, и, с другой стороны, при интеграции нескольких предприятий в холдинг. Зарубежный и отечественный опыт создания КИС позволяет предложить целый ряд технологических и научных решений по преодолению проблемы неоднородности. Наиболее перспективными среди них являются ETL-технологии (Extract Transform Load технологий - технологии извлечения, трансформации и загрузки их в хранилища данных) и MDM-системы (Master Data Management). Эти подходы позволяют унифицировать информационное пространство холдинга с минимальными затратами.

Поиск оптимальных значений весовых коэффициентов wl, w2, w3. для меры близости по методу Rubryx

При возникновении металлургических холдингов в виде сильно диверсифицированных структур остро возникла проблема в их управляемости, т. к. в холдинг входят разные структуры - это типовой случай российской бизнес единицы. Каждое предприятие развивалось самостоятельно со своими информационными системами, которые объединились. Внешние признаки нового кризиса управления в отрасли налицо - чрезмерная загруженность высших руководителей текущей оперативной работой. Главной задачей холдинга стоит управляемость предприятий, являющихся структурой холдинга, но управляемость невозможна, поскольку изначально были разные системы управления, они плохо стыкуются между собой. И главное, что они не стыкуются на уровне справочно-нормативной информации. У одних материалы так названы у других иначе, контрагенты в свою очередь тоже не совпадают. Например, для того чтобы собрать информацию по дебиторско-кредиторской задолженности в рамках холдинга нужно, чтобы одно и тоже предприятие имело один и тот же код у разного подразделения холдинга.

Самым ключевым и ярким примером является справочник контрагентов: найти совпадающие записи о контрагентах, одинаковых по факту, но разных по описанию, рассчитав их коэффициент релевантности.

Актуальность выбранного объекта исследований, подтверждается серьезностью экономических потерь, которые может нести холдинг из-за рассогласованности справочников контрагентов и, в частности, из-за наличия дублированных записей на одного и того же контрагента.

Задача состоит в практической проверки правильности выявленного алгоритма расчета суммарного коэффициента релевантности при многопараметрическом поиске аналогов на примере работы подсистемы «Контроль контрагентов» Системы ведения нормативно-справочной информации ОАО «ГМК «Норильский никель».

Автоматизированное рабочее место «Контроль контрагентов» (в дальнейшем — АРМ «Контроль контрагентов») предназначен для сотрудников службы ведения нормативно-справочной информации (НСИ) для автоматизации регулярных процессов выявления двойников в корпоративном справочнике контрагентов ОАО «ГМК «Норильский никель».

Использование уникальной поисковой системы с механизмами точной и нечеткой логики поиска с расчетом коэффициента релевантности по вариабельным математическим моделям и адаптивным пользовательским настройкам, со встроенной системой справочников поддержки поиска и резервных баз данных позволяет существенно повысить результативность процессов поиска двойников и уточнения их отдельных реквизитов и обеспечить стабильно высокий уровень качества корпоративного справочника контрагентов. 1. Формирование таблицы новых поступлений контрагентов в Oracle (MDM система, играющая роль хранилища сводного корпоративного справочника контрагентов) и мониторинга результатов ее обработки. 2. Поиск возможных двойников контрагентов для каждой позиции таблицы новых поступлений контрагентов по специально настроенному сценарию с использованием методов точного поиска, приближенного (LIKE) поиска и поиска с механизмом нечеткой логики (NOM). 3. Поиск возможных двойников для любого произвольно заданного пользователем контрагента (возможность генерации пользователем произвольных форм ввода данных). 4. Оптимизации результатов работы поисковой системы за счет изменения и подстройки пользователем основного Сценария поиска, дополнения и изменения содержимого вспомогательных справочников и адаптации параметров настройки механизма NOM-поиска. 5. Уточнение отдельных реквизитов контрагентов по резервным базам данных с предварительно настроенными сценариями параллельного поиска. 6. Іїспользование вспомогательных справочников - аббревиатур и сокращений, транскрипции латинских названий инофирм, исключаемых слов, слов с минимальным влиянием на расчет коэффициента релевантности - для повышения эффективности процессов поиска двойников. 7. Прямой вызов процедуры поиска контрагента в Интернете через поисковую 124 систему Yandex. 8. Экспорт выявленных двойников в Oracle для формирования переходных ключей и последующего выполнения операций замещения. 9. Формирование и печать результатов поиска и других отчетных документов. Ключевой особенностью АРМ «Контроль контрагентов» является механизм поиска по структурированным массивам данных с использованием нечеткой логики, семантических сетей и лингвистического анализа, а также - с расчетом коэффициентов релевантности по любому заданному числу факторов, что позволяет вести поиск и идентификацию контрагентов с учетом случайных ошибок и расхождений, вызванных разными обычаями написания их наименований, кодов и других реквизитов разными операторами. Возможные схемы работы поисковой системы АРМ «Контроль контрагентов»: - на основе SQL-доступа к массиву поиска (по IP-доступным сетям); - на основе загрузки массива в память локального компьютера; - через ETL-сервисы с массивами, загруженными в память IP-сетевого сервера базы данных; - через WEB-сервисы по Интернет/Интранет сетям с массивами, загруженными на удаленных серверах баз данных. - настройка поиска в любом внешнем Windows-приложении через API-вызовы ETL-сервиса поисковой системы. Особенности поисковой системы АРМ «Контроль контрагентов»: 1. Наличие специализированной Поисковой системы с механизмами строгой и нечеткой логики для лингвистического поиска двойников и аналогов в структурированных базах данных с расчетом коэффициентов релевантности. 2. Наличие специализированного инструментария по контролю качества НСИ в части орфографии, стилей написания, вкрапления латинских букв, повторений и слияний. 3. Наличие специализированных словарей и баз данных по транслитерациям наименований НСИ, синонимам, сокращениям, аббревиатурам, а также вспомогательных справочников по маркам и техническим характеристикам оборудования и материалов. 4. Наличие возможности проверки НСИ по внешним источникам - Интернет, базы данных ГКС, ЕГРПО, МНС, ФКЦБ и др., Сводные Базы ГОСТов и ТУ, Перечни марок продукции и т.п., плюс - наличие инструментария, обеспечивающего пользователю возможность самому создавать, наполнять и вести Контент-хранилища, расклассифицировать их содержимое, привязывать разнородные материалы из собранного контента к узлам существующих классификаторов.

Особенности НОМ-поиска. Ранг и коэффициент релевантности

Около двух десятков специализированных инструментов ПК «Брэдфорд» дают возможность даже рядовым пользователям быстро и эффективно решать самые сложные задачи, связанные с обработкой данных в таких промышленных СУБД, как Oracle, MS SQL Server, DB-2, Sybase, MS Access, DBF-Base, а также - в электронных таблицах MS EXCEL.

В результате доработки ПК «Брэдфорд» по предложенной модели многопараметрического поиска двойников в настройке параметров НОМ-поиска реализована возможность настройки расчета коэффициентов релевантности по дополнительным полям со степенью их влияния на суммарный коэффициент релевантности по набору параметров. Использование результагов исследования по многопараметрическому методу поиска двойников в подсистеме «Контроль контрагентов» Системы ведения НСИ ОАО «ГМК «Норильский никель» позволило повысить общие показатели эффективности работы информационно-поисковой системы и обеспечить требуемый уровень качества сводного корпоративного справочника контрагентов.

В настоящей работе произведено исследование методов повышения качества и координации данных в информационных потоках, а также средств интеграции этих данных и создание конкретных решений на безе этих методов.

В ходе выполнения работы выяснилось, что в современных условиях металлургическим холдингам необходимы новые модели построения корпоративного управленческого учёта с использованием мощных математических и программных аппаратов, способных выявлять дублирования записей. А также максимально автоматизировать операции с данными и разработка технологии автоматической классификации архива документов перед запуском системы электронного документооборота. Большинство опубликованных исследований ориентированы на развитие традиционных подходов к созданию КИС, в то же время исследования, ориентированных на использование методик разрешения дублирования и выверки НСИ, или построения поисковых систем практически отсутствуют. Данная работа, в свою очередь, была направлена на исследование различных методик, основанных на меюде редакционного расстояния, N-грамм, формальном синтаксическом анализе, генетических алгоритмах, методе оценки качества мер близости. Построенные в результате работы модели позволили убедиться в правильности сделанных предположений о применимости данных методик для повышения качества поиска двойников в системах НСИ металлургических предприятий, построении автоматической классификации архива документов. Созданные приложения продемонстрировали применимость данных моделей для выверки НСИ и удаления дублирования записей в информационных потоках разнородных баз данных металлургического холдинга. Проделанная работа привела к следующим результатам и выводам: Была создана поисковая система, которая выявила совпадения строк между собой и вывела результаты в виде коэффициентов релевантности. После математического описания взятых методов была решена задача принятия решений и обучение алгоритма, а затем и проверка адекватности построенной модели. Рассматривая методы основанные на вычислении редакционного расстояния и N-граммах, получилось, что на коротких и достаточно похожих между собой строках алгоритм вычисления редакционного расстояния даёт более адекватные результаты. В результате эксперимента была рассчитана оценка качества модели, которая показала эффективность данных алгоритмов. Были рассмотрены методы генетических алгоритмов для оптимизации весовых коэффициентов слов поискового запроса, после чего был рассчитан суммарный коэффициент релевантности. Была решена задача поиска весовых коэффициентов при классификации документов по методу Rubryx, с использованием общепринятой для тестирования автоматических классификаторов коллекции текстов Reuters-21578. Рассмотрена система "Брэдфорд" в которой были воплощены ранее освещенные алгоритмы и методы поиска и идентификации контрагентов с учётом случайных ошибок и расхождений, вызванных разными обычаями написания наименований, адресов и других реквизитов разными операторами, а также для выверки справочников и реестров контрагентов, для их объединения в эталонный сводный массив, для разработки таблиц перекодировки. Была описана система с автоматизированным рабочим местом для сотрудников службы ведения НСИ. Результаты исследований применяются в составе систем документооборота металлургических холдингов России, таких как ОАО "ГМК "Норильский никель", Мечел, ММК, Северсталь, Евраз-Холдинг.

Похожие диссертации на Средства интеграции, улучшения качества и координации данных в информационных потоках металлургического холдинга