Содержание к диссертации
Введение
Глава 1. Пространственные данные как основа создания сгоциализированных информационных систем
1.1 Пространственные данные как основа хранилища данных 10
1.2 Модель пространственных данных для создания хранилища данных угольной тематики 15
1.3 Подходы к созданию интегрированной информационной системы для работы с пространственными данными 27
1.4 Выводы по главе 35
Глава 2. Создание хранилища пространственных данных угольной тематики
2.1 Архитектура и технологии формирования хранилища данных 36
2.2 Подходы и имеющиеся решения создания хранилищ данных 51
2.3 Реализация хранилища пространственных данных угольной тематики 57
2.5 Выводы по главе 73
Глава 3. Разработка интегрированной информационной системы для решения задач горного производства
3.1 Архитектура информационной системы 74
3.2 Программная реализация интегрированной информационной системы для решения горнотехнологических задач 77
3.3 Поиск пространственной информации в хранилище данных для решения горнотехнологических задач.
3.5 Выводы по главе 97
Глава 4. Комплекс программ для информационной системы
4.1 Средства одномерного и многомерного анализа пространственных данных 98
4.2 Подключение специализированных модулей к хранилищу пространственных данных 103
4.3 Применение ГИС-методов для работы с пространственными данными в информационной системе 113
4.4 Выводы по главе 122
Заключение 123
Список использованной литературы 124
Приложение 131
- Модель пространственных данных для создания хранилища данных угольной тематики
- Реализация хранилища пространственных данных угольной тематики
- Программная реализация интегрированной информационной системы для решения горнотехнологических задач
- Подключение специализированных модулей к хранилищу пространственных данных
Введение к работе
Актуальность исследования. В настоящее время пространственная информация используется для решения широкого круга задач горного производства. Горнотехнологические задачи, использующие подобную информацию, являются уникальным объектом исследования и имеют междисциплинарный характер (находятся на стыке таких наук как физика, химия, геология, математика и др.). Кроме того, горнотехнологические задачи тесно взаимодействуют друг с другом по принципу «вход/выход», т.е. часто результаты решения одного класса задач являются исходными данными для решения задач другого класса. Следовательно, можно говорить о необходимости решения нескольких различных классов задач по заданной схеме (или в режиме конвейера). Необходимые атрибутивные данные для решения любой задачи, как правило, соотносятся с некоторым горным объектом, например, шахтой, разрезом, пластом, населенным пунктом или географическим объектом, которые, как правило, не пересекаются в задачах разных классов. В этом случае единственным способом привязки атрибутивных данных оказывается их положение в пространстве. Ситуация осложняется также случайным характером процессов сбора и хранения разнородной информации при решении горнотехнологических задач. Существует необходимость регламентированного получения данных и их настройки для последующей интеграции в различных вычислительных модулях.
В последние десятилетия коллективами ученых (Институт угля и углехимии СО РАН, Институт горного дела СО РАН, Институт динамики систем и теории управления СО РАН и др.) созданы большие базы данных и разработаны программные комплексы для решения прикладных задач горного производства и в смежных отраслях знаний. Среди таких работ можно выделить инструментальную распределенную вычислительную
Сатурн-среду (Опарин Г.А, Феоктистов А.Г.), также интеллектные методы и инструменты создания и анализа распределенных информационно-аналитических и вычислительных систем с применением ГИС, GRID- и web-технологий (И.В. Бычков), задачи моделирования природных катастроф (Шокин Ю.И., Чубаров Л.Б.). Однако, в настоящее время практически отсутствуют системы, позволяющие интегрировать вычислительные модули и организовывать посредством их конвейерную обработку различных типов пространственной информации.
В связи с этим актуальной является задача разработки интегрированной информационной системы, обеспечивающей объединение разных типов пространственных данных (векторные, растровые форматы, данные дистанционного зондирования), наборов прикладных программ и математических моделей.
Целью диссертационной работы является создание интегрированной информационной системы (ИИС) и специализированных приложений для решения горнотехнологических задач.
Основные задачи работы:
Построить модель интегрированной информационной системы (ИИС) для решения горнотехнологических задач, основанную на применении современных ГИС-методов, систем обработки данных дистанционного зондирования (ДДЗ) и прикладных методов анализа пространственных данных.
Регламентировать и разработать методы подготовки различных типов пространственной горнотехнологической информации для ввода в ИИС.
Осуществить программную реализацию решения конкретных горнотехнологических задач с использованием различных типов геоданных.
4. Разработать метод актуализации устаревшей пространственной информации.
Научная новизна работы заключается в следующем:
Предложена модель ИИС, комплексно решающая вопросы сбора, хранения и анализа пространственной информации по угольной тематике для последующего решения горнотехнологических задач, при их определенном взаимодействии друг с другом;
Создана современная программная среда, основанная на информационном объединении вычислительных модулей между собой и обеспечивающая конвейерную обработку геоданных из хранилища пространственных данных согласно заданной технологической последовательности;
Разработан метод актуализации горнотехнологических данных на основе ДДЗ; отработана методика получения границ угольных предприятий и др. геологических объектов.
Основные научные положения, выносимые на защиту:
Предлагаемая информационная модель ИИС обеспечивает сбор, хранение и анализ разнородной пространственной информации.
Унификация методов подготовки геоданных обеспечивает ускорение процессов ввода и доступа к ним в прикладных задачах.
Разработанная программная среда взаимодействия специализированных вычислительных моделей между собой и с хранилищем данных по Кузнецкому угольному бассейну обеспечивает решение широкого класса горнотехнологических задач в ИИС.
Применение ДДЗ позволяет актуализировать пространственную информацию, обеспечивая ее достоверность, и решать специальные
горнотехнологические задачи, связанные со сложно и трудно получаемыми исходными данными.
Достоверность и обоснованность полученных результатов подтверждается:
Большим количеством обработанных пространственных данных (до 1 *106 кортежей).
Устойчивой работой информационной системы, развернутой в локальной сети передачи данных ИУУ СО РАН.
Тестовой проверкой конкретных расчетных методов.
Личный вклад автора состоит в следующем:
- адаптированы существующие методы сбора и подготовки данных с
учетом специфики задач горного производства;
- собраны уникальные ДДЗ территории Кемеровской области и
загружены в хранилище данных;
- отработана и реализована схема объединения вычислительных модулей
для решения горнотехнологических задач с хранилищем пространственных
данных и друг с другом;
- разработан метод актуализации пространственной информации на
основе ДДЗ; решена задача выделения границ пространственных объектов на
космоснимках;
- работоспособность интегрированной информационной системы
проверена и протестирована для ряда конкретных задач горного
производства.
Практическая значимость:
Созданная интегрированная информационная система относится к предметно-ориентированным системам, предназначенным для решения задач горного производства. Заложенные в системе механизмы реализации
различных типов атрибутивных и пространственных данных, возможности быстрого расширения за счет удаленного подключения неограниченного числа модулей задач, наличие интерфейсной среды их взаимодействия друг с другом и хранилищем данных создают базу для построения современных эффективных систем обработки пространственных данных.
Реализация работы.
На сервере ИУУ СО РАН установлено хранилище пространственных данных по Кузнецкому угольному бассейну, включающее примерно 1263000 записей. Программный комплекс интегрированной информационной системы, включающий 5 расчетных модулей для решения горнотехнологических задач согласно их классам, размещен на серверной площадке и апробирован в рамках локальной сети института. Решены задачи по геотехнологии, геомеханики, подземной газификации. Проведен ряд работ по актуализации и получению новых пространственных данных средствами современной картографии и использовании ДЦЗ. Выполнены конкретные расчеты.
Апробация работы. Основное содержание работы, а также отдельные ее положения докладывались и обсуждались на следующих научных конференциях:
Научное творчество молодежи: X Всероссийская научно-практическая конференция (21-22 апреля 2006 г., г. Анжеро-Судженск); научная сессия ИУУ СО РАН (молодежная секция) (Кемерово, 2006); областная научно-практическая конференция молодых ученых Кузбасса «Исследовательская и инновационная деятельность учащейся молодежи: проблемы, поиски, решения» (г. Кемерово, 2006); международная конференция «Геоинформатика: технологии, научные проекты» (16-17 июня 2008г., г. Иркутск); X Всероссийская конференция молодых ученых по
математическому моделированию и информационным технологиям (8-11 июня 2009 г., Монголия, п. Ханх).
Результаты диссертационного исследования в части обработки данных дистанционного зондирования Земли вошли в состав сводного итогового научно-технического отчета об основных результатах 2006-2008 гг. по междисциплинарному интеграционному проекту «Создание средств спутникового экологического мониторинга Сибири и Дальнего Востока на основе новых информационных и телекоммуникационных методов и технологий».
Публикации. Основные положения диссертации опубликованы в 10 научных работах.
Объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы, содержащего 64 наименования и приложений. Общий объем работы 145 страниц, в том числе 42 рисунка и 8 таблиц.
Модель пространственных данных для создания хранилища данных угольной тематики
Решение любой прикладной задачи начинается с создания концептуальной информационной модели данных, описывающей объекты предметной области и их взаимосвязи на логическом уровне и далее, в процессе реализации задачи, на физическом уровне с указанием способов физического хранения. Каждый вид представления данных (атрибутивный, картографический, графический) имеет свои правила хранения, отображения и обработки образов объектов. Суть решения задачи при таком подходе заключается в установлении отношений между объектами на уровне данных и гшициировании процессов обработки различных состояний объектов (61, с. 19).
Так как разрабатываемая информационная система имеет узкую отрасль (угольное производство), то рассмотрим типы решаемых задач в системе (см. рис. 2).
Анализ литературы, документов и решаемых на производстве задач позволил условно разделить горнотехнологические задачи на четыре взаимосвязанных направления: геотехнология, геомеханика, универсальные математические методы и современная картография.
Задачи геотехнологии включают в себя проектирование угледобывающих предприятий (шахт и разрезов) с различными способами добычи ископаемых (открытый/закрытый способ, отработка выемочного пространства короткими/длинными столбами и т.п.), проектирование транспортных схем, а также контроль границ разработки угольных месторождений. Для решения данного типа задач необходимы следующие данные: локальный центр - выражается координатами x,y,z, представляет собой центроид сложного пространственного объекта; полигоны технологических объектов — границы угледобывающих предприятий (шахт и разрезов) и их структур (отстойников, шламонакопителей и т.п.) полигоны прилегающих природных объектов и жилых зон -границы природных и жилых объектов, необходимые для расчета транспортных систем; границы разведанных запасов, неразработанных месторождений — для создания технико-экономического обоснования создания шахт и разрезов.
Соответственно, можно выделить атрибуты, которые характеризуют подобные группы данные: технико-экономические показатели шахт и разрезов - объем добычи, мощность залегания пласта, глубина залегания, скорость подвигания лавы, производительность пласта, прочность угля, пластичность угля и т.п.; экологическое состояние природных объектов - удельный вес взвешенных частиц в водных примесях, значение водопроводимости, кислотность, жесткость, прозрачность, скорость течения, расход реки, минерализация, цветность и т.п. социальные показатели - протяженность транспортных путей, ближайшие населенные пункты, численность населенных пунктов и т.п.
К разделу геомеханики относятся такие горнотехнологические задачи, как прогнозирование землетрясений, горных ударов (определение очагов потенциальных динамических явлений, критерии оценки опасности и т.п.), внезапных выбросов (условия и форма появления и т.п.), подземных пожаров, а также задачи газодинамики (моделирование и мониторинг газодинамических процессов в массивах горных пород и горных выработках, дегазация угольных пластов, накопление и перемещение метана в горных выработках и выработанном пространстве угольных шахт и т.п.). При этом основными данными являются: локальный эпицентр - выражается координатами x,y,z, представляет собой центроид сложного пространственного объекта (полигона); зона охвата - сложный пространственный объект, характеризующийся радиусом действия динамического явления (R, полигон); направление распространения - сложный пространственный объект, характеризующий площадь распространения динамического явления; возможно указание вектора распространения (полигон).
Таким образом, для решения задач геомеханики нужны атрибуты следующего типа: мощность, магнитуда, метанообильность, приращение смещений, производительность пласта, давление газа в пласте, фильтрационная пористость угля, динамическая вязкость метана и т.п.
Раздел универсальных математических методов представляет широкое направление решения горнотехнологических задач, которое взаимодействует со всеми разделами вследствие своего прикладного характера. Так как спектр универсальных методов довольно широк, приведем те, которые имеют наибольшее значение для решения горнотехнологических задач: прикладные методы математической статистики (эмпирический анализ, кластер-анализ, многомерное шкалирование и т.п.), datamining (OLAP, классификационные модели, поиск существенных атрибутов, поиск ассоциаций, выделение признаков, регрессионные модели и т.п.), методы распознавания образов и обработки изображений (преобразование яркости изображения, повышение резкости изображения, выделение контуров, линейная фильтрация и восстановление изображения, нелинейная фильтрация, цифровые методы спектрального анализа и т.п.) и др. Для решения горнотехнологических задач универсальными математическими методами, как правило, используются такие типы пространственных данных, как протяженность, свойства, площадь, периметр, географические объекты и т.п. При этом в качестве атрибутов выступают все скалярные характеристики свойств объектов, реляционные таблицы.
Реализация хранилища пространственных данных угольной тематики
Для создания хранилища пространственных данных угольной тематики использовалось табличное пространство СУБД Oracle Spatial и специализированные провайдеры данных для векторных и растровых материалов.
Каждый объект в хранилище имеет позиционные и семантические характеристики, представленные в атрибутивных таблицах. Между таблицами существует связь, которая обеспечивается присвоением уникальных адресов объектам. Например, номера геолого-экономических районов соответствуют официально закрепленной номенклатуре геолого-экономических районов Кемеровской области. Для шахт и разрезов введены уникальные номера, которые позволяют закодировать под одним номером несколько пространственных объектов, принадлежащих к одной шахте или разрезу. При этом производится двойная кодировка: под первым идентификатором кодируется запись в БД, второй идентификатор обеспечивает кодировку объекта внутри геолого-экономического района (рис. 9). Одновременно происходит связка таблиц. Таким образом, обеспечивается неизбыточность информации, что способствует однозначному поиску в базе данных.
Загрузка данных из источников в хранилище осуществляется специальными процедурами, позволяющими: извлекать данные из различных баз данных, текстовых и графических файлов; выполнять различные типы согласования и очистки данных; преобразовывать данные при перемещении от источников к хранилищу; загружать согласованные и «очищенные» данные в структуры хранилища.
Для разработки, поддержки и выполнения таких процедур рекомендуется использовать специализированный инструментарий, предназначенный для автоматизации процессов извлечения данных из источников, их преобразования и загрузки в целевое хранилище. Вся информация вводится администратором перемещения данных и хранится в виде метаданных в репозитории системы.
Основой для хранения аналитической информации является хранилище данных, которое представляет собой базу данных, содержащую достоверную согласованную информацию, предназначенную для решения разнообразных аналитических задач. С точки зрения СУБД, под управлением которой работает хранилище, наиболее существенным является тот факт, что режимы функционирования базы данных для аналитических задач коренным образом отличаются от ситуации в обычных системах транзакционной обработки. Они требуют специальных настроек параметров, методов индексирования и обработки запросов.
Как уже было отмечено выше, в качестве программной реализации хранилища пространственных данных угольной тематики предлагается использовать программный продукт фирмы Oracle Oracle Database. СУБД Oracle предоставляет широкий спектр средств, направленных на работу базы в режиме хранилища и витрин данных. К их числу относится параллельная обработка запросов, позволяющая наиболее полно использовать возможности многопроцессорных аппаратных платформ, эффективные битовые (bitmap) индексы и специализированные алгоритмы выполнения запросов, которые многократно повышают производительность обработки аналитических запросов, секционирование данных (pertitioning), облегчающее управление и значительно ускоряющее обработку очень больших таблиц и индексов.
Для создания единого хранилища пространственных данных угольной тематики было создано две схемы данных: SPATIALADM, CMI_USR. Схема данных SPATIAL_ADM содержит таблицы, не связанные между собой, за исключением тех, которые представлены на ER-диаграмме схемы CMI_USR (рис. 10). В таблицах данной схемы содержатся пространственные данные, представленные векторными слоями. Для представления ДДЗ используются специальные таблицы GEORASTER данной схемы.
Схема CME_USR содержит связанные между собой таблицы пространственных данных по различным направлениям горной деятельности (рис. 11). В настоящее время в схеме содержится 18 таблиц БД по угольной промышленности. Описание таблиц представлено в таблице 6.
Информационное наполнение хранилища осуществлялось на основе файловых источников. Для подготовки пространственных данных (например, формата ESRI Shape File, ERDAS Imagine) могут быть использованы различные инструментарии (утилиты) сторонних разработчиков. Принцип работы этих утилит заключается в формировании различных SQL-инструкций на основе полученной и отформатированной информации из файлового источника. После исполнения этих инструкций в SQL-среде СУБД формируются связные таблицы пространственных данных.
При формировании хранилища пространственных данных использовались утилиты shp2sdo и rastersdo. Для послойной загрузки векторного материала использовалась утилита shp2sdo, которая в качестве входного параметра принимает файл в формате Arc View ( .shp), а на выходе генерирует три файла: файл sql-инструкций, для создания каркаса геометрического объекта в пространственной таблице; файл для утилиты sqlldr, позволяющий загружать большие объемы информации в таблицу и файл данных, содержащий непосредственно данные для загрузки (координаты геометрических объектов в системе долгота/широта). С помощью данной утилиты осуществлялось наполнение схемы данных SPATIAL_ADM. В таблице 7 представлены загруженные в хранилище слои пространственных данных.
Программная реализация интегрированной информационной системы для решения горнотехнологических задач
Как было описано выше, информационная система представляет собой панель индикаторов, которая позволяет определенным группам пользователей работать с теми или иными данными из хранилища пространственных данных.
Основное назначение системы заключается в решении широкого круга производственных задач. Как бьшо описано выше, в основе системы лежит принцип иерархии от «общего к частному». Поэтому все горнотехнологические задачи, решаемые в институте, были разделены на следующие блоки: 1. Геотехнология 2. Геомеханика 3. Подземная газификация4. Универсальные математические методы 5. Карты
Разделы содержат списки горнотехнологических задач, каждая из которых, в свою очередь, может приводить к решению дополнительных более мелких задач, которые необходимы для получения итогового результата (рис. 18).
Общий принцип работы системы может быть описан DFD-диаграммой Гейна-Сарсона (рис. 19): от пользователя поступает запрос на решение горнотехнологической задачи. В ответ на запрос производится выбор некоторого шаблона решения (вычислительного модуля - ВМ) задачи. Решение предполагает перечень необходимых параметров, которые должны вытягиваться из хранилища данных, для этого формируется соответствующий SQL-запрос. Затем данные передаются в соответствующий вычислительный модуль. По выполнении решения формируется отчет. При этом отчет может быть выполнен в двух видах:
1. Только результаты расчета. После завершения вычисления система передает управление подсистеме построения отчета. Выводятся только итоговые значения вычислений.
2. Комбинированные данные расчета с другой информацией из хранилища. Для этого формируется новый SQL-запрос к хранилищу данных и выбираются дополнительные данные, с помощью которых можно расширить картину интерпретации данных (более подробно описано в 4.2).
Подсистема пользовательского интерфейса предоставляет пользователю инструмент для работы с вычислительными модулями и хранилищем данных. Главное назначение данной подсистемы - формирование SQL-запроса к хранилищу пространственных данных, запуск модуля и формирование отчетности. При этом для создания простых отчетов по результатам вычислений данные передаются непосредственно из подсистемы математического моделирования. Если необходима интерпретация результатов вычислений дополнительной пространственной информацией и ее визуализация, то запускает графическая подсистема.
Подсистема математического моделирования представлена блоком вычислительных модулей и хранилища пространственных данных. Она получает запрос на работу вычислительного модуля и на исходные данные от подсистемы пользовательского интерфейса. Именно в данной подсистеме происходит обработка пространственной информации. В графическую подсистему входят блоки ГИС и визуализации материала, которые позволяют представлять полученные результаты расчетов в виде карт, схем, диаграмм, анимаций.
Так как для разрабатываемой системы в главе 1 были определены требования, то с учетом их была предложена разработка программной части в среде NET.Frameworking. Структура информационной системы представляет собой совокупность независимых модулей, которые объединены с помощью программного интерфейса. Такая организация системы позволяет писать программные модули в различных программных средах и подключать их к основному телу без дополнительных модификаций программного кода.
Основной программной средой для разработки системы выступает пакет Microsoft Visual Studio 2005. Интерфейс программы, механизм построения отчетов реализован в среде C++ данного пакета. Информационно-вычислительная система по Кузнецкому угольному бассейну представляет собой приложение в виде панели, которая свободно может размещать в любом месте экрана. Индикатор программы после ее запуска помещается в область уведомлений рабочего стола (рис. 21). Выбор модуля для решения той или иной задачи заключается в последовательном перемещении по выпадающему списку конкретного блока задач. Для написания некоторых расчетных модулей системы использовался пакет Delphy. Так были написаны следующие вычислительные модули интегрированной информационной системы: «Напряженно деформированное состояние очистной выработки (по В.И. Мурашеву)» (раздел «Геотехнология»), «Потенциальная энергия газа» (Раздел «Подземная газификация»), «Распределение газового давления вблизи движущейся обнаженной поверхности пласта», «Оценка трещиноватости по кернам скважин» (раздел «Геомеханика»).
Подключение специализированных модулей к хранилищу пространственных данных
Созданная информационная система позволяет подключать специализированные аналитические модули решения горнотехнологических задач к хранилищу данных. При этом не имеет значения, на каком языке высокого уровня разработан данный модуль. Так как обработка пространственных данных аналитическими модулями может быть отнесена к разновидности Data Mining, то процесс подгрузки модулей описывается стандартом CRISP (The Cross Industries Standard Process for Data Mining -стандартный межотраслевой процесс Data Mining). Согласно данному стандарту процесс подключения специализированных программных модулей к хранилищу пространственных данных включает следующие фазы (рис. 28): 1. Определение задачи исследования. 2. Осмысление данных. 3. Подготовка данных. 4. Моделирование. 5. Оценка результатов. 6. Внедрение. Рассмотрим более подробно каждый из этих этапов. Этап определения задачи исследования заключается в выборе класса решаемых задач. Как было описано в главе 3, горнотехнологические задачи, решаемые системой, разделены на следующие типы: 1. Геотехнология 2. Геомеханика 3.
Подземная газификация 4. Универсальные математические методы 5. Карты 1. Определение задачи исследования - выбор соответствующего раздела. В нашем случае все горно-технологические задачи делятся на пять разделов: геотехнология, геомеханика, подземная газификация, универсальные математические методы, карты. Выбор конкретного раздела приводит к списку решаемых задач. 2. Осмысление данных - определение пространственных данных, которые необходимы для решения конкретной задачи. В системе для решения каждой горнотехнологической задачи строго определен список возможных данных, которые «вытягиваются» из хранилища данных. Пользователь может только выбирать из предложенного списка. 3. Подготовка данных - формирование SQL-запроса, который «вытягивает» необходимые данные из хранилища. 4. Моделирование - работа вычислительного модуля. 5. Оценка результатов - интерпретация полученных данных, дополнение их другой пространственной информацией (если это необходимо для однозначного представления результата). 6. Внедрение - написание собственно отчета. Рассмотрим пример подключения вычислительного модуля, написанного в другой программной среде. Например, вычислительный модуль «Энтропийный анализ», разработанный Логовым А.Б. и Замараевым Р.Ю. (ИУУ СО РАН). Данный модуль реализован в среде MathLab. Принцип работы модуля представлен в работах (25; 26; 27).
Схема работы модуля в информационной системе представлена на рисунке 29. Проиллюстрируем работу модуля в интегрированной ИС на конкретном примере решения горнотехнологической задачи. Постановка задачи заключалась в анализе показателей углей, извлекаемых на действующих участках угледобывающих предприятий Кузнецкого угольного бассейна. Выбор соответствующего шаблона вычислительного вычислительного модуля приводит к формированию SQL-запроса к хранилищу данных. При этом, согласно заданным пользователем параметров формируется сокращенный запрос, который содержит только ключевые показатели. В данном случае были выбраны следующие основные показатели, которые учитываются при выборе участка для добычи угля (табл. 8). Формирование таблицы исходных показателей для работы модуля осуществляется из базы данных по петрографическим, технологическим, химическим и геохимическим свойствам Кузнецких углей, которая хранится в табличном пространстве Oracle CMIUSR. Запросы строятся в автоматическом режиме, для этого разработана разветвленная сеть справочников (рис. 30, 31, 32). Таким образом, формируется SQL-запрос, который выбирает данные из хранилища и формирует исходную таблицу обработки.