Содержание к диссертации
Введение
Глава 1. Информационные системы кадастра, их значение и методологические недостатки 9
1.1. СУБД в информационных системах кадастра 9
1.2. Адресный реестр Российской Федерации 10
1.3. Формат XML-документов электронных форм для дистанционного предоставления кадастровых сведений 17
Выводы по первой главе 20
Глава 2. Математические методы и алгоритмы, реализованные в современных СУБД, позволяющие добиваться эффективности информационных систем кадастра 22
2.1. Растровые геоизображения. Оптимизация формата растровых геоизображений 22
2.2. Индексирование пространственных данных 33
2.3. Верификация и генерализация пространственных данных 44
2.4. Анализ пространственных данных, пространственные отношения. Алгоритмы оптимизации быстродействия 47
2.5. Адрес как иерархическая структура. Возможности СУБД для эффективной работы с иерархическими структурами 61
Выводы по второй главе 68
Глава 3. Методы эффективного решения наиболее типовых задач кадастра и адресного реестра 69
3.1. Работа с иерархической структурой адреса в различных современных СУБД 69
3.2. Геоданные как частный случай Big Data 76
3.3. Сравнение XML-формата электронных форм документов, предназначенных для дистанционного предоставления кадастровых сведений с форматом WKT . 78
Выводы по третьей главе 85
Заключение 88
Список сокращений 90
Список литературы 92
- Формат XML-документов электронных форм для дистанционного предоставления кадастровых сведений
- Верификация и генерализация пространственных данных
- Адрес как иерархическая структура. Возможности СУБД для эффективной работы с иерархическими структурами
- Сравнение XML-формата электронных форм документов, предназначенных для дистанционного предоставления кадастровых сведений с форматом WKT
Введение к работе
Актуальность темы диссертации. В условиях глобального экономического кризиса особое значение имеет всесторонняя оптимизация налогово-бюджетной политики государства, что требует не только построения, но и продуктивного использования ГКН как фундаментальной базы экономики, одного из ключевых инструментов налогово-бюджетной политики государства и планирования развития территорий. При этом чрезвычайно важно помнить, что построение и поддержка в актуальном состоянии ГКН - трудоемкий и финансово затратный процесс, требующий активного применения современных аппаратных средств вычислительной техники, программного обеспечения и привлечения специалистов высокой квалификации.
Методологическая поддержка, разработка эффективных алгоритмов и информационных систем контроля и обработки адресной информации является важным направлением в совершенствовании информационных систем кадастра. Адресный реестр, являясь составным элементом, формирующим ГКН, непосредственным образом влияет на реализацию всего спектра стратегических целей и задач государства: от создания эффективного рыночного оборота недвижимости для формирования доходной налоговой базы до социальной защиты населения и планирования миграционной политики. Формирование и ведение адресного реестра часто сопряжено с трудностями, так как есть такие объекты налогообложения как комната, доля в праве на домовладение, постройки в составе единого объекта недвижимости, доля в праве на объект недвижимости и другое. В реальности адресный реестр должен обеспечивать корректную и однозначную фиксацию всего многообразия сделок с недвижимостью.
Степень разработанности проблемы. При работе над диссертацией были изучены коллективные труды и отдельные монографии российских авторов, посвященные математическим методам и алгоритмам, позволяющим
эффективно оперировать пространственными данными: Бугаевского Л.М., Верещака Т.В., Запрягаевой Л.А., Ивановой Л.Г., Книжникова Ю.Ф., Савиных В.П., Спиридонова А.И., Филатова В.Н., Цветкова В.Я., Максудовой Л.Г. и др. Несмотря на большое количество публикаций о значении и методах организации кадастра и структуры пространственных данных, некоторые вопросы нуждаются в более углубленном рассмотрении. Так, например, не получили до нашего времени достаточного рассмотрения недостатки в существующих способах кодирования и регистрации адресных данных.
Цель исследования. Разработать решения, повышающие
эффективность ведения кадастра и, одновременно, позволяющие снижать финансовые затраты на администрирование кадастра или при выполнении типовых операций по массовой кадастровой оценке по итогам подробного обзора наиболее перспективных возможностей современных ГИС и СУБД, позволяющих строить эффективные информационные системы кадастра. Задачей исследования является:
разработать метод совершенствования ведения адресного реестра, универсально учитывающий переменную структуру адреса в информационных системах кадастра;
предложить метод, снимающий ограничения XML-формата электронных форм кадастровых документов при работе с большими пространственными объектами в информационных системах кадастра. Объектом исследования в работе являются информационные системы
кадастра. Предметом исследования - конкретные реализации применяемых технологий, алгоритмов и методов в информационных системах кадастра.
Метод диссертационного исследования. В ходе работы применялись общенаучные методы структурно-функционального анализа, использовались экспертные оценки, графические и табличные приемы сравнительной визуализации данных.
Информационной основой исследования послужили официально опубликованный Классификатор адресов Российской Федерации, спецификации электронных форм документов для дистанционного предоставления кадастровых сведений.
Научная новизна работы.
-
Обоснована необходимость отказаться от реализации КЛАДР структурой из 7 таблиц в пользу иерархического справочника. В существующем КЛАДР не предусмотрено промежуточного адресообразующего элемента между районом и населенным пунктом, а именно, сельского округа или сельского поселения. Тогда как их использование необходимо в тех случаях, когда в муниципальном районе существуют несколько населенных пунктов с одинаковыми наименованиями, например, две деревни Окулово в Подосиновском районе Кировской области.
-
Разработан метод реализации корректного адресного реестра на основе иерархического справочника в СУБД Oracle Database и Microsoft SQL Server, универсально решающий проблему как необходимости, так и избыточности промежуточных адресообразующих элементов в отличие от существующей реализации КЛАДР.
-
Обоснована критика действующих в настоящее время требований к формату электронных форм XML-документов для дистанционного предоставления кадастровых сведений, которые в современных условиях не способны обеспечить развитие рационального использования и охраны земель, защиту прав собственников, землепользователей и арендаторов, справедливого формирования земельного налога и арендной платы. Используемые в нем тяжеловесные синтаксические конструкции контрпродуктивно влияют на эффективность процедур ведения кадастра, увеличивают вычислительную нагрузку на аппаратные комплексы, затрудняют контроль и своевременную коррекцию кадастровых сведений.
-
Обоснована модернизация существующего формата электронных форм XML-документов для дистанционного предоставления кадастровых сведений: расширить XSD-схему описания состава кадастровых XML-документов (словарь, модели и типы данных) с возможностью вынесения координатных данных из тела XML-документа, например, во внешний файл или сервер публикации кадастровых сведений. Кроме того, для сложных пространственных объектов, имеющих в составе более 10 тысяч точек, в спецификации формата XML-документа необходимо предусматривать возможность разделения на набор менее сложных с последующим агрегированием в целевой пространственный объект, что сделает возможным обработку пространственных объектов произвольной сложности в отличие от текущей реализации спецификации.
-
Впервые выполнено сравнение размеров межевого плана в формате XML на несколько пространственных объектов с представлением этого пространственного объекта в формате WKT и показано, что размер кадастрового XML документа в 25 раз больше представления этого пространственного объекта в формате WKT (Приложение А).
Теоретическая и практическая ценность работы.
Материалы и обобщённые примеры, содержащиеся в диссертации, применимы для аналитических сообщений, учебных пособий и специальных курсов, использованы в учебном процессе при преподавании по специальностям городской кадастр, градостроительный кадастр, земельный кадастр. Результаты работы применимы при совершенствовании и перспективном развитии информационных систем кадастра, детализации требований в технических заданиях при размещении заказов на выполнение работ для государственных и муниципальных нужд при ведении кадастра или оценки недвижимости. Применение алгоритмов, приведенных в диссертационной работе, позволит снизить финансовые и трудовые затраты на администрирование кадастра при достижении целевых требований к
быстродействию информационных систем кадастра, корректности и полноте кадастровых сведений.
Также практической целью работы является попытка ввести в профессиональное дискуссионное поле квалифицированное понимание процессов, критически важных при построении высокоэффективных информационных систем кадастра, важность опыта исследовательской конкуренции, полученного при разработке ГИС и СУБД ведущими отечественными и мировыми поставщиками ИТ-решений для разработки национальных систем кадастра недвижимости.
Результаты, выносимые на защиту.
Алгоритм реализации адресного реестра с использованием иерархического справочника.
Метод модернизации формата кадастровых XML-документов с возможностью вынесения координатных данных из тела XML-документа, например, во внешний файл или сервер публикации кадастровых сведений.
Соответствие диссертации паспорту научной специальности.
Результаты диссертационного исследования соответствуют паспорту научной специальности 25.00.26 «Землеустройство, кадастр и мониторинг земель» по пунктам областей научных исследований: 5 - «Принципы сбора, документирования, накопления, обработки и хранения сведений о земельных участках. Разработка единой методики по ведению земельного кадастра», 7 -«Информационное обеспечение Государственного земельного кадастра», 29 - «Разработка земельно-информационной системы (ЗИС) как основной части геоинформационной системы (ГИС) на основе современных информационных и геоинформационных технологий».
Эмпирическую основу исследования составила работа в Правительстве Кировской области, в филиале федерального государственного бюджетного учреждения «Федеральная кадастровая палата Федеральной службы государственной регистрации, кадастра и
картографии» по Кировской области, в институте территориального планирования «Кировское архитектурное, землеустроительное проектно-изыскательское предприятие».
Степень достоверности и апробация результатов. Достоверность работы базируется на использовании строго доказанных и корректно применяемых положениях фундаментальных и прикладных наук: дискретная математика, математический анализ, математическая статистика, теория вероятностей - и не противоречит их положениям, а предложенные в работе методы и алгоритмы строго согласуются с опытом их создания и дальнейшего совершенствования.
Основные положения диссертации докладывались на научно-технических конференциях студентов, аспирантов и молодых ученых МИИГАиК в 2012 и 2013 годах.
Публикации. По материалам диссертации опубликованы 3 статьи в журналах, рекомендованных ВАК РФ.
Объем и структура диссертационной работы. Диссертационная работа состоит из введения, трех глав, заключения, списка принятых сокращений и аббревиатур, списка используемой литературы и приложения. Основной текст изложен на 100 стр., в том числе 8 табл., 36 рис. Список использованной литературы включает 136 наименований, в том числе 109 на русском языке и 27 на иностранных языках.
Формат XML-документов электронных форм для дистанционного предоставления кадастровых сведений
КЛАДР (классификатор адресов Российской Федерации) — ведомственный классификатор ФНС России, созданный для распределения территорий между налоговыми инспекциями и автоматизированной рассылки корреспонденции. Состоит из 6 таблиц, описывающих 7-и иерархическую структуру [113] (таблица 1): файл Altnames.dbf (Вне иерархии)сведения о соответствии кодов записей со старыми и новыминаименованиями адресных объектов, а также сведения осоответствии кодов адресных объектов до и после ихпереподчинения В КЛАДР отсутствуют адреса, имеющие секретность. У ЗАТО указаны только их наименования.
В настоящее время файлы КЛАДР создаются из базы данных ФИАС [114] и обновляются еженедельно. ФИАС (Федеральная информационная адресная система) — ведомственный классификатор ФНС России. Классификатор содержит адресные элементы и историю их изменения: регионы, районы, города, городские округа, населенные пункты, улицы, дома.
База данных ФИАС распространяется бесплатно и доступна для скачивания в виде архивов в формате arj. Выгрузки БД ФИАС осуществляются в форматах DBF и XML. Также опубликованы XSD-схемы формата XML. Доступны как полные выгрузки на определённую дату, так и изменения относительно предыдущей полной выгрузки. 28 декабря 2013 года Президентом Российской Федерации подписан
Федеральный закон от 28.12.2013 № 443-ФЗ «О федеральной информационной адресной системе и о внесении изменений в Федеральный закон «Об общих принципах организации местного самоуправления в Российской Федерации» (далее - Федеральный закон). Федеральный закон устанавливает основные права и обязанности в сфере адресного права, регулирует отношения, возникающие в связи с ведением государственного адресного реестра, осуществлением эксплуатации ФИАС, а также отношения по использованию содержащихся в государственном адресном реестре сведений об адресах. Федеральный закон от 06.10.2003 № 131-ФЗ «Об общих принципах организации местного самоуправления в Российской Федерации» определяет способ адресации на основе территориальных принципов организации местного самоуправления в Российской Федерации. Основными новациями данного Федерального закона являются: - во-первых, закрепление обязанностей органов местного самоуправления, органов государственной власти субъектов Российской Федерации - городов федерального значения Москвы и Санкт-Петербурга по внесению в ФИАС информации об адресах; - во-вторых, закрепление обязанности органов местного самоуправления и органов государственной власти по обязательному использованию сведений об адресах, содержащихся в ФИАС, при предоставлении государственных и муниципальных услуг. ФИАС является систематизированным сводом актуальных адресных сведений, истории их изменения.
Адресные сведения в ФИАС представлены: классификатором адресообразующих элементов (КЛАДЭ); - сведениями об элементах адреса, идентифицирующих адресуемые объекты - земельные участки и объекты капитального строительства (дома, владения, домовладения, корпуса, строения, сооружения), дополнительная информация, уточняющая, при необходимости, местоположение этих объектов относительно ориентиров на местности. Классификатор адресообразующих элементов представляет собой систематизированный перечень основных и дополнительных адресообразующих элементов, каждому элементу которого присвоен определенный код. В классификаторе КЛАДЭ принята иерархическая система классификации и используется последовательный метод кодирования информации. Множество объектов административно-территориального деления: планировочные единицы территории, элементы улично-дорожной сети и т.п. подразделяются на группы адресообразующих элементов. Объектами классификации в классификаторе КЛАДЭ являются нижеперечисленные основные и дополнительные адресообразующие элементы. Основные адресообразующие элементы, включающие в себя наименования и типы: субъектов Российской Федерации; округов (административно-территориальных единиц с особым статусом на территории субъекта Российской Федерации); административных районов, муниципальных районов, городских округов, внутригородских территорий городов федерального значения Москвы и Санкт-Петербурга, городских, сельских поселений; городов, населенных пунктов городского типа областного, окружного или районного подчинения; сельских населенных пунктов; элементов планировочной структуры территории; элементов улично-дорожной сети территорий населенных пунктов; автомобильных и железных дорог. Дополнительные адресообразующие элементы: - наименования садово-огороднических товариществ; наименование строительно-гаражных кооперативов; промышленные зоны; прочие адресные элементы, являющиеся дополнительными адресообразующими элементами адреса. К сожалению, сложившееся административно-территориальное деление Российской Федерации не позволяет корректно представить часть адресов [29]. Например, только в Кировской области есть несколько одноименных населенных пунктов (деревень Окулово в Яхреньгском и Октябрьском сельских округах Подосиновского района, рисунок 2 - 5), находящихся согласно административно-территориальному делению в одном муниципальном районе, но включенных в различные сельские поселения. Следует признать, что в этом случае специалисты, ответственные за ведение КЛАДР, изобретательно вышли из положения (рисунок 1), дополнив
Верификация и генерализация пространственных данных
Сканирование 3-х мерного пространства кривой Гилберта Рассмотренные выше порядки сканирования растровых изображений дают незначительные различия в компрессии данных. Основное преимущество Мортон-сканирования и других иерархических структур данных заключается в более быстром доступе к данным. Информация распределена по карте необязательно равномерно. Увеличение разрешения растрового изображения приводит к увеличению размеров файлов, а уменьшение – к потере информации. Дальнейшим развитием методов сканирования являются адаптивные методы декомпозиции растровых данных с не регулярной плотностью распределения информации.
На рисунке 13 изображена растровая матрица размера 16 x 16, в которой содержатся 255 значений «A» и одно «B». Индексируем растр следующим способом. Разделим матрицу на четыре подматрицы размера 8 x 8 и нумеруем их 0, 1, 2, 3 в порядке Мортона. Назовем подматрицу гомогенной, если в ней содержатся одинаковые значения. Будем рекурсивно разбивать негомогенные подматрицы до тех пор, пока не достигнем гомогенности всех подматриц. Таким способом получим адаптивное разрешение растрового изображения, где участки с меньшей плотностью информации представлены крупными блоками ячеек, а с большей плотностью – мелкими блоками ячеек. Идея выделения гомогенных блоков растра тождественна кодированию растра по Мортону. Гомогенный блок растра размера m х m при сканировании по Мортону соответствует коду m2, A .
Представленные таким способом растровые данные соответствуют квадродереву, вершина которого – исходное изображение, а листья – гомогенные блоки ячеек. При кодировании квадродеревьев ячейки на каждом уровне могут содержать либо значение гомогенного блока, либо указатель на следующий уровень.
Как уже отмечалось выше, основное преимущество иерархической организации данных в ГИС заключается в пространственном упорядочении информации и более быстром ее поиске. Поэтому рассматриваются две задачи ГИС, связанные с индексированием квадродеревьями: первая - поиск всех частей карты с заданным значением и вторая - определение содержимого некоторой ячейки. Обозначим n - число уровней квадродерева (тогда размер растра 2n 2n) и через m - число листьев в дереве. Чтобы найти части карты с некоторым значением B, необходимо проверить каждый лист дерева, что потребует m шагов. Определение значения ячейки происходит путем спуска по квадродереву до тех пор, пока не будет получен гомогенный блок. В худшем случае, когда ячейка находится на самой вершине дерева (как, например, ячейка B на рисунке 14), поиск займет n шагов.
Существуют различные модификации квадродеревьев, позволяющие, например, эффективно индексировать 3-х мерные данные (при этом куб рекурсивно делится на восемь частей).
Иерархическая организация данных позволяет получать быстрые способы доступа к пространственным данным. Рассмотрим теперь некоторые алгоритмы ГИС на квадродеревьях: вычисление площади, оверлейный алгоритм и алгоритмы определения смежности ячеек.
Чтобы определить площадь ячеек с некоторым значением в растровом слое, необходимо обойти дерево и подсчитать количество ячеек, кодированных этим значением, взвешенное площадью ячейки на данном уровне дерева. Вычислим, например, на растре (рисунок 14) площадь ячеек со значением «A». Площадь SA = 4 (S [ 2 ]) + 1 ( S [ 00, 02, 03, 32 ] ) = 8 Рисунок 14. Квадродерево при индексировании растра (порядок сканирования Мортона) Оверлейная задача на квадродеревьях заключается в совмещении квадродеревьев двух карт и получении нового квадродерева, индексирующего обе карты. Для этого требуется одновременно обойти оба дерева, следуя ветвям, существующим в обоих деревьях. В тех узлах, где у одного из деревьев будет отсутствовать ветвление, значение атрибута переносится на все последующие подуровни. В результате образуется оверлейное квадродерево, содержащее атрибуты исходных квадродеревьев (рисунок 15):
В векторных ГИС пространственные индексы используются для более быстрого доступа к объектам на определенном участке карты. Индексирование пространственных объектов позволяет уменьшить вычислительную сложность процедур поиска пересекающихся и вложенных объектов, поэтому индексы являются важной частью алгоритмов оверлея полигонов.
Процесс построения индекса для цифровой векторной карты включает следующие шаги. Сначала для каждого объекта базы данных находится наименьший лист квадродерева, полностью включающий объект. Некоторые крупные объекты могут лежать более чем в одном квадранте первого уровня квадродерева. В этом случае объекты помечаются значением «NULL» или «Root». Остальные объекты помечаются кодом включающего листа квадродерева. Затем объекты сортируются по возрастанию получившегося ключа, а сам индексный файл в свою очередь индексируется обычным способом (рисунок 16). Построенные таким способом индексы используются для поиска объектов, пересекающих заданный полигон или линию. Для этого определяется минимальный лист квадродерева, включающий заданный объект. Поднявшись из полученного узла до вершины дерева и выполнив обход поддерева, корнем которого является этот узел, получим список листьев дерева, внутри которых объекты могут пересекаться с заданным объектом.
Очевидно, пространственные индексы, построенные на квадродеревьях, более эффективны по сравнению с независимым упорядочиванием объектов по x и у, так как в этом случае учитывается пространственный характер данных. Индексирование квадродеревьями наиболее целесообразно для мелких объектов (особенно для точек). Большим объектам обычно соответствуют крупные блоки. Для них часто требуется определять пересечения с другими объектами.
Адрес как иерархическая структура. Возможности СУБД для эффективной работы с иерархическими структурами
Наложение картографических слоев является основным средством для реализации сложных пространственных отношений, называемых в англоязычной литературе spatial join. Геометрические аспекты оверлея тематических слоев основаны на методах вычислительной геометрии. Однако в пространственных запросах не только вычисляются пересечения объектов на входных картах, но и выполняется комбинирование их атрибутов.
Оверлеи слоев в растровых форматах сводятся к комбинированию значений соответствующих ячеек. Такие операции достаточно просты и не требуют использования методов вычислительной геометрии. Для выравнивания растров, имеющих различную ориентацию или размер ячеек, могут использоваться различные алгоритмы трансформации.
Для оверлеев типа «регион-регион» и «линия-регион» входные данные могут представлять собой результат предыдущих оверлейных операций. Картографический оверлей сводится к нескольким стандартным задачам: поиску точек пересечения двух сегментов, удалению принадлежности точки региону. Простые алгоритмы, рассмотренные в предыдущих разделах, формируют базис для более сложных алгоритмов ГИС-анализа, таких как оверлеи полигонов. Эта операция традиционно используется в ландшафтном планировании, где с целью управления использованием земель исследуются пространственные взаимосвязи между наложенными друг на друга географическими слоями. Оверлеи полигонов изоморфны операциям теории множеств. Когда накладываются два полигона A и B, расщепленных полигонов, вычислению пересечений двух разбиений, определения получается графическая интерпретация объединения или пересечения множеств A и B. На рисунке 38 показаны 16 возможных оверлейных операций (таблица 4) с двумя полигонами, выраженными через объединение, пересечение и отрицание помеченных цифрами 1 .. 4 множеств.
На основе оверлейных операций строятся некоторые другие функции ГИС. При визуализации данных интерес представляют только объекты, попадающие в «окно» пользователя, а остальные объекты для ускорения отображения должны быть пропущены. Для этого на слои карты накладывается прямоугольник – экстент карты, вне которого объекты не отображаются [23].
Перейдем теперь к способам реализации оверлейных операций. Будем рассматривать наиболее распространенный в ГИС-анализе случай, когда накладываются два слоя с непересекающимися полигонами. Представим, что в одном из слоев содержатся «красные» полигоны, а в другом – «синие». Тогда задача заключается в поиске полигонов на комбинированном слое. Атрибуты этого слоя содержат конкатенацию характеристик «синих» и «красных» полигонов. Количество полигонов, получившихся в результате наложения слоев, заранее предсказать нельзя.
Чтобы получить оверлей двух полигонов, вначале необходимо вычислить все пересечения между их границами. На рисунке 39 изображен красный полигон с атрибутом «A» (тонкие линии) и синий полигон с атрибутом «1» (толстые линии). Внешняя часть на обеих картах имеет атрибут «0». Каждый полигон представлен одной дугой, для каждой из них известно, с какой стороны расположен полигон. После вычисления пересечений этих дуг образуются шесть новых дуг и четыре новых полигона, наследовавших атрибуты 00, A0, A1, 01. Для новых дуг также известно, какие полигоны лежат справа и слева. По таблице смежности получившихся дуг и полигонов можно сформировать любой из возможных шестнадцати полигонов, показанных на рисунке 39 [23].
Адрес как иерархическая структура. Возможности СУБД для эффективной работы с иерархическими структурами
Данная иллюстрация (рисунок 40) наглядно показывает адрес, как иерархическую, или иначе, древоподобную структуру и позволяет рассматривать работу с адресом как иерархическую задачу, применяя математические модели, разработанные в таком разделе дискретной математики как теория графов.
Первоначально для работы с древоподобными структурами общепринято было применять рекурсивные методы, в таких рекурсивных алгоритмах типовые задачи: - построения полного пути от самого верхнего узла - корня к заданному, или иначе, построение упорядоченного по старшинству перечня узлов, являющихся родителями заданного узла (для примера, представленного на рисунке 40, это может быть адрес населенного пункта); - нахождение всех узлов, являющихся потомками заданного узла, то есть не только непосредственных потомков, но и потомков непосредственных потомков, за тем и потомков - потомков непосредственных потомков и т.д. (для примера на рисунке 40, это может быть перечень населенных пунктов в районе или перечень улиц в населенном пункте); решались методом циклического перебора всех узлов дерева для нахождения требуемой последовательности. Очевидно, что такой подход имеет существенные недостатки. Ведь даже при наличии индексов, позволяющих оптимально быстро выполнять каждый отдельный поиск, заранее никогда не известно, сколько раз потребуется его выполнять. Но самое главное, при наличии ошибки в иерархической структуре возможна ситуация зацикливания, при которой конечный узел не будет никогда найден, и алгоритм будет выполняться бесконечно. Поиск ошибки в таких случаях особенно труден, поскольку требует анализа непротиворечивости иерархической структуры в целом. Данное обстоятельство должно обязательно учитываться при проектировании высоконагруженных многопользовательских информационных систем, работоспособность которых критически важна для бизнеса или государственного управления, и может являться мотивированным основанием включать в техническое задание требование о недопустимости применения алгоритмов, использующих прямые рекурсивные методы на пользовательских данных. С введением стандарта языка программирования SQL 1999, механизм работы с иерархическими данными непосредственно доступен в СУБД, поддерживающих стандарт SQL 1999: DB2, Sybase iAnywhere, Microsoft SQL Server.
Сравнение XML-формата электронных форм документов, предназначенных для дистанционного предоставления кадастровых сведений с форматом WKT
Заметим, что вынесение координатных данных за пределы XML-документа не противоречит требованию использовать префиксы точек (например: н – новая, с – существующая), так как в спецификации актуальной версии межевого плана атрибут PointPref элемента Ordinate не является обязательным [20]. Также не является обязательным заполнение атрибута Definition – текстового описания прохождения части границы [20]. Требования о порядке обхода точек внешнего контура по направлению против часовой стрелки, а внутренних – по часовой стрелке, не несет пространственного значения в современных ГИС. Ведь внутренний контур может быть расположен внутри внутреннего контура и тогда это уже не полость, а остров в полости, но и в нем, в свою очередь, могут быть полости. Такое часто встречается в лесничествах и землях сельскохозяйственного назначения, расположенных в заливных поймах рек.
Что касается необходимости использовать обязательный атрибут DeltaGeopoint – cредняя квадратическая погрешность положения характерной точки, то, группируя точки с одинаковым значением погрешности, можно также применить метод вынесения структурированных данных из тела XML-документа, предусмотрев для этого соответствующий элемент в XSD-схеме. Например, точки со значением погрешности равной 2.5 представить в файле points_delta_2.5.wkt, а точки со значением погрешности равной 0.5 представить в файле points_delta_0.5.wkt. В синтаксисе таких файлов будет рационально применять WKT конструкцию MULTIPOINT (таблица 2). Получаемое при этом дублирование (координаты этих точек уже будут в WKT-файле, указанном в элементе SpatialSource ) не скажется на быстродействии, так как сведения о погрешности будут использоваться при специальном пространственном анализе, связанном с согласованием границ или кадастровым спором.
Таким образом, надо признать, что применение тяжеловесных синтаксических конструкций контрпродуктивно влияет на эффективность процедур ведения кадастра, требует многократного переформатирования пространственных данных, увеличивает вычислительную нагрузку на аппаратные комплексы, затрудняет контроль и своевременную коррекцию данных. К тому же, как было указано в первой главе, кадастровые сведения о лесничествах могут содержать несколько тысяч контуров, состоящих из более миллиона точек, и не могут быть представлены в данном формате кадастровых XML-документов ни в одном из существующих программных инструментов. Данное обстоятельство объясняется базовыми возможностями и ограничениями XML-формата. Крупные зарубежные специалисты в области баз данных Кристофер Дейт (Christopher J. Date) и Херрингтон Д.Д. (Jack D. Herrington) отмечают следующие недостатки XML-формата [120], [122]: - синтаксис XML избыточен; размер XML документа существенно больше бинарного представления тех же данных, в грубых оценках величину этого фактора принимают за 1 порядок (в 10 раз); размер XML документа существенно больше, чем документа в альтернативных текстовых форматах передачи данных (например, JSON, YAML) и особенно в форматах данных, оптимизированных для конкретного случая использования; избыточность XML влияет на эффективность приложений, возрастает стоимость хранения, обработки и передачи данных; для большого количества задач не нужно все синтаксическое разнообразие XML и можно использовать значительно более простые и производительные решения; в XML нет поддержки типов данных, в нём нет понятий «целых чисел», «строк», «дат», «булевых значений». Кристофер Дейт отмечал, что «XML является попыткой заново изобрести иерархические базы данных» [122]. Сравнительное формирование межевого плана в формате XML на несколько пространственных объектов показало, что размер кадастрового XML документа в 25 раз больше представления этого пространственного объекта в формате WKT (Приложение А). Мы предлагаем метод модернизации существующего формата электронных форм XML-документов для дистанционного предоставления кадастровых сведений расширением XSD-схемы определения состава кадастровых XML-документов (словарь, модели и типы данных), вынесением координатных данных из тела XML-документа, например, во внешний файл или сервер публикации кадастровых сведений. При этом представляется рациональным оставить существующие в настоящий момент разделы Spelement_Unit и Border для использования на малых и средних (до 1 тысячи точек) земельных участках. Кроме того, для сложных пространственных объектов, имеющих в составе более 10 тысяч точек, метод предусматривает возможность секционирования исходного пространственного объекта на набор менее сложных с последующим агрегированием в исходный пространственный объект. Это обеспечит производительную обработку пространственных объектов произвольной сложности в отличие от текущей реализации формата XML-документов.
Современные СУБД имеют эффективные инструменты работы с иерархическими данными. Это предоставляет новые возможности в реализации объектно-реляционного способа решения задачи ведения адресного реестра, учитывая при этом особенности формирования адреса в Российской Федерации.
В задачах, связанных с массовой загрузкой или выгрузкой пространственных данных в СУБД, целесообразно использовать WKT-нотацию консорциума OGC. Это позволяет повышать производительность процедур, облегчает поиск ошибок, так как WKT-формат обладает оптимальной лаконичностью и максимально адаптирован для машинной обработки и визуального чтения. Современные СУБД Oracle Database и Microsoft SQL Server имеют развитые средства индексации пространственных данных, позволяющие организовывать эффективную работу с пространственными данными. СУБД Oracle Database дополнительно имеет инструменты для автоматизированного контроля корректности и генерализации пространственных данных.
В современных СУБД возможно сочетание пространственного и атрибутивного анализа непосредственно в языке SQL. Это дает возможность организовать комплексную обработку кадастровых данных по месту их хранения и снижает затраты на администрирование ГКН.
Совокупность кадастровых сведений, содержащих пространственные и атрибутивные данные, обладают основными признаками Big Data: имеют огромные объёмы данных, многообразие источников получения и представления данных в сочетании с непрерывным приростом, пополнением и обновлением. В самом ближайшем будущем это потребует разработки нового инструментария, основанного на нетрадиционных методах анализа и обработки, например, статистических методов.
Применение тяжеловесных синтаксических конструкций XML документов, предназначенных для дистанционной передачи кадастровых сведений в регламенте АИС ГКН, контрпродуктивно влияет на эффективность процедур ведения ГКН. Использование WKT-нотации консорциума OGC позволит оптимизировать документооборот в кадастровых процедурах. Комплексно рассматривая задачу повышения эффективности и оптимизации при ведении ГКН, приходится признать, что, концентрируясь только на применении даже самых совершенных программных и аппаратных средств, радикально решить задачу повышения эффективности нельзя. Решающее значение все равно будет лежать на рационально продуманной теоретической и методологической базе, охватывающей как юридическую, так и топографо-геодезическую основу ГКН в полном соответствии с реалиями современного государства.