Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Теоретические основы многоальтернативных систем управления базами данных в условиях неполноты информации Ачкасов Александр Владимирович

Теоретические основы многоальтернативных систем управления базами данных в условиях неполноты информации
<
Теоретические основы многоальтернативных систем управления базами данных в условиях неполноты информации Теоретические основы многоальтернативных систем управления базами данных в условиях неполноты информации Теоретические основы многоальтернативных систем управления базами данных в условиях неполноты информации Теоретические основы многоальтернативных систем управления базами данных в условиях неполноты информации Теоретические основы многоальтернативных систем управления базами данных в условиях неполноты информации Теоретические основы многоальтернативных систем управления базами данных в условиях неполноты информации Теоретические основы многоальтернативных систем управления базами данных в условиях неполноты информации Теоретические основы многоальтернативных систем управления базами данных в условиях неполноты информации Теоретические основы многоальтернативных систем управления базами данных в условиях неполноты информации Теоретические основы многоальтернативных систем управления базами данных в условиях неполноты информации Теоретические основы многоальтернативных систем управления базами данных в условиях неполноты информации Теоретические основы многоальтернативных систем управления базами данных в условиях неполноты информации Теоретические основы многоальтернативных систем управления базами данных в условиях неполноты информации Теоретические основы многоальтернативных систем управления базами данных в условиях неполноты информации Теоретические основы многоальтернативных систем управления базами данных в условиях неполноты информации
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Ачкасов Александр Владимирович. Теоретические основы многоальтернативных систем управления базами данных в условиях неполноты информации: диссертация ... доктора Технических наук: 05.13.11 / Ачкасов Александр Владимирович;[Место защиты: Воронежский государственный технический университет], 2016.- 285 с.

Содержание к диссертации

Введение

1. Проблематика многоальтернативных систем управления базами данных в условиях неполноты информации 11

1.1. Проблема неполноты и неопределенности информации в базах данных 11

1.2. Базовые понятия вероятностных баз данных

1.2.1 Вероятностные отношения 13

1.2.2 Общий и слабый порядок 14

1.2.3 Функция оценки 14

1.2.4 Запросы типа «k лучших»

1.3. Проблема эффективного извлечения набора взаимосвязанных величин, соответствующих запросу 15

1.4. Проблема интеграции в распределенных программных системах большой размерности 1.4.1. Проблема интеграции гетерогенных программных систем 18

1.4.2. Методы интеграции корпоративных программных систем поддержки и сопровождения жизненного цикла продукции 19

1.5. Анализ средств автоматизации создания баз данных 25

1.5.1. Многоплатформенные средства создания баз данных 45

1.5.2. Средства создания баз данных для СУБД MySQL 45

1.5.3. Анализ и выбор системы автоматизированного проектирования баз данных 47

1.6. Постановка задач работы 50

2. Теоретические основы и особенности мультиверсионного проектирования систем управления базами данных в условиях неполноты информации 56

2.1 Семантика «k лучших» запросов 56

2.1.1 Семантика требований для «k лучших» ответов 56

2.1.2 Семантики «k лучших всюду» 57

2.1.3 Другие семантики и механизм их анализа 59

2.2 Оценка запросов в семантике «k лучших всюду» 62

2.2.1 Простые вероятностные отношения 62

2.2.2 Оптимизация порогового алгоритма 66

2.2.3 Произвольные вероятностные отношения 69

2.2.4 Оптимизация для произвольных вероятностных отношений 75

2.3. Теоретическая оценка эффективности запросов для вероятностных отношений в СУБД 84

2.3.1. Семантики и Постулаты 84

2.3.2. Оценка запросов в простых вероятностных отношениях.85

2.3.3. Оценка выборок в общих вероятностных отношениях .92

2.4. Концепция полностью динамической структуры данных для эффективного функционирования запросов типа «k-лучших» в вероятностных БД 102

2.4.1. Запросы для неточных данных 102

2.4.2. Постановка задачи 104

2.4.3. Вычисление PRFe (a ) 104

4.2.1. Структура данных и операции над ними для поддержания динамической коллекции кортежей 110

2.4.1. Экспериментальное исследование 116

2.5 Выводы 119

3. Оценка эффективности запросов для вероятностных отношений в СУБД 124

3.1. Численное исследование эффективности запросов на вероятностных отношениях СУБД в условиях неполноты информации 124

3.1.1. Постановка задачи 124

3.1.2. Базовые алгоритмы 126

3.1.3. Алгоритм, основанный на предшествующих знаниях...127

3.1.4. Выбор параметров 132

3.1.5. Эксперименты 136

3.1.6. Основные результаты построения алгоритмов поиска при невозможности индексации 142

3.2. Поиск информации в СУБД, основанный на использовании

запросов типа «k-лучших» 143

3.2.1. К проблеме связи размеров набора документов и трудоемкости решения задачи поиска «k лучших» 143

3.2.2. Структуры данных во внешней памяти 144

3.2.3. Декомпозиция проблемы 145

3.2.4. Преобразование «k лучших» в оценки с помощью логарифмических схем 150

3.2.5. Результаты рационального выбора структур данных 154

3.3. Выводы 154

4. Теоретические и прикладные приложения теории многоальтернативных систем управления базами данных в условиях неполноты информации 158

4.1. Концепция бесшовной интеграции при управлении межмодульным взаимодействием распределенных программных систем 158

4.1.1. Структурная и функциональная схемы системы бесшовной интеграции корпоративных программных систем 158

4.1.2. Формирование концепции «бесшовной» интеграции специализированных систем с использованием модели данных и интегрированных БД 160

4.1.3. Разработка графического интерфейса программной системы 162

4.1.4. Генерация алгоритма автоматической загрузки классов моделей управляющей системы, допускающий наращивание функциональности системы за счет интегрируемых приложений .165

4.1.5. Предварительные результаты применения концепции бесшовной интеграции 169

4.2. Особенности интеграции потоковых сервисов и интерфейсов передачи данных в распределенных программных системах 170

4.2.1. Проблема интеграции потоковых сервисов 170

4.2.2. Описание модели 172

4.2.3. Применение 174

4.3. Управление процессами сбора данных в условиях большой размерности и неполноты 178

4.3.1. Связь с проблемой интеграции 179

4.3.2. Аналитическое описание выборки без замены как функции выбора 182

4.3.3. Уникальный выбор для распределения избыточности степенного закона 184

4.3.4. k-выбор и эволюция избыточности распределения 187

4.3.5. Эволюция степенного закона 189

4.3.6. Большие реальные наборы данных 191

4.3.7. Результаты и выводы 193

4.4. Управление конфликтами по данным с использованием верифицированных отображений 194

4.4.1. К решению проблемы разрешения конфликтов 195

4.4.2. Основы разрешения конфликта 196

4.4.3. Постановка задачи 198

4.4.4. Алгоритм разрешения конфликтов 201

4.4.5. Разрешение конфликтов с ограничениями 203

4.4.6. Вычислительная трудоемкость 207

4.4.7. Обработка ограничений при разрешении конфликтов .211

4.4.8. Расширение для массовых операций. Эксперименты 213

4.4.9. Выводы 216

5. Особенности и результаты программной реализации проектов прикладных подсистем на основе вероятностных СУБД 221

5.1. Потоковые сервисы и СУБД применительно к обработке массивов конструкторской документации 221

5.1.1. Технологии построения математического и программного обеспечения системы интерактивного проектирования технологических процессов 221

5.1.2. Функции программно-алгоритмических модулей 227

5.1.3. Функциональные подсистемы АС ПТК 230

5.2. Межмодульная и информационная интеграция системы управления и отдельных прикладных подсистем 234

5.2.1. Взаимодействие системы 1С:PDM с внешними приложениями 234

5.2.2. Ассоциирование проектов в системе 1C:PDM со сторонними приложениями 237

5.2.3. База данных распределенной системы оценки стойкости полупроводниковых изделий в защищенном исполнении 240

5.3. Моделирование и численная оценка стойкости изделий специального назначения при воздействии заряженных частиц и электромагнитных полей 244

5.3.1. Разработка автоматизированной информационной системы моделирования и оценки характеристик стойкости радиоэлектронной аппаратуры при воздействии отдельных заряженных частиц космического пространства 244

5.3.2. Синтез структуры интегрированной базы данных полупроводниковых изделий 249

5.3.3. Разработка программного модуля встроенной информационной среды поддержки моделирования и оценки характеристик объекта 251

5.3.4. Разработка программного модуля оценки стойкости полупроводниковых изделий к воздействию тяжёлых заряженных частиц космического пространства 252

5.4. Математическое и программное обеспечение моделирования

тепловых полей в трехмерной сборке интегральных схем 253

5.4.1. Тепловое моделирование и его место в интегрированной информационной системе 253

5.4.2. Структура программно-алгоритмического обеспечения 254

5.4.3. Опытно-экспериментальная работа и результаты моделирования 257

5.5. Выводы 259

Основные результаты работы 264

Список использованных источников

Введение к работе

Актуальность темы.

Практическое применение методов управления распределенными базами данных приобретает всё большую популярность, их исследованию посвящено большое количество работ. Многообразие методов и способов их описания порождает проблему исследования поведения таких систем и различных запросов, как в части типизации, так и масштаба.

Изучение неполноты и неопределённости информации в БД уже давно интересует разработчиков БД. В последнее время наблюдается рост интереса к этой проблеме, вызванный потребностью в обработке обширных массивов данных, часто неполных и содержащих неопределённости, сформированных при обработке научных и сенсорных данных, фильтрации и извлечении данных и т.п.

В настоящее время широкое распространение получили так называемые вероятностные подходы к управлению базами данных, достоверность и полнота информации в которых неабсолютны. В результате и запросы к БД, и отношения получили некую степень неопределённости, результаты запроса оказываются не единственными, и возникает задача выбора из множества результатов нескольких наиболее адекватных для дальнейшего их исследования.

Стандартная семантика, используемая в большинстве работ – это семантика возможных миров. Проблема «k лучших» запросов была всесторонне изучена в рамках мультимедийных баз данных, межплатформенных систем, фильтрации данных, базовых технологий в темпоральных базах данных и т.д. В проблеме «k лучших» запросов каждому кортежу присваивается оценка, и пользователям требуется k кортежей с наивысшими оценками. Таким образом, СУБД становятся многоальтернативными, и проблема максимально точной оценки альтернатив выступает на первый план.

В последнее время проблему «k лучших» запросов изучали в рамках вероятностных баз данных. Однако, в сущности, эти работы решают две различных в корне проблемы «k лучших» запросов. В ряде работ предполагается наличие оценочной функции для сортировки кортежей. Данные о вероятностях дают понять, насколько вероятно появление кортежей в базе данных. Напротив, в других работах критерий оценки в запросе «k лучших» – это вероятность, соответствующая каждому ответу на запрос. Однако во многих приложениях необходимо иметь дело одновременно и с вероятностью, и с оценкой кортежа.

Таким образом, актуальной является задача создания теоретических основ многоальтернативных систем управления базами данных в условиях неполноты информации, а также разработка и практическое применение алгоритмического и программного обеспечения, реализующего новые или модифицированные семантики вероятностного многоальтернативного вы-

бора СУБД.

Диссертационная работа выполнена в рамках основного научного направления Воронежского государственного технического университета «Вычислительные комплексы и проблемно-ориентированные системы управления».

Цель работы заключается в создании основ многоальтернативных систем управления базами данных в условиях неполноты информации, а также разработки и практического применения алгоритмического и программного обеспечения, реализующего новые или модифицированные семантики вероятностного многоальтернативного выбора СУБД.

Для достижения поставленной цели в диссертационной работе сформулированы следующие задачи:

ввести и обосновать новую семантику «k лучших всюду» для многоальтернативных запросов типа «k лучших» в вероятностных базах данных;

разработать алгоритмы оценки «k лучших» запросов на основе инъ-ективных оценочных функций с использованием семантики «k лучших всюду» в простых и общих вероятностных базах данных;

ввести и обосновать понятие вынужденного событийного отношения для последующей редукции семантики «k лучших всюду» от общего случая до «k лучших всюду» для простых вероятностных отношений;

создать обобщение семантики «k лучших всюду» для обычных функций оценок выборки при использовании равной политики распределения;

предложить концепцию полностью динамической структуры данных для эффективного функционирования «k-лучших» запросов в вероятностных базах данных управления системами специального назначения, связанную с рейтингом кортежей, у которых есть и оценка, и вероятность для каждого кортежа;

разработать алгоритм поиска приблизительных наборов «k лучших» для заранее неизвестного содержания отношений, основанный на доступе к обучающей информации;

осуществить проектирование и разработку специального проблемно-ориентированного программного обеспечения, обеспечивающего интеграцию с широким кругом систем принятия решений и сопровождения жизненного цикла.

Методы исследования. В качестве теоретической и методологической основы диссертационного исследования использованы методы математического моделирования, оптимизации, теории вероятностей и математической статистики, технологии объектно-ориентированного программирования.

Тематика работы соответствует следующим пунктам паспорта специальности 05.13.11: п. 4 «Системы управления базами данных и знаний»;

п.9 «Модели, методы, алгоритмы и программная инфраструктура для организации глобально распределенной обработки данных».

Научная новизна. В работе получены следующие результаты, отличающиеся научной новизной:

новая семантика «k лучших всюду» для многоальтернативных запросов типа «k лучших» в вероятностных базах данных, основанная на постулатах точности, корректности и стабильности, которая возвращает k наиболее высоко оцененных кортежей согласно их вероятности оказаться в «k лучших» ответах из возможных слов;

алгоритмы оценки «k лучших» запросов на основе инъективных оценочных функций с использованием семантики «k лучших всюду» в простых и общих вероятностных базах данных, обеспечивающие полино-миальность по времени;

понятие вынужденного событийного отношения, отличающееся использованием инъективной оценочной функции и одноатрибутного вспомогательного отношения, обеспечивающее редукцию семантики «k лучших всюду» от общего случая до «k лучших всюду» для простых вероятностных отношений;

обобщение семантики «k лучших всюду» для обычных функций оценок, отличающееся использованием нового понятия «политика распределения» и обеспечивающее построение алгоритма, основанного на динамическом программировании, для оценки выборки при использовании равной политики распределения;

концепция полностью динамической структуры данных для эффективного функционирования «k-лучших» запросов в вероятностных базах данных управления системами специального назначения, связанная с рейтингом кортежей, у которых есть и оценка, и вероятность для каждого кортежа, которая может извлекать «k-лучших» кортежей за время O(k log N)

и получать обновления с оценкой O(log N);

двухпараметрический алгоритм для поиска приблизительных наборов «k лучших» для заранее неизвестного содержания отношений, основанный на доступе к обучающей информации из того же распределения, что и скрытое отношение, и обеспечивающий оценку вероятности того, что полная оценка элемента будет достаточно высокой, чтобы войти в текущий набор «k лучших»;

доказательство существования структур данных, решающих проблему поиска «k лучших» документов: размером O (n) в модели оперативной памяти – с трудоёмкостью O (k); в модели внешней памяти размером

O (nh),h log* n – с трудоёмкостью O (p/B + logBn +log(h) n + k/B) операций

ввода/вывода;

- структура специального проблемно-ориентированного программ
ного обеспечения, содержащая интегрированные модули контроля, кор-

рекции, верификации и визуализации модели транслируемых данных, отличающаяся интеграцией с широким кругом систем принятия решений и сопровождения жизненного цикла;

- структура специального программного обеспечения, позволяющего определить правильность выбора элементной базы, оценить характеристики сбоеустойчивости бортовой аппаратуры космических аппаратов и комплектующих при воздействии отдельных тяжёлых заряженных частиц и высокоэнергетичных протонов космического пространства.

Практическая значимость заключается в создании специализированного программного обеспечения на основе предложенных структурных и функциональных схем с использованием концепции бесшовной интеграции с системами поддержки, планирования и сопровождения жизненного цикла и ориентацией на сохранение функциональной целостности четырёхуровневой модели клиент-серверной архитектуры развёртывания данных решений при производстве изделий специального назначения.

Программное обеспечение представляет собой серию специализированных программных межмодульных интерфейсов, которые позволят интегрировать не все модули из решения поддержки жизненного цикла, а внедрять только необходимую часть, обеспечив корректное функционирование с уже установленным программным обеспечением. Предложенные средства направлены на обеспечение взаимодействия как систем планирования, сопровождения, поддержки, так и решений управления жизненного цикла продукции.

Реализация и внедрение результатов работы. Результаты исследований используются в акционерном обществе "Сигнальные микросистемы" (г. Воронеж), акционерном обществе "Воронежский Завод Полупроводниковых Приборов - Сборка", открытом акционерном обществе "Научно-исследовательский институт электронной техники" (г. Воронеж), акционерном обществе "Научно-исследовательский институт полупроводникового машиностроения" (г. Воронеж) при разработке и сопровождении программного обеспечения изделий электронной техники специального назначения.

Основные результаты работы внедрены в учебный процесс Воронежского государственного технического университета в рамках дисциплин: «Вычислительные машины, системы и сети», «Базы данных», при выполнении курсового и дипломного проектирования.

Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на следующих конференциях: I Российско-Белорусской конференции «Элементная база отечественной радиоэлектроники» (Минск, 2013); международной научно-практической конференции «Актуальные направления научных исследований XXI века: теория и практика» (2013); XX и XXI Международной открытой научной конференции «Modern informatization problems in economics and safety» (Yelm,

WA, USA, January 2015, 2016); Международной летней и зимней научных школах «Парадигма» (Варна, Болгария, 2015, 2016); XXI Международной открытой научной конференции «Modern informatization problems in the technological and telecommunication systems analysis and synthesis» (Yelm, WA, USA, January 2016), а также на конференциях профессорско-преподавательского состава Воронежского государственного технического университета (Воронеж, 2012-2016).

Публикации. По теме диссертационного исследования опубликовано 52 печатные работы, из них 24 статьи в изданиях, рекомендованных ВАК РФ, патент, 6 свидетельств о регистрации программы для ЭВМ, 21 статья в журналах и материалах Международных и Всероссийских конференций и форумов. В работах, опубликованных в соавторстве и приведённых в конце автореферата, лично соискателю принадлежат: семантика «k лучших всюду» для многоальтернативных запросов типа «k лучших» в вероятностных базах данных, основанная на постулатах точности, корректности и стабильности [23, 39, 49]; алгоритмы оценки «k лучших» запросов на основе инъективных оценочных функций с использованием семантики «k лучших всюду» в простых и общих вероятностных базах данных [37, 41, 43]; понятие вынужденного событийного отношения, отличающееся использованием инъективной оценочной функции и одноатрибутного вспомогательного отношения [9, 50, 52]; обобщение семантики «k лучших всюду» для обычных функций оценок, отличающееся использованием нового понятия «политика распределения» [18, 40, 45]; концепция полностью динамической структуры данных для эффективного функционирования «k-лучших» запросов в вероятностных базах данных управления системами специального назначения, связанная с рейтингом кортежей, у которых есть и оценка, и вероятность для каждого кортежа [8, 21, 24]; теоретические и практические результаты в области полиномиальных оценок и связанных с ними преобразований [1, 6, 11, 17, 25]; структура специального проблемно-ориентированного программного обеспечения, отличающаяся интеграцией с широким кругом систем принятия решений и сопровождения жизненного цикла [2, 3, 13, 14, 15, 19, 26, 27, 28, 31, 33, 36, 42, 44, 51]; компоненты специального и математического программного обеспечения, предоставляющие и реализующие основные теоретические результаты исследования [4, 5, 7, 10, 12, 16, 20, 22, 29, 30, 34, 35, 38, 47].

Структура и объём работы. Диссертационная работа состоит из введения, пяти глав, заключения. Работа содержит 285 страниц. Список использованной литературы включает 290 наименований.

Проблема эффективного извлечения набора взаимосвязанных величин, соответствующих запросу

Обычно базы данных связаны с решением задач по эффективному извлечению набора взаимосвязанных величин, соответствующих запросу. Однако бывают ситуации, когда нам нужно распределить этот набор величин в соответствии с некоторой функцией множества. В данном случае, наибольший интерес представляют взаимосвязанные величины с максимальным количеством очков в получившемся распределении. Типичным примером, иллюстрирующим рассуждения, являются информационно-поисковые системы. Пользователь в поисковой системе, вряд ли будет заинтересован во всем распределении результатов, а только в первых нескольких пунктах. Идея обработки «k лучших» [1.33] состоит в том, чтобы извлечь k первые результаты этого распределения, не вычисляя рейтинг каждого подходящего файла.

Большинство существующих работ по запросам «k лучших» сосредоточено на задаче по получению взаимосвязанных величин с наибольшим рейтингом, в соответствии с заданной оценочной функцией f , из известного соотношения. Предполагается, что f является монотонной [1.33], и, как правило, выпуклой. Кроме того, поскольку известно соотношение, могут быть применены различные методы индексирования, чтобы ускорить обработку.

В отличие от известных постановок, рассматривается проблема «k лучших» запросов в несколько ином аспекте. Другими словами, необходимо применить известную линейную функцию распределения (вектор потока запросов) для скрытой связи (матрица потока ответов) данного знания о распределении значений в скрытой связи. Это отличается от большинства существующих работ, где предполагается, что отношение известно, и функция распределения может изменяться. Также предполагаем, что доступная стоимость высока, так как чтение значений записи в матрице вычислительно дорого.

Поскольку содержание скрытой связи, на момент выдачи запроса, неизвестно, решение не может полагаться на готовые индексные структуры. Однако предполагатся, что все отношения, с которыми мы сталкиваемся, следуют такому же распределению, и что можно применять обучающие данные из этого распределения. Алгоритм должен использовать регрессионные модели, чтобы быстро оценить, может ли строка принадлежать к набору «k лучших», после наблюдения только за подмножеством ее элементов. Кроме того, можно уменьшить стоимость запроса, что позволит иметь меньшее количество ошибок в результатах. То есть алгоритм должен возвращать набор документов, который является не точным набором «k лучших». Результаты могут не содержать некоторые высокоточные документы, но содержать другие документы, которые не принадлежат к точным наборам «k лучших».

На практике эта проблема «k лучших» запросов может быть мотивирована следующей конструкцией контекстного поиска [1.60], где предполагается, что запрос состоит из набора терминов и контекстного документа. Контекстный документ может быть, например, страницей, только что просмотренной пользователем. Для обработки запроса сначала получаем все документы, которые содержат термины запроса, а затем описываем каждый из них особенным вектором, функцией контекста. Окончательная оценка складывается из внутреннего произведения контекстного вектора на вектор функции оценки. Функция, которая зависит от контекста, может быть, например, мерой сходства между текстом контекстного документа и документа, который в настоящее время просматривается. Эти функции, зависимые от контекста, могут быть реализованы как наиболее приоритетные. Таким образом, можно предполагать, что человек В скрывает вектор функции, но с помощью вычисления этой функции запрашивается значение вектора. Общие затраты отражают вычислительную нагрузку, связанную с выяснением значения функций.

В последнее время появилось большое количество литературы, связанной с обработкой «k лучших» запросов [1.46]. В основном, предпола гают, что данные фиксированы, и можно предпринять различные методы предварительной обработки. Разрабатывается алгоритм вычисления порога [1.49], а также различные варианты этого алгоритма [1.59]. Идея состоит в сортировке значений в каждом столбце по убыванию на предварительном этапе. Соответственно, массив, имеющий максимальное значение, появится раньше в сортированном списке. Этим подходом не удается воспользоваться в связи с тем, что он требует чтения всех значений в порядке сортировки, или использования альтернативных источников данных, чтобы напрямую предоставлять столбцы в сортированном порядке, ни один из которых не имеем в нашем распоряжении.

Исследование [1.52], где поднимается проблема объединения нескольких источников данных из интернета, имеет значительно больше общего с исследованием. Также предполагается, что вычисление значений из соотношений занимает достаточное количество времени, и, следовательно, алгоритм должен иметь цель минимизировать общее время выполнения запроса. Алгоритм MPro [1.45] в отличие от данной работы, не предполагает использования обучающих данных и, в результате, требует точный список «k лучших».

Так как распределение основывается на внутреннем произведении между строками и оценочным вектором, набор значений «k лучших» эквивалентен набору k ближайших соседей оценочного вектора, если строки приведены к одной длине. Алгоритмы для k - NN запросов (в многомерном Евклидовом пространстве) обсуждались неоднократно [напр., в 1.50]. Обычным подходом является уменьшение числа требуемых удалённых вычислений путём предварительной обработки набора точек из запросов. Для понижения размерности многомерных данных [1.38], основное отношение индексируется набором хэш-функций так, что проверки указывают их на схожесть. Вектор запроса сравнивается только с векторами, отображенными в той же корзине что и хэш-функции.

Однако, допущение в [1.38] состоит в том, что запрашиваемые данные известны априори, таким образом, для быстрого нахождения точек, близких к случайному вектору запросов могут быть применены техники индексации. Для того чтобы представить проблему, как поиск k - NN, мы должны идти от противного. Вектор запросов (то есть наши оценочные веса) зафиксирован, а набор точек (то есть строки наших неизвестных зависимостей) дискретен относительно известного распределения.

Оценка запросов в семантике «k лучших всюду»

Репозиторий должен поддерживать совместную работу. В данном случае его основное назначение состоит в том, чтобы хранить актуальную версию модели. Предположим, администратору базы данных требуется внести изменения в физическую модель, и в то же время ту же модель хочет изменить проектировщик. Оба сотрудника могут получить копию модели из репозитория, провести изменения и загрузить модель обратно. В момент сохранения модели проектировщику будет представлена информация о различиях для обобщения изменений. Информация о различиях должна выводиться всякий раз при загрузке модели в репозиторий.

В комплекте с PowerDesigner поставляется средство организации ре-позитория — в виде отдельного модуля, однако это неотъемлемая часть пакета. С помощью репозитория в PowerDesigner обеспечивается полный анализ влияния, который иным способом было бы невозможно провести. Совместное хранение всех моделей значительно упрощает задачу учета всех объектов и связей между ними и представления соответствующей информации проектировщику. Power Designer поддерживает различные СУБД для размещения репозитория, в том числе Sybase ASA, Sybase ASE и Oracle.

Рассмотренная ранее функция слияния моделей вызывается в пакете Sybase всякий раз при загрузке модели в репозиторий. При этом на экран выводится информация об изменениях в загружаемой модели по отношению к хранимой и предоставляется возможность принять или отклонить любое из них.

С точки зрения пользователя репозиторий представлен в виде структуры, состоящей из папок. В нем реализованы средства разграничения доступа — пользователи, в зависимости от их ролей, облекаются разными полномочиями. Полномочия задаются администратором репозитория; как правило, они отличаются от полномочий пользователей базы данных. Поддерживаются ответвления и подответвления, версии, блокировка и фиксация.

Для ERwin в качестве репозитория используется отдельная программа под названием Model Mart. Помимо моделей, создаваемых с помощью Data Modeler, она позволяет управлять моделями системы проектирования процессов CA Process Modeler. Model Mart поддерживает управление версиями, в том числе блокировку версий, выдачу отчетов об отличиях, а также откат моделей к предыдущим состояниям. Кроме того, продукт CA позволяет отменять и повторять операции, сделанные за все время существования модели. Компания называет это преимуществом, однако такое пересечение границы между сеансами моделирования может быть сопряжено с проблемами. Для отмены изменений в этом случае лучше было бы использовать управление версиями.

Model Mart обеспечивает управление библиотеками, позволяя создавать папки и улучшая организацию информации в репозитории. Поддерживаются подмодели, не только в ERwin, но и в самом Model Mart ERwin Model Navigator — это отдельный платный продукт CA, который позволяет просматривать файлы ERwin Data Modeler и ERwin Process Modeler. Он обеспечивает также создание отчетов в форматах HTML и PDF.

PowerDesigner Viewer можно бесплатно загрузить с сайта Sybase. Это средство просмотра с широкими возможностями, совместимое с любыми типами моделей PowerDesigner, в том числе старых версий. PowerDesigner Viewer работает не только с файлами, но и с моделями, находящимися в репозитории. С его помощью можно создавать отчеты в форматах списка, HTML и RTF.

В состав любой корпоративной редакции PowerDesigner включается серверное приложение Sybase PowerDesigner Portal. Функционально дополняя сервер репозитория, он позволяет динамически просматривать содержание репозитория из любого веб-браузера. Механизм разграничения доступа на основе ролей обеспечивает защиту метаданных. ERwin в настоящее время не позволяет использовать веб-портал.

Работая со средством моделирования, проектировщик должен приспособиться к нему; с другой стороны, само средство может потребовать некоторой адаптации к потребностям организации и нуждам проектировщика. Требуемые степень расширяемости и объем адаптации зависят от типа выполняемой работы, а также от потребностей организации. В данном разделе рассматриваются возможности инструмента по адаптации к рабочей среде.

Если инструмент приобретается с целью проектирования простых баз данных с минимальным обслуживанием, то от него не требуется особой расширяемости. Однако при создании информационной среды, в которой модели являются опорным звеном, известная степень адаптации необходима. Расширяемость имеет разные аспекты.

Так, может потребоваться добавление поддержки новых СУБД или редактирование файлов-определений. В некоторых средствах предусмотрена настройка пользовательского интерфейса или создание пользовательских профилей. Модели могут создаваться на основе шаблонов, и к ним могут применяться стандарты именования. Может применяться механизм разграничения прав доступа, на уровне модели или репозитория. Может быть предусмотрена настройка отчетов или применение шаблонов отчетов по умолчанию. Еще один способ расширения функциональности средства моделирования данных — использование скриптов. Бывает полезна возможность изменять критерии проверки модели. И, пожалуй, один из самых важных аспектов адаптации — возможность расширять определения моделей с помощью метаклассов, стереотипов и вводя новые объекты.

PowerDesigner предусматривает значительные возможности адаптации. Они обусловлены самой его архитектурой. Главный программный файл этого пакета для выполнения разных функций и поддержки различ ных СУБД использует специальные файлы ресурсов. Эти файлы применяются для определения объектов моделей, а также методов генерации и воссоздания моделей. Они имеют формат XML, что позволяет опытным пользователям их просматривать, размножать и редактировать.

Для каждой поддерживаемой СУБД имеется свой файл ресурсов: так, отдельный файл есть для Oracle 11g, и отдельный — для Oracle 10gR2. Файлы ресурсов можно редактировать в любом текстовом редакторе, а можно воспользоваться специальным редактором ресурсов, вызов которого осуществляется через органы управления PowerDesigner.

В PowerDesigner идеи расширяемости и адаптации реализованы гораздо шире, чем в конкурирующих продуктах. Так, метаклассы можно добавлять на любом этапе процесса моделирования. (Метаклассом называется особый тип класса, сущностями которого являются собственно классы. При создании экземпляра класса он, как правило, имеет объект. При создании экземпляра метакласса возникает класс, который при своей инициации в свою очередь породит объект.) Работающий с PowerDesigner проектировщик или администратор может создать метакласс, который послужит базисом для набора классов и объектов, создаваемых в дальнейшем. Таким образом можно обеспечить следование стандартам и принятым в организации правилам проектирования. Преимущество здесь то, что все классы, происходящие от созданного метакласса, будут иметь общие свойства.

Стереотипы в моделировании данных создаются из классов и метаклассов. Как правило, они используются для экземпляров классов или объектов и служат целям классификации нижнего уровня. PowerDesigner полностью поддерживает стереотипы.

PowerDesigner позволяет также создавать пользовательские профили. С их помощью можно стандартизировать представление среды моделирования. В профилях сохраняются параметры отображения, настройки модели, условия проверки и прочие параметры; их можно использовать для настройки рабочих мест пользователей.

ERwin предусматривает возможность настройки панелей инструментов и среды моделирования в целом. В остальном его возможности расширяемости и адаптации следует признать недостаточными. Этот продукт довольно эффективен в качестве "легкого" средства проектирования БД, однако его нельзя назвать подходящим для сложных сред, требующих адаптации.

К проблеме связи размеров набора документов и трудоемкости решения задачи поиска «k лучших»

Репозиторий должен поддерживать совместную работу. В данном случае его основное назначение состоит в том, чтобы хранить актуальную версию модели. Предположим, администратору базы данных требуется внести изменения в физическую модель, и в то же время ту же модель хочет изменить проектировщик. Оба сотрудника могут получить копию модели из репозитория, провести изменения и загрузить модель обратно. В момент сохранения модели проектировщику будет представлена информация о различиях для обобщения изменений. Информация о различиях должна выводиться всякий раз при загрузке модели в репозиторий.

В комплекте с PowerDesigner поставляется средство организации ре-позитория — в виде отдельного модуля, однако это неотъемлемая часть пакета. С помощью репозитория в PowerDesigner обеспечивается полный анализ влияния, который иным способом было бы невозможно провести. Совместное хранение всех моделей значительно упрощает задачу учета всех объектов и связей между ними и представления соответствующей информации проектировщику. Power Designer поддерживает различные СУБД для размещения репозитория, в том числе Sybase ASA, Sybase ASE и Oracle.

Рассмотренная ранее функция слияния моделей вызывается в пакете Sybase всякий раз при загрузке модели в репозиторий. При этом на экран выводится информация об изменениях в загружаемой модели по отношению к хранимой и предоставляется возможность принять или отклонить любое из них.

С точки зрения пользователя репозиторий представлен в виде структуры, состоящей из папок. В нем реализованы средства разграничения доступа — пользователи, в зависимости от их ролей, облекаются разными полномочиями. Полномочия задаются администратором репозитория; как правило, они отличаются от полномочий пользователей базы данных. Поддерживаются ответвления и подответвления, версии, блокировка и фиксация.

Для ERwin в качестве репозитория используется отдельная программа под названием Model Mart. Помимо моделей, создаваемых с помощью Data Modeler, она позволяет управлять моделями системы проектирования процессов CA Process Modeler. Model Mart поддерживает управление версиями, в том числе блокировку версий, выдачу отчетов об отличиях, а также откат моделей к предыдущим состояниям. Кроме того, продукт CA позволяет отменять и повторять операции, сделанные за все время существования модели. Компания называет это преимуществом, однако такое пересечение границы между сеансами моделирования может быть сопряжено с проблемами. Для отмены изменений в этом случае лучше было бы использовать управление версиями.

Model Mart обеспечивает управление библиотеками, позволяя создавать папки и улучшая организацию информации в репозитории. Поддерживаются подмодели, не только в ERwin, но и в самом Model Mart ERwin Model Navigator — это отдельный платный продукт CA, который позволяет просматривать файлы ERwin Data Modeler и ERwin Process Modeler. Он обеспечивает также создание отчетов в форматах HTML и PDF.

PowerDesigner Viewer можно бесплатно загрузить с сайта Sybase. Это средство просмотра с широкими возможностями, совместимое с любыми типами моделей PowerDesigner, в том числе старых версий. PowerDesigner Viewer работает не только с файлами, но и с моделями, находящимися в репозитории. С его помощью можно создавать отчеты в форматах списка, HTML и RTF.

В состав любой корпоративной редакции PowerDesigner включается серверное приложение Sybase PowerDesigner Portal. Функционально дополняя сервер репозитория, он позволяет динамически просматривать содержание репозитория из любого веб-браузера. Механизм разграничения доступа на основе ролей обеспечивает защиту метаданных. ERwin в настоящее время не позволяет использовать веб-портал.

Работая со средством моделирования, проектировщик должен приспособиться к нему; с другой стороны, само средство может потребовать некоторой адаптации к потребностям организации и нуждам проектировщика. Требуемые степень расширяемости и объем адаптации зависят от типа выполняемой работы, а также от потребностей организации. В данном разделе рассматриваются возможности инструмента по адаптации к рабочей среде.

Если инструмент приобретается с целью проектирования простых баз данных с минимальным обслуживанием, то от него не требуется особой расширяемости. Однако при создании информационной среды, в которой модели являются опорным звеном, известная степень адаптации необходима. Расширяемость имеет разные аспекты.

Так, может потребоваться добавление поддержки новых СУБД или редактирование файлов-определений. В некоторых средствах предусмотрена настройка пользовательского интерфейса или создание пользовательских профилей. Модели могут создаваться на основе шаблонов, и к ним могут применяться стандарты именования. Может применяться механизм разграничения прав доступа, на уровне модели или репозитория. Может быть предусмотрена настройка отчетов или применение шаблонов отчетов по умолчанию. Еще один способ расширения функциональности средства моделирования данных — использование скриптов. Бывает полезна возможность изменять критерии проверки модели. И, пожалуй, один из самых важных аспектов адаптации — возможность расширять определения моделей с помощью метаклассов, стереотипов и вводя новые объекты.

PowerDesigner предусматривает значительные возможности адаптации. Они обусловлены самой его архитектурой. Главный программный файл этого пакета для выполнения разных функций и поддержки различ ных СУБД использует специальные файлы ресурсов. Эти файлы применяются для определения объектов моделей, а также методов генерации и воссоздания моделей. Они имеют формат XML, что позволяет опытным пользователям их просматривать, размножать и редактировать.

Для каждой поддерживаемой СУБД имеется свой файл ресурсов: так, отдельный файл есть для Oracle 11g, и отдельный — для Oracle 10gR2. Файлы ресурсов можно редактировать в любом текстовом редакторе, а можно воспользоваться специальным редактором ресурсов, вызов которого осуществляется через органы управления PowerDesigner.

В PowerDesigner идеи расширяемости и адаптации реализованы гораздо шире, чем в конкурирующих продуктах. Так, метаклассы можно добавлять на любом этапе процесса моделирования. (Метаклассом называется особый тип класса, сущностями которого являются собственно классы. При создании экземпляра класса он, как правило, имеет объект. При создании экземпляра метакласса возникает класс, который при своей инициации в свою очередь породит объект.) Работающий с PowerDesigner проектировщик или администратор может создать метакласс, который послужит базисом для набора классов и объектов, создаваемых в дальнейшем. Таким образом можно обеспечить следование стандартам и принятым в организации правилам проектирования. Преимущество здесь то, что все классы, происходящие от созданного метакласса, будут иметь общие свойства.

Стереотипы в моделировании данных создаются из классов и метаклассов. Как правило, они используются для экземпляров классов или объектов и служат целям классификации нижнего уровня. PowerDesigner полностью поддерживает стереотипы.

PowerDesigner позволяет также создавать пользовательские профили. С их помощью можно стандартизировать представление среды моделирования. В профилях сохраняются параметры отображения, настройки модели, условия проверки и прочие параметры; их можно использовать для настройки рабочих мест пользователей.

Аналитическое описание выборки без замены как функции выбора

Sybase PowerDesigner поддерживает как проекты, так и шаблоны проектов. Шаблоны могут содержать заранее определенные модели, контент, правила и форматирование. Как правило, шаблоны используются для фреймворков архитектуры предприятия, требующих определенного сочетания моделей. Применяя проекты и шаблоны, можно быстро наладить разработку на основе принципов моделирования и стандартизации. Если же сюда добавить и матрицы фреймворков, то организация получает весомые гарантии воплощения в своей информационной архитектуре лучших практик.

ERwin не поддерживает ни проектов, ни шаблонов проектов, ни фреймворков с их матрицами. Поскольку продукт CA обеспечивает лишь логическое и физическое моделирование данных, фреймворки здесь неприменимы. Как и во всех других инструментах, надлежащим образом созданный шаблон стандартов именования обеспечивает корректность именования объектов, экономя время проектировщиков. Матрицы фреймворков Матрица фреймворка имеет вид таблицы, ячейки в которой заполняются в зависимости от разных требований организации. Она поддерживает разработку и документирование модели и помогает организации выстроить проект согласно установленным правилам.

Средства создания баз данных для СУБД MySQL В настоящее время СУБД mysql является одной из наиболее распространенных. Поэтому рассмотрим некоторые из присутствующих средств работы с Mysql, позволяющие осуществлять автоматизированное создание баз данных. Navicat Программа PremiumSoft Navicat Premium Enterprise Edition 9.0.13 представляет из себя мощную графическую утилиту для контроля и работы с БД типа MySQL, PostgreSQL и Oracle, а также поддерживает наглядный интерфейс. ПО позволяет работать со всеми версиями MySQL, PostgreSQL и Oracle, а также включает поддержку большинства последних PostgreSQL функций. Оснащена хорошо-продуманным графическим интерфейсом пользователя с понятным созданием, организацией и обменом данными понятным и безопасным способом. Дает возможность пользователю соединяться с локальными и удаленными серверами MySQL, PostgreSQL и Oracle, поддерживая ряд инструментов, к примеру: администрирование БД, импорта и экспорта, резервное копирование и пересылку данных. Умеет одновременно поддерживать несколько соединений для удалённых и локальных MySQL, PostgreSQL и Oracle серверов. Сам удаленный сервер может быть построен на любой из Linux, Unix, Mac OS X и Windows платформ.

Одним из современных гибких профессиональных инструментов для работы с MySQL является программа dbForge Studio for MySQL. С ее помощью автоматизируется проектирование и администрирование баз данных, ввод и редактирование таблиц, создание и выполнение SQL-скриптов, триггеров, запросов. Кроме того, программа dbForge Studio for MySQL является бесплатной для некоммерческого использования.

DbForge Studio for MySQL является одним из самых универсальных продуктов для управления и создания баз данных для MySQL. Данная программа позволяет разработчикам и администраторам баз данных создавать запросы, выполнять их, вести разработку функций и процедур. Всё это выполнять в удобном пользовательском интерфейсе.

В данную программу встроен инструмент для сравнения и синхронизации данных между двумя базами, а также инструмент, который помогает создавать отчёты исходя из данных в таблицах MySQL.

Эта среда разработки баз данных MySQL поддерживает все версии серверов MariaDB и все типы данных, которые представлены в данных серверах.

Как и любой другой удобный редактор MySQL, dbForge Studio for MySQL имеет интеллектуальную среду разработки SQL-кода. Данная среда позволяет красиво выполнять форматирование кода, что в свою очередь делает написание SQL кода более удобным.

Для создания новой базы данных следует выполнить команду База данных Новая база данных..., после чего появится окно "Создать новую базу данных".

Во время внесения некоторых изменений в структуру баз данных MySQL приходит необходимость синхронизации данных изменений. За это отвечает встроенный инструмент, который позволяет не только срав нивать и синхронизировать данные и схемы, но также планировать задачи по синхронизации и генерировать отчёты по пройденным сравнениям.

DbForge Studio for MySQL предоставляет удобную возможность создавать отчёты с большим набором функций. Созданные отчёты можно экспортировать в больше чем восемь форматов и отправлять получателям с помощью командной строки. MySQL Workbench MySQL Workbench — инструмент для визуального проектирования баз данных, интегрирующий проектирование, моделирование, создание и эксплуатацию БД в единое бесшовное окружение для системы баз данных MySQL. Стартовый экран программы отражает основные направления её функциональности - проектирование моделей баз данных и их администрирование.

Данная программа дает возможность визуально проектировать базу данных, т.е. составлять схему БД. Визуальное представление базы данных всегда дает куда большую информацию, чем сухой список таблиц. При этом визуальное проектирование удобно не только для того, чтобы кому-то рассказывать о проектируемой БД, но и для личного использования. Во-вторых, программа имеет встроенный редактор SQL-кода, с помощью которого можно быстро внести любые правки в SQL-запросы. При этом возможно строить запросы любой сложности, получать различные выборки из таблиц, связывать их, создавать новые таблицы и редактировать существующие, работать с ключами, полями, связями. Одним словом — полноценный SQL-редактор. В-третьих, MySQL Workbench позволяет осуществлять синхронизацию локальной схемы БД с реальной базой на локальном или рабочем сервере. Благодаря этому после проектирования не требуется вручную создавать таблицы в базе на вашем сервере, достаточно сделать несколько простых действий в программе, после чего на рабочем сервере будет создана полноценная база данных со всеми указанными связями и параметрами. Важно отметить, что программа дает подробную статистику по работе базы данных.