Содержание к диссертации
Введение
1 Аналитический обзор систем, использующих технологию дополненной реальности 11
1.1 Перспективы совершенствования пользовательских интерфейсов посредством дополненной реальности 11
1.2 Технология дополненной реальности 13
1.3 Визуализация трёхмерных объектов 18
1.4 Предпосылки к массовому применению технологии дополненной реальности 25
1.5 Анализ систем, использующих интерактивную визуализацию средствами дополненной реальности 31
1.6 Постановка задачи 39
1.7 Выводы по первой главе 41
2 Теоретические основы исследования 42
2.1 Разработки по тематике дополненной реальности 42
2.2 Методические и алгоритмические основы реализации процесса трекинга 45
2.3 Основы трёхмерной визуализации 55
2.4 Выбор среды разработки трёхмерной визуализации 70
2.5 Выводы по второй главе 71
3 Разработка информационной системы с технологией интерактивной визуализации средствами дополненной реальности 72
3.1 Структура системы 72
3.2 Методики и алгоритмы интерактивной визуализации средствами дополненной реальности 76
3.3 Механизм манипуляции трёхмерными объектами дополненной реальности с использованием жестовых методов ввода 98
3.4 Особенности проектирования графического интерфейса пользователя при визуализации средствами дополненной реальности 105
3.5 Выводы по третьей главе 114
4 Внедрение результатов исследования 115
4.1 Сферы применения разработанной информационной системы 115
4.2 Процесс апробации результатов исследования на примере ООО
«Ландшафт Лель» 116
4.3 Модели взаимодействия с клиентами при использовании технологии дополненной реальности в торговле 132
4.4 Определение лояльности покупателей к применению дополненной реальности 137
4.5 Сравнительный анализ появившихся за последние годы на рынке программных продуктов, использующих визуализацию средствами дополненной реальности 141
4.6 Перспективы развития и использования систем визуализации средствами дополненной реальности 142
4.6 Выводы по четвертой главе 144
Заключение 146
Список использованных источников
- Технология дополненной реальности
- Методические и алгоритмические основы реализации процесса трекинга
- Методики и алгоритмы интерактивной визуализации средствами дополненной реальности
- Модели взаимодействия с клиентами при использовании технологии дополненной реальности в торговле
Введение к работе
Актуальность темы исследования.
Человеко-компьютерное взаимодействие является динамично
развивающейся областью науки. Постоянное совершенствование технологий
приводит к возможности появления инновационных парадигм
пользовательского интерфейса.
Глобализация виртуальной реальности привела к вводу в научный оборот нового термина «дополненная реальность». Если текущие технологии пользовательских интерфейсов сфокусированы в основном на взаимодействии человека и компьютера, то дополненная реальность при помощи компьютерных технологий предлагает совершенствование интерфейса человека и реального окружающего мира.
Современный этап исследований дополненной реальности начался в 1990-х годах. За рубежом было издано множество работ об актуальности и серьёзном потенциале данной темы. Тем не менее развитие потребительской электроники только сейчас достигло уровня, способного обеспечить массовое внедрение данной технологии.
В настоящий момент дополненная реальность является одним из самых актуальных объектов для исследования. Однако в России данной теме не уделяется должного внимания. Необходимо активизировать научные и практические исследования в данной сфере, особенно в связи со сложившейся политической ситуацией в мире.
Цель и задачи исследования. Целью настоящего исследования является создание информационной системы с технологией интерактивной визуализации трёхмерных объектов средствами дополненной реальности в реальном времени в реальном масштабе для массовых мобильных устройств.
В соответствии с поставленной целью в работе необходимо было решить следующие задачи:
1) проанализировать современное состояние в сфере исследований дополненной
реальности, выявить недостатки современных систем дополненной
реальности и предложить методы их решения;
2) провести поиск и анализ методологических, алгоритмических и
программных средств для целей исследования;
-
разработать структуру информационной системы с технологией интерактивной визуализации средствами дополненной реальности;
-
предложить методики повышения реалистичности отображения трёхмерных объектов средствами дополненной реальности;
-
разработать подход к изменению параметров объектов дополненной реальности при визуализации в реальном времени;
-
разработать методику подготовки и хранения трёхмерных моделей для реалистичной визуализации на мобильных устройствах;
-
разработать механизм и алгоритм манипуляции виртуальными трёхмерными объектами в пространстве;
-
сформулировать рекомендации по проектированию интерфейса пользователя для визуализации средствами дополненной реальности;
-
реализовать информационную систему с технологией интерактивной визуализации средствами дополненной реальности в виде программно-алгоритмического комплекса.
Предмет и объект исследования. Объектом исследования в диссертационной работе являются компьютерные методы обработки информации. Предметом исследования является информационная система с технологией интерактивной визуализации средствами дополненной реальности.
Теоретической и методологической основой исследования являются исследования в области обработки и анализа изображений, компьютерной графики и человеко-компьютерного взаимодействия.
В ходе проведения исследований использовались труды отечественных и зарубежных ученых (Р. Азумы, М. Биллингхарста, О. Бимбера, Д. Вагнера, Б. Виктора, Ф. Кисино, Т. Кодела, А. Кэя, В.И. Лойко, С. Манна, П. Милграма,
Д. Мицела, Д. Раскина, И. Сазерленда, С. Силтанен, С. Файнера, Г. Фитцмориса, Д. Шмальштига, Д. Энгельбарта и др.), которые внесли значительный вклад в развитие теории информационных систем, развитие вопросов человеко-компьютерного взаимодействия, пользовательских интерфейсов и дополненной реальности.
Методы исследования. В процессе выполнения работы использовались
методы компьютерной графики, алгоритмизации, моделирования.
Экспериментальная часть работы проводилась с использованием набора средств разработки для трекинга Qualcomm Vuforia и средства разработки Unity.
Информационно-эмпирическая база. В работе использовались
материалы научной периодической печати и интернет-ресурсов, доклады отечественных и зарубежных ученых на семинарах и конференциях, связанных с темой исследования.
Научная новизна и защищаемые положения заключаются в создании информационной системы с технологией интерактивной визуализации виртуальных трёхмерных объектов в реальной среде средствами дополненной реальности, отличающейся представлением объектов в реальном размере и в реальном времени для массовых мобильных устройств, в рамках которой:
-
разработаны методики повышения реалистичности при визуализации трёхмерных объектов средствами дополненной реальности, отличающиеся использованием комбинации статического и динамического освещения с предварительной визуализацией независимой текстуры затенения и статичной падающей тени объектов;
-
предложен подход к изменению параметров объектов дополненной реальности при визуализации, отличающийся введением блока обобщенного параметра, ускоряющего взаимодействие, включающий возможность изменения в реальном времени и обеспечивающий упрощение интерфейса пользователя;
-
разработана методика подготовки и хранения трёхмерных моделей виртуальных объектов для их реалистичной визуализации, отличающаяся структурой и форматом хранения данных;
-
предложен авторский механизм и алгоритм манипуляции виртуальными трёхмерными объектами в пространстве с использованием жестовых методов ввода, отличающиеся возможностью одновременного перемещения и вращения, а также скоростью и стабильностью работы;
-
реализована информационная система с технологией интерактивной визуализации средствами дополненной реальности в виде программно-алгоритмического комплекса.
Практическая значимость проведенного исследования состоит в возможности непосредственного применения разработанной информационной системы в реальных бизнес-процессах дизайн-проектирования, торговли и ряде других сфер.
Апробация исследования. Основные положения и результаты работы
докладывались и обсуждались на международных, всероссийских,
межрегиональных и общеуниверситетских научных и научно-практических конференциях, в том числе:
1. VII-й Всероссийской научно-практической конференции молодых
ученых «Научное обеспечение агропромышленного комплекса» (г. Краснодар,
2013).
-
X Всероссийская научно-практическая конференция «Математические методы и информационно-технические средства» (г. Краснодар, 2014 г.).
-
XI Всероссийская научно-практическая конференция «Математические методы и информационно-технические средства» (г. Краснодар, 2015 г.).
-
Пятый научно-практический межкафедральный семинар «Проблемные вопросы функционирования предприятий и комплексов Крымского федерального округа и г. Севастополя» (г. Севастополь, 2015 г.).
Разработанные модели и методики апробированы и приняты к внедрению в ООО «Ландшафт Лель» г. Краснодара, о чем имеются соответствующие документы.
Публикации. Основные положения и выводы диссертации нашли отражение в 9 печатных работах, в том числе в изданиях, рекомендованных ВАК – 5 печатных работ. Получено свидетельство регистрации программы для ЭВМ.
Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, списка использованных источников (содержит 116 наименований), приложений. Общий объем работы 167 страниц, включая 6 таблиц, 75 рисунков.
Технология дополненной реальности
Некоторые исследователи считают, что в том, как происходит развитие компьютерных систем и, в частности, пользовательских интерфейсов, имеются серьёзные недостатки (напр., Алан Кэй [60], Брет Виктор [109]). В основном это связывают с ранней коммерциализацией потребительских компьютерных систем. Начиная с выхода графических пользовательских интерфейсов на массовый рынок примерно 30 лет назад, взаимодействие с компьютером не претерпело существенных изменений. На этом фоне многообещающей выглядит концепция дополненной реальности. Как указано в [70], текущие технологии пользовательских интерфейсов имеют фундаментальные ограничения и сфокусированы в основном на взаимодействии человека и компьютера. Технология дополненной реальности предлагает совершенствование интерфейса человека и реального окружающего мира. Она позволяет естественным образом внедрить компьютеры в деятельность человека, не отвлекая от сути решаемых задач.
Дополненная реальность (ДР) (англ. Augmented Reality, AR) - это феномен пространственно-временного континуума, совмещающий в себе объективную и виртуальную реальности и обладающий рядом специфических качеств и свойств, недоступных в объективной и виртуальной реальности по отдельности [30].
В русском языке также используется термин «расширенная реальность», являющийся синонимом.
Более распространённый термин «виртуальная реальность» означает создание полностью искусственной среды, замещая человеку всю аудиовизуальную информацию, поступающую из окружающего мира. В случае c дополненной реальностью информация из окружающей действительности лишь частично дополняется неким виртуальным содержимым.
П. Милграм и Ф. Кисино в 1994 году описали «Континуум Реальность-Виртуальность» - пространство между реальностью и виртуальностью, между которыми расположена смешанная реальность, состоящая из дополненной реальности - ближе к реальности и дополненной виртуальности - ближе к виртуальности [82].
Континуум Реальность-Виртуальность по Милграму-Кисино Говоря об определении дополненной реальности, нельзя также не обратиться к общепризнанной работе Рональда Азумы «Исследование дополненной реальности» (1997) [95], в которой им были сформулированы основные принципы, характерные для системы с дополненной реальностью: - комбинирование реального и виртуального; - взаимодействие в режиме реального времени; - работа с трёхмерным пространством. В более узком смысле, дополненную реальность можно определить, как технологию интеграции виртуальных объектов в реальный мир.
Дополненная реальность предлагает уникальные способы отображения визуальной информации, в частности визуализации трёхмерных объектов. Средствами ДР объект может быть визуализирован непосредственно в контексте его эксплуатации. Примером может служить предмет мебели, визуализированный в интерьере, растения на приусадебном участке, архитектурный объект на местности (рис. 1.2), коммуникации в стене здания, результаты ультразвукового сканирования, спроецированные на пациенте во время операции.
Концепция дополненной реальности предлагает более совершенный пользовательский интерфейс для визуализации за счёт совокупности способов управления (1) и визуализации (2). Управление ракурсом объекта осуществляется естественными движениями головы пользователя или устройства и является понятным и эффективным. Способ визуализации трёхмерного объекта путём совмещения его изображения с окружающей обстановкой в соответствующем ракурсе позволяет лучше воспринимать объект, его размеры (при условии соответствия масштаба) и, в некоторых случаях, свойства материалов. При этом, в отличии от традиционных средств визуализации (ПО для 3d-моделирования), для визуализации объектов средствами ДР не требуется моделирование окружения.
Методические и алгоритмические основы реализации процесса трекинга
Основополагающую роль в развитии технологии дополненной реальности играет компьютерное зрение – научная дисциплина, изучающая теорию и базовые алгоритмы анализа изображений и сцен [8]. Алгоритмы компьютерного зрения позволяют выделять ключевые особенности на изображении (углы, границы области), производить поиск фигур и объектов в реальном времени, выполнять 3D реконструкцию по нескольким фотографиям [114] и многое другое.
В области дополненной реальности алгоритмы компьютерного зрения используются для поиска в видеопотоке специальных маркеров. Поиск заданного объекта на видео в сущности сводится к поиску на статическом изображении, так как видеофайл представляет собой последовательность кадров (изображений), лишь с тем отличием, что он осуществляется многократно для некоторого количества кадров [39].
В зависимости от задачи в качестве маркера могут выступать как специально сформированные изображения, так и, например, лица людей. После нахождения маркера в видеопотоке и вычисления его местоположения, появляется
возможность построения матрицы проекции и позиционирования виртуальных моделей. С их помощью можно наложить виртуальный объект на видеопоток с соблюдением ракурса и перспективы. Основная сложность состоит именно в том, чтобы найти маркер, определить его местоположение в кадре и спроецировать соответствующим образом виртуальную модель.
На сегодняшний день была создана обширная теоретическая база в сфере обработки изображений и поиска на нём различных объектов. Прежде всего, это касается методов контурного анализа, сопоставления по шаблону (template matching) [78], определения характерных черт (feature detection) [47, 50, 52] и генетических алгоритмов [83]. С точки зрения построения дополненной реальности зачастую используются последние два подхода [7].
Генетические алгоритмы – это эвристические алгоритмы поиска, используемые для решения задач оптимизации и моделирования путём случайного подбора, комбинирования и вариации искомых параметров с использованием механизмов, напоминающих биологическую эволюцию.
В компьютерном зрении они используются для поиска объекта некоторого заданного класса на статическом изображении или видеопотоке [7]. Вначале необходимо провести обучение алгоритма при помощи двух различных наборов изображений: 1) «Хорошие» – содержат нужный объект. 2) «Плохие» – ложные изображения без искомого объекта. При этом для обучения используется большое число изображений, и чем их больше, тем успешнее будет работать алгоритм. Для каждой картинки производится выделение различных ключевых особенностей: границы, линии, центральные элементы. По ним производится построение статистической модели, которая затем и используется для поиска объекта на изображении.
Примером использования данного подхода может служить алгоритм распознания лиц и глаз на видеопотоке [80, 38]. Постепенно обучая алгоритм, можно добиться высоких результатов нахождения заданного класса объектов. Однако необходимость обучения делает использование генетических алгоритмов достаточно проблематичным. Для корректной работы требуется существенное число различных изображений, и построение классификатора для каждого объекта может занимать продолжительное время.
Концепция определения характерных черт на изображении (feature detection) в компьютерном зрении относится к методам, которые нацелены на вычисление абстракций изображения и выделения на нём ключевых особенностей.
В качестве особенностей могут быть использованы изолированные точки, кривые, различные связанные области. Не существует строгого определения того, что такое ключевая особенность изображения. Каждый алгоритм понимает под этим своё (углы, грани, области и т.п.) [7].
Зачастую для поиска маркеров используются алгоритмы, которые выполняют поиск и сравнение изображений по ключевым точкам. Ключевая точка – это некоторый участок картинки, который является отличительным для заданного изображения (рис. 2.1). Что именно принимается за данную точку – напрямую зависит от используемого алгоритма.
Методики и алгоритмы интерактивной визуализации средствами дополненной реальности
Модификации блока визуализации касаются повышения реалистичности без существенных затрат ресурсов. Применение независимой текстуры затенения позволяет визуализировать собственные тени объектов, образующиеся в результате глобального освещения, и тем самым существенно повысить реалистичность. При этом независимая реализация позволяет использовать одну текстуру затенения с неограниченным количеством основных текстур любых параметров, в том числе плиточных (тайловых). Методика реализации статичной падающей тени даёт возможность также без дополнительных ресурсозатрат симулировать в реальном времени падающую тень объекта, образованную в результате рассеянного освещения, и тем самым визуально повысить реалистичность встраивания объекта в реальную окружающую среду. Использование предварительно визуализированных статичных текстур затенения и падающей тени позволяет свести использование ресурсоёмких динамических источников освещения к минимуму, ограничиваясь одним наименее требовательным направленным источником, необходимым для симуляции некоторых отражающих материалов.
В соответствии с требованиями по визуализации, объект перед попаданием в блок хранения объектов проходит подготовку согласно соответствующей методике. При этом применяется особая структура хранения объекта, включающая текстуру затенения, падающую тень и несколько возможных цветовых решений. Спроектированный в соответствии с результатами исследования графический интерфейс обеспечивает взаимодействие пользователя с системой. С его помощью возможно получение информации по доступным для визуализации объектам, выбор интересующего объекта, а также возможность смены материалов (цветовых решений) объекта.
Совокупность средств графического интерфейса и особой структуры хранения объекта создаёт основу для разработанного подхода к изменению параметров визуализируемых объектов в реальном времени. Пользователь имеет возможность изменять параметры объекта непосредственно в процессе визуализации. Также реализован алгоритм изменения положения объектов с использованием жестовых методов ввода, позволяющий напрямую перемещать и вращать объекты посредством касаний сенсорного экрана.
Система компьютерной графики в общем случае может синтезировать изображение, соответствующее только одному сетчаточному изображению, т.е. система способна воспроизвести лишь условия монокулярного наблюдения. Объемность изображения, пространственное положение объектов при этом воспринимаются на синтезированном изображении благодаря линейной перспективе, загораживанию одних объектов другими, характеру теней и изменению тона (или цветовых оттенков) по полю изображения. Существенное значение для восприятия объёма и пространства имеет предшествующий опыт наблюдения, благодаря которому наблюдатель непроизвольно "достраивает" объемную структуру наблюдаемой сцены [14].
Таким образом, синтезированное компьютерное изображение может соответствовать оригиналу при визуальном наблюдении только на психофизическом уровне.
Максимальное приближение к оригиналу при этом можно обеспечить, если математическая модель сцены и обрабатывающая программа точно передают условия освещения, геометрическую форму объектов, их взаимное положение, обеспечивают условия энергетического подобия, передают размер и положение теней и другие особенности реальной сцены.
Освещение объекта играет важнейшую роль при его визуализации. Правильная настройка освещения требует специальных профессиональных навыков и опыта. При построении освещения ставится задача максимально точно передать форму предметов и их объём при просмотре на плоском экране устройства.
В живописи и в фотографии при построении освещения натюрморта применяются различные типы освещения, такие как заполняющий, рисующий, контурный, моделирующий свет и другие (рис. 3.3). В трёхмерной компьютерной графике также моделируются соответствующие источники освещения.
При реализации технологии дополненной реальности на современных потребительских устройствах на сегодняшний день нельзя в реальном времени реализовать сложные алгоритмы визуализации, учитывающие непрямое освещение, такие как трассировка лучей. Во-первых, вычислительные ресурсы устройств не обладают должным уровнем производительности для расчёта изображений с интерактивной частотой кадров. Во-вторых, проблематично при наличии одной RGB-камеры в реальном времени восстановить окружающую обстановку для визуализируемого виртуального объекта.
Разработанная методика предполагает использование средств статического (предварительно рассчитанного) освещения: статичное затенение, отражение и падающую тень (рис. 3.5). Это обеспечивает существенное повышение реалистичности и снижает сложность постоянных расчётов динамического освещения.
Ещё одной причиной применения статического освещения является то, что различные объекты для наилучшего восприятия могут требовать различное количество источников освещения разных типов и характеристик (например, интенсивности) по-разному расположенных. При статическом освещении каждый объект может быть настроен независимо, и при добавлении одновременно нескольких объектов индивидуальное освещение каждого не будет оказывать влияния на остальные.
Был применён подход, при котором расчёт и визуализация освещения поверхностей объекта производится заранее на этапе подготовки трёхмерной модели и при последующей визуализации в реальном времени не требуются дополнительные ресурсы. При таком подходе на этапе разработки трёхмерной модели объекта к нему может быть применено освещение любой сложности с использованием неограниченного числа источников света.
Большое значение имеет возможность предварительного расчёта теней, образуемых в результате действия непрямого освещения (глобального освещения, global illumination). Это существенно повышает реалистичность визуализации объекта. Расчёт может быть выполнен с применением различных сложных методов визуализации таких как трассировка лучей (см. главу 2), излучательность (radiosity) [69, 54] и многих других.
Модели взаимодействия с клиентами при использовании технологии дополненной реальности в торговле
При наличии у визуализируемого объекта нескольких возможных вариантов изготовления (окраски, отделки, материалов и т.д.), возникает необходимость реализации интерфейса по выбору пользователем соответствующего варианта. Такой интерфейс необходим и при наличии у объекта нескольких состояний (например, светильник включён или выключен). Переход между состояниями может быть анимирован (например, анимация раскладывания дивана).
Наиболее эффективным представляется реализация средств изменения параметров объектов непосредственно в режиме дополненной реальности с мгновенным отображением результата. Причём необходимо, чтобы средства интерфейса по изменению параметров объекта были более доступными, чем в профессиональном программном обеспечении. Например, на рисунке 3.33 показано, как выглядит интерфейс работы с материалами в ПО для трёхмерного моделирования 3ds Max. Окно редактора материалов в профессиональном программном обеспечении для трёхмерного моделирования
Такой интерфейс предполагает настройку множества параметров и не подходит для быстрого просмотра нескольких вариантов материалов массовым потребителем.
В стремлении к максимально простому и удобному способу смены материала объекта для пользователя, было предложено следующее. В режиме ДР на экране справа по центру отображать кнопку вызова меню смены материала (рис. 3.34). Меню смены материала представляет собой список из доступных для выбора материалов, каждый пункт которого реализован в виде кнопки. На кнопке предлагается располагать изображение фрагмента материала и надпись с названием. Вместо фрагмента материала можно отображать и сам объект с уже применённым к нему материалом, однако могут возникнуть проблемы с компоновкой интерфейса, так как большие объекты могут быть неразличимы на маленьких изображениях.
Интерфейс смены материалов Размеры кнопок по вертикали должны быть удобны для работы большим пальцем руки. Нажатие в любом месте на экране вне меню закрывает его. Рассматривался вариант привязки позиции меню смены материалов объекта непосредственно к позиции трёхмерной модели, что было бы более логичным. Однако при таком варианте у пользователей возникали сложности. Во-первых, при держании перед собой планшетного компьютера возникает непроизвольное дрожание рук и текст пунктов меню оказывается трудночитаем даже при реализации алгоритмов сглаживания позиции меню. Во-вторых, при потере трекинга и скрытии объекта, меню также необходимо скрывать, и это также может вызвать неудобства у пользователя.
В процессе исследования был поднят вопрос наилучшей организации элементов интерфейса на экране в режиме дополненной реальности. В результате было выявлено следующее. При удерживании планшетного компьютера в руках в положении стоя, субъективно, наиболее удобным способом является хват по сторонам устройства. Таким образом, касания экрана осуществляются большими пальцами рук, и, следовательно, при расположении элементов интерфейса необходимо учитывать области наиболее удобной доступности для соответствующих пальцев.
В дальнейшем в литературе была встречена работа «Достижение удобного взаимодействия большими пальцами на планшетных компьютерах на примере Windows 8» [88], которая подтвердила правоту выводов автора. В упомянутой работе приводятся результаты исследования по определению наиболее комфортных областей для достижения большими пальцами рук. Результаты приводятся в виде изображений карт доступности касания (рис. 3.35). Данные изображения рекомендуется использовать при проектировании пользовательских интерфейсов для планшетных компьютеров. Задачей проектировщика будет являться расположение элементов интерфейса, к которым производится частое обращение, в соответствующих зонах, удобных для доступа.
Для этого в процессе проектирования необходимо визуально совмещать интерфейс с изображением областей доступности и производить оценку того, насколько часто востребованные элементы попадают в зоны доступности. В ходе проверки было установлено, что все часто используемые элементы интерфейса находятся в областях с наилучшими показателями доступности.
В ходе тестирования прототипов выявилась особенность, заключающаяся в том, что в редких случаях при определённой последовательности действий пользователь мог «потерять» объект (напр., при перемещении маркера на новое место в сочетании с перемещённым относительно маркера объектом). Для решения таких ситуаций может применяться функция «Сбросить позицию», вызываемая определённой кнопкой. По её нажатию объект возвращается в исходную (нулевую) позицию над маркером так, чтобы пользователь мог визуально найти объект. Для лучшего восприятия пользователем смена позиции объекта была анимирована с использованием алгоритмов твининга. Так как при нахождении объекта в нулевой позиции смысл присутствия данного элемента на экране теряется, было предусмотрено интеллектуальное скрытие и появление кнопки в зависимости от положения объекта.