Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методы представления слабоструктурированных данных и извлечения знаний для интеллектуального анализа ситуаций Карташов Олег Олегович

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Карташов Олег Олегович. Методы представления слабоструктурированных данных и извлечения знаний для интеллектуального анализа ситуаций: диссертация ... кандидата Технических наук: 05.13.17 / Карташов Олег Олегович;[Место защиты: ФГАОУ ВО «Южный федеральный университет»], 2019.- 164 с.

Содержание к диссертации

Введение

1 Исследование предметной области и постановка задач .14

1.1 Проблемы и задачи интеллектуального анализа данных о ситуационной осведомленности .14

1.2 Способы представления знаний о слабоструктурированной предметной области .21

1.3 Анализ средств формального представления знаний о ситуациях .35

1.4 Постановка задач .37

1.5 Выводы .42

2 Разработка методов извлечения знаний из слабоструктурированных данных о ситуациях .44

2.1 Общая схема предлагаемого подхода .44

2.2 Представление данных для формирования онтологий с использованием интерактивной информационной грануляции .49

2.3 Методы агрегирования и извлечения знаний для классификации ситуаций .62

2.4 Метод представления онтологий на основе меры контекстно-зависимой семантической схожести .72

2.5 Выводы .76

3 Разработка средств распределенной динамической дескрипционной логики для интеллектуального анализа ситуаций .78

3.1 Дескрипционная логика и децентрализованные рассуждения в интеллектуальных системах .78

3.2 Разработка средств представления знаний на основе распределенной динамической дескрипционной логики .84

3.3 Метод интеллектуального анализа данных на основе распределенной динамической дескрипционной логики .92

3.4 Оценка эффективности предложенных методов .96

3.5 Программная реализация разработанных средств и методов 100

3.6 Выводы 111

4 Реализация методов и технологий интеллектуального анализа ситуаций 112

4.1 Реализация предложенных методов в интеллектуальной системе управления железнодорожным транспортом 112

4.2 Технология распределенных интеллектуальных смарт-объектов ситуационной осведомленности 122

4.3 Сервис ситуационной осведомленности об инцидентах на основе мобильных смарт-объектов 138

4.4 Выводы 144

Заключение 145

Список использованных источников 148

Приложение Акты о внедрении результатов работы 163

Способы представления знаний о слабоструктурированной предметной области

Слабоструктурированные документы играют важную роль в обмене данными в различных средах. С непрерывным ростом их объема возникают вопросы, касающиеся организации и управления, а также природы источников данных. Следствием является необходимость создания автоматических процедур извлечения необходимой информации. Также имеется потребность в применении методов интеллектуального анализа данных для извлечения и обработки огромного количества слабоструктурированных данных. Большинство таких методов не предназначены для решения поставленных в данной работе задач и требуют адаптации.

В последние годы язык XML (eXtensible Markup Language) получил широкое признание в качестве релевантного стандарта для представления слабоструктурированных данных. Данный формат документа имеет преимущество в виде явной структуры, которая облегчает представление и использование данных в различных контекстах. Слабоструктурированные документы получают все большее распространение в различных областях, позволяя совместно представлять текстовую информацию с помощью единой структуры.

Эта особенность XML-документов характерна и для других типов слабоструктурированных документов, таких как RDF (Resource Description Framework) и OWL (язык веб-онтологии). RDF описывает семантические данные, а OWL является стандартом представления и обмена онтологиями.

Формирование слабоструктурированных документов – очень перспективная область для интеллектуального анализа данных, требующая новых эффективных методов извлечения знаний, структуры и содержания документов. Необходимо отметить, что при работе с данными типами документов уместно рассмотрение как структуры, так и информации о контенте. Слабоструктурированные данные часто описывают как «с отсутствующей схемой» или «самоописывающие». Это означает, что не существует налаженной схемы или типа, и необходима система для интерпретации слабоструктурированных данных, которая обычно подчиняется некоторой графической форме. Формирование XML начинается с терминологического понятия, что документ «хорошо сформирован». Это очень «слабое» состояние в синтаксисе XML, гарантирующее лишь представление данных в виде некого дерева. Данная ситуация наглядно формулирует вопрос об отсутствии структуры в заданном документе. Большая часть исследований по слабоструктурированным данным и XML посвящены этой тематике.

Тема слабоструктурированных данных представляет собой ряд направлений исследований о новых способах представления и извлечения данных, которые не соответствуют традиционной модели. Данный подход широко освещен в работе С. Абитебула [14].

Одним из требований, предъявляемых к новой форме данных, является необходимость описания ее традиционными технологиями баз данных. Документы, освещенные в работах [15,16], и форматы данных, представленные в [17,18], становятся причиной появления более выразительных языков запросов и новых методов оценки, требующих «мягких» расширений существующих моделей данных [19]. Данные расширения требуют предварительного наложения структуры, что является затруднительным для некоторых форм данных.

Примером, может послужить система управления базами данных ACeDB [20]. Она является объектно-ориентированной, имеющей язык во многом схожий с объектно-ориентированной системой управления данными, но такая структура накладывает только частичные ограничения на данные. Также связь между данными и структурой не являются легко описываемыми в объектно-ориентированных терминах, естественно выраженные в ACeDB, например, произвольная глубина дерева, которая не может быть запрошена с использованием обычных методов. Следующее требование, предъявляемое к обмену данными, послужило причиной создания проекта TSIMMIS [21, 22] в Стэнфорде, основанием которого является отсутствие существования всеобъемлющей модели данных, как следствие усложнение создания программного обеспечения, легко конвертирующего данные между двумя моделями.

Object Exchange Model (OEM) предлагает максимально гибкую структуру, которая может быть использована для большинства данных и обеспечивать субстрат, представленный практически любой другой схемой. OEM – это внутренняя структура для обмена данными, но наличие такой схемы требует прямого запроса данных. Объединяющей идеей является формирование графоподобной или древовидной структуры, хотя допускается использование циклов в данных, ссылающихся на эти графы, как на деревья.

Одним из главных преимуществ неструктурированных данных является отсутствие ограничений на формы представления данных. Однако имеется возможность налагать (или обнаруживать) некоторую форму структуры в данных. В [23] схема определена как граф, края которого помечены предикатами, а свойство моделирования используется для описания взаимосвязи между данными и схемой. В [24, 25] схема также является графовым представлением, но используется более сильное соотношение эквивалентности. В [26] структура используются для дальнейшей оптимизации. Схема полезна для просмотра и частичных ответов на запросы, что является предпосылкой перехода от слабоструктурированных к структурированным данным, которым необходимо более полное понятие схемы.

Далее следует отметить сходство на техническом уровне между слабоструктурированными базами данных [27] и мобильными вычислениями [28]. Обе области направлены на более эффективное использование в условиях имеющихся ограничений. Технические сходства, которые возникают, в большинстве случаев являются случайными, но они должны по-прежнему наследовать некоторые методы обобщения этих областей. Более того, если есть возможность воспользоваться сходствами и обобщить их, возможно получение более широкой модели данных и вычислений. При анализе пространственной части динамических структур приведенном в работах [28, 29], где были определены различные способы связи, указывается возможность представления подобных структур в виде дерева с надрезом.

Для примера рассмотрим рисунок 1.4, на котором в левом верхнем углу изображено представление вложенного блока географической информации. В левом нижнем углу представлено эквивалентное представление в синтаксисе вложенных скобок исчисления окружения [29]. Когда иерархическая информация используется для представления структур документов, более подходящим будет графическое представление в терминах вложенных папок, как показано в правом нижнем углу. Наконец, в верхнем правом углу мы имеем более схематическое представление иерархии в терминах отмеченных краем деревьев.

Представление данных для формирования онтологий с использованием интерактивной информационной грануляции

Ситуационная осведомленность тесно связана с идеей грануляции вычислений в искусственном интеллекте. Грануляция вычислений – это парадигма обработки информации, сосредоточенная на представлении и обработке информационных структур, называемых гранулами, которая впервые описана в работе Л. Заде [70]. В названной работе гранула описывается как кластер объектов, объединяемых на основе свойств неразличимости, подобия, близости или сходства функциональных возможностей. Следуя Л. Заде, можно выделить три базовых концепта когнитивных способностей человека: 1) грануляцию, 2) организацию и 3) причинность. Формулируя не формальным образом, можно понимать грануляцию, как способность детализировать мир на различных уровнях абстракции, организацию можно понимать, как способность к построению более сложных объектов мира из более простых, переходя от одного уровня детализации к другому, а причинность заключается в способности ассоциировать действия с вызванными ими эффектами. Дальнейшее развитие идеи информационной грануляции получила в многочисленных работах, посвященных гранулярным вычислениям, см., например, обширную библиографию в [71, 72].

Ранние стадии разработки теории или методологии обычно характеризуются наличием множества различных взглядов, предложений и моделей, но отсутствием единого подхода. Идеи разрозненны, фрагментарны, изолированы и не образуют единое целое. В последние несколько лет наблюдался быстрорастущий интерес в сфере гранулярных вычислений. С одной стороны, было предложено и исследовано много моделей, интерпретаций, парадигм, методологий, техник и инструментов. С другой стороны, не существует ни общепринятого определения, ни общепринятого подхода. Необходимо, чтобы гранулярные вычисления стали междисциплинарными исследованиями, связанными с многими областями науки, и уходили от текущего доминирующего положения нечетких и грубых множеств. Также необходимо исследовать отличительные характеристики, которые определят гранулярные вычисления как отдельный объект для изучения.

С нашей точки зрения, гранулярные вычисления – новое поле для изучения, созданное на базе многих других сфер науки и предметных областей. Несмотря на то, что гранулярные вычисления во многом основываются на результатах исследований из других областей, они имеют свои уникальные отличительные характеристики. Предлагаемый подход к гранулярным вычислениям основан на трех связанных точках зрения. С точки зрения философии, гранулярные вычисления предлагают новое мировоззрение, ведущее к структурированному мышлению. С точки зрения методологии, гранулярные вычисления имеют дело с решением структурированных проблем. С точки зрения вычислений, гранулярные вычисления, подразумевают обработку структурированной информации. Интеграция трех точек зрения ведет к целостному пониманию гранулярных вычислений, что позволяет выделять структуры, включенные в сеть гранул.

Основным предназначением подхода является получение четкого представления о гранулярных вычислениях. Подход может быть не полностью точным, и многие его компоненты и взгляды могут быть усовершенствованы со временем. Несмотря на то, что он не является абсолютно точным, если каждая точка зрения подхода будет в конечном итоге принята, то без сомнения исследования единого подхода сыграют ключевую роль в развитии полной теории гранулярных вычислений. Философский взгляд на гранулярные вычисления может внести большой вклад в данное исследование. Чтобы взглянуть на гранулярные вычисления с правильной точки зрения, сначала нам необходимо кратко упомянуть два дополнительных философских взгляда, имеющих дело со сложностью проблем реального мира: традиционный редукционизм и новую систему мышления. Согласно редукционизму, сложная система или проблема может быть разделена на более простые и фундаментальные части, которые тоже могут быть разделены в дальнейшем. Понимание системы может быть сведено к пониманию ее частей. С другой стороны, системный подход переходит от частей к целому с учетом связности, отношений и контекста. Сложная система рассматривается как объединенное целое, состоящее из сети взаимосвязанных, взаимодействующих, высокоорганизованных частей. Свойства целого не представлены ни в одной из частей, но проявляются через взаимодействия и отношения частей.

Редукционизм и системный подход рассматриваются многими как соперничающие взгляды. Поскольку и то и другое эффективно в моделировании и решении различных типов проблем, мы рассматриваем их как дополняющие друг друга направления. Существующие исследования гранулярных вычислений в основном основываются на редукционизме. Это предубеждение может быть скорректировано, если для гранулярных вычислений смогут быть использованы результаты, полученные с использованием системного подхода.

Редукционизм и системный подход сходятся в моделировании сложных систем в терминах целого и частей, но расходятся в том, как рассматривать части. Два подхода используют одну и ту же структуру, т.н. иерархическую структуру, характеризующуюся множеством уровней. Согласно редукционизму система может бесконечно разделяться на все более мелкие части, для формирования многоуровневого иерархического представления и понимания. В системном подходе можно сформировать системы разных уровней так, чтобы такие системы могли бы быть встроены в другие системы. Основываясь на данной общей иерархической структуре, гранулярные вычисления пытаются объединить редукционизм и системный подход.

Иерархические структуры и организации существуют в реальном мире или, если быть точнее, в нашем восприятии реального мира. Мы рассматриваем и представляем мир используя различные группировки и выделяем только вещи, которые необходимы для формирования представления. Способность составлять представление о мире на разных уровнях грануляции и переключаться между такими уровнями является фундаментом человеческого интеллекта и гибкости мышления. Стоит так же отметить, что иерархические структуры использовались некоторыми авторами для объяснения устройства человеческого интеллекта и мозга. Например, предполагается, что человеческий мозг может быть концептуально понят при помощи корковой иерархической модели, которая отражает иерархические структуры реального мира.

Понятие иерархических структур охватывает ключевые особенности нашего восприятия и понимания мира на разных уровнях грануляции. Гранулярные вычисления, основанные на иерархических структурах, представляют способ структурированного мышления, совмещая методы анализа и синтеза. Философские основания гранулярных вычислений — это взгляд на мир в рамках гранул и множества уровней грануляции. В поисках методов решения проблем, эта иерархическая структура играет ключевую роль. С точки зрения методологии, гранулярные вычисления представляют из себя структурированное решение проблем с помощью структурированного мышления. Используя результаты структурного программирования, искусственного интеллекта, теории иерархии, теории грубых множеств и других, можно извлечь набор фундаментальных принципов системного решения проблем.

Философия гранулярных вычислений подразумевает две взаимосвязанных задачи структурированного решения проблем, построение иерархического представления и работу со связанной иерархией. В некоторых случаях, разделение этих задач – нечеткое. Такое может происходить, когда обе задачи связаны вместе, а не выполняются поочередно. Многие принципы могут применяться к обеим задачам. В качестве примера, мы рассмотри три таких принципа.

Фундаментальный принцип гранулярных вычислений – «принцип многоуровневой грануляции». Этот принцип указывает на важность разбиения большой проблемы на меньшие проблемы и понимания проблемы на многих уровнях детализации. Можно создать множество иерархических представлений и выбрать из них наиболее подходящее. Принцип многоуровневой грануляции может быть фактически применен к проблеме построения иерархического представления. Можно последовательно выстроить различные версии иерархии с выделением различных деталей. Например, уровень в одной версии может быть разделен на два или больше уровней в следующей версии. Эти различные версии естественно отражают множество наших пониманий проблемы.

Еще один принцип гранулярных вычислений – «принцип сосредоточенного усилия». Этот принцип утверждает, что на конкретной стадии построения иерархии и работы с иерархией усилие должно быть сконцентрировано на конкретной грануле или конкретном уровне, относительно независимо от других гранул и уровней. Поступая таким образом, выделяют только элементы, отвечающие текущим интересам, и игнорируют нерелевантные детали более низкого уровня или отношения к другим элементам. Принцип не исключает потребности в приложении некоторых усилий для изучения связанных элементов. Он требует сосредоточения основных усилий на частях, а не на целом, в конкретный момент времени. Применение данного принципа позволяет определить конкретную последовательность шагов, ведущую к полному структурированному решению проблемы.

Третий принцип гранулярных вычислений – «принцип гранулярного преобразования». Этот принцип подразумевает легкое переключение между уровнями абстракции. В соответствии с этим принципом, иерархия, описывающая проблему, должна быть построена таким образом, чтобы обеспечивать легкость гранулярных преобразований. Во время работы с иерархией, можно быстро переключать уровни грануляции и передавать информацию между уровнями.

Эти три принципа не новы и прямо или косвенно используются во многих областях. Основной целью данной работы является демонстрация того, что с точки зрения методологии, гранулярные вычисления – это структурирование решение проблем, основанное на принципах, доказавших свою эффективность в различных науках.

С вычислительной точки зрения, гранулярные вычисления – это структурированная обработка данных. Обзор вычислительной точки зрения в данной работе основывается на двух исследованиях: 1) пирамидальном подходе для гранулярных вычислений и 2) многоуровневом подходе, предложенном для человеческого и машинного видения.

Оценка эффективности предложенных методов

Проведенная оценка эффективности предлагаемых методов показывает увеличение скорости обработки запросов и вывода решений (рис. 3.3), а также уменьшение времени рассуждений (рис. 3.4).

Оценка эффективности, проведенная в диссертационной работе, заключается в тесте динамической дескрипционной логики на онтологиях, доступных в сообществе Semantic Web, широко используемых для подобного рода испытаний. Для получения крупных тестовых онтологий была применена репликация ABox, т.е. дублирование аксиом ABox с соответствующим изменением имен. В качестве примеров семантических механизмов рассуждений были выбраны Kaon2, Pellet и Racer, а также их разновидности. На рисунке 3.3 приведена оценка эффективности обработки запросов и вывода решений.

В указанных Benchmark-тестах были рассмотрены следующие онтологии:

- Онтология VICODI, в которой TBox является относительно небольшим и простым, состоящим из роли и аксиомы включения понятия, спецификации области и диапазона; не содержащим дизъюнкты, экзистенциальную количественную оценку или числовые ограничения. ABox определяется многими взаимосвязанными экземплярами.

- Онтология Wine, которая содержит аксиомы функциональности, дизъюнкции и экзистенциальные кванторы.

- Онтология Итальянского Национального Исследовательского Совета Dolce – фундаментальная онтология, разработанная в Лаборатории прикладных наук, в настоящее время является достаточно сложной структурой для определения семантическими механизмами рассуждений, поэтому была разделена на несколько модулей. При оценке эффективности использовался DOLCE OWL, который включает в себя модули DOLCE-Lite, ExtDnS, Modal и Common.

- Онтология медицинской терминологии GALEN имеет очень большой и сложный TBox и традиционно используется в качестве эталона терминологического мышления. - Результаты, приведенные на рисунке 3.3 показывают, что значительную сложность для Pellet и RACER в процессе рассуждений составляет проверка согласованности ABox, т.к. это оценивается его завершением.

- Тестовая онтология SEMINTEC также проста, но содержит функциональные роли и, следовательно, требует аргументации равенства.

- Тестовая онтология Lehigh University Benchmark (LUBM) по размеру сопоставима с VICODI и SEMINTEC, но ее TBox содержит сложные понятия, использующие экзистенциальные квантификаторы, также онтология не содержит дизъюнкты или равенство.

Также были проведены тесты рассуждений TBox, в частности измерено время для вычисления иерархий взаимодействия Wine, Dolce и Galen. Dolce также рассматривалась при полностью удаленных аксиомах транзитивности. На рисунке 3.4 приведены результаты оценки TBox рассуждений, на основании которых можно сделать вывод о том, что производительность находится на приемлемом, высоком уровне и, как следствие, произвести заключение о практической применимости предложенных в работе методов.

Сервис ситуационной осведомленности об инцидентах на основе мобильных смарт-объектов

Требования к быстрому созданию первичных документов в «полевых условиях» применяются к современным автоматизированным системам управления, включая ИСУЖТ. В ОАО «РЖД» создана необходимая инфраструктура, обеспечивающая юридическую значимость электронного технологического документооборота. В условиях отсутствия постоянной связи и невозможности подключения к локальным сетям автоматизированное рабочее место должно обеспечивать создание и подписание документов с квалифицированной цифровой подписью как в онлайн режиме, так и в автономном режиме с последующей передачей информации в центральную базу данных и с выполнением всех необходимых проверок для поддержки юридической значимости.

Разработанный мобильный сервис ситуационной осведомленности (рисунок 4.8) реализует следующие общие функции:

– создание и редактирование документов в соответствии с разграничением прав пользователей в онлайн режиме и отсутствие соединения с сетью передачи данных;

– подписание электронных документов с квалифицированной электронной цифровой подписью как в режиме онлайн, так и в автономном режиме с сохранением юридической значимости подписи;

– обеспечение доступа к документам и обеспечение простого доступа к документам, которые уже существуют в системе, с учетом разрешений и правил, установленных определенной политикой роли для конкретного пользователя;

– автономная работа с документами и сохранение всех изменений, сделанных в документах, и их гарантированная доставка в случае следующего подключения к сети передачи данных.

Конкретные функции сервиса относительно технического обслуживания и ремонта железнодорожной инфраструктуры:

– быстрый прием, ввод и передача информации, собранные визуальными инспекциями и осуществленными операциями, систематизация, хранение и сортировка в ИСУЖТ;

– прием, ввод и передача в режиме реального времени по выявленному и устраненному отказу;

– быстрый доступ к паспортным данным железнодорожного пути;

– получение оперативных данных о предупреждениях, а также создание и передача предварительных запросов для предупреждения о ситуации и создание запросов об отмене предупреждения;

– быстрый прием и передача местоположения рабочего, оборудованного мобильным рабочим местом;

– предоставление информации юридической значимости благодаря применению квалифицированной электронной цифровой подписи.

В качестве технической платформы разработанного сервиса используются серверы баз данных IBM zSeries и распределяются безопасные узлы авторизации, оснащенные 2 процессорами Intel Xeon 3.4Ghz, оперативной памятью 32 ГБ, хранилищем SSD RAID 4 512 ГБ, гигабитным Ethernet 2 1 Гбит/с сетевых интерфейсов.

У серверов распределенных безопасных узлов есть набор программных модулей и инструментов для организации интегрированной системы мониторинга и управления инцидентами. Основными функциональными областями серверов являются информационная поддержка процесса мониторинга и диагностики объектов инфраструктуры и информационного обеспечения обработки управления инцидентами [146].

Взаимодействие между многоуровневой интеллектуальной системой управления и мобильными устройствами. Обмен информацией организован следующим образом. Мобильное устройство (в операционной системе Google Android или Apple iOS), оснащенное специальной программой, разрешает авторизацию в упомянутых выше распределенных безопасных узлах авторизации. После успешной авторизации пользователь может выполнить несколько действий, а именно, работать с инспекцией железнодорожной инфраструктуры, получать справочные данные об проверенных объектах, создавать отчеты и документы после осмотра объекта инфраструктуры железной дороги, создавать последовательность действий по ремонту, создавать спецификации инцидента инфраструктуры, создавать и редактировать набор измеренных параметров, вероятно, поврежденных устройств или оборудования.

В случае обнаружения инцидентов пользователь может ввести их в соответствующий журнал, введя его через пункт меню «Инциденты». При добавлении инцидента пользователь определяет местоположение инцидента, классифицирует его и назначает его параметры. После подписания дополнительного инцидента, который выполняется по выбору соответствующего пункта меню, инцидент передается в ИСУЖТ. В то же время на мобильном рабочем месте создается электронный документ. В случае выполнения операции, созданной на основе инцидента, его состояние считается «закрытым».

Пользователь должен подтвердить исключение инцидента или отправить его для пересмотра. Подтверждение/завершение задается с помощью соответствующего пункта меню мобильного ПО.

Полный цикл взаимодействия пользователя с мобильным сервисом показан на рисунке 4.9.

Мобильный сервис ситуационной осведомленности содержит службу отслеживания сообщений. Работа отслеживания сообщений (выполняется однократно в случае первого запуска подсистемы) включает навигационный приемник и тестирование соединения со службой трекера (подсистема мониторинга).

После включения режима передачи информации мобильное устройство с периодичностью 3 минуты направляет запрос в подсистему мониторинга о наличии сообщений для этого устройства. После получения сообщения в любом режиме работы мобильного рабочего места появляются окна программы с текстом сообщения и звуковым сигналом для привлечения внимания пользователя. Полученные сообщения регистрируются в журнале и, возможно, несколько раз, чтобы просмотреть его в отдельном режиме.

Чтобы отправить сообщение менеджеру, пользователь переходит в режим сообщений и произносит его текст с помощью микрофона, который встроен в мобильное устройство, или набирает его на виртуальной клавиатуре. Затем, пользователь отправляет сообщение в подсистему мониторинга. После включения режима передачи информации мобильное устройство с периодичностью 3 минуты передает координаты веб-службе ИСУЖТ. В случае существования поезда вблизи текущего местоположения устройство получает об этом сообщение, за которым следует звуковой сигнал. Данные о получении такого регистра сообщений в журнале событий помечены о подтверждении просмотра или игнорирования. Записи журнала событий сохраняются в течение дня.