Введение к работе
Актуальность темы исследования
Тематика диссертации обусловлена комплексной программой модернизации железнодорожной отрасли, диссертационное исследование выполнено в соответствии с разделами «Стратегии развития железнодорожного транспорта в Российской Федерации до 2030 года». В этом документе, в частности, указано, что основные направления научных исследований в области железнодорожного транспорта включают развитие инфраструктуры этой отрасли на основе разработки математических моделей, применения мало обслуживаемых конструкций и оборудования железнодорожной автоматики и связи. Среди новых систем управления движением поездов и обеспечения безопасности предусматривается создание «интеллектуального» поезда со встроенной системой автоведения и самодиагностики; создание автоматизированных систем комплексного управления и учета ресурсов; реализация проектов «Умный вокзал» при модернизации вокзальных комплексов железных дорог, внедрение ряда инновационных спутниковых и геоинформационных технологий; увеличение скоростей движения и ввод в эксплуатацию высокоскоростных электропоездов и инфраструктуры для скоростей движения до 250 км/ч и до 350 км/ч.
Реализация перечисленных направлений научных исследований невозможна без создания информационных хранилищ и баз данных (БД) нового типа, позволяющих осуществлять хранение и доступ к сверхбольшим объемам данных в условиях жестко ограниченного реального времени и необходимости интеллектуальной поддержки всех видов принятия оперативных управленческих решений. В связи с централизацией управления на железнодорожном транспорте значительная часть таких решений принимается на уровне территориальных филиалов ОАО «РЖД» и выше и основана на электронном документообороте информации различного формата, поступающей из разнородных источников. Такая информация является слабоструктурированной, и для её использования в перспективных и развивающихся интеллектуальных системах управления железнодорожным транспортом требуются новые модели данных, отличающиеся от существующих реляционных.
Актуальность исследований подтверждена участием автора диссертации в ряде поддержанных Российским фондом фундаментальных исследований и ОАО «РЖД» грантов, непосредственно относящихся к тематике исследования:
– 12-08-00798-а «Математическое и программное обеспечение интеллектуальной обработки неполных и слабоструктурированных данных в информационно-управляющих системах с повышенными требованиями к надежности и качеству функционирования»;
– 13-08-12151-офи_м «Методы формирования и обработки темпоральных баз данных о динамике процессов в интеллектуальных системах управления транспортными потоками»;
– 13-07-13159-офи_м_РЖД «Методы синтеза распределенной интеллектуальной системы обеспечения информационной и технологической безопасности автоматизированных систем управления на железнодорожном транспорте».
Степень разработанности проблемы
Теоретические аспекты диссертации, связанные с разработкой и использованием графовых и нечетких моделей, методами формализации баз данных, методами извлечения знаний из слабоструктурированной и графовой информации, методами теории возможностей ранее рассматривались в работах С. Аби-тебула, К.Т. Атанассова, Л.С. Берштейна, П. Бунемана, Д. Дюбуа, К. Годсила, Л. Заде, Э. Кодда, А. Прада, Э. Редмонда, Р. Снодграсса, П. Ченя, Р.К. Фана. Практические аспекты диссертации, связанные с разработкой и применением ряда методов и систем с интеллектуальной поддержкой принятия решений и моделированием систем в изучаемой области исследований, ранее рассматривались в работах Ковалева С.М., Матюхина В.Г., Розенберга Е.Н., Шабельнико-ва А.Н.
Целью диссертационной работы является разработка новых моделей и методов эффективной организации хранения и доступа к большим объемам информации и синтез на их основе хранилищ данных для новых типов автоматизированных систем управления (АСУ) с документо-ориентированной, слабоструктурированной и нечеткой информацией (с применением на железнодорожном транспорте).
Для достижения поставленной цели решаются следующие задачи:
-
Системный анализ объекта исследования (АСУ на железнодорожном транспорте), ориентированный на выявление источников слабоструктурированной и нечеткой информации, анализ принципов и теоретических методов построения хранилищ для такой информации, выявление практической необходимости совершенствования методов хранения и доступа к информации для объекта исследования.
-
Выбор и обоснование адекватности графовых моделей для эффективной организации хранилищ данных, разработка новых графовых моделей данных для синтеза хранилищ слабоструктурированной и нечеткой информации.
-
Решение задачи извлечения знаний из слабоструктурированной и нечеткой информации для обеспечения возможности её классификации и определения меры релевантности поиска запрашиваемой информации в хранилищах слабоструктурированной и нечеткой информации.
-
Применение разработанных методов на новых технологических платформах документо-ориентированных АСУ с распределенной и мобильной обработкой данных; решение задач, связанных с эффективными и автоматизированными преобразованиями хранилищ реляционной информации в хранилища предложенного графового вида.
Объектами исследований в диссертации являются новые классы АСУ верхнего управляющего уровня на железнодорожном транспорте, ориентированные на аналитическую обработку оперативных, статистических и сводных данных, поддержку принятия решений в управлении бизнес-процессами на железнодорожном транспорте, обеспечение электронного технологического документооборота, управление распределенной инфраструктурой ОАО «РЖД».
Методы исследования основываются на использовании фундаментальных результатов в области теории графов и их алгебраических и спектральных представлений, теории многоосновных нечетких множеств, теории реляционных и нечетких БД, теории возможностей, теории моделей. Предметом исследования являются методы формализации представлений слабоструктурированных и нечетких данных в графовом виде, методы извлечения знаний о структуре данных, математические модели нереляционных БД и имеющиеся массивы данных из ряда АСУ верхнего управляющего уровня на железнодорожном транспорте.
Объект, предмет и методы исследования отвечают формуле специальности 05.13.06, так как содержанием работы является разработка методов математического представления и алгоритмического обеспечения, повышения надежности и технической эффективности функционирования АСУ на железнодорожном транспорте и соответствуют пунктам паспорта специальности: «8. Формализованные методы анализа, синтеза, исследования и оптимизация модульных структур систем сбора и обработки данных в АСУТП, АСУП, АСТПП и др.», «9. Методы эффективной организации и ведения специализированного информационного и программного обеспечения АСУТП, АСУП, АСТПП и др., включая базы и банки данных и методы их оптимизации», «10. Методы синтеза специального математического обеспечения, пакетов прикладных программ и типовых модулей функциональных и обеспечивающих подсистему АСУТП, АСУП, АСТПП и др.», «15. Теоретические основы, методы и алгоритмы интеллектуализации решения прикладных задач при построении АСУ широкого назначения (АСУТП, АСУП, АСТПП и др.).»
Научная новизна работы заключается в теоретическом развитии методов
теории двухосновных нечетких множеств, математических графовых моделей
слабоструктурированных данных, математических моделей нечетко-
слабоструктурированных данных, математических определений новых мер информационного подобия слабоструктурированной и нечеткой информации. Основные научные результаты в перечисленной области заключаются в следующем:
1. Дано новое определение расширенного (двухосновного) нечеткого
множества без вырожденных случаев в связи с введенными ограничениями на
соотношение функций принадлежности и непринадлежности.
-
Для введенного нового определения расширенного нечеткого множества разработаны основные бинарные нечеткие отношения, подобно известным для одноосновных нечетких множеств.
-
Предложены графовые модели для основных неформализованных, однако практически используемых схем описания слабоструктурированных данных, которые широко используются в современных АСУ на железнодорожном транспорте.
-
Предложены три новые меры информационной релевантности для слабоструктурированной и нечеткой информации: 1) основанная на информационном подобии слабоструктурированных сущностей; 2) основанная на коррели-
рованности отношений между слабоструктурированными сущностями; 3) основанная на расстоянии между двухосновными нечеткими множествами.
5. На базе предложенных новых мер информационной релевантности
предложены новые методы извлечения знаний из слабоструктурированной и
нечеткой информации, представленной в графовом виде.
6. Предложены методы автоматизации преобразования имеющихся мас
сивов данных в АСУ на железнодорожном транспорте в графовые и XML-
модели данных, более эффективные по критериям времени доступа и снижения
избыточности.
Основные результаты, выносимые на защиту.
-
Определение нечеткого двухосновного расширенного множества, учитывающее ограничения вырожденных случаев операций над нечеткими двухосновными множествами.
-
Формальные теоретико-множественные модели бинарных нечетких отношений для введенного нечеткого двухосновного множества.
-
Формальные графовые модели для трех практических описаний (OEM, RDF, XML) слабоструктурированной информации.
4. Формальная модель нечеткой слабоструктурированной графовой БД,
являющаяся расширением известных реляционных моделей данных.
5. Мера релевантности для слабоструктурированной информации без
условия её темпоральности, основанная на информационном подобии, и метод
извлечения знаний с помощью этой меры и спектрального представления гра
фа.
-
Мера релевантности для слабоструктурированной информации с условием её темпоральности, основанная на информационной коррелированности паттернов графового представления данных и метод извлечения знаний с помощью этой меры.
-
Мера релевантности для слабоструктурированной нечеткой информации, представляемой расширенными двухосновными нечеткими множествами и метод извлечения знаний с помощью этой меры и спектрального представления графа.
-
Метод преобразования массивов данных, представленных в реляционных таблицах АСУ на железнодорожном транспорте в графовые БД.
-
Метод конвертирования нечетких моделей данных «сущность-связь» в нечеткие слабоструктурированные XML-описания и БД.
Теоретическая ценность диссертационного исследования заключается в разработке общих принципов и универсальных математических моделей, подходящих для широкого класса АСУ с условиями не транзакционной обработки слабоструктурированной и нечеткой информации. Эффективная организация хранилищ данных обусловлена снижением избыточности структур данных и, соответственно, сокращением времени, затрачиваемого на поиск запрашиваемой информации.
Практическая значимость состоит в том, что разработанные в диссертации модели, методы и подходы внедрены в автоматизированных системах
электронного технологического документооборота и управления инфраструктурой на железнодорожном транспорте в Ростовском ИВЦ – структурном подразделении Главного вычислительного центра, филиале ОАО «РЖД» и в учебном процессе ФГБОУ ВПО РГУПС, что подтверждено актами о внедрении.
Апробация результатов работы. Основные положения и результаты диссертации обсуждались и получили положительные отзывы на следующих международных научно-практических конференциях:
– IEEE Fifths International Conference on Intelligent Systems, Modeling and Simulation (ISMS 2014), Langkawi, Malaysia, 2014;
– Международной научно-практической конференции «Компьютерные технологии в науке, производстве, социальных и экономических процессах», г. Новочеркасск, 2012;
– XIV Международной научно-практической конференции «Современное состояние естественных и технических наук», г. Москва, 2014;
– Х Международной научно-практической конференции «Наука вчера, сегодня, завтра», г. Новосибирск, 2014.
Публикации. Полученные в диссертации теоретические и практические результаты нашли свое отражение в 9 печатных работах, 5 из которых опубликованы в изданиях, рекомендованных ВАК РФ.
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературных источников из 110 наименований, заключения, приложения. Общий объем диссертации 144 страницы.