Введение к работе
Актуальность темы исследования. Одной из важнейших проблем, связанных с разработкой информационных систем (ИС) коллективного доступа, является обеспечение их надежного и полноценного функционирования при работе с пользователями различных специальностей и квалификаций (инге- рентности ИС), рассматриваемое в двух аспектах: обеспечение достоверности (семантической целостности) данных и эффективность поиска данных, при многоцелевом использовании ИС. Традиционными критериями эффективности поиска являются быстродействие и неизбыточность результатов. Актуальность проблемы в настоящее время связана, в первую очередь, с разработкой Интернет-ориентированных ИС, в значительной степени усиливающих влияние факторов разнообразия пользователей и задач, поскольку любое сокращение количества потенциальных пользователей и решаемых с помощью ИС задач рассматривается как нежелательное с практической и коммерческой точек зрения. Опыт разработки Интернет-ориентированных систем последних лет выявил значительное смещение представлений пользователей об эффективности поиска с быстродействия на неизбыточность и достаточность получаемых результатов, характеризуемую точностью и полнотой. Вторым существенным моментом является возможность пополнения баз данных Интернет-ориентированных ИС со стороны значительно большего, чем в обычных ИС, круга пользователей, поскольку во многих случаях только расширение прав доступа может обеспечить достижение минимальной полноты данных для эффективного решения практических задач. Отсюда критическое обострение проблемы достоверности. Третьей отличительной чертой работы с Интернет-ориентированными ИС, содержащими описания визуальных объектов, в частности фотоснимков, является принципиальная невозможность узнать, какие и в какой терминологии описания фотоснимков были введены другими пользователями, что затрудняет формирование эффективных, в вышеуказанном смысле, поисковых образов, причем ситуация усложняется несовпадением представлений различных пользователей о содержании фотоснимков (мультимодельностью) и, как следствие, возникновением различий в описаниях фотоснимка и объектов на нем, ложных синонимии и омонимии. Основная причина возникающих расхождений заключается в том, что фотоснимок является сложной системой - по количеству типов элементов и типов связей, а выделение этих типов, необходимое для отображения в формальном виде описаний и их структур, определяется различными целями пользователей. Помимо различия целей, обусловленных конкретными прикладными задачами, учет которых в процессе системного анализа позволяет выявить типы элементов и связей, фиксирующих семантику контекстов использования ИС, существенным представляется несовпадение лексиконов (наборов лексических единиц и устойчивых словосочетаний), применяемых различными пользователями для определения эквивалентных семантических единиц.
Таким образом, представляется актуальной разработка модели хранения описаний визуальных объектов и связанных с нею методов пополнения, обеспечения формальной и смысловой правильности и, собственно, доступа (извлечения необходимых для решения конкретной задачи пользователя данных), в совокупности учитывающих указанные особенности Интернет- ориентированных ИС. Самостоятельный интерес представляет выявление, формализация и способ реализации системы атрибутов и соответствующего лексикона для описания фотоснимков определенной предметной направленности, которая не только обеспечит унификацию процесса описания, но и создаст необходимые предпосылки для применения методов распознавания образов и автоматизации атрибутирования фотоснимков.
Актуальность предметной области исследования связана с возрастающим интересом к изучению динамики высокогорных растительных сообществ, в том числе, Полярного и Южного Урала, поскольку они наиболее чутко реагируют на долговременные изменения факторов внешней среды и могут рассматриваться в качестве индикаторов таких изменений. Одним из перспективных методов, применяемых для решения указанных задач, является сопоставление повторных ландшафтных фотоснимков, поскольку визуально фиксируемые изменения выступают таким же объективным свидетельством, которое непосредственно позволяет подтвердить или опровергнуть гипотезу (теорию) о происходивших процессах, т.е. динамике растительных сообществ, как и измеряемые числовые данные. В настоящее время благодаря развитию информационных технологий, в первую очередь сетевых, появилась возможность использовать накопленные, но разобщенные и малодоступные для всего научного сообщества архивы ландшафтных фотоснимков.
Степень разработанности проблемы. Существующие на сегодняшний день Интернет-ориентированные ИС, позволяющие осуществлять доступ к коллекциям глобального и регионального масштаба, содержащим фотоснимки растительности и их описания, Digital photo series, BioImages, Botanicka fotoga- lerie, Horti Plex Plant database, Native plant database, Plant database, Plant UConn database в лучшем случае предоставляют возможность просмотра материалов с помощью каталогов, а также поисковых модулей, выявляющих совпадения поискового образа с ограниченным перечнем ключевых слов, соответствующих тематической направленности ресурса. Вышеперечисленные проблемы в указанных системах не решены.
Цель работы - разработка модели представления и методов обработки информации о визуальных объектах в Интернет-ориентированной ИС, а также формирование онтологии описаний фотоснимков, включающей тезаурус, и ее использование при построении системы атрибутов - признаков, обеспечивающей эффективный, в первую очередь неизбыточный и полный поиск фотоизображений, необходимых пользователям для решения различных прикладных задач.
Задачи исследования включают:
1. Построение многоцелевой модели представления описаний визуальных объектов, включающих атрибуты, их значения и семантические связи между ними. Определение в рамках этой модели алгоритмов поиска необходимых пользователю фотоснимков по их описаниям и обеспечения смысловой непротиворечивости как отдельных описаний конкретных фотоснимков, так и набора описаний в целом.
-
Проведение семантического анализа проблемной и предметной областей, включающего разработку онтологии и построение тезауруса.
-
Создание базы данных исторических и современных ландшафтных фотоснимков Полярного и Южного Урала и их описаний.
-
Разработку Интернет-ориентированного приложения, обеспечивающего удобный и быстрый доступ к базе данных ландшафтных фотоснимков широкому кругу пользователей различных специализаций посредством функции семантического поиска.
-
Решение на базе разработанной ИС прикладной задачи определения интервалов времени для оценки различных групп параметров, характеризующих климатически обусловленные изменения лесотундровых сообществ, при использовании повторных ландшафтных фотоснимков.
Объектом исследования является Интернет-ориентированная ИС, обеспечивающая хранение и доступ к коллекциям повторных ландшафтных фотоснимков.
Предметом исследования являются методы представления и обработки описаний визуальных объектов и их наборов в ИС.
Научная новизна.
-
-
Разработана новая формальная модель представления и обработки информации о сложных слабоформализуемых объектах, обеспечивающая пополнение и использование базы данных ландшафтных фотоснимков. Созданная модель учитывает специфику описаний визуальных объектов, в частности ландшафтных фотоснимков, и обобщает в рамках единого формализма два уровня моделирования (описание отдельного объекта, набор описаний объектов).
-
Предложен метод, предполагающий совмещение в рамках одной процедуры обработки поступающих от пользователя данных процессов, которые традиционно рассматриваются как автономные: пополнения, поиска- идентификации, поддержания семантической целостности отдельных описаний и базы данных в целом, что обеспечивает появление у ИС нового эмерджентно- го свойства и, как следствие, повышает эффективность пополнения и поиска.
-
Построена онтология, отображающая иерархическую структуру понятий, используемых при описании ландшафтных фотоснимков, включающая тезаурус и лексикон пользователя.
-
Проведена классификация параметров описания климатически обусловленной динамики лесотундровых сообществ на Полярном Урале по времени определения и оценки данных изменений на повторных ландшафтных фотоснимках.
Теоретическая значимость. В работе описана новая модель представления и обработки данных о сложных слабоформализуемых объектах, в частности, визуальных, отображающая в формальном виде отдельные аспекты проблемы, традиционно относимой к тематике «семантической обработки информации», обеспечивающая появление нового эмерджентного свойства и усиливающая степень ингерентности ИС относительно среды пользователей, а также предложен новый методический подход к формированию и анализу наборов сложных и многоплановых ландшафтных фотоизображений, хранящихся в ИС, включающий следующие этапы: анализ предметной и проблемной областей; выявление семантической и терминологической структуры описаний ландшафтных фотоснимков; отображение выявленной структуры в разработанную модель представления данных; реализация на основе модели представления и методов обработки данных ИС, позволяющей решать конкретные прикладные задачи.
Практическая значимость результатов. Разработанные модель представления и методы обработки данных, в частности, вся технология поиска- идентификации, не предполагающая полноту и безошибочность внутрисистемного описания, могут быть применены в любых предметных областях при реализации интеллектуальных систем обработки данных о сложных слабоформа- лизуемых объектах или с различными по составу и структуре моделями описания объектов. Одно из наиболее востребованных в последнее время практических применений разработанного метода - автоматизация процесса слияния баз данных, содержащих описания различных подмножеств множества однотипных объектов с частично перекрывающимися (по смыслу) множествами атрибутов.
Разработана методология, в рамках которой осуществляется представление и обработка описаний слабоформализуемых визуальных объектов и их наборов, позволяющая решать конкретные прикладные задачи.
Разработана многоцелевая Интернет-ориентированная ИС «Фотоландшафтная база данных», обеспечивающая хранение и доступ к архиву ландшафтных фотоснимков Полярного и Южного Урала, включающему уникальные исторические фотоматериалы, ценность которых в перспективе будет возрастать. При этом одной из основных целей ИС является формирование, подтверждение и опровержение научных гипотез пользователями различных специализаций, в первую очередь, экологами.
Создан классификатор атрибутов описаний ландшафтных фотоснимков, представленный системой справочников с указанием областей допустимых значений для числовых данных и наборов возможных значений для нечисловых, имеющий широкое практическое применение, в частности, для формирования описаний ландшафтных фотоснимков и их поиска.
Важной работой для целей анализа динамики высокогорной растительности по ландшафтным фотоснимкам и планирования наблюдений является установление периодов времени между повторными фотосъемками для определения и оценки различных групп параметров, характеризующих климатогенные изменения лесотундровых сообществ Полярного Урала.
Внедрение результатов. ИС «Фотоландшафтная база данных», разработанная для хранения и обеспечения доступа к коллекции ландшафтных фотоснимков, размещена на сайте Института экологии растений и животных Уральского отделения Российской академии наук (ИЭРиЖ УрО РАН) по адресу: . В настоящее время ИС является частью системы дендро- экологического мониторинга состояния древесной и кустарниковой растительности высокогорий Урала. Полученные в рамках диссертационного исследования результаты также применяются в Уральском государственном лесотехническом университете при чтении курсов по информатике и информационным технологиям. Работа выполнена при поддержке грантов: РФФИ (№ 06-04- 49359, 08-04-00208, 09-04-01004, 09-04-07080, 09-04-13850, 11-04-00623, 12-0431014), Human Capital Foundation (Великобритания) (HCF № 145), СТАРТ (государственный контракт № 5881р/8299), CRDF (США) (№ 108849).
Методология и методы исследования. В ходе диссертационного исследования применялась методология системного анализа, включая методы структурного, функционально-целевого, онтологического моделирования и тезау- русный анализ; методы теории множеств и математической логики (исчисление предикатов первого порядка), статистические методы обработки данных, методы объектно-ориентированного проектирования и программирования, методы дешифрирования повторных ландшафтных фотоснимков.
Положения, выносимые на защиту:
-
-
-
Модель представления описаний сложных слабоформализуемых объектов (изображений), обеспечивающая непротиворечивость как отдельных описаний, так и их наборов, и основанные на ней методы и алгоритмы пополнения и поиска-идентификации данных.
-
Онтология понятий, включающая тезаурус и лексикон пользователя, которая сформирована по результатам анализа смысловой и терминологической структуры описаний ландшафтных фотоснимков, используемой в задачах изучения динамики лесотундровых сообществ.
-
Программно-алгоритмическое обеспечение ИС «Фотоландшафтная база данных», осуществляющей долговременное и систематизированное хранение ландшафтных фотоснимков и их описаний, а также поиск в соответствии с задачами пользователей.
-
Классификация параметров описания климатически обусловленной динамики лесотундровых сообществ на Полярном Урале по времени определения и оценки данных изменений на повторных ландшафтных фотоснимках.
Достоверность научных положений и выводов обеспечивается корректным использованием как формальных преобразований в рамках математических моделей, так и математико-статистических методов, отсутствием противоречий с известными теоретическими положениями, а также подтверждается успешным решением конкретных прикладных задач на основе полученных результатов.
Апробация результатов работы. Полученные результаты докладывались и обсуждались на III и IV Всероссийских науч.-техн. конф. «Научное творчество молодежи - лесному комплексу России» - Екатеринбург, 2007 и 2008; VIII междунар. симпозиуме «Проблемы экоинформатики» - Москва, 2008; VII меж- дунар. науч.-техн. конф. «Социально-экономические и экологические проблемы лесного комплекса в рамках концепции 2020» - Екатеринбург, 2009 (доклад занял третье место); II Всероссийской науч.-практ. конф. «Научные проблемы использования и охраны природных ресурсов» - Самара, 2010; 4 Всероссийских конф. молодых ученых в ИЭРиЖ УрО РАН - Екатеринбург, 2006, 2007, 2008, 2010 (по итогам последней докладу присудили первое место); II Всероссийской науч.-техн. конф. «Измерения, контроль и диагностика - 2012» - Ижевск, 2012 (доклад занял третье место); VI Всероссийской науч. школе- семинаре «Семантическая интерпретация и интеллектуальная обработка текстов, их приложения в информационном поиске, хранении и обработке документов в электронных архивах и библиотеках» - Таганрог, 2012; IV междунар. конф. «Математическая биология и биоинформатика» - Пущино, 2012.
Личный вклад автора. Автором лично осуществлялась разработка: модели представления и методов обработки описаний визуальных объектов; онтологии для пересечения рассматриваемых проблемной и предметных областей; ИС «Фотоландшафтная база данных». Разработка отдельных элементов картографического модуля проводилось при содействии И.В. Шелепова.
Благодарности. Автор выражает глубокую признательность д.б.н., профессору С.Г. Шиятову за постановку практической задачи, предоставление архива ландшафтных фотоснимков и помощь в разработке системы атрибутов.
Публикации. По теме диссертации опубликовано 20 печатных работ, в том числе 6 статей - в журналах, рекомендованных ВАК РФ.
Структура и объем диссертации. Рукопись состоит из введения, 4 глав, заключения, списка сокращений и условных обозначений, списка литературы и 2 приложений. Объем диссертации составляет 148 страниц, работа содержит 21 рисунок. Список литературы насчитывает 159 наименований.
Похожие диссертации на Разработка и исследование модели представления и методов обработки информации о сложных слабоформализуемых объектах для фотоландшафтной базы данных
-
-
-