Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка программных средств повышения уровня автоматизации и качества семантического поиска мультимедиа ресурсов Новиков, Сергей Владимирович

Разработка программных средств повышения уровня автоматизации и качества семантического поиска мультимедиа ресурсов
<
Разработка программных средств повышения уровня автоматизации и качества семантического поиска мультимедиа ресурсов Разработка программных средств повышения уровня автоматизации и качества семантического поиска мультимедиа ресурсов Разработка программных средств повышения уровня автоматизации и качества семантического поиска мультимедиа ресурсов Разработка программных средств повышения уровня автоматизации и качества семантического поиска мультимедиа ресурсов Разработка программных средств повышения уровня автоматизации и качества семантического поиска мультимедиа ресурсов
>

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Новиков, Сергей Владимирович. Разработка программных средств повышения уровня автоматизации и качества семантического поиска мультимедиа ресурсов : диссертация ... кандидата технических наук : 05.13.11 / Новиков Сергей Владимирович; [Место защиты: Моск. гос. ин-т электроники и математики].- Москва, 2011.- 130 с.: ил. РГБ ОД, 61 11-5/3228

Введение к работе

Актуальность работы. В настоящее время, в связи с тенденцией резкого роста числа мультимедиа ресурсов, особенно сетевых, все более острой становится проблема поиска и обработки мультимедиа данных: графических и векторных изображений, аудио и видео данных т.д. Созданные мультимедиа ресурсы требуется повторно применять, объединять, использовать при создании новых ресурсов, обмениваться и т.д. Класс систем, который решает подобные задачи, и рассматривается в данной работе - DAM (Digital Asset Management) системы, или системы управления мультимедиа ресурсами, например IBIS, CatDV, Televista, Final Cut и др. Такие системы применяются в телевидении, печатных изданиях, и других СМИ, в фото и видео банках, архивах, музеях и даже в управлении домашними архивами. Основная функция этих систем - поиск. Без качественного поиска невозможны остальные функции.

Основной прогресс рассматриваемого класса систем в последнее время связывают с появлением и активным развитием инструментов в области Semantic Web (Tim Berners Lee, James Hendler, Rudi Studer и др.). Наиболее значимые практические результаты в области Semantic Web заключаются в создании средств и языков представления данных и знаний, а также мощных методов и механизмов логического вывода на них. Главные из них: OWL (Web Ontology Language), RDF (Resource Description Framework) и SPARQL (язык запросов к RDF базам знаний). С другой стороны, исторически, основные задачи в области распознавания (другими словами описания мультимедиа ресурсов), апеллирующие к использованию средств и методов искусственного интеллекта были поставлены ранее A. R. Hanson, Е. Riseman (в 1978), R.Brooks (в 1983) и Y. Ohta (в 1985). Однако только с появлением технологий Semantic Web стало возможным продвижение в области решения задач DAM систем.

С точки зрения применения указанных научных результатов в прикладной области, отметим такие проекты, как UMBEL, DBpedia, OpenBase, WordNet (RDF представление лексической базы знаний). Эти и ряд других широко поддерживаемых проектов - узлов гетерогенной семантической сети, входящих в инициативу Linked Data, а также такие проекты по представлению данных и знаний в RDF, как Open Government и U.S. Census RDF свидетельствуют о бурном развитии этого направления. Для оценки практических преимуществ описанных выше систем, следует сослаться на заявление компании ВВС (би-би-си), использовавшей Semantic Web, как платформу для создания информационного ресурса World Cup 2010 для чемпионата мира по футболу 2010 года. Предполагается развитие ресурса в рамках проекта Winter Olympics 2012 на олимпиаде в Лондоне в 2012 г. Следует отметить, что несмотря на то, что глубина семантических описаний была существенно ниже, чем предлагает технология, объявлено, что использование Semantic Web позволило увеличить число статей, по меньшей мере от 2-х до 3-х раз при тех же затратах (т.е. повысить эффективность работы редакторов и журналистов) без понижения или с улучшением качества содержимого, а также с получением дополнительной гибкости и широких возможностей более эффективного использования мультимедийных материалов и онтологии без повышения человеческих временных затрат в дальнейшем. Кроме того, данный подход используется в ВВС Programmes и ВВС WildlifeFinder.

Однако, в классе DAM систем, в частности, и в системах поиска мультимедиа ресурсов в Интернет, в общем, недостаточно используются потенциальные возможности технологий Semantic Web. Особенно актуален вопрос повышения качества поиска в случае изображений или других мультимедиа ресурсов, когда их объем превышает

несколько миллионов, а также при поиске специфичного мультимедиа ресурса. DAM системы не могут управлять мультимедиа ресурсами, если они не имеют достаточных метаданных. Для обеспечения качественного улучшения, поиск должен осуществляться на основе аннотаций, содержащих высоко-формализованные «семантически насыщенные» утверждения. При этом переход от синтаксического представления к семантическому не является тривиальным. Актуальной задачей также является повышение уровня автоматизации инженерной деятельности по разработке огромного количества формализованных семантических аннотаций. С другой стороны, возникает проблема создания сложных описаний разнородных мультимедиа ресурсов на уровне интегрированных онтологии с весьма широкой предметной областью. А это обстоятельство влечет за собой актуальность создания и применения баз знаний, включающих в себя знания и факты, покрывающие максимально «широкий» домен абстрактных данных и знаний.

Цель работы. Разработка программно-алгоритмического комплекса эффективного аннотирования для поиска мультимедиа ресурсов, удовлетворяющего требованиям сокращения сроков создания аннотации при условии увеличения степени детализации и объективности описаний гетерогенной онтологизации предметных областей.

Объектом исследования является класс программных систем управления мультимедийными ресурсами, для концептуального описания содержания которых требуется «широкий» домен онтологических знаний, а также сложные интерактивные средства поиска в данном классе систем по аннотациям.

Предметом исследования данной работы являются:

формальная концептуализация мультимедийных ресурсов;

отношения между визуальными и/или другими объектами, представленными мультимедиа ресурсами и онтологическими понятиями;

явные и неявные отношения между классами в онтологических базах знаний и возможности использования этих отношений при создании аннотаций к конкретным мультимедиа ресурсам;

методы разрешения противоречий между RDF-утверждениями и оценка доверия к ним;

методы и алгоритмы проецирования низкоуровневых визуальных свойств, получаемых на выходе алгоритмов распознавания, и «вариативной идентификации» визуальных объектов на область высокоуровневых онтологических сущностей для представления формальной семантики описаний. Методы исследования: методы представления данных и знаний для Semantic Web,

методы разработки онтологии, языки запросов к базам знаний и гетерогенных данных, методы оценки доверия, статистический анализ с использованием байесовских сетей. Положения, выносимые на защиту:

программная система для эффективного поиска мультимедиа ресурсов произвольных сетевых структур в классе систем Semantic Web, основанных на интегрированных знаниях онтологического уровня;

обучаемая онтологическая рекомендательная система - «Аннотатор», допускающая интерактивные режимы работы и обеспечивающая более высокую скорость и качество аннотирования, и повышение эффективности семантического поиска мультимедиа ресурсов;

метод захвата и формализации представленного мультимедийного контента с повышенным уровнем детализации концептуальных описаний;

метод представления визуальных свойств произвольных объектов высокоуровневыми концептами, позволяющий трансформацию низкоуровневых описаний в спецификации онтологии;

информационная технология объединения разнородных онтологии на основе предложенных методов обработки мультимедийных ресурсов.

Научная новизна работы состоит в следующем:

предложен подход, определяющий основные способы применения инструментальных средств Semantic Web с их адаптацией к современным задачам повышения эффективности процессов представления и поиска мультимедиа ресурсов;

разработана архитектура соответствующей программной системы, поддерживающей процедуры формальной концептуализации исходных мультимедийных данных;

предложен метод «захвата» и формального представления семантики мультимедиа ресурса, позволяющий специфицировать низкоуровневые визуальные свойства высокоуровневыми концептами онтологического уровня, повышающий тем самым «плотность» представляемых знаний и, как следствие, - уровень автоматизации реализуемых процессов аннотирования;

предложен способ поиска и структурирования выдачи концептов по семантической близости текущего набора ассоциированных (найденных) концептов к анализируемым, на базе неявных онтологических связей и контекстуальных зависимостей;

разработаны элементы информационной технологии объединения разнородных онтологии (с оценкой степени доверия), использующих распределенные базы знаний для создания аннотаций на «широком» домене;

Исследованы вопросы расширения концептуального описания в аннотациях, отражающие ответы на вопросы «Кто», «Какой объект», «Какое действие», «Где», «Когда», «Почему» и «Как», при этом описания не ограничиваются набором, представленным фиксированной онтологической схемой, а имеется практическая возможность расширения модели метаданных.

Практическая ценность работы заключается в создании обучаемой онтологической рекомендательной системы «Аннотатор», обеспечивающей высокую скорость и повышенный уровень качества аннотирования, и, как следствие, качества семантического поиска. В процессе тестирования в условиях реального производства система проявила а) повышение уровня детализации семантических концептуальных описаний; б) уменьшение влияния субъективных факторов и другие качества, представленные в акте о внедрении.

Реализация результатов работы. Методы и алгоритмы аннотирования, реализованные в разработанной программной системе, используются в компании ЗАО «Руслан Ком» для создания медиа интернет портала, реализации технологии аннотирования мультимедиа ресурсов, а также для управления мультимедиа объектами для обслуживания нужд телевизионных компаний.

Апробация результатов работы. Научные положения докладывались и обсуждались на 5-й научных конференциях. Основные положения диссертационной работы представлены в 8-й печатных работах, в том числе в 3-х статьях, опубликованых в журналах, рекомендуемых ВАК.

Структура работы

Диссертация состоит из введения, четырех глав, заключения, списка литературы и приложений, изложенных на 130 страницах машинописного текста, содержит 60 рисунков, список литературы из 41 наименования и приложения.

Похожие диссертации на Разработка программных средств повышения уровня автоматизации и качества семантического поиска мультимедиа ресурсов