Введение к работе
Актуальность проблемы. Практически любая человеческая деятельность связана с сохранением и повторным использованием информации, контента. Сохранение самого контента (медиа-данных, объединяющих все многообразие представлений, пригодных для компьютерной обработки от чисел, текста, звуков, изображений и видеопоследовательностей до абстрактных математических представлений) подразумевает организацию хранилища, проведение операций каталогизации и последующего поиска по запросам.
Как правило, медиа-данные хранятся отдельно от каталога в специальном хранилище из-за требований сохранности физического носителя либо большого объема, ограничивающего непосредственный доступ пользователей. В каталоге описание каждой единицы медиа-данных обычно представляется в однообразной стандартизованной форме в виде набора ключевых слов или текстовых значений определенных свойств (в лучшем случае добавляется поле свободного текстового ввода).
РОС НАЦИОНАЛЬНАЯ| БИБЛИОТЕКА | СПе ОЭ
лпиіБкл I
Поисковый запрос, формируемый пользователем, составляется из ключевых слов, по которым организуется перебор информации в каталоге, в результате которого пользователю предоставляется список найденных элементов, отсортированный по точности совпадения. Данная схема каталогизации, наиболее распространенная в настоящее время, показала свою непригодность для средних и-крупных архивов медиа-данных в связи с резким падением эффективности поиска при возрастании объема архива. Множество современных разработок, направленных на решение этой проблемы (например, за счет введения семантического анализа, использования тезауруса и синонимов и т.д.) в рамках существующей схемы, не позволяют достичь желаемых результатов - существенного увеличения точности и полноты поиска.
В результате пользователь должен сформировать несколько запросов, варьируя ключевыми словами, для получения максимального качества выборки (в которую заведомо не попадет часть искомых медиа-данных), по которой он в дальнейшем получает доступ к медиа-данным и проверяет их соответствие своим потребностям. В результате эффективность его поиска - это не только временные затраты (которые, тем не менее могут быть оценены в денежном выражении как затраты рабочего времени), но и прямые материальные издержки, связанные с использованием средств просмотра медиа-данных — компьютеров, видеомагнитофонов, плееров, мониторов и телевизоров; затрат на доставку медиа-данных - создание просмотровой копии на физическом носителе, затрат на оцифровку; затрат на замену физических носителей в архиве из-за ускоренного износа и т.д.
Всестороннее исследование этой сложной проблемы возможно только на основе принципов и методов системного анализа, но одно очевидно уже сейчас — «узким местом» большинства подходов к каталогизации является однообразное представление описательной информации, не позволяющее в полной мере детально отразить архивируемые медиа-данные. Поэтому задача создания и практической реализации метода поиска и идентификации медиа-данных на основе принципов искусственного интеллекта и систем, основанных на знаниях, является актуальной.
Цель работы и основные задачи исследования. Целью настоящей работы является разработка и теоретическое обоснование метода поиска и идентификации медиа-данных, осуществление его реализации на практике в виде интеллектуальной информационной системы(далее по тексту ИИС).
Задачи исследования:
- обобщить опыт создания архивов и систем управления медиа-
данными, выявить основные недостатки и пути их преодоления;
- разработать.принципы построения ИИС для поиска и идентифи-
провести анализ существующих систем представления и управления выводом знаний, выработать неформальную модель систем продукций;
разработать формальную математическую модель системы логического вывода создаваемой ИИС, дополнить ее компонентами, необходимыми для решения поставленных задач в выбранной предметной области;
на основе разработанного метода осуществить программную реализацию ИИС для поиска и идентификации медиа-данных;
провести экспериментальную проверку применимости предложенного метода для задачи организации и ведения телерадиовещательного медиа-архива, определения эффективности поиска и идентификации медиа-данных на информационном массиве в реальных производственных условиях.
Методы исследования. Поставленные задачи решены с применением теории графов, теории нечетких множеств, аппарата математической логики, системного анализа, вычислительной математики, методов инженерии знаний и построения экспертных систем, методов экспертных оценок и математического моделирования.
Научная новизна выполненных в диссертационной работе исследований заключается в разработке метода поиска и идентификации медиа-данных и состоит в следующем:
-
Осуществлена постановка задачи поиска и идентификации медиа-данных с использованием систем, основанных на знаниях.
-
Предложен метод поиска и идентификации медиа-данных на базе интеллектуальных систем, основанных на знаниях.
-
Сформулированы принципы построения ИИС для поиска и идентификации медиа-данных.
-
Разработана неформальная модель систем продукций для поиска и идентификации медиа-данных.
-
Разработана формальная математическая модель логического вывода с использованием ненадежных знаний ИИС для поиска и идентификации медиа-данных.
-
Для расширения возможностей механизма логического вывода предложены и неформально описаны языки управления применением продукций и выбором данных.
-
Разработана структура ИИС для поиска и идентификации медиа-данных.
Практическая ценность работы заключается в разработке и апробации метода поиска и идентификации медиа-данных, создания на его основе интеллектуальной информационной системы «Медиа-архив», реализованной в ряде аппаратно-адаптированных комплексов, позволяющей ощутимо повысить эффективность (точность и полноту) поиска мультимедийных, графических и текстовых материалов по сравнению со стандартными алгоритмами поиска по ключевым словам.
Испытания в производственных условиях телерадиовещательных компаний показали, что разработанные принципы и метод поиска и идентификации медиа-данных могут быть как интегрированы в существующие системы управления медиа-данными (заменяя стандартные процедуры и модули поиска), так и поставляться как независимые программные и-про-граммно-аппаратные решения, полностью совместимые со стандартами профессионального телерадиовещательного оборудования.
Более того, за счет универсального принципа организации медиа-данных в виде знаний предлагаемая технология пригодна для упорядочивания, хранения и обработки знаний о любых массивах сложных объектов - в концепцию медиа-данных могут быть объединены любые объекты, информация о которых доступна для компьютерной обработки. Соответст-
венно, разработанная ИИС также может использоваться компаниями, владеющими специализированными архивами и хранилищами, научными и исследовательскими организациями, страховыми компаниями, финансовыми и юридическими организациями и т.д.
Реализация научно-технических результатов работы в промышленности. В настоящее время результаты исследования,, включая прикладное программное обеспечение, используются следующими организациями, что подтверждается соответствующими актами внедрения:
Государственное унитарное предприятие «Краснодарская государственная краевая телерадиовещательная компания «Новое телевидение Кубани» (НТК, г. Краснодар) - для ведения цифрового видеоархива на основе аппаратно-адаптированного комплекса «Интеллектуальная информационная система «Медиа-архив»;
Муниципальная телерадиокомпания «Краснодар» (МТРК «Краснодар», г. Краснодар) - для ведения видеоархива и каталогизации хранилища видеокассет на основе аппаратно-независимого комплекса «Интеллектуальная информационная система «Медиа-архив»;
Общество с ограниченной ответственностью «Страховая медицинская компания «Черномормедстрах» (г. Краснодар) - для ведения мультимедийного архива с использованием аппаратно-независимого прототипа «Интеллектуальная информационная система «Медиа-архив».
Апробация работы.
Результаты работы докладывались и обсуждались на 14 конференциях и научных семинарах, основными из которых являются:
X Международная конференция «Применение новых технологий в образовании» (г. Троицк, 1999 г.);
Международная научно-техническая конференция «50 лет развития кибернетики» (г. Санкт-Петербург, 1999 г.);
V Всероссийская научная конференция студентов и аспирантов «Техническая кибернетика, радиоэлектроника и системы управления» (г. Таганрог, 2000 г.);
2-й Международная научно-техническая конференция «Информационные технологии в моделировании и управлении» (г. Санкт-Петербург, 2000 г.);
X Юбилейная конференция-выставка «Информационные технологии в образовании ИТО-2000» (г. Москва, 2000 г.);
Вторая Международная научно-техническая конференция «Измерение, контроль, информатизация» (г. Барнаул, 2001 г.);
К Всероссийская научно-практическая конференция «Инновационные процессы в высшей школе» (г. Краснодар, 2003 г.).
Данная работа выполнялась в рамках гранта Российского фонда фундаментальных исследований 0-01-96009 «Исследование и разработка принципов и методологии построения регенеративных экспертных систем» (Руководитель проекта - профессор Частиков А.П.).
Публикации результатов работы. По теме диссертации опубликовано 21 печатная работа. Из них: 16 статей, 1 учебное пособие и 4 тезиса докладов на вышеперечисленных конференциях.
Основные положения, выносимые на защиту:
результаты сравнительного анализа существующих систем поиска и управления медиа-данными;
неформальная модель систем продукций для поиска и идентификации медиа-данных;
принципы построения и структура ИИС для поиска и идентификации медиа-данных;
формальная математическая модель логического вывода с использованием ненадежных знаний ИИС для поиска и идентификации медиа-данных;
архитектура машины логического вывода ИИС, модули управления применением продукций и выбором данных;
критерии оценки эффективности поиска и идентификации медиа-данных;
результаты оценки прямого экономического эффекта от внедрения ИИС для поиска и идентификации медиа-данных «Медиа-архив».
Структура и объем диссертации. Диссертационная работа состоит из введения, четырех глав и заключения, изложенных на 155 страницах. Работа содержит 29 рисунков, 11 таблиц и библиографию из 90 наименований на 8 страницах.