Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Представление предметной области "Анализ изображений" в виде специализированного тезауруса Трусова Юлия Олеговна

Представление предметной области
<
Представление предметной области Представление предметной области Представление предметной области Представление предметной области Представление предметной области Представление предметной области Представление предметной области Представление предметной области Представление предметной области Представление предметной области Представление предметной области Представление предметной области
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Трусова Юлия Олеговна. Представление предметной области "Анализ изображений" в виде специализированного тезауруса : диссертация ... кандидата технических наук : 05.13.17 / Трусова Юлия Олеговна; [Место защиты: Вычисл. центр им. А.А. Дородницына РАН].- Москва, 2009.- 111 с.: ил. РГБ ОД, 61 09-5/1945

Содержание к диссертации

Введение

Глава 1. Построение тезауруса по анализу изображений 11

1.1 Лингвистические средства описания предметных областей. Тезаурусы и онтологии 11

1.2 Общая методология построения тезауруса предметной области 15

1.3 Разработка словника Тезауруса по анализу изображений 18

1.4 Разработка структуры Тезауруса по анализу изображений 23

Глава 2. Тезаурус по анализу изображений. базовая версия 33

2.1 Построение классификации методов и задач обработки, анализа и распознавания изображений 33

2.2 Общая характеристика базовой версии Тезауруса по анализу изображений 45

2.3 Разработка структуры онтологии анализа изображений на основе Тезауруса по анализу изображений 49

Глава 3. Информационно-справочный интернет-ресурс (ИСИР) по обработке, анализу и распознаванию изображений 60

3.1 Общая концепция ИСИР 62

3.2 Архитектура и функциональная схема ИСИР 66

3.3 Информационное наполнение ИСИР 68

Глава 4. Использование тезаурусов и онтологии при решении прикладных задач анализа изображений 72

4.1 Метод использования тезаурусов и онтологии при решении задач анализа изображений 72

4.2 Специализированные онтологии для задач автоматизации диагностического анализа изображений цитологических препаратов 77

Заключение 89

Библиографический список использованной литературы 100

Приложения

Введение к работе

Одной из фундаментальных проблем информатики является проблема обработки, анализа, оценивания и понимания информации, представленной в виде изображений. Изображения обладают информационной емкостью, компактностью и наглядностью и являются одним из основных средств представления информации в научных исследованиях, медицине, экологии и технике.

Целью диссертационной работы является построение формализованного представления предметной области «Анализ изображений» в виде специализированного тезауруса по анализу изображений и на его основе экспериментальной версии онтологии по анализу изображений, которые: 1) позволят систематизировать плохо структурированный и продолжающий развиваться понятийный аппарат предметной области; 2) будут служить терминологической и понятийной основой для классификации и описания задач и методов обработки, анализа и распознавания изображений в базах знаний для работы с изображениями; 3) обеспечат автоматизацию информационного поиска в базах знаний по обработке, анализу и распознаванию изображений и базах данных изображений. Кроме того, тезаурус будет являться самостоятельным словарем-справочником, который поможет ориентироваться в данной предметной области, и обеспечит возможность создания на его основе информационно-справочного интернет-ресурса по обработке, анализу и распознаванию изображений.

Важным направлением ориентированных фундаментальных и прикладных исследований является разработка автоматизированных систем обработки, анализа, оценивания и понимания изображений. Необходимыми предпосылками создания таких систем являются автоматизация: а) выбора метода решения предъявленной задачи; б) выдачи рекомендаций по выбору метода решения для класса задач, к которому относится предъявленная задача; в) синтеза алгоритмических процедур

решения предъявленной задачи; г) выдачи рекомендаций по синтезу алгоритмических процедур решения предъявленной задачи.

Необходимым условием достижения указанных целей является систематизация, структуризация и, в некотором смысле, формализация знаний в области обработки, анализа и распознавания изображений. Известно, что одним их эффективных способов представления знаний являются онтологии предметных областей. Онтологии служат для явного формального машинно-интерпретируемого описания семантики данных некоторой области знания и являются подходящим инструментом для представления знаний, используемых для извлечения информации из изображений. Необходимым начальным шагом на пути к созданию онтологии является разработка тезауруса предметной области как логико-понятийной основы этой онтологии. В этом смысле тезаурус должен быть специализированным, т.е. являться средством представления современного состояния рассматриваемой области знания, включать все основные понятия и фиксировать существующие связи между этими понятиями - представлять знания и понятийную структуру соответствующей предметной области.

Диссертационная работа посвящена построению формализованного представления предметной области «Анализ и оценивание информации, представленной в виде изображений». В качестве основных разделов данной предметной области обычно выделяют обработку, анализ, распознавание и понимание изображений, причем для ее определения обычно используется обобщенный термин «Анализ изображений». В качестве способа формализации выбрано построение тезаурусного представления онтологии предметной области, т.е. создание специализированного тезауруса по анализу изображений.

Анализ изображений является чрезвычайно быстро развивающимся разделом информатики, в связи с чем его понятийная структура динамично изменяется. С другой стороны, эффективность исследований в области анализа изображений и решения прикладных задач анализа изображений в существенной степени зависят

от стандартизации и формализации используемых описаний как собственно изображений, так и описаний методов их обработки, анализа и распознавания. Тезаурусное представление области анализа изображений можно использовать в качестве инструмента указанных стандартизации и формализации, а также обеспечения доступа квалифицированных и неквалифицированных пользователей, решающих задачи анализа изображений, к знаниям по анализу изображений, в том числе, например, с помощью создания соответствующих интернет-ресурсов. Существенным при этом является то обстоятельство, что тезаурус по анализу изображений и построенная на его основе онтология позволят использовать удобные и эффективные процедуры доступа к стандартизированным и структурированным представлениям этих знаний.

Таким образом, актуальной задачей является построение тезауруса по анализу изображений, необходимого для логической формализации данной предметной области, стандартизации понятийного аппарата, построения общих и частных онтологии предметной области и на этой основе автоматизации обработки, анализа, оценивания и распознавания изображений; для построения баз знаний по анализу изображений; для организации эффективного поиска и навигации в базах знаний по анализу изображений и для построения баз данных изображений.

Анализ литературы и личный опыт участия в ведущих международных конференциях по данной тематике показал, что специализированный тезаурус в области обработки, анализа, понимания и распознавания изображений в настоящее время отсутствует.

Для достижения заявленной цели диссертационной работы поставлены и решены

следующие задачи:

1. исследование системы и логики знаний в области обработки, анализа, оценивания и понимания изображений;

  1. разработка и обоснование структуры тезауруса по анализу изображений на основе оригинальной классификации задач и методов обработки, анализа и распознавания изображений;

  2. отбор терминологии и разработка словника тезауруса по анализу изображений;

  3. построение классификации задач обработки, анализа и распознавания изображений;

  4. построение классификации методов обработки, анализа и распознавания изображений;

  5. разработка базовой версии специализированного тезауруса по анализу изображений;

  6. разработка экспериментальной версии онтологии анализа изображений на основе тезауруса по анализу изображений;

  7. разработка концепции, архитектуры, функциональной схемы и требований к информационному наполнению информационно-справочного интернет-ресурса по обработке, анализу и распознаванию изображений на основе тезауруса по анализу изображений;

  8. разработка метода использования тезаурусов и онтологии при решении задач анализа изображений.

Основными результатами работы, выносимыми на защиту, являются:

Базовая версия тезауруса по анализу изображений.

Экспериментальная версия онтологии анализа изображений на языке OWL.

Концепция, архитектура, функциональная схема и требования к информационному наполнению информационно-справочного интернет-ресурса по обработке, анализу и распознаванию изображений.

Классификация задач обработки, анализа и распознавания изображений.

Метод использования тезаурусов и онтологии при решении задач анализа изображений.

Основные результаты работы являются новыми и оригинальными. Научная новизна результатов определяется актуальностью работы, поскольку, как уже

отмечалось выше, такой инструмент как тезаурус, необходимый для автоматизации анализа изображений, отсутствует. Задача разработки представления предметной области «Анализ изображений» в виде специализированного тезауруса и основанной на нем онтологии поставлена и решена впервые в мировой практике. Предложенный метод использования тезаурусов и онтологии при решении задач анализа изображений иллюстрирует прикладное значение разработанных тезауруса и онтологии. Информационно-справочный интернет-ресурс по обработке, анализу и распознаванию изображений в настоящее время также отсутствует.

Практическая ценность диссертационной работы подтверждается полученными на основании ее результатов 2 патентами Российской Федерации (патент на изобретение и патент на полезную модель) и регистрацией разработок в Государственном регистре баз данных ФГУП НТЦ "Информрегистр"(3 регистрационных свидетельства) и в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам (Роспатент) (2 свидетельства о государственной регистрации баз данных).

Материалы, изложенные в диссертационной работе, были доложены на 17 ведущих международных конференциях и семинарах в области анализа и распознавания изображений и компьютерной лингвистики. По теме диссертации опубликовано 28 работ, в том числе 6 работ опубликовано в изданиях, входящих в перечень ведущих рецензируемых журналов и изданий, рекомендованных ВАК для публикации основных результатов диссертации на соискание ученой степени доктора и кандидата наук.

Представленная работа состоит из четырех глав, введения, заключения, библиографического списка использованной литературы и трех приложений. Объем основного текста работы - 111 страниц, список литературы содержит 108 источников.

Первая глава диссертационной работы посвящена решению задач 1-3 диссертационной работы. Вводится понятие онтологии предметной области: существующие определения, виды онтологии, области применения. Обсуждается роль тезаурусов и онтологии в автоматизации обработки, анализа, оценивания и распознавание изображений. Показывается, что необходимым условием указанной автоматизации является построение тезаурусного представления области анализа изображений. Описывается общая методология построения тезаурусов: основные методы отбора терминов, построение классификационных схем. Приводится перечень и анализ основных источников терминологии, используемых при составлении словника Тезауруса по анализу изображений. Обосновывается структура разработанного тезауруса. Описываются основные элементы словарной статьи тезауруса, категории понятий, виды связей между терминами, источники определений терминов.

Вторая глава посвящена решению задач 4-7 диссертационной работы. Приводится описание и анализ существующих классификаторов и рубрикаторов по рассматриваемой и смежным тематикам. Рассматриваются и обосновываются принципы построения классификации методов и задач обработки, анализа и распознавания изображений. Приводится общая характеристика базовой версии разработанного тезауруса по анализу изображений - количественные характеристики, виды представления, основные функции. Описываются подход и основные этапы создания онтологии предметной области «Обработка, анализ и распознавание изображений» на основе разработанного тезауруса. Рассматривается и обосновывается структура экспериментальной версии онтологии.

Третья глава посвящена решению задачи 8, связанной с созданием информационно-справочного интернет-ресурса (ИСИР) по обработке, анализу и распознаванию изображений. Приводится обзор существующих интернет-ресурсов по рассматриваемой и смежным тематикам. Обосновывается необходимость

создания ИСИР. Описываются общая концепция, архитектура, функциональная схема и требования к информационному наполнению ИСИР.

Четвертая глава посвящена решению задачи 9. Предложен оригинальный метод использования тезаурусов и онтологии при решении задач анализа изображений, включающий набор условий, необходимых для его применения, и собственно описание итерационных шагов метода. Приводится описание специализированных OWL-онтологии, разработанных для выполнения необходимых условий применимости предложенного метода для решения задач автоматизации морфологического анализа изображений клеток крови.

В Заключении сформулированы основные научные и практические результаты работы, обсуждаются перспективные направления дальнейших исследований.

Общая методология построения тезауруса предметной области

Анализ литературы, посвященной проблеме разработки тезаурусов [25, 28, 33, 81, 83, 96, 103], а также изучение существующих стандартов, регламентирующих разные аспекты их создания, представления и поддержки [22, 23, 64-66], показали, что процесс построения тезауруса предметной области включает следующие этапы: ? исследование предметной области, выбор и экспертная оценка источников информации по рассматриваемой тематике; ? разработка тематической структуры тезауруса; ? отбор терминологии и наполнение словника тезауруса; ? построение классификационных схем понятий; ? раскрытие содержания понятий (создание точных непротиворечивых определений для каждого основного понятия); ? составление словарных статей; ? оформление печатной версии тезауруса в соответствии с существующими стандартами; ? окончательная проверка и оценка тезауруса экспертами в данной предметной области; ? разработка электронной версии тезауруса; ? экспериментальная проверка тезауруса на реальных или иллюстративных задачах. Исследование системы и логики знаний в той области знания, которая должна быть описана в тезаурусе, является первым и одним из самых важных этапов создания тезауруса. Результаты этого исследования служат основой для разработки тематической структуры тезауруса.

Основные принципы, которыми необходимо руководствоваться при отборе массива документов - источников терминологии, заключаются [25]: ? в наиболее точном соответствии документов рассматриваемой тематике; ? в возможно полном охвате каждой области знаний и равномерном распределении их по отдельным тематическим областям как по характеру документов, так и по их количеству; ? в терминологической насыщенности информационных документов и важности содержащейся в них информации; ? в освещении тематики с охватом различных аспектов. В качестве дополнительных источников терминологии для наполнения словника тезауруса могут использоваться: ? тезаурусы по родственной и смежным тематикам; ? терминологические и толковые словари; ? энциклопедические словари; ? терминологические стандарты; ? научно-технические словари и справочники; ? таблицы Универсальной десятичной классификации (УДК) и другие системы классификации; ? тематические рубрикаторы. При наполнении словника ставится задача с наибольшей полнотой отразить терминологию, используемую для описания понятий рассматриваемой предметной области. В тезаурус могут быть включены одиночные слова, именные словосочетания, лексически значимые компоненты сложных слов, а также сокращения слов и словосочетаний.

При наличии аббревиатур в словник должны быть включены также соответствующие им полные формы [23]. После того, как словник был наполнен, необходимо исключить термины, излишне детализирующие понятия, выражающие слишком широкие понятия или неточно отражающие понятия, а также профессиональные жаргонизмы и техницизмы. Следующим этапом создания тезауруса является разработка классификационных схем и построение строго упорядоченной системы понятий предметной области, каждое из которых должно быть представлено в тезаурусе соответствующим термином. Для определения места любого понятия среди других понятий, необходимо установить существующие связи между понятиями. Наиболее важным видом связи является отношение «род-вид». При этом родовым (подчиняющим) называется понятие, выражающее существенные признаки класса предметов, в состав которого входят другие классы предметов, являющиеся видами этого рода. Соответственно видовым называется понятие, которое выражает существенные признаки класса предметов, являющегося видом какого-либо другого класса предметов и входящего в состав этого класса [25]. Понятия, связанные родовидовыми отношениями, выделяются в результате операции, называемой "делением понятий". Деление родового понятия на видовые осуществляется с помощью классификационного признака "основание деления" и должно быть [25]: обоснованным: основанием деления должен служить наиболее существенный

Общая характеристика базовой версии Тезауруса по анализу изображений

Базовая версия Тезауруса по анализу изображений (ТАИ) [34] представляет собой тезаурус предметной области «Обработка, анализ и распознавание изображений», содержащий 939 словарных статей. ТАИ включает все важные разделы предметной области и отражает современное состояние рассматриваемой области знания. ТАИ обладает следующими характеристиками:

Каждое понятие представлено дескриптором - предпочтительным термином, наиболее часто встречающимся в научной литературе для обозначения данного понятия, и набором аскрипторов (синонимов).

Дескрипторы базовой версии ТАИ представлены на английском языке с указанием русскоязычных эквивалентов. Большая часть дескрипторов снабжена определениями понятий (на английском языке) со ссылкой на источник.

Базовая версия ТАИ включает 7 тематических разделов: о раздел «IMAGE» («Изображение»), внутри которого термины разбиты на следующие функциональные категории: image types (виды изображений), image parts (части изображения), image description elements (элементы описания изображений); о раздел «IMAGE PROCESSING» («Обработка изображений»), внутри которого термины разбиты на следующие функциональные категории: approaches (подходы), tasks (задачи), methods (методы), operators (операторы); о раздел «IMAGE ANALYSIS» («Анализ изображений»), внутри которого термины разбиты на следующие функциональные категории: approaches (подходы), tasks (задачи), methods (методы), operators (операторы); о раздел «IMAGE RECOGNITION» («Распознавание изображений»), внутри которого термины разбиты на следующие функциональные категории: basic notions (основные понятия), approaches (подходы), tasks (задачи), methods (методы); о раздел «PATTERN RECOGNITION» («Распознавание образов»), внутри которого термины разбиты на следующие функциональные категории: basic notions (основные понятия), approaches (подходы), tasks (задачи), methods (методы); о раздел «APPLIED PROBLEMS» («Прикладные задачи»); о раздел «MATHEMATICS» («Математический аппарат»). В базовой версии ТАИ зафиксированы следующие виды связей между терминами: эквивалентная связь (аббревиатуры и общепринятые сокращения, английские и американские варианты написания терминов, краткие формы терминов), иерархическая связь (отношения типа «род-вид» и «часть-целое») и ассоциативная связь.

Количественные характеристики базовой версии ТАИ: общее число словарных статей - 939, в том числе: общее число словарных статей дескрипторов - 468, общее число словарных статей аскрипторов - 471. Общее число словарных статей с определениями - 425. Максимальная глубина иерархии - 6.

ТАИ разработан в соответствии с существующими российскими и международными стандартами [22, 23, 64-66] и реализован в печатном и электронном видах.

Печатный вариант ТАИ состоит из 2-х частей: алфавитного перечня всех терминов (дескрипторов и аскрипторов со ссылками на соответствующие дескрипторы) (см. приложение 1) и лексико-семантического указателя - перечня словарных статей, расположенных в алфавитном порядке заглавных дескрипторов (см. приложение 2).

Электронный вариант ТАИ представляет собой программный модуль, который может быть использован как в составе баз знаний для работы с изображениями, так и отдельно в качестве самостоятельного словаря-справочника. Модуль был программно реализован и используется в качестве одного из основных модулей базы знаний в составе системы анализа и понимания изображений на основе накопления и использования знаний "Черный квадрат" [68]. Для программной реализации использовалась среда разработки приложений Visual FoxPro 7.0. Модуль тезауруса включает [16]: 1) БД тезауруса, содержащую словарные статьи дескрипторов; 2) программные средства управления базой данных, необходимые для ввода, поиска и редактирования записей в таблицах БД; 3) пользовательский интерфейс (см. рис.2.2.1), предназначенный для отображения системы определений, визуализации иерархической структуры терминов и других типов связей между терминами, ввода и редактирования словарных статей, формирования запросов и отображения результатов поиска; 4) интерфейс для работы с базой знаний; 5) интерфейс для доступа через локальную сеть; 6) интерфейс для доступа через Интернет. В ходе выполнения данной работы автором было проведено наполнение модуля информацией о понятиях в соответствии с базовой версией ТАИ.

Архитектура и функциональная схема ИСИР

В соответствии с общей концепцией разработаны архитектура и функциональная схема ИСИР. Предложенная архитектура включает 2 основные части: 1) программный комплекс разработки и сопровождения ИСИР; 2) серверная часть (см. рис. 3.2.1). Программный комплекс разработки и сопровождения ИСИР предназначен для формирования проблемно-ориентированного наполнения БД ИСИР.

Основные функции комплекса: наполнение документально-библиографической БД; наполнение адресно-справочной БД; наполнение БД тезауруса.

В состав комплекса входят: 1) БД ИСИР, содержащая следующие БД: БД тезауруса, документально-библиографическая БД; адресно-справочная БД; 2) оконные интерфейсы ввода и редактирования записей БД, в т.ч. для: отображения и редактирования иерархической структуры тезауруса; ввода и редактирования словарных статей; ввода и редактирования связей между дескрипторами; ввода и редактирования библиографической информации; ввода и редактирования адресно-справочной информации; ввода и редактирования ссылок из словарных статей тезауруса на библиографические и адресно-справочные данные; 3) интерфейс для экспорта данных в серверную часть; 4) управляющая подсистема, которая обеспечивает взаимодействие и обмен информацией между всеми функциональными модулями комплекса. Серверная часть ИСИР включает: а) HTML страницы ресурса; б) скрипты функций, программно-генерируемых запросов и страниц-интерфейсов ИСИР, в т.ч. интерфейсы: иерархической структуры тезауруса, позволяющий также просматривать словарные статьи; конструктора запросов; вывода результатов запросов; документально-библиографической информации; адресно-справочной информации; в) БД сервера. БД серверной части имеет структуру, аналогичную структуре БД ИСИР.

Кроме того, в состав БД сервера входят служебные таблицы, предназначенные для администрирования БД ресурса (таблицы содержат перечень пользователей и их права, а также набор стандартных запросов к БД). Предложенная архитектура ИСИР позволяет модифицировать отдельные компоненты независимо от других элементов ИСИР и в дальнейшем пополнять ресурс новыми функциональными элементами. В ходе выполнения диссертационной работы проведен поиск и анализ информации для наполнения документально-библиографической и адресно-справочной БД ИСИР. Документально-библиографическая БД служит для хранения библиографической информации о публикациях и изданиях (статьях, монографиях, журналах, сборниках трудов конференций, диссертациях, научных отчетах), а также информации об авторах публикаций. Информация о публикациях включает: название публикации, список авторов, название издания, год опубликования, том, номер, страницы, вид публикации, язык публикации, ключевые слова, краткую аннотацию, ссылку на файл публикации в электронном виде на локальном диске; URL электронной публикации в сети Интернет.

Информация об изданиях включает: название издания, название издательства, год опубликования, язык издания, ISSN или ISBN, URL издания в сети Интернет, Информация об авторах включает ФИО автора, место работы, адрес электронной почты и URL персональной страницы. Адресно-справочная БД представляет собой каталог интернет-ресурсов по обработке, анализу и распознаванию изображений, содержащий информацию по следующим разделам: а) "Словари и глоссарии" - перечень существующих терминологических словарей и глоссариев по обработке, анализу и распознаванию изображений, обработке сигналов, машинному зрению, машинной графике. Информация о словаре включает: название словаря, информацию о составителях, объем (количество терминов) и URL (если есть). б) Интернет-ресурсы по обработке и анализу изображений" - перечень существующих архивов научных и образовательных ресурсов по рассматриваемой и смежным тематикам. Информация о ресурсе включает: название ресурса, информацию о разработчиках, краткую аннотацию и URL. в) "Библиографические базы данных" - перечень наиболее крупных существующих библиографических БД. Информация о библиографической БД включает: название БД, информацию об авторах, краткую аннотацию и URL. г) "Электронные библиотеки" - перечень наиболее крупных электронных библиотек мира. Информация о библиотеке включает: название библиотеки, краткую аннотацию и URL. д) "Издательства" - перечень ведущих издательств, выпускающих научно техническую литературу по рассматриваемой и смежным тематикам.

Специализированные онтологии для задач автоматизации диагностического анализа изображений цитологических препаратов

В данном разделе рассматриваются необходимые условия применимости предложенного в предыдущем разделе метода для решения задач, связанных с автоматизацией диагностического анализа изображений цитологических препаратов.

Данные исследования велись в рамках совместного проекта "Анализ и синтез изображений. Теоретические основы и разработка прототипа алгоритмическо-программного комплекса для анализа медицинских изображений" Программы российско-итальянского сотрудничества по соглашению между Российской академией наук и Национальным советом исследований Италии [31, 47].

Одной из наиболее серьезных проблем современной онкологии и практической медицины является развитие системы ранней диагностики злокачественных новообразований. Для дифференциальной диагностики опухолей системы крови (гемобластозов) и исследования закономерностей опухолевой прогрессии фундаментальной является проблема анализа морфологии клеток крови. На морфологии клеток, определяемой в цитологических и гистологических препаратах, базируется большинство современных классификаций опухолей системы крови.

Для дифференциальной диагностики больных с опухолями крови и лимфатической системы необходимо знать историю и динамику заболевания, а также установить клеточный состав опухоли, и именно сочетание этих признаков опухоли является основной предпосылкой для выбора программы и тактики лечения. В совокупности инструментальные исследования (биохимические, рентгенологические, УЗИ, цитология, гистология, иммуногистохимия, проточная флуориметрия) позволяют установить диагноз и назначить дифференцированную терапию.

Новым этапом в исследовании морфологии клеток является получение и анализ данных, извлекаемых из цифровых изображений высокого разрешения. Последние содержат большое количество информации, анализ которой с помощью современных математических методов распознавания образов и анализа изображений позволит создать автоматизированные и интерактивные алгоритмическо-программные комплексы для выявления и классификации опухолевых клеток.

В литературе встречается довольно много работ, посвященных автоматизации анализа микроскопических изображений клеток (см. рис. 4.2.1) для поддержки принятия диагностических решений, например, [56, 59, 101, 108]. Как правило, анализу предшествует некоторое преобразование изображения для улучшения его качества, а также выделение областей интереса - кластеров клеток, отдельных клеток или компонентов клеток. Далее выбирается набор признаков в зависимости от конкретной решаемой задачи.

Большое число работ посвящено проблеме выбора и извлечения признаков изображений, в том числе, медицинских изображений. Разработан ряд программных средств (как коммерческих, так и бесплатно распространяемых), которые позволяют биологам вычислять некоторый узкий набор признаков, необходимых для решения конкретной задачи [45]. Попыток систематизировать признаки и разработать общий подход к их извлечению из микроскопических изображений предпринималось, однако, не так много [см., например, 87].

Проблема автоматизации анализа клеток находится на стыке следующих предметных областей: молекулярная биология, медицина, микроскопия и обработка и анализ изображений. В процессе анализа литературы были выделены и исследованы существующие онтологии, содержащие понятия, имеющие отношение к анализу изображений вообще и к анализу микроскопических изображений клеток в частности. К ним относятся:

Тезаурус «Медицинские предметные рубрики» (Medical Subject Headings (MeSH)) [79], разработанный Национальной медицинской библиотекой США (НМБ) для индексирования статей из большого числа ведущих мировых биомедицинских журналов, а также в базе данных НМБ, которая содержит каталоги книг, документов и аудиовизуальной информации.

Онтология «Gene Ontology» (GO) [30], которая содержит термины для описания клеток и физиологических процессов.

Онтология «Open Microscopy Environment (ОМЕ) Ontology» [76], которая была разработана в рамках проекта ОМЕ [98]. Целью проекта является создание среды для анализа, хранения и обмена биологическими микроскопическими изображениями. Онтология служит для поддержки стандартизированного семантического описания данных, полученных с помощью микроскопа (изображений, видео и др.), которое включает подробную информацию о микроскопе (производитель, модель, настройки и др.), использованных фильтрах, источниках освещения и т.д.;

Онтология MPEG-7 [70], которая разработана для описания мультимедийных данных, в том числе, изображений.

В рамках проведенных исследований были разработаны следующие OWL-онтологии, необходимые для поддержки анализа микроскопических изображений клеток [46]: онтология клеточной биологии; онтология микроскопии; онтология микроскопических изображений клеток; онтология признаков изображений клеток. Онтология клеточной биологии

Проведенный анализ показал, что упомянутая выше онтология "Gene Ontology" (GO) ориентирована на анализ генов и не содержит цитологической терминологии. Так, например, класс «cell_part» (часть клетки) характеризуется с точки зрения гена и не может быть использован для описания клеток крови. Поэтому была разработана новая онтология, в которую вошли некоторые общие понятия онтологии GO, а также понятия Тезауруса цитогематологических терминов [8]. Онтология включает следующие основные классы

Похожие диссертации на Представление предметной области "Анализ изображений" в виде специализированного тезауруса