Содержание к диссертации
Введение
Глава 1. Аналитический обзор современных методов обработки изображений, применительно к задаче определения формы объектов 11
1.1. Исходные положения 11
1.2. Классификация систем обработки изображений 13
1.3. Современные методы анализа и определения форм 17
1.4. Некоторые проблемы задач обработки изображений 36
Глава 2. Информационная модель формообразования объектов изображения 39
2.1. Принципы обработки изображения системами машинного зрения . 39
2.2. Обработка зрительной информации человеком 42
2.3. Теория активного восприятия 44
2.4. Информационная модель формообразования объектов изображения 46
Выводы 51
Глава 3. Информационная модель процесса сегментации 52
3.1. Сегментирующий фильтр 52
3.2. Иерархия сегментирующих фильтров 57
3.3. Разметка областей (окончательная сегментация) 63
3.4. Алгоритмы сегментации бинарных изображений 65
3.5. Алгоритмы сегментации полутоновых изображений 78
3.6. Сегментация изображений при наличии шумов 87
3.6.1. Сегментация по массе 90
3.6.2. «Попиксельный тремор» поля зрения 90
3.7. Сопоставительный анализ по скоростным и аппаратным затратам на заданном уровне разрешения с классическими методами 93
Выводы 94
Глава 4. Информационная модель принятия решения о форме объекта по двумерным признакам 96
4.1. Формирование класса эталонов 96
4.1.1. Формирование эталона объекта 96
4.1.2. Формирование обобщенного эталона 97
4.1.3. Построение {/-пирамиды эталона объекта 111
4.1.4. Учет ракурсов 112
4.2. Формирование признаков объекта 113
4.3. Принятие решения 114
Выводы 119
Глава 5. Информационная модель формообразования поверхностей 120
5.1. Общие принципы анализа поверхностей с позиций теории активного восприятия 120
5.1.1. Анализ поверхности с точки зрения функционального анализа 120
5.1.2. Анализ поверхности с точки зрения теории поверхностей . 122
5.2. Ограничения на класс рассматриваемых поверхностей 125
5.3. Взаимосвязь между поверхностью и ее наблюдаемым изображением 126
5.4. Анализ видимых форм поверхностей различных типов 129
5.4.1. Цилиндрические поверхности 129
5.4.2. Эллипсоидные поверхности 133
5.4.3. Конические поверхности 141
5.4.4. Плоскость 146
5.5. Пирамида анализа поверхностей 147
5.5.1. Построение {/-пирамиды 147
5.5.2. Принципы принятия решения на {/-пирамиде 148
В ы во д ы 152
Глава 6. Дополнительные факты, дающие информацию о наблюдаемой форме поверхности и объекте в целом 153
6.1. Анализ бликового пятна 153
6.2. Информационная модель учета тени объекта при анализе его формы 154
Выводы 160
Глава 7. Практическое применение разработанных методик 161
7.1. Алгоритмическое обеспечение поиска двумерного объекта 161
7.2. Информационная модель определения координат подвижного объекта по двумерному изображению 164
7.3. Информационная модель процедуры подавления шума на изображениях, в условиях априорной неопределенности 168
Выводы 173
Заключение 175
Список литературы 177
- Классификация систем обработки изображений
- Обработка зрительной информации человеком
- Разметка областей (окончательная сегментация)
- Ограничения на класс рассматриваемых поверхностей
Введение к работе
Актуальность темы
Наметившиеся в последнее время тенденции указывают на то, что современные промышленные системы быстро расширяют горизонты применения систем машинной обработки изображений, а системы машинного зрения становятся неотъемлемой частью общего плана автоматизации промышленных предприятий.
Одной из важнейших проблем, привлекающей в настоящее время пристальное внимание ученых и инженеров, является проблема автоматического анализа формы и состояния пространственных объектов, информация о которых представлена в виде изображений — фотографий, видеосигналов и т.д. Например, при дистанционных исследованиях природных ресурсов земли с помощью космических или авиационных средств необходимо анализировать форму, размеры и состояние лесных массивов, водных поверхностей, подсчитывать площади сельскохозяйственных угодий, занятых под посевы, и т.п. В медико-биологических исследованиях изображения молекул, клеток, их ядер, формируемые микроскопом, рентгеновских снимков, являются основой анализа биологических процессов и диагностики заболеваний. В ядерной физике по изображениям треков — следов, оставляемых частицами вдоль своих траекторий в пузырьковых или искровых камерах, в ядерных фотоэмульсиях, камерах Вильсона и т.д., определяют массу, заряд и другие характеристики частиц. Все новые элементарные частицы были открыты путем анализа изображений треков. В визуальном контроле на промышленных предприятиях, для обеспечения качества деталей путем проверки формы. При использовании в качестве органов зрения роботов и др.
Хорошо известно, что в настоящее время полностью автоматизировать процесс анализа и интерпретации изображений в перечисленных областях невозможно.
Дело не только в том, что для переработки больших объемов информации, содержащейся в изображении, требуются исключительно большие мощности вычислительных средств. К сожалению, полные математические модели объектов и явлений, а также процессов регистрации их на изображении, как правило, очень сложны, а в ряде случаев до сих пор в деталях и не известны. Это обстоятельство является главным препятствием на пути создания эффективных алгоритмов автоматического анализа и интерпретации сложных изображений.
Между тем многие из упомянутых выше задач на качественном уровне достаточно быстро и легко решает человек. Речь идет, например, о диагностике заболеваний по изображениям цитопрепаратов, расшифровке запутанных ситуаций на изображениях треков элементарных частиц, диагностике состояния некоторых сельскохозяйственных культур по результатам аэрофотосъемки.
Сам факт, что при этом человек достаточно хорошо представляет себе объект исследования, говорит о том, что в основе решения всех таких задач лежат достаточно представительные модели, среди которых зрительный анализатор производит выбор, основываясь на информации, представленной в изображении. Понятно, что такие модели суть не что иное, как отражение научного опыта и практической деятельности человека, но в данный момент мы имеем слишком мало указаний на то, каким образом эта сторона человеческого интеллекта может быть формализована для реализации на ЭВМ.
Вместе с тем имеется довольно обширный класс важных задач анализа изображений, с которыми ЭВМ справляется существенно лучше, чем человек. В их основе лежат простые модели процесса формирования изображений, позволяющие в той или иной степени анализировать информацию о форме объектов, содержащуюся в изображении. Однако большинство таких систем узко специализированы и для своей работы требуют априорного знания объекта исследования, что в большинстве случаев невозможно.
#
#
#
Вопросы распознавания изображений и анализа форм объектов получили фундаментальное развитие в работах научных коллективов Вычислительного центра РАН, Института систем обработки изображений РАН, Института проблем передачи информации РАН, Института прикладной математики и кибернетики при Нижегородском университете, кафедры вычислительной техники при Нижегородском техническом университете и др. Значительный вклад в решение проблем распознавания изображений внесли: Р.Байчи, П.Берт, А.Л.Горелик, Р.Дуда, Н.Г.Загоруйко, В.Кантони, В.В.Кондратьев, С.Левиальди, Д.Марр, М.Минский, Ф.Розенблатт, В.А.Утробин, Ю.Г.Васин, Р.Фишер, П.Харт и многие другие российские и зарубежные ученые.
Цель работы
Разработка методов и средств формообразования объектов наблюдаемой сцены в условиях априорной неопределенности.
На защиту выносятся:
Информационная модель формообразования объектов наблюдаемой сцены в условиях априорной неопределенности.
Информационная модель процесса сегментации.
Процедуры сегментации изображений.
Процедура формирования обобщенных эталонов форм.
Информационная модель принятия решения о форме объекта по двумерным признакам.
Методы анализа поверхностей с позиций теории активного восприятия.
Информационная модель формообразования поверхностей.
Методы получения дополнительной информации о форме.
Методы исследования
Работа базируется на методах системного анализа, теории активного
восприятия, математической теории управления (теории групп, графов, устойчивости), теории вычислительных систем, теории поверхностей, теории распознавания образов и цифровой обработки изображений.
Научная новизна
В диссертационной работе получены следующие основные результаты, характеризующиеся научной новизной:
Разработана информационная модель формообразования объектов изображения в условиях априорной неопределенности, в рамках которой:
Разработана иерархия фильтров, решающая задачу сегментации изображения с различной степенью точности в условиях априорной неопределенности.
Разработана информационная модель принятия решения о форме объекта по двумерным признакам в условиях априорной неопределенности и методы формирования образов объектов по двумерным признакам.
Разработаны методы анализа поверхностей применительно к теории активного восприятия и методы формирования ^/-пирамиды принятия решения о форме наблюдаемой поверхности с различной степенью точности, в условиях априорной неопределенности.
Практическая ценность
На базе разработанных методик решены следующие прикладные задачи:
Разработаны алгоритмы сегментации бинарных и полутоновых изображений, а так же изображений при наличии шумов.
Разработана процедура подавления шума, основанная на устойчивости структуры объекта к изменениям функции яркости изображения, не требующая априорного знания природы шума на исходном изображении.
Разработана информационная модель определения координат подвижного объекта по одному двумерному изображению.
Разработано алгоритмическое обеспечение поиска двумерного объекта на заданном изображении.
Реализация результатов работы
Результаты исследований реализованы:
В программных продуктах НИР "Теоретические исследования и машинное моделирование процессов этапа узнавания изображений", "Теоретическое и экспериментальное моделирование процессов этапа понимания изображений" финансируемых по программе РФФИ (проекты № 01-01-00452, № 01-01-00459).
В программных продуктах НИР "Исследование методов распознавания и идентификации объектов", "Разработка сверхбыстрых алгоритмов идентификации объектов", финансируемых по программе ФГУП НИИИС (проекты № 3350-33-02, № 3350-25-03).
В учебном процессе Нижегородского государственного технического университета.
Апробация работы
Основные результаты диссертационной работы докладывались и бсуждались на следующих научно - технических конференциях и семинарах:
Всероссийская научно-техническая конференция "Информационные системы и технологии" (Нижний Новгород, 2001);
Научно-технический форум "Будущее технической науки Нижегородского региона" (Нижний Новгород, 2002);
8-я Нижегородская сессия молодых ученых (технические науки) (Дзержинск, 2003);
- 2-я региональная молодежная научно-техническая конференция
"Будущее технической науки Нижегородского региона" (Нижний
Новгород, 2003).
Кроме того, результаты работы докладывались на семинарах кафедры
вычислительной техники Нижегородского государственного технического
университета.
Публикации
Основное содержание диссертационной работы отражено в 11 печатных работах.
Структура и объем диссертации
Диссертационная работа состоит из введения, семи глав, заключения, изложенных на 184 с. машинописного текста, содержит 143 рисунка, 5 таблиц и библиографию из 96 наименований.
Классификация систем обработки изображений
Существует несколько основных подходов к классификации систем обработки изображений (СОИ) [39]: 1) на основе принципов, используемых для восприятия информации; 2) на основе способов преобразования визуальной информации в видеосигнал; 3) на основе методов обработки и интерпретации визуальной информации и др. В различных классификационных подходах определяются и сравниваются функциональные сходства и различия пассивных и активных систем, монокулярных и бинокулярных, бинарных и многотоновых, стереоскопических и дальнометрических, голографических и интерферометрических. При использовании первого подхода, т.е. классификации на основе принципов, используемых для восприятия информации, СОИ могут быть разделены на два класса: 1) класс бесконтактных СОИ, к которому может быть отнесен, во-первых, подкласс оптических анализаторов, действующих в видимом, ИК и УФ диапазонах спектра и включающий в себя различные типы оптико-электронных систем (активные и пассивные, монокулярные и бинокулярные, стереоскопические и дальнометрические и другие), и, во-вторых, подкласс не оптических систем, к которому могут быть отнесены рентгеновские, ультразвуковые и другие системы; 2) класс контактных матричных анализаторов формы и размеров контактной зоны, к которому могут быть отнесены полупроводниковые, световодные, ультразвуковые и другие системы. При использовании классификации СОИ на основании способов преобразования визуальной информации в видеосигнал эти системы могут быть разделены на следующие классы: 1) пассивные системы анализа двумерных сцен; 2) пассивные стереоанализаторы трехмерных сцен; 3) активные монокулярные системы анализа объемных сцен со структурированным подсветом; 4) активные стереоанализаторы трехмерных сцен; 5) дальнометрические анализаторы трехмерных сцен; 6) интерференционные и муаровые анализаторы; 7) голографические интерференционные анализаторы и др. Классификация СОИ может быть выполнена также на основе различий в используемых методах обработки и интерпретации визуальной информации.
По функциональной сложности выполняемых операций обработки визуальной информации, т.е. по уровню используемого искусственного интеллекта, СОИ могут быть разделены на три класса: 1) упрощенные системы анализа визуальной информации; 2) системы среднего уровня сложности, осуществляющие анализ двумерных сцен и распознавание плоских форм; 3) система высокого уровня сложности, предназначенные для анализа трехмерных сцен, распознавания и восстановления трехмерных форм объектов. Первый класс СОИ составляют упрощенные системы анализа визуальной информации. Этот класс характеризуется существенно уменьшенной пространственной разрешающей способностью и, соответственно, упрощенными методами обработки воспринимаемой визуальной информации. В таких системах могут, например, анализироваться только черно-белые переходы максимум в 10 строках ТВ-изображения. Размещение этих строк выбирается таким образом, чтобы они располагались на наиболее характерных местах проекции объекта. В этом случае обычно объект должен быть предварительно перемещен до упора перед видеодатчиком и может занимать лишь небольшое число дискретных положений. При этом достаточно часто налагаются дополнительные ограничения на форму объекта, например некоторые системы могут распознавать только круглые объекты с круглыми отверстиями и т.д. К этому же классу могут быть отнесены различные контактные матричные системы анализа визуальной информации: полупроводниковые, ультразвуковые, световодные и др.
В этих матричных визуальных анализаторах выявляются форма, площадь и ориентация контактной зоны с последующей ее идентификацией и распознаванием контактирующего объекта. Системы второго класса, предназначенные для выполнения анализа двумерных сцен, могут идентифицировать форму объектов только по двумерным признакам. В таких системах обычно определяется целый ряд свойств того или иного объекта, а для распознавания используется метод минимального отклонения от соответствующих данных объекта записанных в памяти. Анализируемые объекты обычно размещают на плоском столе или на ленте конвейера в поле зрения видеодатчика, который обычно является неподвижным. Системы третьего класса имеют, как правило, трехмерные анализаторы объемных сцен, снабженные специальными программами и действующие по определенным стратегиям. К этому классу относятся как бинокулярные пассивные стереосистемы, действующие без специального подсвета, так и активные стереосистемы, действующие со специальным сканирующим лазерным подсветом.
Сюда относятся также монокулярные системы со специальным структурированным подсветом и сканирующие лазерные дальнометрические системы, осуществляющие анализ и формирование дальностного изображения; муаровые, интерферометрические и голографические интерферометрические СОИ с телевизионным анализом визуальной информации и ее обработкой с помощью микрокомпьютеров. В ряде систем третьего класса программа анализа сцены формирует прежде всего гипотезу самого общего вида относительно содержания анализируемого изображения, причем эта гипотеза в ходе последующего анализа непрерывно уточняется. Результат каждого шага анализируется с учетом результатов предыдущих шагов и накопленной в памяти информации, при этом оценивается степень вероятности гипотезы. В качестве гарантии, исключающей неправильные решения, в каждой фазе обрабатывается несколько альтернативных ветвей, развиваемых до различной глубины, причем дальнейшие этапы в каждом случае исходят из наиболее вероятной гипотезы.
Обработка зрительной информации человеком
В настоящее время разработано несколько различных подходов, используемых при построении систем этого класса. Например [39], в ряде систем для идентификации форм объектов их изображения сканируются в полярных координатах, центр которых совмещен с центром тяжести проекции объекта. При такой развертке могут выбираться п различных окружностей сканирования с равноотличающимися друг от друга радиусами. При этом могут оцениваться следующие параметры сканируемою изображения: расстояние наиболее удаленной от центра тяжести точки объекта; распределение площади колец в изображении объекта в виде функций от удаления от центра тяжести; число пересечений каждой окружности с контуром объекта; периметр; число отверстий и др. По комплексу полученных признаков производится идентификация формы объекта.
В системах другого типа [64], считается, что объекты состоят из частей, которые обладают определенными признаками и находятся в определенных отношениях друг с другом. Эта информация в принципе может быть представлена с помощью помеченного графа («графа объекта»), узлы которого соответствуют частям; узлы помечены значениями некоторых идеальных признаков или наборами ограничений на эти признаки; дуги помечены значениями идеальных отношений или наборами ограничений на эти значения. Таким образом, основной подход к распознаванию объекта на изображении состоит в выделении соответствующих частей изображения (с помощью методов выделения признаков и сегментации), вычислении их свойств и отношений и представлении этой информации в виде помеченного графа («графа сцены») на котором метки теперь означают наблюдаемые значения признаков и отношений. Распознавание формы достигается нахождением таких подграфов графа сцены, которые хорошо согласуются с графом объекта или удовлетворяют ограничениям, определенным графом объекта. Недостатком этого метода является то, что из-за ошибок сегментации может оказаться, что несколько узлов сольются в один или один узел распадется на несколько, или возникнет еще более сложная ситуация. Таким образом, необходимо использовать методы «согласования» подграфов, которые хотя бы в ограниченной степени могли бы «справиться» со слиянием или распадением узлов.
Другим недостатком этого подхода является то, что многие классы объектов очень трудно охарактеризовать, т.е. трудно определить ограничения (на признаки и отношения частей), которым они должны удовлетворять. Это относится не только к классам естественных объектов (собаки, деревья, облака), но также и к объектам, созданным человеком (дома, стулья и даже рукописные буквы).
Характеризовать объект становится легче, если определять его иерархически, т.е. как состоящий из частей, которые в свою очередь состоят из более мелких частей и т.д. вплоть до уровня пикселов, если это необходимо. Именно этот подход используется при синтаксическом распознавании образов, где «грамматические» правила применяются для «разбора» изображения путем выделения конфигураций частей-примитивов, удовлетворяющих заданным ограничениям, затем определяются конфигурации этих конфигураций и т.д. Такой способ позволяет компактным образом определять сложные классы объектов, но не гарантирует, что результат этого процесса будет соответствовать действительности.
Другое направление усовершенствования методов описания объекта основано на том факте, что классы естественных объектов не являются строго определенными - они определяются нечетко или вероятностно. Например, можно установить плотности вероятностей значений признаков и отношений для заданного класса объектов. Затем можно использовать теорему Бейеса для оценки вероятности того, что наблюдаемый набор значений является следствием принадлежности объекта заданному классу. Такой подход используется в статистическом распознавании образов. К сожалению, и он не гарантирует правильного описания; необходимые плотности вероятностей (или функции принадлежности нечеткому множеству) трудно оценить с достаточной точностью.
К методам анализа и определения формы объектов по трехмерным признакам, можно отнести методы определения формы по форме поверхностей образующих рассматриваемый объект.
Существует ряд факторов позволяющих нам определить форму видимых поверхностей по одному или нескольким изображениям: полутона, текстура поверхности, контуры, движение, стереоизображения и др. В последних исследованиях было получено множество результатов, касающихся определения свойств трехмерной поверхности по характеристикам двумерного изображения. Большую часть современных исследований по машинному зрению, независящую от конкретной проблемной области, составляют работы по проблемам, связанным с подсистемами, которые можно выделить в зрительной системе человека. В этих работах рассматриваются такие задачи, как определение формы х, где л: - один из названных выше факторов.
В некоторых подсистемах определения формы по Л: вычисления производится непосредственно по изображению, в то время как в других — по некоторому промежуточному представлению, созданному после соответствующей фильтрации исходного изображении. Определение формы по полутонам попадает в первую категорию, тогда как определение формы по текстуре — во вторую. Для определения формы по стереоизображениям и по движению классификация пока неясна. Некоторые исследователи помещают их в первую, а некоторые — во вторую категорию.
Разметка областей (окончательная сегментация)
Этот процесс восприятия связан со способностью определять форму и относительную глубину поверхностей в поле зрения по диспаратности в изображениях, полученных правым и левым глазами. После того как было показано, что возможно стереоскопическое слияние изображений без трудоемкой обработки монокулярных картин, было предпринято несколько попыток создания количественной теории стереозрения. До сих пор ведется полемика о том, нужно ли устанавливать соответствие непосредственно для исходных изображений (методы корреляции областей) или для промежуточных представлений, таких как разрывы непрерывности функции яркости (методы построения линий нулевого уровня). Вообще говоря, в последних работах эта проблема рассматривается как задача глобальной оптимизации, причем используется несколько методов приближенного поиска глобального минимума. В одних работах для установления соответствия выбраны различные признаки (например, контуры, сегменты линий), а в других разработаны методы множественного разрешения для определения формы по стереоизображениям и для других задач. Наконец, был так же предложен метод построения описания статической сцены по плотной последовательности изображений, получаемых настолько часто, чтобы образовать жесткий блок данных, в котором изменение во времени от изображения к изображению примерно соответствует пространственной дискретности отдельного изображения.
О стереозрении можно написать много, отметим лишь некоторые, наиболее важные моменты. Во-первых, во всех существующих методах (за редким исключением) предполагается, что левое и правое изображения обрабатываются перед согласованием стереопар, т.е. что уже найдены и вычисляются относительные углы поворота, качания и наклона обеих камер. Это известная проблема стереокалибровки, представляющая значительные трудности. Таким образом, важная цель исследований состоит в том, чтобы теоретически проанализировать проблему стереокалпбровки и найти оптимальные решения (решения, для которых можно доказать, что оцифровка и другие источники ошибок влияют на них минимально). Другой важной проблемой является сложность согласования стереопар. Если согласуются некоторые признаки, то, по существу, точки одного множества А согласуются с точками другого множества В, так что существуют подмножества Лх с А, однозначное соответствие. Эта задача может иметь экспоненциально растущее число решений, если не ввести предположений относительно природы тех поверхностей, на которых расположены точки. Если не сделано никаких предположений, единственное решение построить нельзя.
Однако существует большая иерархия возможных предположений (точки лежат на плоских гранях, прозрачных гранях, поверхностях второго порядка, поверхностях частного вида, гладких поверхностях и т.д.), что приводит к различным стереоалгоритмам: полиномиальным, экспоненциальным, NP-полным.
В дополнении к выше перечисленным, по ходу обзора, проблемам можно добавить следующие. Все названные задачи, особенно большинство основных задач зрения низкого уровня, поставлены некорректно в смысле Адамара. То есть решается задача по восстановлению входного сигнала (fBX) по выходному, наблюдаемому, сигналу (/вых) [1, 63]. Для которой, требуется решить линейное интегральное уравнение вида где - со передаточная функция изображающей системы, G- область определения. Данное уравнение называется уравнением Фредгольма первого рода. Наблюдая /вых и не зная со, судить о /вх некорректно (некорректно по Адамару). Некорректно в том смысле, что малые возмущения наблюдаемого сигнала (Дых) могут приводить к недопустимо большому изменению решения. Методы борьбы с некорректностью уравнения - это алгоритмы регуляризации, где ищется приближенное решение, компромиссное в отношении точности (малой ошибки регуляризации) и устойчивости (контролируемым усилением шума). Основная идея решения не корректных задач состоит в том, чтобы ввести подходящую априорную информацию, которая ограничит пространство возможных решений. Априорная информация может использоваться, например
Ограничения на класс рассматриваемых поверхностей
В предыдущем пункте был рассмотрен вопрос формирования сегментирующего фильтра для поля зрения G, которое полностью охватывает все изображение. Точность построения равна клетке, на которые было разбито поле зрения. Если изображение М имеет размер 4x4 пикселя, то после его разбиения, клетка будет равна пикселю, следовательно, сегментирующий фильтр для такого случая будет построен с точностью до пикселя. В общем случае изображение может иметь различные размеры, в том числе и много большие чем 4x4 пикселя, следовательно и точность будет меньше. Для разных задач нужна своя точность вычислений и точности построения сегментирующего фильтра для всего изображения может не хватать для конкретной задачи, следовательно надо уточнять, то есть разбивать изображение на более мелкие элементы, что и делает Р-пирамида.
Каждый раз Р-пирамида разбивает поле зрения на 4 части, образуя /-й уровень состоящий из 4 полей зрения G\fz.G (у—0...(4 -1), /=0...(/,-1), где L-число уровней Р-пирамиды), каждое из которых в свою очередь разбито на 16 элементов, образующих планигон, для выявления отношений между ними. На рис. 3.5 представлены Ой и 1й уровни Р-пирамиды. Применяя М-пирамиду к Р-пирамиде, получим множество векторов {\х-{} для каждого поля зрения G\y Тогда для каждого поля зрения 7у можно построить сегментирующий фильтр SFy, на основе анализа вектора {fij} этого поля зрения. М- и Р-пирамиды вместе образуют g-пирамиду. Таким образом, если для каждого поля зрения -пирамиды построить сегментирующий фильтр, получится иерархия сегментирующих фильтров являющихся U решения задачи сегментации, на каждом уровне которой находится 4 сегментирующих фильтров, где /"- номер уровня. В дальнейшем, для удобства, (/-пирамиду, решающую задачу сегментации, назовем 5-пирамидой.
Каждый уровень "-пирамиды, кроме нулевого, содержит несколько сегментирующих фильтров(4 , где /- номер уровня), нам же надо сегментировать изображение не по частям, а в целом. Тогда для каждого уровня -пирамиды надо построить общий, для всего изображения, сегментирующий фильтр SFi. Так как сегментирующие фильтры SFy строятся для подобластей G cG изображения М, и исходя из условия, что (jG,y = G, тогда где /- номер уровня 5-пирамиды.
Точность построения сегментирующего фильтра определяется уровнем S-пирамиды и равна клетке соответствующего уровня. В соответствии со спецификой построения -пирамиды, точность каждого следующего уровня в 4 раза больше предыдущего, и так до пикселя исходного изображения. Таким образом, 5-пирамида представляет собой структуру, позволяющую сегментировать изображение с различной степенью точности, определяемой уровнем -пирамиды.
Рассмотрим некоторые особенности построения -пирамиды. Сегментирующий фильтр, построенный на нулевом: уровне "-пирамиды, выделяет область, где находится объект или группа объектов в поле зрения. Для повышения точности сегментации следует перейти на следующий уровень, и рассмотреть несколько подобластей поля зрения. Но в виду того, что сегментіфующий фильтр предыдущего уровня выделил область расположения объектов, то не имеет смысла строить сегментирующие фильтры для полей зрения текущего уровня, которые уже точно не содержат объектов. Таким сегментирующим фильтрам просто присваивается нулевое значение. Это справедливо для каждого уровня З-пирамиды, то есть /-й уровень -пирамиды строится с учетом анализа предыдущего М уровня. Фактически же г -й уровень строится с учетом анализа всех предыдущих уровней, так как /-1 уровень в свою очередь зависит от i-1 уровня и т.д. Таким образом сегментирующий фильтр, построенный на вершине -пирамиды, накрывает все последующие уровни, выделяя области, для которых будут строится сегментирующие фильтры следующих уровней. Последующие же уровни будут уточнять эти области. Это согласуется со стратегией зрительного восприятия [43]: если нам изначально ничего не известно, то мы смотрим в целом (0-й уровень S1-пирамиды). В дальнейшем мы уже смотрим в определенной последовательности (последующие уровни 5-пирамиды, каждый из которых определяется предыдущим).