Введение к работе
Актуальность темы
В настоящее время в мире активно ведутся исследования в области теории и практики распознавания образов. Целью этих исследований является построение авюмагических систем преобразования информации из одной формы представления в другую. Примерами таких систем могут быть программы распознавания речи, текстов, автоматизированные комплексы диагностики заболеваний людей, идентификации личности человека, опознавания целей и др. Системы распознавания образов призваны приблизить возможности машин к возможностям человека при решении задач преобразования и анализа информации, которые на іекущий момені плохо поддаются формализации.
Одними из важнейших и сложнейших задач теории распознавания образов являюіся задачи распознавания изображений, в частности задача распознавания текстов. Решение этой задачи поможет ускорить получение электронных копий бумажных документов, книг, журналов; сделает возможным автоматический поиск текстовой информации, хранящейся в графическом формате.
Одной из основных проблем, возникающих при решении задач распознавания изображений, является проблема фильтрации различного рода помех и артефактов с целью подготовки изображения к распознаванию. Эта проблема встает не только при решении задачи автоматического распознавания образов, но и при распознавании изображений человеком. Например, при анализе томографических
НОС. НАЦИОНАЛЬНАЯ t
БИБЛИОТЕКА (
3-8W
» OS
изображений специалисту-медику приходится сталкиваться со снимками, содержащими большое число помех, которые могут привести к постановке неверного диагноза.
В настоящее время существует достаточно большое количество различных программ распознавания текстов (например, FineReader. Readiris, ScanSoft OmniPage, Cognitive Technologies CuneiForm и др.). Каждая из этих программ предлагает свою реализацию решения задачи обработки и распознавания изображений. В основном эти программы являются коммерческими, поэтому методы решения задач, заложенные в них известны только их разработчикам, и практически невозможно определить для каких задач они подходят и какие задачи им не под силу. Кроме того, все эти программы поставляются в виде исполняемых модулей, что делает невозможным анализ работоспособности программ, качества их работы и модификацию используемых ими математических моделей и алгоритмов.
С другой стороны, при написании больших и сложных программных продуктов, все большую популярность приобретает так называемая идеология открытых кодов. В рамках этой идеологии, разработчики программы, решающей некоторую задачу, публикуют исходный код своей программы вместе с подробным описанием методов решения задачи и алгоритмов ее решения и заявляют о возможности свободной модификации как методов решения, так и алгоритмов. Ярким примером успеха такого подхода является широко известное семейство операционных систем Linux. Очевидным преимуществом открытости исходного кода программы является то, что после того как код опубликован, он постоянно совершенствуется заинтересо-
ванными в повышении качества его работы людьми. Поэтому программный продукт с открытым кодом со временем становится все более качественным.
Таким образом, на сегодняшний день актуальным является создание программного обеспечения для распознавания текстов с открытым кодом, что позволит вносить изменения и улучшения в методы и алгоритмы решения задачи, а также изменять математические модели, используемые этими методами и алгоритмами.
Также актуальной задачей в настоящее время является разработка методов удаления помех и артефактов из томографических изображений.
Цель работы
Целями данной работы являются:
Формализация задач распознавания печатного текста и улучшения качества томографических изображений.
Выбор метода решения поставленных задач на основе системного анализа существующих на сегодняшний день технологий и методов обработки изображений.
Разработка методов фильтрации, позволяющих избавиться от искажений, наиболее характерных для изображений печатного текста и томографических изображений.
Создание и тестирование программных продуктов, реализующих алгоритмы, построенные на основе рассмотренных в данной работе методов.
Научная новизна
На основе проведенного системного анализа методов выделения признаков в задаче распознавания изображений предложены методы, подходящие для решения задач распознавания текстов.
Разработан метод предварительной обработки (фильтрации) изображения в задаче распознавания текстов, повышающий качество распознавания символов.
Впервые разработана и реализована в виде программного продукта система распознавания текста с открытым кодом.
Предложен новый метод улучшения качества томографических изображений.
Практическая ценность
Предложенный в данной работе метод фильтрации искажений, характерных для изображений, полученных со сканера может использоваться в системах распознавания изображений.
Метод улучшения качества томографического изображения может применяться в практике диагностических центров, в том числе в телемедицине и в медицинских экспертных системах.
Данная работа проводилась при финансовой поддержке фирм Digital Design (СПб) и Intel (Нижний Новгород).
Апробация работы
Результаты данной работы докладывались на "XXXIII-XXXVI научных конференциях студентов и аспирантов факультета ПМ-ПУ" в
2002-2005гг.. а гакже на семинарах кафедры КМ и МС факультета ПМ-ПУ СПбГУ и семинарах группы разработчиков проекта "Система распознавания текста с открытым кодом" фирмы Digital Design. Часть работы, связанная с улучшением качества томографического изображения, была апробирована в рамках проекта "Летняя школа Intel 2005" под руководством сотрудника компании ЗАО "Интел А/О" А. Петрова в г. Нижний Новгород.
Публикации
Основные результаты диссертационной работы опубликованы в открытой печати в виде 4 статей.
Структура и объем работы