Содержание к диссертации
Введение
ГЛАВА 1. Анализ методов и средств обработки информации, представленной рукописными символами 14
1.1. Актуальность обработки информации, представленной рукописными образами 14
1.2. Классификация систем распознавания рукописных образов 16
1.3. Анализ решений для распознавания рукописных образов 18
1.4. Анализ обобщенной модели информации, представленной совокупностью рукописных образов 22
1.5. Постановка задачи обработки информации рукописных текстов в свете разрешения противоречий процессов формирования навыков каллиграфии 26
Выводы по главе 1 31
ГЛАВА 2. Математические методы и модели распознавания рукописных символов и обработки каллиграфической информации 32
2.1.Обобщенная модель оперативного и автономного методов распознавания рукописных образов 32
2.2. Метод обработки каллиграфической информации, представленной в виде рукописных символов 34
2.3. Алгоритмы изменения цветности изображения для автономного метода распознавания 36
2.4. Фильтры шумоподавления и сглаживания для автономного метода распознавания 39
2.5. Методы получения векторов признаков рукописных символов для автономного метода распознавания 41
2.6. Оперативные методы распознавания рукописных символов 46
2.7. Математическая модель оперативного метода распознавания рукописных символов и обработки заключенной в них каллиграфической информации 50
Выводы по главе 2 57
ГЛАВА 3. Разработка обучающей системы для формирования навыков каллиграфии 58
3.1. Анализ функциональных требований к обучающей системе 58
3.2. Структурно-функциональная модель работы обучающей системы 65
3.3. Модели вариантов использования обучающей системы 70
3.4. Логическая модель обучающей системы 76
3.5. Модель реализации обучающей системы 83
3.6. Модель развртывания обучающей системы 86
Выводы по главе 3 91
ГЛАВА 4. Экспериментальное исследование обучающей системы формирования навыков каллиграфии 92
4.1. Структура и состав экспериментального стенда исследования обучающей системы 92
4.2. Опытная эксплуатация обучающей системы при решении образовательных задач 106
4.3. Опытная эксплуатация обучающей системы при решении реабилитационно-медицинских задач 121
4.4. Прогнозируемые результаты применения обучающей системы для восстановления тонкой моторики кистей рук и для диагностики состояния организма у космонавтов 128
Выводы по главе 4 137
Заключение 138
Список сокращений и условных обозначений 140
Список используемых источников 141
- Классификация систем распознавания рукописных образов
- Метод обработки каллиграфической информации, представленной в виде рукописных символов
- Модели вариантов использования обучающей системы
- Опытная эксплуатация обучающей системы при решении реабилитационно-медицинских задач
Классификация систем распознавания рукописных образов
В системах, основанных на структурном способе, в базе данных хранится векторно-графовое представление символа. Распознаваемый символ подвергается процедуре скелетизации (утоньшению). Каждый полученный контур скелетного представления описывается в виде последовательного набора особых точек и «цепного» кода.
Таким образом, базой символов в этом способе фактически является база точек с координатами.
Существует также структурно-пятенный или «фонтанный» (от английского font — шрифт) метод распознавания, представляющий собой оригинальный вариант структурного способа. Образ в базе эталонов представляется в виде пятен, связанных парными отношениями.
В системах, использующих признаковый способ, база данных символов может рассматриваться, как база n-мерных векторов признаков.
Для разрабатываемого в данной работе программно-аппаратного комплекса используется метод оперативного распознавания, описанный ниже в разделах 2.6 и 2.7. Распознаватель в этом методе работает не с изображением как таковым, а с его признаками, представленными в виде «-мерного вектора свойств. Для построения базы символов используется признаковый способ.
Система способна к адаптации, за счет того, что в процессе распознавания центр кластера изменяется с учетом случайного возмущения, зависящего от конкретных условий распознавания. При этом алгоритм распознавания производит перенастройку (адаптацию) с учетом нового положения центра кластера.
Особенности обработки групповых образов. Распознавание упорядоченных наборов объектов (например, слов) имеет существенные отличия по сравнению с распознаванием отдельных символов (букв). Применяется схема, состоящая из следующих этапов: Последовательность сегментируется на индивидуальные объекты по специфическим алгоритмам сегментации. Каждый индивидуальный объект распознается одним из методов. Результаты распознавания индивидуальных объектов сводятся в единый результат последовательности в целом по специальным правилам.
Первый и второй этапы данной схемы описаны в разделах 2.2 - 2.5. В данном разделе рассматривается только последний шаг распознавания и его взаимодействие с предыдущими двумя.
Метод адекватен только при распознавании случайной последовательности объектов. В задачах распознавания рукописного текста последовательности не случайны, а кроме того, еще и плохо разделимы. Для распознавания таких последовательностей наиболее всего удобно применение двух методов: скрытой марковской модели (HMM, Hidden Markov Model) и метода графов. Для того чтобы не перебирать все варианты можно воспользоваться методом динамического программирования, например, алгоритмом Витерби.
Для обучения рассматриваемой скрытой марковской модели метод n максимизации правдоподобия, т.е. находят максимум P{X} = ЦP{X i }, варьируя P. Лучшего распознавания можно добиться, интегрируя марковские модели друг с другом или с нейронными сетями. Для распознавания рукописных текстов, неоднозначно представимых в виде последовательностей простых объектов (частичный порядок), может быть применено распознавание графов. Распознавание графов может осуществляться для двух случаев: 1) в системе с распознавателем отдельных букв. При этом в такой системе лишь дополнительно разрабатывается способ разрешения неоднозначностей и ошибок сегментации; и 2) в системе без отдельного распознавателя букв. Особенности языковой локализации при обработке групповых образов. При обработке групповых образов построение и использование словаря имеет специфические особенности. Можно рассмотреть их на примере использования скрытых марковских моделей. Чтобы распознавание слитных образов (слов, целого текста) было эффективным и качественным, модель должна включать в себя эталоны символов и базу данных слов. Нередко сегментатор, т.е. алгоритм, превращающий распознаваемый рукописный текст в последовательность символов из некоторого фиксированного пространства, отчасти встраивают в саму модель.
Одновременное распознавание слитной рукописной речи и языка, на котором написан распознаваемый текст возможно ввиду использования в системе распознавания текста структурированного словаря данного языка.
В процессе распознавания на этапе обращения к словарю задача выбора алгоритма распознавания может быть сведена к поиску кратчайшего пути в некотором графе и решена методом динамического программирования. Задача определения слова сводится к первой, если при сегментировании получено небольшое количество способов распознавания с ненулевой вероятностью. В этом случае выбор наиболее вероятных гипотез о значении распознаваемого слова будет достаточно прост. Задача оптимизации весовых коэффициентов для слов в базе данных похожа на обучение нейронных сетей и хорошо изучена.
Обобщенный алгоритм обработки информации, представленной совокупностью рукописных образов. Непосредственное распознавание – это сравнение выделенных областей изображения с имеющимися эталонами символов и проверка результата на допустимость.
Основное преимущество метода сравнения векторов от метода наложения состоит в том, что он учитывает совпадение распознаваемого символа и эталона по ключевым моментам (признакам символа), а не по его графической интерпретации (Рисунок 2.4). Поэтому вероятность того, что сравнение одного и того же символа с разными эталонами даст одинаковую степень совпадения намного меньше чем у алгоритмов сравнения печатных символов.
Метод обработки каллиграфической информации, представленной в виде рукописных символов
Описание математической модели. Получим в наиболее общем виде математические модели изображения символа, образа символа, процессов распознавания символов и обучения распознаванию символов.
Изображение символа можно представить как набор точек. Перенумеруем от 1 до n все места пространства, где могли бы находиться точки. В этом случае любое изображение описывается последовательностью чисел x1,x2,…,xn. Введем n-мерное пространство X с координатами x1,x2,…, xn. Изображение представляется в нем некоторой точкой x с определенным набором координат.
Образ символа можно наглядно представить как множество точек x в многомерном пространстве X, соответствующих всем этим изображениям. На Рисунке 2.24, A это множество точек X1. Другому образу будет отвечать иное множество точек, например Х2 (Рисунок 2.24, А). Распознавание символов - это процесс определения, к какому из множеств - Х1 или Х2 - принадлежит точка х, отвечающая распознаваемому изображению. Пусть множества Х1 иХ2 разделены гиперповерхностью S (Рисунок 2.24, Б). Гиперповерхность S - это множество точек, на которых некоторая функция/( 1,х2,…л,) равна нулю. Пусть хє Х1, если/ 0, и хє Х2, если/ 0. Распознавание образов - это процесс отыскания гиперповерхности S и ее уравнения
Обучение распознаванию символов - это нахождение разделяющей поверхности S по конечным ограниченным показам точек множеств Х1 и Х2.
Построим математическую модель автоматической классификации символов. Пусть х - входной вектор признаков с матрицей параметров р. Строки этой матрицы - векторы центров кластеров. При предъявлении входного сигнала классификатор системы генерирует величины/(х,/?) и s(x,p) = x+p. Символы в базе эталонов задаются как множестваХ1, Х2, …, Хп, такие, что и система при распознавании (на этапе классификации) относит х к одному из множеств Х1(р) или Х2(р). При изменении параметров р значения Х1(р) или Х2(р) изменяются, то есть система является адаптивной или обучаемой. Процесс обучения - это подбор параметров р с помощью обучающей последовательности
Автоматическая классификация (распознавание) сводится к нахождению алгоритма, приводящего в соответствие образ соответствующему классу. Предположим, что количество образов (классов) конечно и равно т.
В общем случае каждому х ставится в соответствие набор функций определяющих степень достоверности принадлежности х из множества X к одному их возможных классов. Введем набор функций р(х) = {р{х)хф{х)ъ…ф{х)т} - степеней достоверности, обладающих свойствами
Пусть на множестве X задано некоторое распределение вероятностей Р(х). При автоматическом распознавании определяются наборы вероятностей /? (х) и р (х) из некоторого множества , минимизирующие средние потери классификации, которые равны
Перейдем к рассмотрению процесса оценки системой поступающей в нее информации в виде случайного, независимого набора входных векторов. Эта задача решается как часть более общей задачи распознавания символов. Она же лежит в основе оценки каллиграфии рукописных символов. Последовательность оценок {/3} входных векторов р. формируется при помощи рандомизированного алгоритма стохастической аппроксимации (см. ниже). Для этого он генерирует пробное одновременное возмущение, состоящее из независимых бернуллиевых случайных величин, равных +1. Они представляют собой последовательности случайных независимых векторов neRm, п=1, 2,...,т. Рандомизированный алгоритм стохастической оптимизации. Данный алгоритм используется с целью внесения случайного независимого возмущения для приближения градиента функционала качества. В качестве начального приближения центров кластеров р0 взяты вектора признаков символов-эталонов, размеченных вручную. Алгоритм SPSA характеризуется: устойчивостью к почти произвольным помехам, позволяющей нивелировать погрешность при построении вектора признаков [10]; устойчивостью к росту размерности пространства состояний, что позволяет увеличивать набор признаков вектора, добавляя дополнительные характеристики символа [9, 10]; простотой аппаратной реализации, позволяющей использовать его в мобильных устройствах и ноутбуках.
Главное его преимущество заключается в адаптивности. Он не нуждается в переобучении. Изменение центров кластеров, вызванное условиями работы распознающей системы, вызывают автоподстройку алгоритма под это изменение. Адаптивность обеспечивается посредством расходящихся рядов бесконечно малых величин {Хп} и {jun}.
Модели вариантов использования обучающей системы
Особенность конструкции этой модели состоит в наличии сразу двух дисплеев – жидкокристаллического и основанного на технологии электронных чернил E Ink. Размер электронной бумаги составляет 9,7 дюймов и разрешение 1200 х 825 пикселей, а второй, резистивный сенсорный дисплей, имеет размер 10 дюймов, но при этом меньшее разрешение 1024x600 пикселей.
Планшет использовался для решения образовательных задач - обучения каллиграфически правильному письму дошкольников и младших школьников.
Выбор такого варианта аппаратного обеспечения для работы дошкольников и младших школьников был обусловлен существующими требованиями Министерств образования и Министерства здравоохранения к работе детей с компьютером. Согласно СанПиН 2.4.2.2821-10 «Санитарно-эпидемиологические требования к условиям и организации обучения в общеобразовательных учреждениях» непрерывная работа школьников 1-4 классов с компьютером на уроке не должна превышать 15 минут [41]. Задания в программе обучения каллиграфии составлены таким образом, что работа учеников с ЖК-дисплеем продолжается не более 15 минут, остальное время ученики работают с экраном Е-ink. Последний является черно-белым, то есть, нагрузка на зрительный анализатор при работе с ним меньше.
Технические характеристики планшета представлены в Приложении А (Таблица 10).
Экран E-ink имеет специальный емкостной сенсор, который позволяет работать на нем путем прикосновения пальцами или остроконечного стилуса, причем при письме стилусом экран не реагирует на прикосновения руки рука, поэтому можно касаться рукой экрана, что очень удобно при письме. Стандартные емкостные экраны для ЖК-дисплеев пока не имеют таких технологий. Резистивные сенсоры в ноутбуках Asus имеют подобную технологию, однако чувствительность резистивного сенсора ниже, чем у сенсоров E-ink-экрана, что делает его менее удобным в использовании.
Планшет снабжен сенсорными кнопками навигации, расположенными с боковой стороны каждого из экранов, а также имеет виртуальную клавиатуру. Обе панели способны вращаться, позволяя планшету изменять форм-фактор от варианта «ноутбук» до планшета (то есть, работы в «сложенном» виде).
В дальнейших исследованиях были выявлены адекватность, эффективность, достоинства и недостатки аппаратного обеспечения для решения образовательных задач и для реабилитации больных с нарушениями моторики рук. Программное обеспечение стенда. Используемый в составе экспериментального стенда планшетный компьютер iRU Classmate использует операционную систему Windows Seven Starter и пакет ПО Intel Learning Series Software Suite. Планшет Edge 3.0 работает в среде Linux, используя разработанную Google специально для планшетов операционную систему Android Ice Cream Sandwich. На оба варианта оборудования возможна также инсталляция дополнительного программного обеспечения по выбору пользователя, в том числе и разработанной программы для обработки каллиграфии Электронная пропись.
Недостатком программного обеспечения для планшетного компьютера iRU Classmate и планшета Edge 3.0 является отсутствие контроля степени нажима пера. Несмотря на это, данное программное обеспечение соответствует задачам, связанным с обучением школьников каллиграфически правильному письму и по ряду характеристик – задаче реабилитации больных с нарушением моторики рук.
Для определения такого соответствия программного обеспечения его задачам и возможности использования с определенными аппаратными средствами было проведено тестирование программного обеспечения. Более подробное описание программной части комплекса приведено в Приложении Б.
Тестирование программного обеспечения. В ходе тестирования программного обеспечения проверяются основные функции системы, которые ПО должно поддерживать для обеспечения эффективной работы с обучающей системой [42], а также определяется качество программы оценки каллиграфии.
Основные функции системы: создание и просмотр материала (текстового, графического, аудио-, видео- и т.д.); создание интерактивных заданий; назначение последовательности выполнения заданий; назначение критериев оценки правильности выполнения заданий; выбор и прохождение отдельных упражнений из курса; создание и поддержка индивидуальных профилей пользователя; работа со статистикой обучения.
Тестирование программного обеспечения - это проверка соответствия между реальным и ожидаемым поведением программы, осуществляемая на конечном наборе тестов, выбранном определенным образом. В более широком смысле, тестирование - это одна из техник контроля качества, включающая в себя активности по планированию работ, проектированию тестов, выполнению тестирования и анализу полученных результатов [42].
В системе международных стандартов характеристики качества программного обеспечения определяет стандарт ISO 9126. Тестирование работы программного обеспечения «Электронная пропись». Основные алгоритмы программы это 1) алгоритмы предустановленных программ; 2) алгоритмы программы по обучению каллиграфически правильному письму. При тестировании априори предполагается, что ОС и предустановленные программы комплекса работают нормально и не дают конфликтов с программой каллиграфии. Поэтому выполняется только тестирование программы обучения каллиграфии «Электронная пропись». В основе алгоритмов работы обучающей системы должны лежать показатели качества, характеризующие ее устойчивость и достоверность интерпретации символов.
Опытная эксплуатация обучающей системы при решении реабилитационно-медицинских задач
Состояния организма, связанные с аварийными ситуациями в условиях космоса. Еще одним нестандартным потенциальным вариантом применения разработанной обучающей системы формирования навыков каллиграфии может быть его использование как метода экстренной диагностики аварийной ситуации.
Наиболее опасные состояния, требующие экстренной диагностики и медицинской помощи, могут возникнуть при разгерметизации жилых отсеков, повреждения скафандра, нарушениях в работе систем жизнеобеспечения, попадании микрометеоритов, загрязнении корабля твердыми или жидкими частицами и при острых радиационных поражениях. При этом возникший недостаток кислорода для дыхания будет приводить к острой гипоксии у космонавтов.
Некомпенсированное гипоксическое состояние проявляется двумя различными симптомокомплексами: преколлаптоидным и коллаптоидным состояниями (брадикардия, снижение артериального давления, гипергидроз и др.); высотным обмороком (снижение интеллектуальной работоспособности, неадекватная оценка окружающей обстановки и собственного состояния, расстройство координации движений, появление клонических судорог, которые начинаются с мышц пишущей руки – писчие судороги, нарушение сознания, обморок) [65].
Обычно недостаток кислорода в воздухе при аварийной ситуации немедленно фиксируется приборами. Но при нештатной ситуации это не всегда возможно, особенно при медленно нарастающей гипоксии, которая может сначала даже не вызывать заметных субъективных ощущений у самих космонавтов. В этом случае изменение почерка, фиксирующееся разработанной системой (даже не в момент возникновения писчего спазма, а значительно раньше) может послужить дополнительным методом экстренной диагностики неполадок на космическом корабле.
Условия опытной эксплуатации. Как показано выше, условия опытной эксплуатации обучающей системы формирования навыков каллиграфии при использовании ее для работы космонавтов могут быть двух типов: в условиях послеполетной реадаптации; в условиях гипогравитации (космический полет, суборбитальный полет, наземное моделирование условий гипогравитации).
Обеспечение метода будет рассмотрено только для первого случая, поскольку эксплуатация метода в различных вариантах гипогравитации потребует технической доработки, как аппаратной, так и программной части стенда. Например, использование метода в условиях космического полета, потребует интеграции программного обеспечения в программное обеспечение станции и разработку специальных программ для выполнения конкретных задач исследования.
Обеспечение стенда, используемое в условиях послеполетной реадаптации, может быть аналогично используемому выше для образовательных и реабилитационных целей (с учетом рекомендаций, полученных на этапе применения системы для целей реабилитации больных).
В качестве средств технического обеспечения можно рекомендовать использование диджитайзера со стилусом, например Wacom.
Этот вариант удобнее для данных исследований, поскольку в отличие от планшетного компьютер, рассмотренного выше, имеет возможность регулирования силы нажатия на перо.
Технические характеристики одной из простейших моделей графического планшета Wacom приведены в Приложении А (Таблица 9).
Характеристики даже такой простой модели вполне достаточны для эффективной работы системы. Для обработки информации можно использовать любой рабочий компьютер, использующийся космонавтами в период реадаптации. Программа для коррекции каллиграфии может быть установлена и использована с учетом некоторых доработок. Ее достоинством является возможность оценки выполнения упражнения. Сами упражнения можно применять как простой и быстрый тест для оценки общего состояния организма и его систем.
Увеличение/уменьшение количества ошибок при выполнении теста будет свидетельствовать об изменениях физиологического состояния испытуемого и состояния моторики мелких мышц кисти ведущей руки.
В качестве программы распознавания рукописного текста можно использовать стандартное коммерческое программное обеспечение (например, программу Pen Reader) [11].
Конкретные доработки программного обеспечения будут зависеть от научного проекта, в рамках которого испытуемые проходят реадаптацию.
Перспективы применения обучающей системы для восстановления тонкой моторики кистей рук у космонавтов в послеполетном периоде и для диагностики состояния организма в условиях гипогравитации. Учитывая все факты, изложенные выше, применение обучающей системы может быть использовано для диагностики состояния организма в условиях гипогравитации и в период реадаптации после нее, а также для восстановления тонкой моторики кистей рук у космонавтов в послеполетном периоде. Основными результатами применения системы станут повышение эффективности восстановления функций, измененных под действием гипогравитации и повышение качества технического и программного обеспечения космических полетов.