Содержание к диссертации
Введение
ГЛАВА 1 Анализ существующих методов в почерковедческой экспертизе 14
1.1 Характеристика задачи выявления автора неизвестного почерка и основные подходы к ее решению 15
1.2 Информационные методы для решения задачи выявления автора неизвестного почерка 17
1.3 Искусственный интеллект в задачах экспертизы почерка 30
1.4 Иммунносетевой аппарат в задачах интеллектуальной обработки данных 33
1.5 Выводы и постановка задачи диссертационного исследования 36
ГЛАВА 2 Исследование характеристик и параметров искусственных иммунных сетей для решения задачи выявления закономерностей в информационном потоке рукописного текста с целью определения его авторства 39
2.1 Особенности иммунной системы 39
2.2 Общая модель искусственной иммунной системы в приложении решаемой задачи . 45
2.3 Анализ процедуры клонального отбора CLONALG 49
2.4 Анализ и реализация процедуры искусственных иммунных сетей AINet в приложении к решению задачи исследования. 51
2.5 Теория опасности в решении задачи анализа информационного потока рукописного текста 58
2.5.1 Метрика аномальности 63
2.6 Создание выборки для проведения экспериментального тестирования 64
2.7 Реализация и опытное тестирование иммунных методов 68
2.7.1 Подготовка и описание экспериментов 68
2.7.2 Результаты опытного тестирования процедуры CLONALG 71 2.7.3 Выводы о применении CLONALG для решения поставленной задачи 72
2.7.4 Опытное тестирование процедуры AINet 74
2.7.5 Выводы о применении процедуры AINet 74
2.7.6 Опытное тестирование процедуры DCA, на примере решения задачи сегментации 75
2.8 Выводы о результатах анализа применимости иммунных процедур к решению задачи выявления закономерностей в информационном потоке рукописного текста с целью определения его авторства 77
ГЛАВА 3 Разработка метода и процедуры для решения задачи выявления закономерностей в информационном потоке рукописного текста 79
3.1 Разработка метода и построение процедуры для решения задачи выявления закономерностей в информационном потоке рукописного текста 79
3.2 Разработка архитектуры информационной системы на основе разработанной процедуры мультиклональной селекции – программы “HWChecker” 87
3.2.1 Разработка интерфейса информационной системы 92
3.3 Выбор языка программирования 95
3.4 Организация функционирования разработанной информационной системы для анализа информационного потока рукописного почерка 97
3.4.1 UML диаграмма классов и описание функциональных модулей информационной системы для анализа информационного потока рукописного почерка 97
3.4.2 Функциональные возможности разработанной информационной системы определения автора неизвестного рукописного почерка «HWChecker» 102
3.5 Создание базы данных 104
3.6 Разработка вспомогательной программы для тестирования иммунных процедур «Imalga» 106
ГЛАВА 4 Исследование эффективности разработанной процедуры мультиклональной селекции в решении задачи выявления закономерностей в информационном потоке рукописного текста 110
4.1 Калибровка констант, используемых в аналитической модели иммунной процедуры мультиклональной селекции 110
4.2 Подготовка и описание экспериментов 111
4.3 Оценка общей эффективности разработанного метода мультиклональной селекции 119
Заключение 125
Список использованных источников 130
- Искусственный интеллект в задачах экспертизы почерка
- Общая модель искусственной иммунной системы в приложении решаемой задачи
- Разработка архитектуры информационной системы на основе разработанной процедуры мультиклональной селекции – программы “HWChecker”
- Подготовка и описание экспериментов
Искусственный интеллект в задачах экспертизы почерка
Информационное направление базируется на вероятностном моделировании, анализе изображения и теории распознавания образов. В отечественной науке основоположником этого направления стал Роман Михайлович Ланцман [23], теоретически обосновавший и доказавший возможность применения процедуры распознавания образов для различения сходных почерковых объектов. В научной литературе принято отсчитывать начало активных исследований в области верификации рукописной подписи с работы [24], в которой были сформулированы основные направления и подходы к решению данной проблемы.
Идеи Р.М. Ланцмана были реализованы в виде информационной системы дифференционно-идентификационных процедур (ДИА) [25]. В основе системы ДИА лежит анализ геометрической структуры исследуемых объектов, для получения которой каждый исследуемый объект вводится в систему координат, и на нем выделяется система наиболее информативных точек, которые затем соединяются определенной совокупностью отрезков. ДИА единовременно позволяет сличать два почерковых объекта, при этом информацию о них в систему заносит эксперт вручную, привнося определенных субъективный фактор. Кроме то, как отмечено в [26], выдаваемые ЭВМ результаты обязательно используются комплексе с традиционными методами. Еще одним недостатком ДИА является категоричность отрицательных выводов по результатам анализа почерков, поскольку в ряде случаев бывает невозможно дать заключение по принадлежности записи определенному лицу, ввиду недостаточности почеркового материала. Современные программные средства, используемые в почерковедении, можно разделить на следующие категории: 1. Программы, предназначенные для автоматизации процесса вычисления. 2. Программы, предназначенные для графического и графометрического анализа почерковых объектов. 3. Программы комплексного действия, использующие интеллектуальный анализ данных.
Программы первой категории носят исключительно прикладной характер. Они представляют собой некий программный интерфейс, в который заложена определенная методика вычисления, и предназначены исключительно для автоматизации расчетов, связанных c этой методикой. Соответственно, эти методики разрабатывались в результате применения модельных методов. Программный комплекс «Телемак» [27] является примером такого рода систем. Он был разработан в 1987 г. во ВНИИСЭ (позднее РФЦ СЭ) на основе количественной методики дифференциации подлинных подписей и подписей, выполненных с подражанием после предварительной тренировки. Программа предназначена для автоматического вычисления расстояния между точками, соотношения длин отрезков, соединяющих выделенные точки, угловых величин между отрезками и других, заложенных в методику показателей, на основе размеченного человеком почеркового объекта. В результате работы программы определяется информативность отдельного участка подписи и суммарная информативность, которая служит обоснованием соответствующего вывода эксперта-почерковеда. На базе того же технического комплекса по аналогичному с программой «Телемак» принципу были разработаны программы «МЕРА», «Око», «Маска» [28].
К программам первого типа также относится семейство фактографических систем, разрабатываемых в Московском инженерно- физическом институте (МИФИ) под руководством д.т.н. С.Д. Кулика. Яркими представителями этого семейства являются АФИПС «Ling» и ФИПС «man-WO-man».
АФИПС «Ling» [29] разработана в 1997 г. совместно с ЭКЦ МВД и предназначена для распознавания языка по печатным или рукописным текстам, выполненным на основе русской или латинской письменной графики. В основе системы лежит методика «Определения языка по текстам, выполненным на основе русской и латинской письменной графики», разработанная в ЭКЦ МВД СССР в 1991 г и модифицированная в ходе создания данной АФИПС в 1997 г. Программа распознает 26 языков, основанных на русской и латинской графике. В качестве признаков для распознавания используются дополнительные буквы, диакритические знаки, и другие знаки, служащие для передачи специфических звуков (фонем) того или иного языка. Оператор программы должен указать специфические буквы, встреченные в исследуемом документе, на основе чего будет сделан вывод о языке документа. Программа предназначена для автоматического определения языка электронных документов, однако определять авторство текста не способна.
ФИПС «man-WO-man» [30] разработана совместно с ЭКЦ МВД и предназначена для определения пола исполнителя кратких рукописных текстов. За основу системы взята методика «Определения пола исполнителя кратких рукописных текстов», разработанная в ЭКЦ МВД СССР в 1990 г. Стоит отметить, что для принятия решений ФИПС использует нейронную сеть [31].
На основе подхода, реализованного в этой системе, в настоящее время ведется работа по созданию автоматизированного рабочего места (АРМ) эксперта-криминалиста «HWFE» [32] [33] [34], в состав которого входят различные системы по исследованию почерка с применением нейронных сетей. В том числе, разрабатывается методика для выявления закономерностей в информационном потоке рукописного текста с целью определения исполнителя рукописного текста.
По состоянию на 2010 год, на основании анализа публикаций, качество работы описанных программ оценивается нами следующим образом. Для программы «man-WO-man» - правильное решение было принято в 76% случаях, ошибочное — 11% , невозможность принять верное решение в 13% случаев. На предыдущих этапах разработки АРМ был зафиксирован показатель: 56% -правильное решение, 16 % ошибочное, 28 % - невозможность принять решение. Для подпрограммы для определения автора неизвестного почерка количество ошибок о том, что документы выполнены одним лицом, составило 14%. [35] Однако, процент случаев, при которых удавалось правильно определить исполнителя, не указан.
В недостатки программ первой категории можно выделить острую привязку к реализующей процедуре и централизацию вокруг решаемой задачи, что делает их инструментом для решения лишь ограниченного круга вопросов. Кроме того, эти программы, в основном, способны автоматизировать лишь отдельные этапы в исследовании почерка, при этом основную работу по выделению признаков и анализу результатов все еще выполняет специалист. Еще одним из известных методов в области почерковедения является метод фазового анализа письменных объектов, разработанный в Удмуртском государственном университете Э.Г. Хомяковым. Хотя в работе [1] указано, что была произведена разработка этого метода без привязки к реализации, но результаты работы и эффективность метода фазового анализа проверялись именно при помощи специально разработанной программы, поэтому целесообразно отнести данный труд к программным решениям и проанализировать его с позиции программного подхода. Метод фазового анализа основан на теории уровневого построения почерковых движений Н.А. Бернштейна и специальной информационной модели Н.Г. Сахаровой [36].
Общая модель искусственной иммунной системы в приложении решаемой задачи
Динамическая защита. Клональное размножение и соматическое гипермутирование позволяют иммунной системе продуцировать высокоаффинные иммунокомпетентные клетки (этот процесс называется увеличением аффинности), что создает динамический баланс между изучающей и защитной функцией адаптивного иммунитета. Наличие динамической защиты постепенно приводит к расширению зоны наблюдения, контролируемой иммунной системой.
Вероятностное обнаружение. Перекрестные реакции в ходе иммунного ответа — это процесс стохастический. К тому же обнаружение антигена всегда неизбежно происходит приблизительным образом; следовательно, лимфоцит может взаимодействовать с несколькими структурно сходными антигенами.
В иммунном ответе на антиген важную роль играют и другие характеристики иммунной системы, такие как адаптируемость, специфичность, самотолерантность, дифференцировка и другие. Все эти свойства, имеющие отношение к обработке информации, создают ряд интересных возможностей для решения поставленной задачи. [59]
Рассмотрим подробнее понятия, необходимые для понимания механизмов работы иммунитета, в приложении к решению задачи диссертационного исследования.
Антигены - (от анти и греч. genos - рождение, происхождение), высокомолекулярные коллоидные вещества, которые при введении в организм животных и человека вызывают образование специфически реагирующих с ними антител. Непременным условием антигенности является отличие антигенов от веществ, имеющихся в норме в организме реципиента. [71] В нашем случае антиген – это некоторый комплексный признак исследуемого образца почерка. По своей структуре антиген представляет собой вектор признаков (например, белок – это последовательность простых химических веществ). Самым простым примером антигена для задачи исследования может являться изображение одного символа, где вектор представлен массивом пикселей, формирующих изображение.
Антитела (antibodies) — белки, образующиеся в организме при попадании в него некоторых чужеродных веществ (антигенов) и обладающие способностью избирательно соединяться с теми же антигенами или (в меньшей степени) со сходными с ними по строению веществами, вызывая тем самым иммунный ответ организма. Антитела реагируют только с теми антигенами, которые инициировали их синтез. Такое прямое соответствие между антигенами и антителами известно под названием специфичности. Форма молекулы антитела и распределение электрического заряда по ее поверхности делают ее способной связывать антиген, схожий с ней по форме и распределению заряда. [71]
Антитело - один из наиболее интересных элементов иммунной системы, так как он является ключевым компонентом, реализующим основные функции, которые позволяет использовать аппарат искусственных иммунных сетей, как мощный инструмент для решения обширного круга задач. Антитело является основным вычислительным агентом. Оно способно размножаться (создавать свои клоны) и мутировать (изменять вектор признаков). Применительно к задаче исследования, антитело можно рассматривать, как ячейку памяти в базе данных почерковых объектов. Такая ячейка может взаимодействовать как с другими антителами (теория иммунных сетей), так и с антигенами. Нами предложена следующая структура антитела:
Массив признаков, вектор, определяющий сходство антитела с антигеном. Таким массивом может быть изображение символа.
Информация, ассоциированная с массивом признаков и определяющая класс антитела. Такой информацией могут быть данные автора почерка.
Антитела формируют базу данных, которая содержит множество образцов почерка группы лиц. Такая база данных может быть использована для поиска авторов неизвестного образца. Конечно, условием успешного поиска является наличие в такой базе данных других вариативных образцов почерка выявляемого автора.
На основании рассмотренного материала, применительно к задаче диссертационного исследования, мы предлагаем общую модель ИИС, которая принимает следующий вид [89]. Аналитическая модель антитела: At = Mas, inf ; Mas = (g1,g2,…,gk) - массив признаков, где g Z, g [0;255]; inf – информация о владельце почерка в виде символьной строки.
Массив признаков представляет собой монохромное изображение размером k пикселей, каждый пиксель которого представляет собой признак и кодируется 256 оттенками черного света, где 0 – соответствует черному цвету, а 255 – белому. Такая числовая градация обусловлена особенностями кодирования цвета в вычислительных машинах. Значение цвета хранится в оперативной памяти компьютера как восьмибитное число. Максимальным значением восьмибитного числа в десятичной системе счисления является число 255, а минимальным значением является 0. Далее такие признаки будем называть генами.
Предполагается кодировать символы, используя монохромный шаблон, другими словами, черно-белый «снимок» символа, что по нашему мнению приведет к меньшим потерям значащей информации, например, слабо выраженных почерковых движений
Разработка архитектуры информационной системы на основе разработанной процедуры мультиклональной селекции – программы “HWChecker”
Такое решение позволило минимизировать реакцию иммунной процедуры мультиклональной селекции на похожие варианты почерковых объектов, но принадлежащих лицам, не являющимися авторами исследуемого образца почерка. Тем самым становится возможным, если не найти автора почерка, то, как минимум, исключить тех лиц, которым этот почерк не может принадлежать. Пример визуализации результатов анализа почерка представлен в приложении В.
Для разработки информационной системы, основанной на иммунных процедурах (далее системы), прежде всего необходимо было определиться с ее предназначением. С одной стороны, предложенные процедуры, ввиду своей специфики, могут быть применены в широком спектре задач, будь то решение задач определения автора неизвестного почерка в криминалистике, что является целевым предназначением разрабатываемого метода, или, при различных модификациях, анализ информационного потока различной информации, которая может быть представлена в виде некоего шаблона. С другой стороны система должна решать задачу выявления закономерностей в информационном потоке рукописного текста для определения автора почерка в рамках поставленных ограничений, где основным инструментом является разработанная иммунная процедура.
Для выполнения диссертационной задачи система должна реализовать разработанную процедуру, в виде отдельного структурного звена. Система должна позволять хранить, отображать, обрабатывать, преобразовывать большие массивы данных, которые представляются преимущественно в виде графической информации – образцов почерка. Современные информационные технологии и также возможность широкополосного доступа к сети Internet позволяют создать централизованное хранилище информации для ее сохранности. Такое хранилище может быть реализовано как на одном из серверов в сети Internet, так и на локальном сервере или серверах организации, использующей систему. Такой подход обеспечит доступ к базам данных почерков из различных мест различным специалистам. Мы считаем, что в виду специфики работы эксперта-криминалиста, нужно дать ему возможность сохранить отдельные выборки данных децентрализовано, то есть, используя жесткий диск своего рабочего компьютера, минуя локальную или глобальную сеть. Для этого необходимо создать механизмы, позволяющие производить работу с данными различными способами. Так, например, данные в централизованном хранилище могут быть сохранены с использованием одной из множества известных систем управления базами данных, которые могут быть установлены на сервер. На жестком диске данные могут храниться в виде файлов в специальном разработанном формате.
Так как образцы почерка неизвестного лица, чаще всего представляются в виде текста, необходимо иметь возможность загрузить в систему изображение этого текста и иметь возможность выделить необходимые образцы для анализа.
Система должна иметь возможность выводить результаты анализа в человекопонятной форме.
Для анализа и тестирования иммунных процедур архитектура и функционал системы должны позволять менять процедуры и производить их настройку и корректировку. Также должны выводиться все необходимые отладочные данные и промежуточные результаты вычислений процедур.
Исходя из поставленных требований, для реализации программной системы был выбран объектно-ориентированный подход (ООП), как самый эффективный и гибкий на данный момент. Он позволит представить основные элементы иммунной системы в виде отдельных объектов, что позволит упростить описание механизмов взаимодействия между ними. Соответствие между понятиями иммунного аппарата и понятиями в судебной экспертизе почерка представлены в табл. 3.1:
Антитело Символ, находящийся в базе данных с установленным автором Иммунитет База данных антител Аффинность между антителом и антигеном Степень схожести символа из БД с исследуемым символом
Парадигма объектно-ориентированного программирования (ООП) предполагает разбиение программы на отдельные логические компоненты, названные объектами. Эти объекты можно описать посредством переменных, в которых хранятся некоторые значения, обозначающие свойства объектов, и методов, которые позволяют реализовать возможности или функционал объекта. Такие объекты в программировании называются классами.
Для разработки программы принято решение использовать шаблон SDI(Single Document Interface). Использование этого шаблона продиктовано отсутствием необходимости работы с несколькими документами, по сути, в разрабатываемой системе понятие документ отсутствует по определению в отличие , например, от Microsoft World, где пользователь имеет возможность работать с одним или несколькими текстовыми документами.
Интерфейс пользователя является одним из главных элементов приложения. В интерфейсе находятся элементы управления программой, поля ввода-вывода и различные окна, содержащие необходимую для работы информацию. Интерфейсом должен управлять отдельный объект, который реализует функционал и обрабатывает действия пользователя, а также считывает и выводит информацию на экран. Прочие объекты системы требуют более подробного рассмотрения. Все они представлены на Рисунок 3.5. Опишем структурные модули, представленные на этом рисунке. Некоторым из них дадим названия, схожие с ранее введенными понятиями. По нашему мнению, это облегчает понимание функции этих модулей в построенной системе и упрощает проведение аналогий с материалом, рассмотренным ранее.
Подготовка и описание экспериментов
В настоящее время для решения вышеупомянутой проблемы ведутся исследования с применением процедур, основанных на принципах работы биологических систем, а наиболее перспективными представляются методы ИИ, потому что их возможности наиболее адекватно отражают аналитический образ работы мозга эксперта.
Наилучших результатов удалось добиться при использовании аппарата нейронных сетей, однако ряд исследований указывает на превосходство процедур искусственных иммунных систем над нейросетевыми при решении ряда классификационных задач.
Иммунный аппарат не требует наличия специальных технических средств, обладает способностью решать неформализуемые и трудно формализуемые задачи и способен эмулировать аналитические способности эксперта за счет способности проводить многоэкстремальный анализ и выстраивать причинно-следственные связи.
Автором работы проведен анализ всех основных направлений, существующих в теории искусственных иммунных систем, а также были реализованы иммунные методы, основанные на этих направлениях в приложении к задаче исследования. По результатам опытного тестирования этих методов был выявлен ряд их особенностей. В частности, обладая выявленными недостатками в приложении к задаче исследования, иммунный аппарат, представленный рассмотренными методами, позволяет получать результаты анализа информационного потока рукописного текста, превосходящие по качеству известные аналитические методы решения задачи исследования.
С целью устранения выявленных недостатков, а также повышения качества анализа информационного потока рукописного текста и производительности был разработан иммунный метод мультиклональной селекции. Метод основан на механизмах и идеях, положенных в основу существующих теорий клональной селекции, идиотипических сетей Ерне и теории опасности. Предложенный метод отличается наличием оператора для автоматического определения оптимального количества антител. Оператор после завершения работы (остановки) процедуры позволяет учитывать динамику изменения аффинности всей иммунной сети, а не только отдельных ее элементов.
Особенность метода мультиклональной селекции заключается в том, что образцы почерка, поданные на анализ, рассматриваются не как отдельные объекты, а как комплекс взаимосвязанных признаков.
В ходе моделирования иммунных процедур были созданы три программы.
Программа «Imalga» предназначена для тестирования существующих и разрабатываемых иммунных процедур. С точки зрения практической ценности программа позволила экспериментальным путем получить ряд идей, нашедших воплощение в разработанной иммунной процедуре. В дальнейшей работе «Imalga» может быть также использована для проверки и тестирования других иммунных процедур.
Программа «Для сегментации текста» реализует процедуру DCA, основанную на теории опасности, и позволяет производить автоматическое разбиение рукописного текста на отдельные символы на удовлетворительном уровне. В сравнении с существующими методами разработанная программа показывает хорошие результаты и указывает на перспективность научных изысканий в направлении сегментации текста.
На основе процедуры мультиклональной селекции предложена структурная схема и разработана информационная система «HWChecker», позволяющая пользователю решать задачу выявления автора неизвестного текста по образцу его почерка. Система удобна и проста в использовании и позволяет работать с базами данных почерков, выделять, загружать и сохранять образцы неизвестного текста в локальное или глобальное хранилище. Анализ неизвестного почерка производится на основании образцов почерка, поданных на анализ. Поиск происходит среди лиц, образцы почерка которых занесены в базу данных почерков, открытую в настоящий момент.
Было произведено опытное тестирование разработанного метода мультиклональной селекции. Для этого была собрана база данных почерков 300 человек в возрасте от 20 до 45 лет, насчитывающая образцы рукописных символов всего русского алфавита. В ходе опытов были установлены зависимости времени выполнения и качества анализа информационного потока рукописного текста для определения автора неизвестного текста от количества образцов, поданных на анализ, и размера базы данных почерков.
Также проведена аналогичная серия опытов с человеком-экспертом, и установлены аналогичные зависимости.
Оценка комплексной эффективности показала, что предлагаемый иммунный метод мультиклональной селекции превосходит по эффективности существующие методы решения задачи определения автора неизвестного текста за счет производительности и качества сходимости результата анализа почерка. Он не может сравниться с аналитическими способностями человека, однако выигрывает у него по быстродействию, особенно при больших объемах баз данных.
Программа «HWChecker» может быть использована как средство сужения круга вероятных авторов исследуемых образцов почерка.
Основные теоретические и практические результаты диссертационной работы использованы при разработке программного модуля анализа рукописных данных с целью использования в составе программного продукта «АСУ УЗ Universys Web Server» ООО «ГИСОФТ», а также реализованы в виде информационных систем, что подтверждено 3-мя свидетельствами об официальной регистрации программ для ЭВМ №№ 2013610807, 2013613885, 2013615713, а также актом внедрения.
Диссертационная работа была удостоена гранта и выполнена в рамках НИОКР по программе фонда содействия развитию малых форм предприятий в научно-технической сфере «УМНИК», а также поддержана грантом РФФИ №12-07-00252/12 по теме «Разработка методов и алгоритмов интеллектуального управления сложными технологическими процессами и системами в условиях стохастических возмущений» и хоздоговором ОАО «Проэктэлектромонтаж» по теме «Исследование модели оператора» №91 от 12.09.11.
Разработанные методы и процедуры могут быть применены в ряде систем, связанных с распознаванием графической информации и компьютерным зрением, так как имеют под собой общий механизм распознавания образов.
Результаты, полученные при моделировании и опытном тестировании иммунных процедур, могут быть использованы в дальнейших исследованиях по развитию иммунного аппарата.