Содержание к диссертации
Введение
1 Аналитический обзор существующих подходов к автоматической классификации текста
1.1 .Постановка задачи автоматической классификации текстов 14
1.2. Анализ традиционных подходов к решению задачи автоматической классификации текста 18
1.3 .Решение задачи автоматической классификации текста на базе ассоциативных нейронных сетей 42
1.4. Обоснование выбора гибридного1 подхода к автоматической классификации 49
1.5.Выводы1 52
2 Разработка гибридного-подхода к построению нейронной сети .
2.1. Основные направления создания гибридных моделей 53
2.2. Принципы построения гибридной модели 56
2.3. Разработка основных этапов создания гибридной модели 64
2.4. Выбор архитектуры гибридной нейронной сети 73
2.5. Выбор типов семантических отношений и связей для гибридной сети 82
2.6.Выводы 86
3 Построение гибридной модели автоматического классификатора
3.1. Выбор формы представления текста в гибридной нейронной сети 88
3.2. Разработка структуры гибридной нейронной сети 95
3.3. Разработка математической моделигибридной сети 98
3.4. Разработка обобщенного алгоритма создания гибридной модели автоматического классификатора 111
3.5. Реализация 1 и 2 этапов создания гибридной модели 122
3.6. Разработка преобразование гибридной сети в сеть, аналогичную ассоциативной нейронной сети 125
3.7. Выводы 129
4 Вычислительный эксперимент и анализ работы разработанного гибридного нейросетевого классификатора
4.1. Результаты проведения вычислительного эксперимента на тестовых примерах 131
4.2. Выводы 139
Заключение 141
- Анализ традиционных подходов к решению задачи автоматической классификации текста
- Основные направления создания гибридных моделей
- Выбор формы представления текста в гибридной нейронной сети
- Результаты проведения вычислительного эксперимента на тестовых примерах
Введение к работе
В настоящее время большое внимание уделяется повышению уровня интеллектуальности различного рода автоматизированных систем, исследованию и разработке методов и средств представления знаний, получению оптимальных решений на их основе. Это в полной мере относится к задаче автоматической классификации текстов, актуальность которой повышается по мере внедрения и развития информационных технологий.
Исследования и разработки в области автоматической обработки текста в Европе и США привлекают внимание крупнейших фирм и государственных организаций самого высокого уровня, в нашей стране это направления активно развивают различные научные школы. Особенное значение данное направление приобрело в связи с активным распространением^ глобальных, информационных сетей. В-связи с этим пристальное внимание привлекают также работа поисковых систем, систем классификации и реферирования, извлечения знаний, в общем, систем для обработки информации с целью повышения эффективности ее использования.
Развитие не только глобальных компьютерных сетей, но и полнотекстовых баз данных привело к постоянному наращиванию информационных текстовых ресурсов: образовательные центры организуют в Интернете базы научных статей, авторефератов, многие организации предоставляют доступ к ресурсам электронных библиотек, публикуются тысячи полных текстов докладов и т.п. При постоянном и интенсивном возрастании объемов текстовой информации, трудности поиска требуемых сведений среди множества доступных текстов значительно уменьшают ее ценность. Поэтому особенную значимость автоматическая классификация текстовых документов имеет для информационно-поисковых систем глобальных сетей, полнотекстовых баз данных. Исходя из этого, задача автоматической классификации текста, представляя собой частный случай задачи распознавания смысла, является в настоящее время актуальной проблемой, затрагивающей различные сферы
5 человеческой деятельности, т.к. ее решение позволит полностью автоматизировать процесс обработки, классификации и поиска информации.
В настоящее время в мире существуют и активно развиваются системы автоматической классификации текста, специализированные системы полнотекстового анализа (например, в России это "Следопыт", "ТекстАналист") позволяющие проводить автоматическую классификацию и реферирование текстов.
Существует множество подходов к решению задачи автоматической обработки, распознания и классификации текстовой информации, однако внимание, уделяемое данной проблеме, однозначно свидетельствует, что ни-один из них не является исчерпывающим. Наиболее часто используемыми методами в таких направлениях, как распознавание и классификация (либо генерация) речи являются статистические методы. К ним относятся: статистические классификаторы на основе вероятностных методов, методы многомерного статистического анализа, в частности, факторного анализа, кластерного анализа, таксономии, распознавания образов без учителя, частотный анализ текста, математический анализ текста на основе законов Зипфа (Zipf) [1-5].
В некоторых областях, например, лексико-грамматическом анализе предложения, синтаксический анализ предложения, автоматическое реферирование, в большей степени применяются лингвистические методы.
Зачастую в системах автоматического реферирования применяются как лингвистические, так и статистические методы.
Лингвистические методы в современных приложениях автоматической классификации и распознания (анализа) часто используются совместно с методами искусственного интеллекта, особенно с семантическими сетями. Семантические сети строятся на основе выделенных лексических или синтаксических отношений.
Из методов искусственного интеллекта для решения данной проблемы применялись нейронные сети, семантические сети, экспертные системы.
Нейронные сети используются для решения таких задач, как распознавание, классификация, кластеризация. Семантические сети в эффективны не только с точки зрения классификации и реферирования, но и выделения смысла текста и зачастую опираются на лингвистический аппарат.
Так как автоматическая классификация является подзадачей распознавания смысла, для которой используются модели представления знаний, логичным будет совместить нейронные сети, осуществляющие классификацию (кластеризацию) по признакам, и семантические сети с заранее установленными связями между объектами, имеющими имя и значение.
Под ассоциативной нейронной сетью в данной работе понимается некая упрощенная математическая модель биологической нейронной сети [6]. Математическая модель нейронной сети является системой матричных преобразований, реализованной посредством цифровых вычислительных машин.
Семантическая сеть представляет собой иерархическую сеть, в вершинах которой находятся информационные единицы. Дуги семантической сети соответствуют различным связям между информационными единицами. При этом иерархические связи определяются отношениями структуризации, и могут описываться языком математики, например, логикой предикатов.
Классификация - указание некоторого класса или принадлежности к нему рассматриваемых объектов, в основе которой, как правило, лежит выбор в процессе предварительной обработки данных признаков, по которым осуществляется отнесение к какому-либо классу.
Можно условно представить вышесказанное в виде иерархии с точки зрения представлений следующего вида:
нейронная сеть — уровень описания общей структуры системы, состоящей из объектов;
семантическая сеть — уровень взаимодействия, отношений между объектами;
классификация — уровень математических операций над объектами, между которыми уже установлены связи.
Фактически, автоматическая классификация представляет собой математические операции над объектами, представленными математически.
Исходя из вышесказанного, несмотря на принципиальные различия, нейронную и семантическую сети можно представить математическими преобразованиями, что позволяет найти некий универсальный математический аппарат для создания эффективного гибрида. Представляется интересным совместить в единой гибридной модели свойства различных подходов.
В настоящее время в связи с появлением новых возможностей, а также отсутствием новой принципиальной идеи, разработка гибридных моделей, совмещающих принципиально различные подходы, стала одним из наиболее актуальных направлений. В основном разрабатываемые гибридные модели носят прикладной характер, и направлены на наиболее эффективное решение какой-либо конкретной задачи в различных сферах деятельности. Интенсивно развиваются в настоящее время гибридные модели представления знаний в интеллектуальных системах [7-12].
Сфера применения разработанной модели достаточно обширна. Это информационно-поисковые системы, системы автоматической классификации, библиотечно-справочные системы, в роботах-поисковиках, системах обработки текстовой информации, Text Mining.
Гибкость разработанной модели позволяет как классифицировать текстовые документы по заранее заданному классификатору, так и выделять классы, основанные на подобии документов.
В данной работе осуществляется попытка отойти от традиционного направления классификации на нейронных сетях, как работы с признаками, и обратить большее внимание на смысловые единицы (слова), содержащиеся в тексте, и связи между ними, что традиционно является прерогативой семантических сетей. Проанализировав качества нейронных и семантических сетей, предложена модель, позволяющая частично компенсировать недостатки и сложности при построении обоих сетей, за счет поэтапного изменения конфигурации гибридной сети.
В работе предложена модель, использующая в своей основе семантические, смысловые связи, отраженные на ассоциативной нейронной сети. Таким образом, возникает возможность использовать преимущества ассоциативной нейронной сети, позволяющие выделять собственные закономерности, и обучаться, и возможности семантических связей при создании «семантического образа» области знания, раздела классификации или поискового запроса.
Разработанный подход дает значительное преимущество по сравнению со статистическими методами, и классификацией с помощью ключевых слов и содержащихся в тексте терминов. Это возможно, прежде всего потому, что в разработанной модели учитывается не только термины, собственно присутствующие Bf тексте, но и их семантическая связь с другими словами и понятиями; объединенными в семантические образы различных классово областей знаний. Таким образом, одни и те же термины могут входить в различные семантические образы, областей знаний, разделов, что дает более точную классификацию документа. Начальные семантические связи формируются с использованием принадлежности терминов к областям знаний. Особенностью разработанной модели является также то, что последующие семантиче--ские образы создаются на базе ассоциаций и закономерностей, полученных ассоциативной нейронной сетью.
При классификации документа рассматривается не только входящая в него терминология, но и ее окружение, контекст. Учитывать связи между словами в документе можно с помощью ассоциативной нейронной сети, устанавливая ассоциативную связь между словами. Это позволяет, например, уточнять поиск «документа по подобию». Такая возможность позволяет обучать построенную гибридную сеть.
Таким образом, в предложенной модели делается попытка объединить семантические и ассоциативные связи на базе ассоциативной- нейронной сети.
9 ;'.*,:'
Особенностью предложенной в работе модели является то, что в ней используется; заранее установленные семантические отношения;, семантические образы областей знаний и разделов, но при этом сохраняется возможность обучения сети, введения новых ассоциативных связей, выделения неявных закономерностей, что является чертой ассоциативных нейронных сетей. Составление семантического образа предметной области эффективно используется в классификации, однако в нем отсутствует возможность обучения, введения новых отношений, гибкость, которые являются отличительными чертами разработанной модели. Исходя из этого, использование предложенной в работе гибридной модели полезно и перспективно.'
Хотя существует множество различных алгоритмов для автоматической классификации; они не дают исчерпывающее решение. Ценность* модели состоит также, помимо вышесказанного, в попытке решить задачи автома- : тической? классификации без выделения признаков и не подвергая: текст сложному лексико-грамматическому анализу.: Положительной чертой* предложенного подхода является! то, что- он позволяет существенно упростить трудоемкий процесс обучения нейронной сети.
Таким образом, задача автоматической классификации текста, представляя собой частный случай задачи распознавания смысла, является в настоящее время актуальной проблемой, затрагивающей различные сферы; человеческой деятельности, т.к. ее решение позволит полностью; автоматизировать процесс обработки, классификации и поиска информации.
Целью диссертационной работы является разработка и исследование новых методик, моделей и алгоритмов построения гибридных моделей нейронных и семантических сетей для применения их при автоматической классификации текста.
Для достижения поставленной цели необходимо решить следующие задачи:
1) Разработка гибридной модели на основе нейронной и семантической
сетей;
Разработка методики представления семантических связей между объектами на базе нейронной сети;
Разработка обобщенного алгоритма создания гибридной модели;
Разработка структуры и параметров гибридной модели сети> для автоматической классификации текста;
Выбор и обоснование основных характеристик гибридной сети (структуры нейронов, сумматора, активационной и пороговой функций, установление синаптических весов, оптимального количества тактов передачи сигнала);
Разработка методики преобразования гибридной сети в ассоциативную нейронную сеть;
Исследование'полученной сетевой модели, с точки зрения ее соответствия выполнению задачи.автоматической классификации текста.
Для решения поставленных задач* использовались, следующие* методьк исследований: элементы теории алгоритмов, методы теории искусственного интеллекта, методы теории.нейронных сетей, элементы статистического анализа.
Научная новизна диссертационной работы заключается в следующем:
Разработке гибридной модели на основе нейронной и семантической сетей, предназначенной для автоматической классификации текста;
Разработке новой методики представления семантических связей меж-ду объектами на базе нейронной сети;
Разработке обобщенного алгоритма создания гибридной модели;
\ 4. Разработке структуры и параметров гибридной модели сети для авто-
] матической классификации текста;
5. Разработке методики преобразования гибридной сети в ассоциативную
g нейронную сеть, особенностью которой является то, что последующие
\ семантические образы создаются на базе ассоциаций и закономерно-
\
( стей, полученных ассоциативной нейронной сетью.
Практические ценности работы представляют:
Пакет программ для выполнения автоматической классификации, разработанный на основе представленного в работе алгоритма создания гибридной модели сети, позволяющий проводить автоматическую классификацию текстовых документов;
Пакет программ, реализующих преобразование гибридной сети в ассоциативную нейронную сеть на основе разработанного алгоритма конвертации.
Реализация результатов работы. Основные теоретические и практические результаты диссертационной работы использованы в госбюджетной НИР «Применение интеллектуальных методов при разработке информационных систем в науке, технике и образовании» (Г-6.06.ВИС). Результаты работы были внедрены в научно-исследовательском институте перспективных технологий (НИИ ПТ) Волгодонского института сервиса Южно-Российского государственного университета экономики и сервиса (ВИС ЮРГУЭС), ООО НПФ «Южно-Российский информационной центр».
Материалы диссертации были использованы в учебном процессе на кафедре «Информатика» Волгодонского института сервиса (ВИС) (филиала ЮРГУЭС), при чтении лекций, проведении практических и лабораторных занятий по учебным дисциплинам: «Интеллектуальные информационные системы» и «Представление знаний», а также на кафедре «Прикладная информатика» Технологического института Южного Федерального университета в г. Таганроге, при выполнении курсовых и дипломных работах, чтении лекций, проведении практических и лабораторных занятий по учебным дисциплинам «Интеллектуальные интернет-технологии», «Методы интеллектуального анализа данных», а также в научно-исследовательской работе студентов.
Основные теоретические и практические результаты диссертационной работы использованы в научно-исследовательской работе, выполненной по гранту при финансовой поддержке Президента Российской Федерации (проект №МК-119.2003.01).
Апробация основных теоретических и практических результатов работы проводилась на IV Международной научно-практической конференции «Моделирование. Теория, методы и средства» (Новочеркасск, 2004г.), Международной научной конференции «Анализ и синтез как методы научного познания» (Таганрог, 2004г.), внутривузовской конференции ЮРГУЭС (2004 г.).
Публикации. Результаты диссертации отражены в 8 печатных работах.
Структура и объем диссертационной работы.
Диссертационная работа состоит из введения, 4 разделов, заключения, списка литературы из 155 наименований, стр. приложений и актов об использовании.
Содержание работы:
Во введении обоснована актуальность темы диссертационной работы, поставлена цель работы, приведены основные научные положения, выносимые на защиту, представлены сведения о практической ценности, реализации и внедрении, дано общее описание выполненной работы.
Bv первом разделе приводится постановка задачи автоматической классификации текста. Проводится анализ существующих подходов к решению подобных задач. Рассматривается обобщенная структура автоматической системы классификации текста. Проведен анализ традиционных подходов к решению задачи автоматической классификации текста. Рассмотрено решение задачи автоматической классификации текста на базе ассоциативных нейронных сетей, а также их свойства, строение и различные области применения. Проведено сравнение семантической и нейронной сетей, их сильных и слабых сторон с точки зрения выбора типа сети для решения задачи автоматической классификации текста. На основе проведенного сравнения сделан вывод о ценности гибридной модели, позволяющей компенсировать недостатки обоих подходов. Выбран подход к решению задачи автоматической классификации текстов на основе использования гибридной архитектуры, с
13 помощью которой можно компенсировать недостатки каждого из механизмов
Второй раздел посвящен разработке гибридного подхода к построению ассоциативной нейронной сети, предназначенной для автоматической классификации текстовых документов. Исходя из сопоставления преимуществ и недостатков семантической и нейронной сетей применительно к поставленной задаче, выделен принцип и разработаны основные этапы создания гибридной модели. Приводится анализ и выбор сетевой архитектуры, исходя из поставленных целей разработки системы классификации. Проведен сравнительный анализ семантических и неиросетевых систем, на основе чего сделан вывод о необходимости частичной замены процесса обучения в, разрабатываемой гибридной модели заранее установленными семантическими* отношениями между объектами. Выбран тип семантических отношений и способ их отображения на ассоциативной нейронной*сети. Єделан вывод о том, что такой подход позволяет, частично компенсировать недостатки обоих парадигм и значительно упростить процедуру создания*модели.
В третьем разделе приводится методика создания гибридной нейросе-тевой модели, позволяющая классифицировать текст, используя заложенную в текст терминологию и ее семантические связи, а также выделение неявных ассоциаций. Представляются основные параметры работы сети, сделан и обоснован выбор активационной функции. Приведен пример работы сети на начальном этапе, а также описание создаваемой гибридной модели, созданной с целью найти гибридную архитектуру, в которой можно компенсировать недостатки каждого из подходов. Представлен алгоритм создания сети. Предлагается принцип преобразования гибридной сети в аналогичную ассоциативной нейронной, благодаря чему нейронная сеть может выделять собственные закономерности, исходя из предоставленных ей примеров. Приведен пример работы сети на начальном этапе.
Четвертый раздел посвящен проведению вычислительного эксперимента. Приводятся результаты вычислительного эксперимента, проведенного с
14 целью проверки правильности работы разработанного гибридного классификатора, и сравнения его с программами, основанными на наиболее популярных алгоритмах классификации. Проанализированы данные о работе классификатора, на основании которых делается вывод о его работоспособности.
В заключении изложены основные выводы и результаты диссертационной работы.
В приложениях приведены копии актов внедрения, исходные тексты основных процедур программы автоматической классификации на языке Visual Basic, реализующей предложенную модель гибридной сети.
Анализ традиционных подходов к решению задачи автоматической классификации текста
Второй раздел посвящен разработке гибридного подхода к построению ассоциативной нейронной сети, предназначенной для автоматической классификации текстовых документов. Исходя из сопоставления преимуществ и недостатков семантической и нейронной сетей применительно к поставленной задаче, выделен принцип и разработаны основные этапы создания гибридной модели. Приводится анализ и выбор сетевой архитектуры, исходя из поставленных целей разработки системы классификации. Проведен сравнительный анализ семантических и неиросетевых систем, на основе чего сделан вывод о необходимости частичной замены процесса обучения в, разрабатываемой гибридной модели заранее установленными семантическими отношениями между объектами. Выбран тип семантических отношений и способ их отображения на ассоциативной нейронной сети. Єделан вывод о том, что такой подход позволяет, частично компенсировать недостатки обоих парадигм и значительно упростить процедуру создания модели.
В третьем разделе приводится методика создания гибридной нейросе-тевой модели, позволяющая классифицировать текст, используя заложенную в текст терминологию и ее семантические связи, а также выделение неявных ассоциаций. Представляются основные параметры работы сети, сделан и обоснован выбор активационной функции. Приведен пример работы сети на начальном этапе, а также описание создаваемой гибридной модели, созданной с целью найти гибридную архитектуру, в которой можно компенсировать недостатки каждого из подходов. Представлен алгоритм создания сети. Предлагается принцип преобразования гибридной сети в аналогичную ассоциативной нейронной, благодаря чему нейронная сеть может выделять собственные закономерности, исходя из предоставленных ей примеров. Приведен пример работы сети на начальном этапе.
Четвертый раздел посвящен проведению вычислительного эксперимента. Приводятся результаты вычислительного эксперимента, проведенного с целью проверки правильности работы разработанного гибридного классификатора, и сравнения его с программами, основанными на наиболее популярных алгоритмах классификации. Проанализированы данные о работе классификатора, на основании которых делается вывод о его работоспособности. В заключении изложены основные выводы и результаты диссертационной работы. В приложениях приведены копии актов внедрения, исходные тексты основных процедур программы автоматической классификации на языке Visual Basic, реализующей предложенную модель гибридной сети. В данной главе приводится постановка задачи автоматической классификации текста. Проводится анализ существующих подходов к решению подобных задач. Рассматривается обобщенная структура автоматической системы классификации текста. Проведено сравнение семантической и нейронной сетей, их сильных и слабых сторон с точки зрения выбора типа сети для решения задачи автоматической классификации текста. На основе проведенного сравнения сделан вывод о ценности гибридной модели, позволяющей компенсировать недостатки обоих подходов. Классификация включает все процессы, заканчивающиеся указанием некоторого класса или принадлежности к нему рассматриваемых объектов и данных. Классификацией называют упорядоченное по некоторому принципу множество объектов, которые имеют сходные классификационные признаки (одно или несколько свойств), выбранных для определения сходства или различия между этими объектами. Классификация - это закономерность, позволяющая делать вывод относительно определения характеристик конкретной группы. В зависимости от выбранных признаков, их сочетания и процедуры деления понятий классификация может быть: простой (деление родового понятия только по признаку и только один раз до раскрытия всех видов), сложной (применяется для деления одного понятия1 по разным основаниям и синтеза таких простых делений в единое целое).
Основные направления создания гибридных моделей
Данная глава посвящена разработке гибридного подхода к построению ассоциативной нейронной сети, предназначенной для автоматической классификации текстовых документов. Рассматривается обобщенная структура автоматической системы классификации текста на основе ассоциативных нейронных сетей. Приводится анализ и выбор сетевой архитектуры, исходя из поставленных целей разработки системы классификации. Рассмотрены основные направления создания гибридных моделей. Проведен сравнительный анализ семантических и нейросетевых систем, на основе чего сделан вывод о необходимости частичной замены процесса обучения в разрабатываемой гибридной модели заранее установленными семантическими отношениями между объектами. Исходя из сопоставления, преимуществ и недостатков семантической и нейронной сетей применительно к поставленной задаче, выделен принцип и разработаны основные этапы создания гибридной модели. Сделан вывод о том, что такой подход позволяет частично компенсировать недостатки обоих парадигм и значительно упростить процедуру создания модели.
Основные сетевые парадигмы были разработаны еще в середине прошлого столетия и в настоящее время не были предложены принципиально новые идеи, как в создании нейронных сетей, так и в сфере искусственного интеллекта в целом. В тоже время развитие современных технологий позволяет осуществлять ранее недоступные проекты благодаря появлению новых вычислительных средств. В их основе лежит аналогия с функционированием нервной системы человека, поэтому структуры такого рода называют нейро-подобными сетями [74]. Одним из основных свойств нейроподобных сетей является ассоциативность, т.е. способность восстанавливать информацию по ее малой части и устанавливать сходство различных объектов по их описанию [74].
Особенностью нейронных сетей является параллельная работа, и поэтому моделирование таких сетей на ЭВМ, имеющих традиционную архитектуру, требует затрат большого количества времени. Для ускорения этого процесса появились специализированные устройства — нейрокомпьютеры.
На нейрокомпьютерах целесообразно решать задачи, в которых традиционно силен человек: ассоциативный поиск информации, распознавание зрительных и слуховых образов, формирование сложных моделей внешнего мира для автоматического выполнения работ в реальной среде, построение баз знаний о некоторой предметной области, построение систем поддержки принятия решений. Нейрокомпьютеры слабы в области выполнения расчетных работ, связанных с большим объемом вычислений, высокой точностью. Поэтому во многих случаях их целесообразно использовать совместно с ЭВМ. Как правило, нейрокомпьютеры так и разрабатывают в виде приставки к персональной или другой вычислительной машине.
В настоящее время разрабатываются универсальные устройства для моделирования различных нейронных сетей, используя высокий уровень электронной технологии, позволяющий реализовывать высокопроизводительные параллельные устройства. Появление новых возможностей, а также отсутствие новой принципиальной идеи, сделало разработку гибридных моделей, совмещающих принципиально различные подходы, одним из наиболее актуальных направлений. В основном разрабатываемые гибридные модели носят прикладной характер[75-80], и направлены на наиболее эффективное решение какой-либо конкретной задачи. Сфера их применения широка и охватывает различные формы деятельности.
Интенсивно развиваются в настоящее время гибридные модели представления знаний в интеллектуальных системах [8-12,81-85]. Для ряда предметных областей недостаточно использовать только численную или символьную модель представления знаний. Использование гибридных моделей представления знаний имеет ряд важных преимуществ [11]: во-первых, появляется возможность использовать в интеллектуальной системе максимально широкий спектр экспертных знаний о предметной области [81], во-вторых, возможно организовать взаимообмен знаниями между различными модулями интеллектуальной системы (в том числе и между модулями, использующими различные парадигмы представления и получения экспертных знаний) [83-85].
Активно используется принцип объединения экспертных систем, особенно основанных на теории нечетких множеств и нейронных сетей в одной гибридной модели. Экспертные системы работают по введенным в них правилам, известным в явном виде [86-88]. Нейронные сети генерируют эти правила на основе обучающих выборок. В данных системах компонента, основанная на нейросетевой парадигме, используется-для пополнения базы, знаний продукционной экспертной системы, а правила экспертной системьъ в свою очередь используются для формирования начальной структуры нейро-сетевого решателя. Подобные модели применяются в сфере техники, медицины, экономики, анализа хозяйственной деятельности и т.п.[75-79,83]
При построении систем поддержки принятия решений также,возможно использование гибридных структур моделей принятия решения по какой-либо проблеме. В [89] показана возможность использования различных технологий поддержки принятия решения в рамках построения1 модели процесса решения одной задачи. Также особенностью такого подхода является возможность ее использования через сеть Интернет.
Выбор формы представления текста в гибридной нейронной сети
Представленная в данном разделе модель нейронной сети является попыткой найти гибридную архитектуру, в которой можно компенсировать недостатки каждой из рассмотренных в предыдущих главах сетевых парадигм (семантической и ассоциативной нейронной). Приводится методика создания гибридной нейросетевой модели, позволяющая классифицировать текст, используя заложенную в текст терминологию и ее семантические связи, и выделения неявных ассоциаций. Представляются основные параметры работы сети, сделан и обоснован выбор пороговой активационной функции. Предлагается принцип преобразования гибридной сети в аналогичную ассоциативной нейронной сети. Приведен пример работы сети на начальном этапе. В конце главы даны общие оценки и рекомендации по представленному материалу.
Основные положения данного раздела опубликованы в [111-119]. Как было отмечено в 1.4, определенной проблемой для текстовой классификации является то, что на вход нейронной сети могут подаваться только числовой вектор, в связи с чем встает вопрос преобразования текстовой информации. Очевидно, что в этом случае теряется непосредственно смысловая, словарная информация.
Для того, чтобы частично избежать этого, в данной работе предлагается ввести смысловые связи, а также каждому нейрону непосредственно присвоить свой номер и значение. Также нужно отметить отсутствие работы с признаками, формирования признаковых пространств. При этом измениться сам принцип обработки входного вектора, способ передачи сигнала.
Однако не смотря на все вышесказанное, вопрос представления текста для подачи на вход нейронной сети неизбежно приходится рассматривать. Тот же вопрос актуален и для нормализации словарных форм при формировании словарей. Так как адекватность, правильность представления текста играет важную роль для автоматической текстовой классификации, нужно остановиться более подробно на методах представления текстов в виде векторов признаков. Необходимость преобразования текста в-вектор признаков (этот процесс также называется векторизацией) определяется тем, что на вход ассо-циативной» нейронной сети могут подаваться только числовые входные векторы. Для этого необходимо, чтобы классифицируемые объекты были представлены, в виде последовательностей чисел одинакового размера шодинакового формата. Эти последовательности называются векторами признаков: Описываемые ниже методы [143] могут быть использованы в комбинации друг с другом. Ниже приводится их выбор и его обоснование для представленной в диссертационной работе модели. Во всех рассматриваемых методах каждая позиция в векторе признаков соответствует некоторому объекту, наличествующему (или отсутствующему) в тексте. Разные методы различаются: типами объектов, соответствующих позициям в векторе, способами вычисления стоящих в векторе значений, способами уменьшения размеров этих векторов. Данные методы, были использованы в работе, с той разницей, что в представленной модели классификация проводится без формирования векто 90 pa признаков. В1 разработанной модели с их помощью проводилось формирование словарей и обработка подаваемых на вход текстов. Первый выбор, который приходится делать при определении процедуры векторизации, это выбор типов объектов, соответствующих позициям в векторе признаков. Здесь возможны следующие варианты. Word Form. Каждая позиция соответствует некоторой форме некоторого слова. Например, словоформам «культура» и «культурами» будут соответствовать разные позиции. Normal Form. Каждая позиция, соответствует нормальной форме4 некоторого слова. Например, словоформам «религиозный» и «религиозному» будет соответствовать одна позиция, а словам «религия» и «религиозному» -разные. SYN. В этом подходе для группирования слов с близкими значениями в рамках одной позиции вектора признаков (и тем самым уменьшения его разт мерности) используется тезаурус. Например, известный тезаурус WordNet [144], основной структурной единицей которого является синеет - синонимическая группа слов. Синсеты связаны отношением гипернимии (отношением «общее — частное»). Каждая позиция в векторе соответствует синсету с учетом отношения гипернимии, так что если, например, в тексте присутствует слово «Windows», то это повлияет на позиции вектора, соответствующие синсетам «операционные системы» и «программы». Достоинствами SYN являются: все формы одного слова соответствуют одному термину, учет синонимии, более емкий образ (описание) класса или темы за счет группирования вместе близких по смыслу слов, вероятность правильной обработки текста повышается за счет использования синонимов, более эффективная обработка текста, смысловая адекватность за счет введения связи «общее —частное». Недостатки . большая трудоемкость формирования тезауруса и синсетов, тезаурус должен быть достаточно большим.
Результаты проведения вычислительного эксперимента на тестовых примерах
Данный раздел посвящен проведению вычислительного эксперимента. Приводятся результаты вычислительного эксперимента, проведенного с целью проверки правильности работы разработанного гибридного классификатора, и сравнения его с программами, основанными на наиболее популярных алгоритмах классификации. Проанализированы данные о работе классификатора, на основании которых делается вывод о его работоспособности.
Для сравнения результатов работы-представленнойшрограммьг (ГНК— гибридный нейросетевой классификатор) были использованы! программы автоклассификации (авторубрикации), основанные на- постоянно используемых, и достаточно «эффективных алгоритмах: «Наивный Байес» и алгоритм SVM-Метод Опорных Векторов, описанных в гл. 1.2.
Релевантность документов в них измеряется целым числом от 0 до 100. Если алгоритм считает, что документ не относится ни к какой рубрике, то возвращается 0.
Однако практика показывает [148], что документы, имеющие значения, близкие к нулю, как правило, тоже далеки от данной рубрики. В работающей системе уровень, ниже которого документы считаются не подходящими к этой рубрике, называют NullJLevel (нулевой уровень).
Первый авторубрикатор был реализован на основе широко известного алгоритма «Наивный Байес» (НБ) [20, 149]. Например, этот алгоритм используется в одном из модулей фильтрации спама популярной почтовой программы The Bat! [148]. Релевантность, возвращаемая этим рубрикатором такая же, как и у базового алгоритма - целое число от 0 до 100.
Для Наивного Байеса Null_Level, согласно экспериментам [148] принят равным 45. Вторая программа-классификатор создана на основе алгоритма SVM, для построения была использована программа SVM-light [150, 151]. Для нее основное значение NullJLevel согласно [148] принято равным 0. В данной реализации был применен метод отделения одной рубрики от всех. Результатом классификации была рубрика с наибольшей релевантностью. Если же релевантность документа для всех рубрик оказалась меньше Null_Level, то считалось, что документ «чужой», т.е. не принадлежит ни какой рубрике. Целью проведенного эксперимента являлась проверка-работоспособности и эффективности разработанной модели, а также сравнение (сопоставление) ее с наиболее популярными алгоритмами классификации. Дляї этого, бы-. ли получены и следующие характеристики [152, 153]: точность и полнота классификации; точность и полнота обнаружения «чужих» документов; F-мера. Точность - это отношение правильно полученных документов ко всем полученным. Полнота - отношение правильно полученных документов ко всем правильным. F-мера - среднее пропорциональное полноты и точности [хор или др]: Тестовая выборка. В качестве основного материала для тестирования использовалась выборка, состоящая из 7 различных разделов: Физика (и статьи адреса тезаурусы) Химия (то же) Математика? - Биология Культура Медицина- Спорт Тексты, документов брались, из www.mavica.net, www.intxiit.ruj www.referats.ru, www.allmed;ru; а также из новостей і сайта Lenta.ru; rbc.ru В каждой рубрике было примерно одинаковое количество документов —от 150 до 200j что обеспечивало равномерность абсолютных результатов — никакая из рубрик не выделялась толькошзтза количества документов;в ней;. Нужно отметить, что) документы, относящиеся» к, разделам «Культура» и; «Медицина»j должны быть отнесены разработанным классификатором к «чужим», неопознанным; Общее; количество документов; в І выборке: составило 1213: документов: Они былшразделены: случайным образом на 2!частишог600 документаш каждой; с сохранением! примерно равного количествам документов по разделам, (примерно по 85 документовв каждом): Обучение программ-классификаторов; (SVM и НБ), используемых для сравнения с разработанным, проводилось на одном из этих двух наборов, а тестирование - на другом. Помимо этого в их обучении участвовали документы, использованные на третьем этапе разработки представленной в работе модели. После этого наборы менялись местами и прогон повторяли. В итого вых данных представлено среднее арифметическое прогонов- что усиливает их. объективность. В таблице представлены усредненные результаты 2 прого нов.