Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Математическое моделирование классификации объектов (на примере определения категории потенциальных адресатов текста) Глазкова Анна Валерьевна

Математическое моделирование классификации объектов (на примере определения категории потенциальных адресатов текста)
<
Математическое моделирование классификации объектов (на примере определения категории потенциальных адресатов текста) Математическое моделирование классификации объектов (на примере определения категории потенциальных адресатов текста) Математическое моделирование классификации объектов (на примере определения категории потенциальных адресатов текста) Математическое моделирование классификации объектов (на примере определения категории потенциальных адресатов текста) Математическое моделирование классификации объектов (на примере определения категории потенциальных адресатов текста) Математическое моделирование классификации объектов (на примере определения категории потенциальных адресатов текста) Математическое моделирование классификации объектов (на примере определения категории потенциальных адресатов текста) Математическое моделирование классификации объектов (на примере определения категории потенциальных адресатов текста) Математическое моделирование классификации объектов (на примере определения категории потенциальных адресатов текста) Математическое моделирование классификации объектов (на примере определения категории потенциальных адресатов текста) Математическое моделирование классификации объектов (на примере определения категории потенциальных адресатов текста) Математическое моделирование классификации объектов (на примере определения категории потенциальных адресатов текста) Математическое моделирование классификации объектов (на примере определения категории потенциальных адресатов текста) Математическое моделирование классификации объектов (на примере определения категории потенциальных адресатов текста) Математическое моделирование классификации объектов (на примере определения категории потенциальных адресатов текста)
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Глазкова Анна Валерьевна. Математическое моделирование классификации объектов (на примере определения категории потенциальных адресатов текста): диссертация ... кандидата Технических наук: 05.13.18 / Глазкова Анна Валерьевна;[Место защиты: Тюменский государственный университет], 2016

Содержание к диссертации

Введение

ГЛАВА 1. Исследование вопросов состояния и развития технологий автоматической обработки и классификации текстов 12

1.1 Проблемы и задачи автоматической обработки текстов 12

1.2 Постановка и этапы решения задачи классификации 17

1.3 Методы классификации текстов 22

1.4 Меры близости текстов 32

Выводы к главе 45

ГЛАВА 2. Математическое моделирование задачи автоматической классификации текстов (на примере их отнесения к определенной возрастной аудитории) 47

2.1 Формальное представление категории и текста 47

2.2 Математическое представление задачи классификации 49

2.3 Признаковое пространство 54

2.4 Оценивание близости текстов 59

Выводы к главе 67

ГЛАВА 3. Программный комплекс для автоматической классификации текстов 68

3.1 Основные функции системы 68

3.2 Архитектура программного комплекса 69

3.3 Модуль хранения текстов 71

3.4 Модуль семантико-синтаксического анализа 90

3.5 Модуль классификации 98

3.6 Сравнительная характеристика программ классификации текстов 106

3.7 Вычислительный эксперимент 110

Выводы к главе 119

Заключение 120

Список литературы 120

Введение к работе

Актуальность темы исследования. В условиях развития информационных ресурсов одним из ключевых направлений современной компьютерной науки является разработка методов систематизации и поиска информации. Процесс решения данных прикладных задач подразумевает, как правило, усовершенствование механизмов классификации текстов на естественном языке.

Вопросы классификации текстов рассматривались, в частности, Е.Д. Агафоновым, В.Б. Барахниным, Т.В. Батурой, К.В. Воронцовым, В.В. Гулиным, А.С. Епревым, Р.В. Мещеряковым, В.В. Поддубным, А.А. Роговым, А.С. Романовым, В.О. Толчеевым, Д.В. Хмелевым, О.Г. Шевелевым, S. Argamon, W. Cohen, Т. Joachims, D. Nguyen, К. Santosh

Одним из актуальных вопросов классификации документов является решение задачи установления характеристик адресата текста. Данная задача затрагивается преимущественно зарубежными исследователями. Так, работы R. Akker и D. Traum, D. Choi, Н. Lee посвящены анализу признаков, характеризующих текст с точки зрения его ориентации на различные категории читателей. Использование данных признаков для текстов, написанных на русском языке, не представляется корректным в силу индивидуальных особенностей синтаксических структур каждого языка. Таким образом, для русскоязычных текстов в настоящее время не существует единого набора классификационных признаков, которые могли бы быть положены в основу определения возрастной аудитории текста.

В рамках данного исследования рассматривается задача классификации текстов на примере их отнесения к той или иной возрастной категории адресатов. Актуальность решения задач, связанных с идентификацией адресата текста, обоснована введением возрастных ограничений на контент интернет-ресурсов, развитием систем электронного обучения, а также малой освещенностью обозначенной проблемы в работах российских ученых. Возможность классифицировать тексты на основании групп адресатов способствует, в первую очередь, улучшению релевантности результатов информационного поиска. Также решение данной задачи позволяет усовершенствовать механизмы исключения из найденной выборки нежелательных ресурсов (например, сайтов, содержание которых рассчитано на пользователя иной категории).

Рассматриваемая задача относится к числу слабоформализуемых за счет сложности естественного языка и многообразия его коммуникативных форм, поиск путей ее решения требует построения адекватных математических моделей классификации.

целью исследования является разработка математических методов моделирования отношений «текст-адресат» и алгоритмов классификации для

определения категории потенциальных адресатов текста, а также создание программного комплекса, реализующего данные методы и алгоритмы.

Для достижения поставленной цели необходимо решить следующие задачи:

  1. Проанализировать существующие методы и алгоритмы классификации текстов.

  2. Разработать подход к математическому моделированию в задачах классификации текстов.

  3. Разработать на основе полученного подхода методы и алгоритмы классификации.

  4. Спроектировать и разработать программный комплекс, реализующий предложенные методы и алгоритмы.

  5. Провести вычислительные эксперименты для тестирования разработанных методов и алгоритмов.

Объектом исследования являются математические методы моделирования задач классификации.

предметом исследования являются методы и алгоритмы определения категории потенциальных адресатов текста на примере отнесения текстов к определенной возрастной аудитории, а также программная реализация предложенных методов и алгоритмов в рамках разработки интеллектуальной системы.

Методология и методы исследования. При проведении исследования применялись методы следующих областей знаний: математическое моделирование, теория множеств, математическая статистика, структурное проектирование информационных систем, объектно-ориентированное программирование, искусственный интеллект (искусственные нейронные сети).

на защиту выносятся следующие результаты, соответствующие четырем пунктам паспорта специальности 05.13.18 — Математическое моделирование, численные методы и комплексы программ:

Пункт 1. Разработка новых математических методов моделирования объектов и явлений.

1. Подход к математическому моделированию классификации объектов
(на примере отнесения текстов к той или иной возрастной категории
адресатов), признакового пространства и зависимости классификаци
онных признаков.

Пункт 3. Разработка, обоснование и тестирование эффективных вычислительных методов с применением современных компьютерных технологий.

2. Численный метод классификации текстов, разработанный на основе
разбиения множества текстов на классы эквивалентности.

Пункт 4. Реализация эффективных численных методов и алгоритмов в виде комплексов проблемно-ориентированных программ для проведения вычислительного эксперимента.

3. Программный комплекс для автоматической классификации текстов.
Проведен вычислительный эксперимент, использующий тексты, вхо
дящие в Национальный корпус русского языка. Результаты компью
терных экспериментов показали адекватность разработанных в дис
сертации математических моделей и методов. Получено свидетельство
о регистрации программы для ЭВМ №2015616462.

Пункт 5. Комплексные исследования научных и технических проблем с применением современной технологии математического моделирования и вычислительного эксперимента.

4. Результаты моделирования процесса классификации текстов и описа
ние на его основе зависимости классификационных признаков.

Таким образом, в соответствии с формулой специальности 05.13.18 в диссертации представлены оригинальные результаты одновременно из трех областей: математического моделирования, численных методов и комплексов программ.

научная новизна исследования заключается в следующем:

1. Математическое моделирование

Разработан и обоснован подход к моделированию классификации текстов (на примере их отнесения к той или иной возрастной категории адресатов), развивающий существующие математические модели классификации за счет возможности учесть в процессе формализации особенности поставленной в работе задачи:

  1. вложенность категорий;

  2. пересечение категорий.

Показана возможность формализации постановки задачи классификации в общем виде.

2. Численные методы

Впервые для решения задачи отнесения текстов к той или иной возрастной категории адресатов предложен и обоснован численный метод классификации текстов, основанный на разбиении множества текстов на классы эквивалентности и позволяющий определить меру близости текстов как расстояние между векторами значений характеризующих их классификационных признаков.

3. Комплексы программ

Для тестирования предложенных моделей и методов создан программный комплекс — интеллектуальная система автоматической классификации текстов. Особенности модульной архитектуры программного комплекса позволяют проводить его гибкую интеграцию в системы работы с электронными документами. Работа модуля классификации текстов выполняется поэтапно. Эксперименты показали, что данный подход к реализации позволяет снизить временные затраты на обучение и работу модуля.

теоретическая значимость работы заключается в следующем:

  1. Предложенный подход, позволяющий формализовать постановку и этапы решения задачи классификации текстов на примере определения их предполагаемой возрастной аудитории, дает возможность получить формальное представление задач отнесения объектов к одной или нескольким пересекающимся или непересекающимся категориям и тем самым развивает теоретические основы формализации задачи классификации.

  2. Разработанный и реализованный численный метод классификации текстов расширяет возможности применения численных методов для решения слабоформализуемых задач и позволяет определить расстояние между текстами на основании их представления в виде наборов значений признаков и соответствующих им весовых коэффициентов.

  3. Предлагаемые в работе математические модели и методы имеют универсальный характер и могут применяться для классификации других видов объектов, модели которых могут быть описаны сходными классификационными признаками.

практическая значимость работы. В целях тестирования разработанных методов и алгоритмов был реализован программный комплекс для автоматической классификации текстов. Программный комплекс оперирует знаниями в рассматриваемой области с целью отнесения текста к той или иной категории.

Разработанный программный комплекс может найти практическое применение в поисковых системах (для отбора релевантного контента), системах обучения, электронных библиотеках и каталогах, системах автоматического реферирования и рецензирования.

достоверность изложенных в работе результатов подтверждается научно-теоретическим обоснованием избранного исследовательского направления; достаточным объемом обучающей и контрольной выборок для проведения вычислительного эксперимента; сравнением результатов вычислительного эксперимента с данными, полученными на основании мнений экспертов; всесторонним анализом полученных результатов и их широким обсуждением.

Внедрение результатов. Результаты диссертационного исследования получили практическое применение в некоммерческом партнерстве по содействию развитию науки и образования «Национальный корпус русского языка» и в негосударственном образовательном учреждении «Югорский учебный центр».

Апробация результатов. Основные результаты исследования докладывались на следующих конференциях и семинарах:

  1. IEEE-семинар «Интеллектуальные системы моделирования, проектирования и управления» (г. Томск, Томский государственный университет систем управления и радиоэлектроники, 2016 г.).

  2. 53 Международная научная студенческая конференция «МНСК-2015» (г. Новосибирск, Новосибирский государственный университет, 2015 г.).

  3. V Международная научно-техническая конференция «Open Semantic Technologies for Intelligent Systems — OSTIS-2015» (Республика Беларусь, Минск, Белорусский государственный университет информатики и радиоэлектроники, 2015 г.).

  4. VIII Международная научно-практическая конференция «Научное творчество XXI века» (г. Красноярск, Научно-исследовательский центр, 2014 г.).

  5. III Международная научно-техническая конференция «Artificial Intelligence and Natural Language — AINL-2014» (г. Москва, Инновационный центр «Сколково», 2014 г.).

  6. Ill Всеукраинская научно-практическая конференция «Интеллектуальные системы и прикладная лингвистика» (Украина, г. Харьков, Национальный технический университет «Харьковский политехнический институт», 2014 г.).

  7. IV Международная научно-техническая конференция «Open Semantic Technologies for Intelligent Systems — OSTIS-2014» (Республика Беларусь, Минск, Белорусский государственный университет информатики и радиоэлектроники, 2014 г.).

  8. XI Всероссийская конференция «Преподавание информационных технологий в Российской Федерации» (г. Воронеж, Воронежский государственный университет, 2013 г.).

  9. VI Научно-практическая межрегиональная конференция «Современные проблемы математического и информационного моделирования. Перспективы разработки и внедрения инновационных 1Т-решений» (г. Тюмень, Тюменский государственный университет, 2013 г.).

публикации. Основные результаты диссертации опубликованы в 12 научных работах, в том числе в 3 статьях в рецензируемых научных изданиях, рекомендованных ВАК для представления основных научных результатов диссертаций на соискание ученой степени доктора или кандидата наук. Также получено свидетельство о государственной регистрации программы для ЭВМ.

структура и объем диссертации. Диссертация состоит из введения, трех глав, заключения, списка литературы и трех приложений. Общий объем работы составляет 141 страницу и включает в себя 26 рисунков и 44 таблицы. Список литературы содержит 154 наименования.

Постановка и этапы решения задачи классификации

Взаимная информация и критерий хи-квадрат сильно отличаются друг от друга. Гипотеза о независимости термина t и класса с иногда может быть отклонена, даже если термин t содержит мало информации о принадлежности классу. Эта ситуация особенно характерна для редких терминов. Если термин в большой коллекции документов встречается только один раз в каком-то определенном классе, то этот факт является статистически важным. Однако с точки зрения теории информации случай единственного появления термина в классе нельзя считать информативным. Критерий хи-квадрат чаще выбирает редкие термины, игнорируемые методом выбора признаков на основе взаимной информации, однако часто являющиеся ненадежными индикаторами. В то же время метод выбора признаков на основе взаимной информации не всегда выбирает все признаки, позволяющие достичь максимальной точности классификации.

К. Маннинг и др. отмечают, что «несмотря на различия между этими методами, точность классификации на основе признаков, выбранных с их помощью, различается незначительно. В большинстве задач классификации текстов существует мало сильных индикаторов и много слабых. Если во множество выбранных индикаторов попадают все сильные и много слабых, то точность классификации должна оказаться высокой. Оба метода позволяют это сделать» [68]. Еще один способ выбора признаков основан на использовании частоты, то есть использовать термины, наиболее часто встречающиеся в документе или содержащихся в наибольшем количестве документов. Недостатком данного метода является то, что его применение может привести к выбору высокочастотных терминов, не несущих в себе информации, важной для классификации и являющихся общеупотребительными и распространенными в языке.

Для повышения эффективности работы классификатора некоторым зонам документа может быть приписан более высокий вес, чем другим. Например, в работе Cohen W. и Singer Y. [125] было предложено приписать более высокий вес словам из заголовка, кроме того, можно увеличить веса частей текста, имеющих большее значение, в работе Murata M. и др. [138] предполагалось, что эффективность классификации новостных документов можно повысить, приписав более высокий вес их первым предложениям.

В настоящее время все большую распространенность в качестве средства решения слабоформализуемых задач приобретают искусственные нейронные сети. Способность нейронных сетей обучаться является их наиболее важным свойством. В связи с этим в настоящее время актуальным вопросом использования нейросетевых технологий является их применения для решения различных задач, связанных с распознаванием образов [85]. Существуют различные модели, способные распознавать различные виды образов: штрих-коды, речь, лица и т.д. Задачи, решаемые при помощи нейронных сетей, весьма разнообразны, что позволяет применять нейросетевые технологии в различных областях науки, в том числе в области искусственного интеллекта и обработки естественного языка.

Основная модель персептрона, предложенная Ф. Розенблаттом и обеспечивающая отнесение образа к одному из двух заданных классов, состоит из сетчатки сенсорных элементов, которые случайным образом соединены с ассоциативными элементами второй сетчатки. Каждый из элементов второй сетчатки воспроизводит выходной сигнал только в том случае, если достаточное число сенсорных элементов, соединенных с его входом, находится в возбужденном состоянии. Сенсорные элементы при этом рассматриваются в качестве устройств, принимающих стимулы из внешней среды, а ассоциативные элементы - как входную часть системы [31]. Реакция системы в таком случае вычисляется по формуле: п+\ (1.8) R= а).Хі = w х, 7=1 где %i - реакция i-го ассоциативного элемента; щ - соответствующий вес. Рост популярности нейросетевых технологий обусловлен способностью нейронных сетей относить объект, представленный в виде набора классификационных признаков, к соответствующей ему категории на основании найденных скрытых закономерностях в данных обучающей выборки. При наличии необходимого числа примеров, по которым производится обучение, классификаторы, использующие нейронную сеть, часто являются оптимальным решением задач, слабо поддающихся формализации.

Очевидным недостатком нейросетевого классификатора можно назвать необходимость его обеспечения обучающей выборкой достаточно большого размера, что не всегда может быть выполнено в реальных условиях. Кроме того, недостатком нейронных сетей является их недетерминированность. После проведения обучения нейронная сеть представляет собой «черный ящик». Логика, согласно которой принимает решение обученная сеть, скрыта как от пользователя, так и, отчасти, от разработчика.

Среди работ, представленных за последнее время, применению нейросетевых технологий в интеллектуальных системах классификации различных объектов посвящены, в частности, статьи Головко В.А. и Крощенко А.А. [30], Долговой Е.В. и Курушина Д.С. [34-35], Палюха Б.В. и др. [89]. Перспективы и основные аспекты применения нейросетевых классификаторов, а также использования нейронных сетей как составной части систем искусственного интеллекта рассмотрены в работе Мелиховой О.А. [70].

Разработке методов классификации текстов на основе нейронных сетей посвящен ряд работ российских и зарубежных ученых. Так, об удобстве использования нейросетевых технологий для проведения иерархической классификации документов говорится в работе Ruiz M. и др. [144]. В статье Шевелева О.Г. и Петракова А.В. [112] проводится сравнение алгоритмов классификации с помощью деревьев решений и нейронных сетей прямого распространения на примере задачи классификации текстов по авторским стилям. В работах Jo T. [128], Ramasundaram S. и Victor S. [142] обсуждается применение нейронных сетей с обратным распространением для рубрикации текстов, представленных в виде векторов, составленных из значимых терминов и их числовых характеристик. В статье Кошкина Д.Е. [53] описывается организация нейронной сети для решения задач классификации текстов по автору или тематическим категориям.

Формой обучения без учителя является кластеризация. При ее использовании подразумевается отсутствие деятельности эксперта, назначающего классы документам, в то время как целью классификации является разделение данных по установленным категориям. Алгоритмы кластеризации разбивают множество объектов на подмножества, называемые кластерами и не заданные до начала кластеризации. Иными словами, алгоритм кластеризации - это функция а: X — У, которая любому объекту х є X ставит в соответствие метку кластера У є Y. Целью является определение оптимального числа кластеров с точки зрения того или иного критерия качества кластеризации [16; 52].

Меры близости текстов

При рассмотрении задачи классификации в общем виде (2.10) считалось, что категории К1,К2,...,Кп - возрастные группы адресатов, являются независимыми. Следовательно, отнесение текста к категории Kt означало, что он не может быть причислен к прочим категориям из множества X В то же время данное представление не всегда соответствует целям проводимой классификации.

Принимая во внимание некоторые особенности предметной области, в контексте данной задачи имеет смысл говорить о вложенности категорий. Очевидно, что текст, адресованный некоторой возрастной аудитории, может предназначаться и другим возрастным группам. Так, принадлежность текста некой категории подразумевает также то, что он будет понятен читателям старших возрастов. Учитывая описанную особенность, отношения между категориями можно представить в виде К1с К2с ...с Кп, тогда: Т К Т К ,i j п. (211) Обозначенный подход к моделированию предметной области позволяет принять во внимание то, что текст из категории Kt принадлежит также категориям Ki+l,Ki+2...,Kn. Если считать, что категории К1}К2,К3,К4, критические значения признаков для которых приведены в таблице 2.1, являются вложенными друг в друга, то отношения между рассматриваемыми категориями можно представить в виде КХ К2 КЪ КА. Тогда если текст Т относится к категории К2, то он также принадлежит категориям К3 и К4.

В качестве особенности предложенного пути формализации (2.11) следует отметить, что речь в предыдущем примере идет преимущественно не об адресованности текста определенной аудитории, а о его понятности представителям той или иной возрастной группы. Так, в рамках своей коммуникативной деятельности автор составляет текст, имея установку на максимально полное доведение до адресата. Речь ориентирована на слушателя, и естественным следствием такой установки является намерение автора использовать такие содержание и структуру, которые в своей совокупности были бы адекватны пониманию «идеального» реципиента [46]. В нашем же примере особый интерес вызывает то, что содержание и структура текста, адресованного читателям самого младшего возраста, хотя и будут понятны другим категориям реципиентов, могут не соответствовать уровню коммуникативного развития адресатов, относящихся к другим категориям.

Таким образом, в процессе формализации данной задачи имеет смысл предусмотреть возможность причислить текст к ряду пересекающихся категорий, но при этом учесть, что эти категории не всегда будут вложенными друг в друга. Тогда на основании различных наборов классификационных признаков и в зависимости от цели классификации появится возможность отнести текст к различному ряду категорий.

Принимая во внимание данную особенность, можно переформулировать задачу классификации следующим образом. Пусть дан текст Т и множество категорий (Х={К1,К2,...,Кп}. Необходимо найти подмножество ХТ, состоящее из категорий, которым может принадлежать текст: Т ЗСг, ЗСг = {Кг : Т Kt},\ i n,i = j\,j2,...,jm. (212) Для иллюстрации данного подхода рассмотрим категории К1}К2,К3,К4,К5,К6, критические значения признаков для которых приведены в таблице 2.2. Текст Т определяется набором значений признаков FT =(0.3,0.2,0.5/ Таблица 2.2 - Наборы критических значений признаков для категорий К1гК2,К3,К 9? Я2 Яз к\ [0,0.25) [0,0.1) [0,0.4) к2 [0.25,0.5) [0.1,0.3) [0.4,0.7) к3 [0.25,0.5) [0.1,0.3) [0.7,0.9) К4 [0.5,0.75) [0.3,0.5) [0.4,0.7) к5 [0.5,0.75) [0.3,0.5) [0.7,0.9) к6 [0.75,1] [0.5,1] [0.9,1] Сопоставляя значения признаков текста T с критическими значениями признаков категорий, получаем, что T относится к категории K2 в случае, если классификация подразумевает совпадение значений по всем признакам qСj . Если же совпадение значений может быть не полным, а также в ситуации, когда одни признаки имеют меньший вес в сравнении с другими, текст T может относиться одновременно к категориям K2, K3 и K4.

Предложенные варианты формализации задачи классификации текстов представлены в таблице 2.3. Таблица 2.3 – Подходы к формализации задачи классификации текстов Формальная постановка задачи Особенность Т КІ, Кг є % 1 і п Однозначное отнесение текста к одной из существующих категорий T-Kj T-Kjj Jun,K1 K2 ... Kn, 1 i n Отнесение текста к вложенным категориям T ЗСг,ЗСт= {Kt T Kt), 1 i nj = j1,j2,...,jm Отнесение текста к пересекающимся категориям

Подход к формальной постановке задачи классификации текстов с учетом вложенности категорий (2.11) в контексте решаемой задачи может быть представлен в виде (2.10). В случае, когда принадлежность текста некой

категории подразумевает также то, что он будет понятен читателям старших возрастов, требуется найти только ту возрастную категорию, которой адресован текст (минимальную возрастную категорию).

Подход (2.12), учитывающий пересечение категорий текстов, также может быть представлен в виде (2.10). В случае, когда множество категорий содержит пересекающиеся категории (существуют тексты, которые относятся более чем к одной категории), данные пересекающиеся категории могут быть разделены на большее число описанных по отдельности непересекающихся категорий.

Таким образом, на вход системы классификации подается вектор значений признаков, характеризующих текст (признаковое описание текста) FT. Выходом является идентификатор категории Kt - описание класса из набора %={K1,K2,...,KJ. Отличие данного подхода от предложенных ранее (например, в работах Епрева А.С. [39], Нгока Н.Б. и Тузовского А.Ф. [79], Nezreg Н. и др. [139]) состоит в возможности учесть ряд особенностей поставленной в работе задачи (вложенность категорий, пересечение категорий) [24]. Предложены три пути формализации задачи классификации. Показана возможность приведения всех путей формализации к общему виду.

Признаковое пространство

Цель вычислительного эксперимента состоит в сравнении результатов предложенного в работе метода классификации текстов с результатами нейросетевого метода. Корпус текстов В ходе вычислительного эксперимента использовались база данных «Морфологический стандарт Национального корпуса русского языка» и «База данных метатекстовой разметки Национальной корпуса русского языка» (коллекция детской литературы)» [5]. Тексты, составляющие Национальный корпус русского языка, размечены по различным лингвистическим параметрам.

Базы содержат заведомо качественные и максимально разнообразные тексты на русском языке, возрастная категория потенциальных читателей которых – взрослая или детская – определена на основании мнений экспертов. Объем выборки – 532 текста художественной литературы и 510 текстов детской литературы. В базах данных представлены тексты 372 авторов. Распределение текстов по длине (по количеству слов) представлено на рисунке 3.20.

Минимальная длина текстов, входящих в базы данных, составляет 30 слов. По данным, представленным на графике (рисунок 3.20), видно, что более 60% текстов (623 текста) имеют длину не более 500 слов. Средняя длина текста в корпусе составляет 471 слово. Распределение текстов по году их создания представлено на рисунке 3.21. Рисунок 3.21 – Распределение текстов корпуса по году создания Для проведения отбора классификационных признаков также использовались две выборки текстов, находящихся в открытом доступе на сайте Национального корпуса русского языка [78]. Первая выборка представлена художественными текстами различных жанров (историческая проза, приключения, документальная проза и т.д., кроме детской литературы, – всего 5 902 документа, 9 332 659 предложений, 94 538 056 слов), вторая – детской литературой (всего 632 документа, 547 735 предложений, 4 742 627 слов).

В исследовании, в соответствии с предоставленной для эксперимента выборкой, используется деление текстов на детские и взрослые. Поиск классификационных признаков В ходе исследования рассматривались классификационные признаки следующих типов: бинарные, номинальные, порядковые, интервальные (п. 2.3.1). При этом было отмечено, что некоторые из бинарных, номинальных и порядковых признаков не являются определяющими при выявлении принадлежности текста категории. Те же признаки данных типов, которые необходимо учитывать при классификации, могут служить маркерами, которые либо ограничивают круг категорий, либо свидетельствуют о наличии дополнительных уточняющих признаков.

В первую очередь, для формирования набора бинарных, номинальных и порядковых признаков были использованы данные корпусной разметки текстов [5]. Перечень этих признаков представлен в таблице 3.33. В столбце «Возможные значения» приведены значения, принимаемые признаком, для текстов обучающей выборки. Таблица 3.33 – Перечень бинарных, номинальных и порядковых признаков, значения которых получены на основании корпусной разметки Признак Тип признака Возможные значения Возрастная аудитория Номинальный взрослая; детская Год создания Порядковый 1829-2005 (с рядом исключений, отсутствующих в базе) Жанр Номинальный заметка; интервью; мемуары; очерк; рассказ; сказка; статья; учебная литература; фельетон Источник Номинальный газета; журнал; книга Наличие иллюстраций Бинарный присутствуют; отсутствуют Пол автора Бинарный женский; мужской Тип иллюстрации Номинальный график; рисунок; фотография. Функциональный стиль Номинальный научный; публицистический; художественный Хронотоп Бинарный ирреальный мир; реальный мир Таким образом, тексты, входящие в обучающую выборку, изначально разделены на взрослые и детские. Далее был выполнен поиск признаков, значения которых не встречаются в явном виде в разметке (в основном, количественных). Для этого была предварительно проведена фильтрация слов, входящих в рассматриваемые тексты, которая включает в себя следующие этапы: 1) отсечение стоп-слов (союзов, междометий, местоимений, чисел, отдельно стоящих букв, общеупотребительных предлогов и вводных слов); 2) отсечение слов, входящих в более чем m (%) документов. В вычислительном эксперименте значение m варьировалось от 70 до 80 процентов документов.

Затем слова текстов каждой из рассматриваемых выборок были представлены в виде множества лексем, объединяющих в себе словоформы каждого встречающегося в тексте слова, и соответствующих им частотностей. Таким образом, были организованы модели bag-of-words [130] для каждой категории текстов. Сами же тексты были представлены в виде набора предложений [20; 26].

В целях проведения первого этапа классификации в качестве признаков, предположительно являющихся маркерами возрастной аудитории, представляется возможным выделить характеристики, описание которых приведено в таблице 3.34. В столбцах «Взрослые тексты» и «Детские тексты» приводится доля текстов обучающей выборки, относящихся к данной категории, от общего количества текстов, обладающих данным значением признака.

Отличие в количестве значений признаков, приведенных в таблицах 3.33 и 3.34, связано с тем, что в таблице 3.34 присутствуют только те значения, которые являются маркерами возрастной аудитории, то есть такие, присутствие которых с определенной долей вероятности ( 0,9) говорит о принадлежности текста категории.

Величины, представленные в столбцах «Взрослые тексты» и «Детские тексты», были получены на основании анализа обучающей выборки. Соответственно, они обусловлены составом корпуса, предоставленного для анализа. Так, значение «Сказка» признака «Жанр», согласно данным анализа обучающей выборки, говорит об однозначной принадлежности текста детской возрастной аудитории. В то время как на практике значение «Сказка» может соответствовать произведениям для взрослых (например, произведениям братьев Стругацких, Дж. К. Роулинг, Дж. Р. Р. Толкиена).

Необходимо заметить, что некоторые значения признаков не являются однозначными маркерами возрастной аудитории. В частности, для текстов, имеющих значение «График» признака «Тип иллюстраций», принадлежность к взрослой возрастной аудитории определяется с вероятностью 0,98. Однако, поскольку в данном эксперименте производится деление текстов на взрослые и детские, этой неточностью представляется возможным пренебречь. В то же время при проведении классификации детских текстов по более конкретным возрастным категориям выраженность значения данного признака может служить маркером более взрослой аудитории или требовать введения уточняющих признаков.

После проведения анализа оценивается наличие значений, однозначно указывающих на категорию адресатов. На основании полученных представлений текстов (моделей bag-of-words и наборов предложений) были оценены значения количественных признаков двух выборок. Для приведения значений к единому диапазону было дополнительно выполнено нормирование.

Модуль семантико-синтаксического анализа

Отличие в количестве значений признаков, приведенных в таблицах 3.33 и 3.34, связано с тем, что в таблице 3.34 присутствуют только те значения, которые являются маркерами возрастной аудитории, то есть такие, присутствие которых с определенной долей вероятности ( 0,9) говорит о принадлежности текста категории.

Величины, представленные в столбцах «Взрослые тексты» и «Детские тексты», были получены на основании анализа обучающей выборки. Соответственно, они обусловлены составом корпуса, предоставленного для анализа. Так, значение «Сказка» признака «Жанр», согласно данным анализа обучающей выборки, говорит об однозначной принадлежности текста детской возрастной аудитории. В то время как на практике значение «Сказка» может соответствовать произведениям для взрослых (например, произведениям братьев Стругацких, Дж. К. Роулинг, Дж. Р. Р. Толкиена).

Необходимо заметить, что некоторые значения признаков не являются однозначными маркерами возрастной аудитории. В частности, для текстов, имеющих значение «График» признака «Тип иллюстраций», принадлежность к взрослой возрастной аудитории определяется с вероятностью 0,98. Однако, поскольку в данном эксперименте производится деление текстов на взрослые и детские, этой неточностью представляется возможным пренебречь. В то же время при проведении классификации детских текстов по более конкретным возрастным категориям выраженность значения данного признака может служить маркером более взрослой аудитории или требовать введения уточняющих признаков.

После проведения анализа оценивается наличие значений, однозначно указывающих на категорию адресатов. На основании полученных представлений текстов (моделей bag-of-words и наборов предложений) были оценены значения количественных признаков двух выборок. Для приведения значений к единому диапазону было дополнительно выполнено нормирование.

Исходные значения количественных признаков до проведения нормирования приведены в таблице 3.35. Веса признаков определяются значениями их информативности, полученными при помощи метода накопленных частот. Таблица 3.35 – Значения количественных признаков Признак Возраст читателей Среднеквадратическое отклонение Весовой коэффициент взрослый детский Средняя длина слов текста (кроме стоп-слов) 8,35 6,11 0,8 0,231 Среднее количество слов в предложении 11,41 6,2 3,5 0,189 Количество многосложных слов в тексте (более трех слогов) (%) 22,95 13,91 7,53 0,181 Количество особых глагольных форм в тексте (%) 3 2,09 0,59 0,084 Среднее количество грамматических основ в предложении 2,47 1,81 0,7 0,079 Количество числительных в тексте (%) 3,1 2,59 0,61 0,076 Доля простых предложений с двумя главными членами 64,5 67,3 4,22 0,048 Признак Возраст читателей Среднеквадратическое отклонение Весовой коэффициент взрослый детский (относительно простых предложений, %) Доля служебных слов (%) 27,85 23,03 5,69 0,047 Количество глаголов в тексте (%) 20,18 21,79 1,71 0,044 Количество прилагательных в тексте (%) 11,24 10,83 1,31 0,031 Результаты вычислительного эксперимента В результате проведения вычислительного эксперимента получены значения, характеризующие точность классификации, выполненной с помощью метода оценки близости текстов, предложенного в работе, и нейросетевого метода (таблица 3.32).

Обучение классификаторов проводилось на 75% текстов имеющихся выборок, тестирование проводилось на оставшихся 25%. После проведения n разбиений исходной выборки на обучающую и контрольную (n=5) были вычислены средние значения по всем разбиениям. Сравнение показало, что допустимой границей отсечения часто встречающихся слов является m=70.

Результатом классификации является процент правильно классифицированных записей на контрольной выборке. Точность классификации для метода классификации текстов, представленного в работе, составила 74,16% (среднеквадратическое отклонение – 5,88%), для нейросетевого метода – 72,07% (среднеквадратическое отклонение – 6,62%). При этом точность классификации на выборке детских текстов составила 73,33% для предложенного метода классификации и 71,57% для нейросетевого метода, на выборке взрослых текстов - 75,19% для предложенного метода классификации и 72,56% для нейросетевого метода. Важным результатом вычислительного эксперимента является величина ошибок, полученных для использованных в работе методов. Если считать целью классификации фильтрацию текстов, не предназначенных детской возрастной аудитории (отсечение текстов, адресованных взрослым читателям), то в данном эксперименте можно рассмотреть ошибки двух типов: ошибка первого рода (доля случаев, когда текст, адресованный детской возрастной группе, не был отнесен к категории детских текстов); ошибка второго рода (доля случаев, когда текст, адресованный взрослой возрастной группе, был отнесен к категории детских текстов).

Величина ошибки первого рода для предложенного метода классификации текстов составила 26,67%, для нейросетевого метода - 28,43%. Величина ошибки второго рода - 24,81% и 27,44% соответственно.

Учитывая объем выборки, использовавшейся для проведения вычислительного эксперимента, (532 текста художественной литературы и 510 текстов детской литературы) может быть сделан вывод о том, что метод классификации текстов, предложенный в работе, показал результативность в сравнении с нейросетевым методом.