Содержание к диссертации
Введение
ГЛАВА 1. Методы обработки и анализа двуязычной текстовой информации 16
1.1. Постановка задачи классификации текстовых документов 16
1.2. Библиографический двуязычный текстовый документ 22
1.3. Использование системного анализа для разработки методов обработки текстовой информации 25
1.4. Предварительная обработка текстовых данных 27
1.5. Модели представления документов 30
1.6. Математические модели представления двуязычных документов 31
1.7. Взвешивание терминов 34
1.7.1 Способы взвешивания терминов при статистическом подходе 35
1.7.2 Выявление информативных терминов на основе таблиц сопряженности 36
1.8. Способы оценки точности классификатора 37
1.9. Основные направления исследований в области поиска, обработки и анализа многоязычной информации 39
1.10. Cистематизация методов классификации многоязычной информации 41
1.11. Наивный байесовский классификатор 49
1.12. Метод опорных векторов 50
1.13. Метод ближайшего соседа 51
1.14. Профильные методы 52
1.15. Выводы по главе 53
ГЛАВА 2. Разработка алгоритмов комбинирования различных профилей и метода классификации с учетом структуры библиографических документов 54
2.1. Подходы к составлению профилей классов 54
2.1.1 Статистический подход выявления информативных терминов 55
2.1.2 Теоретико-информационный подход выявления информативных терминов 57
2.1.3 Эвристический подход 58
2.2. Обучение профильных методов и построение решающего правила 59
2.3. Анализ характерных особенностей профильных методов 61
2.4. Разработка новых алгоритмов классификации двуязычных документов 69
2.4.1 Алгоритм классификации двуязычных документов UNI1 70
2.4.2 Алгоритмы классификации двуязычных документов UNI2 и UNI3 72
2.4.3 Алгоритмы классификации двуязычных документов UNI4 и UNI5 75
2.4.4 Алгоритм классификации двуязычных документов UNI6 76
2.5. Способы учета структуры текстовых документов 78
2.5.1 Известные подходы поиска, обработки и анализа текстовых данных с учетом структуры документов 78
2.5.2 Разработка метода классификации с учетом структуры библиографических документов 80
2.6. Выводы по главе 86
ГЛАВА 3. Исследование алгоритмов UNI и метода Struct на двуязычных выборках 87
3.1. Формирование выборок двуязычных текстовых документов 87
3.2. Предварительная обработка текстовых данных 89
3.3. Настройка параметров методов 90
3.4. Анализ точности методов классификации на одноязычных и двуязычных выборках 95
3.5. Исследование новых профильных методов 97
3.5.1 Непараметрический критерий Уилкоксона 100
3.6. Выбор профилей для структурного метода Struct-1 101
3.6.1 Алгоритм метода классификации двуязычных библиографических документов Struct-1 105
3.7. Выбор профилей для структурного метода Struct-2 105
3.7.1 Алгоритм классификации двуязычных библиографических документов Struct-2 106
3.7.2 Процедура настройки весовых коэффициентов для метода Struct-2 107
3.7.3 Результаты настройки весовых коэффициентов 109
3.8. Исследование разработанных методов на дополнительных контрольных выборках 111
3.8.1 Исследование методов на контрольных выборках. 111
3.8.2 Исследование методов на выборках с большим числом классов 112
3.8.3 Исследование методов на выборках с классами разных размеров 113
3.9. Сравнение различных методов классификации по ресурсозатратности 114
3.10. Применение коллективов решающих правил для классификации двуязычных текстовых документов 118
3.11. Выводы по главе 123
ГЛАВА 4. Практическое применение разработанных методов 125
4.1. Обзор современных систем обработки текстовой информации 125
4.2. Программный комплекс TextCat 127
4.2.1 Методика использования ПК TextCat для построения высокоточных классификаторов 134
4.2.2 Использование TextCat для учебных целей 136
4.2.3 Применение ПК TextCat для решения прикладных задач 137
4.3. Модуль JournalFiltering 138
4.3.1 Основные этапы задачи мониторинга и фильтрации статей 139
4.3.2 Настройка порога отсечения статей, относящихся к документам «общей» тематики 140
4.4. Классификация статей и отчетов по НИР для ИПХФ РАН 143
4.4.1 Результаты классификации статей 146
4.4.2 Выявление и удаление полных дубликатов в БД ИПХФ РАН 147
4.5. Обобщение результатов исследований 148
4.6. Выводы 149
Заключение 151
Обозначения 154
Список литературы 155
- Использование системного анализа для разработки методов обработки текстовой информации
- Теоретико-информационный подход выявления информативных терминов
- Процедура настройки весовых коэффициентов для метода Struct-2
- Настройка порога отсечения статей, относящихся к документам «общей» тематики
Введение к работе
Актуальность работы
В последние десятилетия существенно увеличились объемы накопленной текстовой информации и возросли потребности практики в эффективных программно-алгоритмических средствах ее анализа. При этом наибольший прирост наблюдается в области научно-технических данных (журнальные статьи, доклады на конференциях, патенты, отчеты по НИОКР и т.п.). С целью упорядочивания документальных массивов и снижения информационной нагрузки на пользователя активизировались работы по созданию и апробации систем обработки и анализа текстовых данных, способных обеспечивать высокоточное разнесение документов по заданным классам. Несмотря на интенсификацию работ в этом направлении, не удалось создать универсальные методы обработки документов, результаты классификации (категоризации) во многом зависят от конкретной задачи, в частности, объема обучающих выборок, количества классов, размера текстов, предметной области.
В крупных хранилищах текстовых данных чаще всего в свободном
(бесплатном) доступе имеются научные публикации, представленные в виде
библиографических описаний (БО). Библиографические описания состоят из
названия, аннотации, ключевых слов, фамилий авторов и другой
вспомогательной информации. Для большинства задач классификации научной информации это позволяет заменить недоступные или доступные на платной основе полнотекстовые статьи на более компактные и информативные БО, которые обычно написаны на русском и английском языках.
В современной литературе известно несколько способов повышения точности классификации документов: использование специализированных онтологий, содержащих формализованные экспертные знания о предметной области; тщательный отбор информативных классообразующих терминов; создание сложных классификаторов, требующих настройки большого числа параметров и длительного обучения на выборках; построение коллективов решающих правил (КРП, комитеты классификаторов), в которых объединяются несколько методов для выработки общего решения о метке класса.
Еще один возможный вариант повышения точности связан с более полным учетом имеющейся априорной информации о документе и его структуре. Например, для библиографических текстов можно выделить следующие структурные разделы: название – аннотация – ключевые слова. Использование подобной информации позволяет увеличить точность классификации БО.
Объектом исследования данной диссертации являются системы обработки и анализа текстовой информации.
Предметом исследования являются методы классификации
библиографических документов, использующие информацию о структуре документа.
Принимая во внимание вышесказанное, сформулируем цель исследования.
Целью работы является разработка метода классификации
библиографической информации на основе комбинированных профилей классов с учетом структуры документов, позволяющего увеличить точность категоризации по сравнению с известными классификаторами.
В работе под известными классификаторами понимаются метод к-ближайших соседей, наивный байесовский классификатор, метод центроидов, метод опорных векторов, которые хорошо теоретически и экспериментально изучены применительно к задачам категоризации текстовых документов.
Для достижения указанной цели были решены следующие задачи:
Системный анализ имеющихся процедур обработки и анализа многоязычной информации.
Выбор процедур предварительной обработки данных с учетом специфики анализа русско-английских библиографических документов и их структурного деления на разделы.
Составление двуязычных (русско-английских) выборок для обучения и тестирования создаваемых классификаторов.
Разработка методов классификации, обеспечивающих более высокую точность за счет выявления наиболее информативных русских и английских терминов, а также использование информации о местоположении терминов в различных разделах библиографического описания.
Формирование коллективов решающих правил, обучающихся как на двуязычных, так и одноязычных выборках и обеспечивающих более высокую точность классификации.
Проведение комплексных экспериментальных исследований точности известных и разработанных методов классификации на русско-английских выборках.
Разработка и применение для решения прикладных задач программного комплекса, позволяющего проводить все этапы обработки и анализа двуязычной текстовой информации. Создание методики использования разработанного программного комплекса на практике.
Методы исследования
Полученные в диссертации результаты основываются на применении методов системного анализа, теории вероятностей, математической статистики, теории алгоритмов и теории информации.
Научная новизна работы состоит в следующем:
-
Разработаны алгоритмы UNI, которые позволяют увеличить точность классификации библиографических документов за счет построения комбинированных профилей классов, в которые включаются наиболее информативные термины, выявленные с помощью совместного применения статистического, теоретико-информационного и эвристического способов взвешивания терминов.
-
Разработан метод Struct, повышающий точность классификации библиографической информации благодаря использованию комбинированных профилей классов и учету структуры библиографических документов. В отличие от известных подходов в методе Struct для построения профилей применяются новые алгоритмы UNI5 и UNI6.
-
Предложено два способа составления словарей терминов в методе Struct: общий словарь и три раздельных словаря, каждый из которых содержит термины из названий, ключевых слов, аннотаций. Проанализирована вычислительная сложность метода Struct.
Достоверност ь полученных научных результатов, обоснованность
сделанных выводов и рекомендаций подтверждается корректным
использованием системного анализа, математической статистики и теории
алгоритмов, комплексными многоаспектными экспериментальными
исследованиями на различных двуязычных (русско-английских) и одноязычных (русских и английских) выборках, успешным применением разработанного алгоритмического и программного обеспечения для решения практических задач, детальным изучением российских и зарубежных публикаций по тематике работы, сопоставлением собственных результатов с известными в литературе.
Практическая ценность работы
-
Разработан программный комплекс (ПК) TextCat, ориентированный на работу с русско-английскими документами, реализующий все этапы обработки и анализа двуязычных текстов и включающий, наряду с известными классификаторами, методы классификации, предложенные автором.
-
Разработанное алгоритмическое и программное обеспечение легко адаптируется к различным предметным областям и требованиям пользователя, при необходимости оно может дополняться новыми модулями и применяться для анализа произвольных коротких двуязычных (русско-английских) текстов. ПК TextCat предназначен для широкого круга исследователей, не имеющих специальных знаний в области программирования и теории классификации.
3. Предложена методика использования ПК TextCat для построения высокоточных классификаторов. На основе этой методики сформирован коллектив решающих правил, увеличивающий точность категоризации. Синтезированный коллектив решающих правил состоит из пяти классификаторов (два из которых разработаны в диссертации), принимает решение простым голосованием и обучается как на двуязычных (русско-английских), так и одноязычных (русских или английских) выборках
Реализация и внедрение результатов
Программный комплекс TextCat был успешно использован в Институте
проблем химической физики РАН (ИПХФ РАН) для классификации научных
работ из базы данных публикаций и поиска в этой базе дубликатов.
Эффективность практического применения разработанного программного
комплекса подтверждается актом об использовании результатов
диссертационной работы в ИПХФ РАН.
ПК TextCat внедрен в учебный процесс кафедры Управления и
информатики НИУ «Московский энергетический институт», на его базе
проводится 4 лабораторные работы по курсу «Интеллектуальные
информационные системы». По результатам применения разработанного программного комплекса в учебном процессе получен акт о внедрении.
Разработанное алгоритмическое и программное обеспечение использовано
в НИУ «Московский энергетический институт» при выполнении НИР по теме:
«Методическое и организационно-техническое сопровождение процессов
мониторинга финансово-хозяйственной деятельности подведомственных
учреждений» для автоматизации обработки текстовых документов и выявления информации, необходимой для поддержки принятия управленческих решений.
Разработанный программный комплекс TextCat зарегистрирован в Реестре программ для ЭВМ Федеральной службы по интеллектуальной собственности РФ (Роспатент), свидетельство об официальной регистрации программы для ЭВМ №2017611978 от 14 февраля 2017 года
Апробация результатов
Материалы диссертации докладывались на VI Всероссийской
мультиконференции по проблемам управления (Дивноморское, ИПУ РАН,
2013), X Международной конференции «Интеллектуализация обработки
информации» (Крит, ВЦ РАН, 2014), ХХ Байкальской Всероссийской
конференции «Информационные и математические технологии в науке и
управлении» (Иркутск, ИСЭМ СО РАН, 2015г,), XVIII Всероссийской
конференции «Научный сервис в сети Интернет» (Абрау-Дюрсо, ИПМ РАН,
2016), XXII Международной научно-технической конференции
"Информационные системы и технологии" (Н.Новгород, НГТУ им. Р.Е.Алексеева, 2016), Международной научно-технической конференции "ИНФОТЕХ-2015" (Севастополь, СевГУ, 2015), XXII Международном научно-
техническом семинаре «Современные технологии в задачах управления,
автоматики и обработки информации» (Алушта, МАИ, 2013), VIII
Международной научно-практической конференции «Информация и
образование: границы коммуникаций - INFO’16» (Горно-Алтайск, ГАГУ, 2016), XIX Международной научно-технической конференции студентов и аспирантов (Москва, МЭИ, 2013).
Положения, выносимые на защиту
-
Алгоритмы UNI, позволяющие увеличить точность классификации за счет построения комбинированных профилей классов, в которые включаются наиболее информативные термины, выявленные с помощью совместного применения статистического, теоретико-информационного и эвристического способов взвешивания терминов.
-
Метод Struct, повышающий точность категоризации по сравнению с известными классификаторами благодаря использованию комбинированных профилей классов и учету структуры библиографических документов. Два способа составления словарей терминов в методе Struct (общий словарь и три раздельных словаря, каждый из которых содержит термины из названий, ключевых слов, аннотаций).
-
Коллектив решающих правил, улучшающий точность категоризации (по сравнению с известными классификаторами) и состоящий из пяти классификаторов, два из которых разработаны в диссертации.
-
Результаты экспериментальных исследований алгоритмов UNI, метода Struct, коллектива решающих правил, известных классификаторов на выборках, состоящих из русско-английских библиографических документов.
-
Методика построения высокоточных классификаторов с помощью разработанного программного комплекса TextCat.
Публикации
По теме диссертации опубликовано 15 работ, в том числе 3 статьи в журналах из перечня ВАК и свидетельство о государственной регистрации программы для ЭВМ.
Личный вклад соискателя
Все представленные в диссертации результаты исследований получены
лично автором. В работах, опубликованных в соавторстве, научному
руководителю принадлежит постановка задачи, а соискателю – обзор и анализ
имеющихся тематических публикаций, обоснование направлений и методов
исследований, разработка новых методов классификации текстовой
информации, формирование выборок и проведение экспериментов, анализ и интерпретация результатов, разработка программного комплекса и методики его использования на практике.
Структура и объем работы
Диссертация состоит из введения, четырех глав, заключения, списка литературы, содержащего 155 наименований, 5 приложений. Основной текст диссертации излагается на 172 машинописных страницах и содержит 34 рисунка и 30 таблиц.
Соответствие диссертации паспорту специальности
В диссертации разработано специальное алгоритмическое обеспечение систем обработки библиографической научной информации. Оно включает новые алгоритмы и метод, позволяющие повысить точность классификации двуязычных (русско-английских) документов. Таким образом, настоящая диссертация соответствует отрасли технических наук и паспорту специальности 05.13.01 - Системный анализ, управление и обработка информации (в науке и промышленности) по техническим наукам, а именно пункту 5 «Разработка специального математического и алгоритмического обеспечения систем анализа, оптимизации, управления, принятия решений и обработки информации» и пункту 4 «Разработка методов и алгоритмов решения задач системного анализа, оптимизации, управления, принятия решений и обработки информации».
Использование системного анализа для разработки методов обработки текстовой информации
К числу наиболее коммерчески привлекательных для разработчиков относятся системы поиска и анализа больших данных (инициаторами выступают широко известные компании, специализирующиеся на работе с Web-контентом) и корпоративно-ведомственные системы (заказчиками являются крупные государственные и частные организации). Значительно меньше внимания уделяется созданию персональных систем обработки информации в интересах отдельных пользователей (групп пользователей). Чаще всего для этих целей адаптируются корпоративно-ведомственные системы. В большинстве случаев подобный подход оказывается неэффективным, в нем не учитываются значительные различия в специфике решаемых задач (особенности выборок, отражающих «природу» данных) и не всегда удается подобрать наилучший инструментарий.
Наибольшая потребность в персональных системах сложилась в научном сообществе, представители которого работают в условиях значительной информационной перегрузки. Для снижения этой перегрузки, выявления из имеющихся огромных документальных потоков релевантной информации, необходимой для повышения результативности исследований, пользователь нуждается в специальном алгоритмическом обеспечении, которое способно выполнять функции «интеллектуального ассистента». Такой «интеллектуальный ассистент» должен автоматизировать ряд рутинных операций по получению, обработке и предварительному анализу русскоязычных и иностранных (прежде всего англоязычных) публикаций. В качестве пользователей этих систем выступают специалисты-предметники, научные сотрудники, преподаватели, эксперты, рецензенты, программисты, аспиранты. Сведения, извлекаемые в ходе изучения профильных публикаций, позволяют специалистам увеличить эффективность собственной научной деятельности, использовать полученные данные для обоснования выбора перспективных направлений исследований, составления заявок на гранты, подготовки экспертных заключений и рецензий, сопоставления результатов экспериментов.
В связи с этим актуальным представляется разработка специального алгоритмического обеспечения систем обработки текстовой информации с целью снижения информационной перегрузки специалистов-предметников и улучшения их информационного обеспечения.
Далее под алгоритмическим обеспечением понимается совокупность методов, моделей, алгоритмов, используемых в системах обработки и анализа документальной информации. Одним из наиболее важных (для пользователя) элементов алгоритмического обеспечения таких систем являются методы классификации текстовых данных. Эти методы (наряду с применением других процедур обработки текстов, снижения размерности, представления результатов) позволяют уменьшить информационную нагрузку на пользователя и удовлетворить его профессиональные интересы по ведению и обновлению коллекций документов.
Сделаем постановку задачи классификации (категоризации) текстовых документов. Имеется X - множество документов, и фиксированное число классов (категорий) Q={Q1,Q2,..Qk,...,QK}(Qk- метка Jfc-го класса, к = 1,...,к, К-известное число классов). Множество документов Х (Х еХ) описывается признаками (терминами). Имеется неизвестная целевая функция (решающее правило, классификатор) J, J: X Q. (1.1) Каждому классу Qi соответствует единственное описание. Один и тот же документ х (Х еХ) может быть отнесен на основе своего терминологического состава сразу к нескольким классам одновременно. Причем отнесение документа к классу может быть как однозначным, так и задаваться определенной степенью уверенности классификатора. На этапе обучения необходимо построить классификатор f, максимально близкий к J на выбранной системе признаков (хт =[х(1\...,х(м)]т, М - количество терминов, отобранных для описания документов в Х). Построение классификатора J осуществляется на множестве документов, размеченном экспертом («учителем») и разделенном на две части - обучающую и экзаменационную выборки. Под правильной классификацией понимается совпадение метки, которую присваивает классификатор f, с меткой, определенной экспертом. В случае несовпадения меток, указанных классификатором и экспертом, имеет место неправильная классификация. Таким образом, точность классификатора определяется частотой появления правильных решений, а вероятность ошибки рассчитывается как отношение количества неправильно назначенных меток к общему числу документов экзаменационной выборки.
Отметим, что классификатор f зависит не только от выбранной системы признаков, но и от состава и структуры выборок, на которых проводилось обучение и экзамен. Для независимой оценки точности классификатора необходимо использовать контрольные выборки, которые не использовались при обучении.
Теоретико-информационный подход выявления информативных терминов
В большинстве работ в области Text Categorization процедуры выявления информативных терминов применяются для сокращения признакового пространства и являются частью предварительной обработки текстов. Такой подход предполагает отбор дискриминирующих терминов вне зависимости от классификатора, который планируется использовать для классификации. Результирующая подсистема терминов вряд ли будет “оптимальной” для всех методов классификации.
В данной диссертации выбор информативных терминов рассматривается как составная часть обучения метода. Важно отметить еще одно принципиальное отличие профиля от набора информативных терминов. Вычисление весов в профиле проводится только по документам одного класса, а не путем усреднения значений весов по всей выборке, как это происходит в процедурах выявления информативных терминов (наряду с усреднением в литературе предложены и другие варианты расчета веса термина [153]). Таким образом, профиль представляет собой «терминологический портрет» класса, полученный с помощью одного из критериев (2.1) - (2.14). Это позволяет каждому профилю лаконично и корректно описывать документы своего класса. Основной выигрыш от выявления информативных терминов заключается в сокращении размерности без потерь в точности (в ряде случаев точность заметно возрастает) [46,59,90].
В профильных методах отнесение нового документа XN+1, подлежащего классификации и описываемого частотой появления терминов (tft), проводится на основе расчета весов классов по формуле: Mk Wk=Yjfc of(x(i\Qk), (2.15) Здесь Wk - вес к-го класса, tf. частота встречаемости /–го термина в классифицируемом документе XN+l; Мк- количество наиболее информативных терминов, включенных в профиль к–го класса (в наших исследованиях все классы имеют профили одинакового размера L=Мk); Vxof(x{l),Qk)_ означает вес г.го термина в профиле, вычисленном по обучающей выборке с помощью одной из формул (2.1) - (2.14). Классифицируемый документ XN+l относится к тому классу, которому соответствует наибольшая сумма весов: Wk=mx (для\/к,к = \,...,к) . (2.16) Т.е. XN+leQk, если в XN+l наиболее часто встречаются термины, которые входят в профиль к–го класса.
Согласно методологии системного анализа из имеющихся альтернативных способов формирования профилей (формулы (2.1)-(2.14)) необходимо выбрать варианты, наилучшим образом удовлетворяющие целевому критерию, т.е. определить наиболее точные классификаторы. В рамках системного анализа в таких случаях используются как экспертные оценки, так и экспериментальные исследования. Экспертные мнения, содержащиеся в специализированной литературе [52,130,146,153], свидетельствуют о приблизительно одинаковой точности статистического и теоретико-информационного подходов (при этом эвристический критерий в известных публикациях не рассматривается). Для проверки этого мнения и проведения более полного анализа, включающего профильные методы на основе коэффициентов ассоциативности (см. формулы (2.6) - (2.14)), в данной диссертационной работе были организованы специальные экспериментальные исследования. Эти исследования проводились на 38 выборках, сформированных по инженерно-техническим, естественно-научным и социально-общественным тематикам. Все выборки содержали по 7 классов (каждый класс обучающей выборки включал 65 документов, экзаменационной выборки - 31 документ). Более подробное описание выборок приведено в п. 3.1.
Экспериментально установлено, что профили, рассчитанные с помощью коэффициентов ассоциативности (КА) (2.6) - (2.14) (кроме коэффициента Жаккара (2.12)), имеют лишь небольшие различия и состоят из похожих наборов терминов, причем основные отличия обнаруживаются ближе к концу профиля. Как следствие, профили, составленные путем расчета КА из первой группы, которые используют все параметры A, B, C и D из таблицы 1.1, показывают приблизительно одинаковую точность и для дальнейшего использования в работе выбран наиболее точный подход на основе первого коэффициента Сокала-Сниса (С-С-профиль, формула (2.10)). Существенно выделяется среди КА второй группы, которые используют только параметры A, B и C из таблицы 1.1, коэффициент Жаккара (J-профиль, см. формулу (2.12)). Он демонстрирует точность, сопоставимую с точностью РО- и НМИ-профилей. Конкретные значения точности классификации для РО-, НМИ-, J-и С-С-профилей приведены в главе 3 (таблица 3.2).
По результатам экспериментальных исследований профиль на основе Q-статистики (формула (2.3)) был исключен из рассмотрения, т.к. в нем большое число терминов из начала списка имеют одинаковый вес, равный 1. Это связано с тем, что значение B (количество документов вне класса, где термин не встречается) очень часто равняется нулю.
Наряду с точностью методов изучался также вопрос о том, какие (высоко-, средне- или низкочастотные) термины имеют приоритет при отборе в профили классов при использовании формул (2.1), (2.5), (2.10), (2.14). С целью выявления таких зависимостей в диссертации были проведены специальные исследования на «Инженерно-технических и естественно-62 научных» выборках (см. Приложение 1) и проанализирована встречаемость трех категорий терминов в различных разделах БО. Разделение терминов на низко-, средне- и высокочастотные проводилось согласно таблице 2.1, в которой введены условные числовые пороги для каждой категории. Данные пороги были выбраны на основе анализа количества повторов каждого термина во всех документах выборки. Считаем, что первый порог – это граница, когда частота терминов прекращает стремительно убывать, а второй – граница, когда частота терминов начинает убывать крайне медленно (см. рисунок 2.2).
Для каждого термина выборки была подсчитана частота встречаемости во всех документах «Инженерно-технических» выборок и упорядочена по убыванию. На Рисунок 2.2 по оси ординат отложены порядковые номера терминов, по оси абсцисс – частота встречаемости термина во всех документах выборок.
Процедура настройки весовых коэффициентов для метода Struct-2
При условии, что гипотеза о верна и имеется достаточно много наблюдений (N 25), Z имеет (приближенно) стандартное нормальное распределение N(0,1) [99]. Гипотеза Н 0 отклоняется при двухсторонней альтернативе на уровне значимости =0,05, если Ze«6. «W2=l 96, (3.2) где гвыб - выборочное значение статистики Z, щ_а/2 - квантиль стандартного нормального распределения N(0,1).
Для расчета критерия использовался ППП Statistica 8.0 [21]. Выборочная статистика гвыб = 5,21, ее значение существенно превышает табличное (см. формулу (3.2)), поэтому Но отклоняется, анализируемые связанные выборки различаются по точности.
Для увеличения точности классификации двуязычных библиографических документов в главе 2 был предложен метод Struct, позволяющий учитывать местоположение терминов в различных разделах БО. Для обеспечения высокой точности в методе Struct важно выбрать правильную комбинацию из базовых профильных методов и алгоритмов UNI, разработанных в диссертации.
Выбор профилей в случае использования общего словаря можно осуществлять тремя способами: 1. Анализ встречаемости низко-, средне- и высокочастотных терминов в различных разделах БО с целью выбора таких профильных методов, которые предпочитают отбирать в профиль и присваивать более высокие веса той категории терминов, которая наиболее часто появляется в разделе (см. п.2.3). 2. Учет неравнозначности (различной ценности) появления терминов в разных разделах БО, ранжирование разделов в порядке убывания ценности: название, ключевые слова, аннотация. 3. Полный перебор всех возможных вариантов путем комбинирования восьми профилей (РО-, НМИ-, J-, С-С-,UM1, UNI3, UNI5, UNI6), количество вариантов рассчитывается по формуле размещения из n по m элементов с повторениями: Am =nm. В нашем случае имеется восемь методов классификации и три раздела БО, тогда A\ = 83 = 512.
Для проверки целесообразности использования первого подхода были проведены экспериментальные исследования, представленные в п. 2.3. В ходе экспериментов не удалось выявить категорию терминов, которая доминировала бы в одном из разделов БО. Результаты исследований показали, что низко-, средне- и высокочастотные термины имеют практически одинаковую встречаемость во всех разделах БО.
Подход, предполагающий полный перебор, представляется достаточно ресурсозатратным и его использование обосновано в случае не эффективности других способов составления профилей.
В данной работе выбор профилей rofpart(x(i\Qk) в методе Struct проводился на основе второго подхода, предполагающего неравнозначность разделов БО. Так, при использовании общего словаря (метод Struct-1) для взвешивания терминов из названий и ключевых слов предлагается выбирать UNI6 и UNI5, присваивающие более высокие значения весов. Для аннотаций рационально применять один из базовых профильных методов (РО-, НМИ и J-), которые присваивают несколько меньший вес по сравнению с алгоритмами UNI5 и UNI6. В работе были сформированы и проверялись следующие варианты Struct-1 {IVrofT{x i\Qk)-VrofA{x i\Qk)-VrofK{x i\Qk)iy. /UNI6-J-UNI5/; /UNI5-РО-UNI6/; /UNI6-НМИ-UNI5/; /UNI5-J-UNI6/; /UNI5-НМИ-UNI6/; /UNI6-РО-UNI5/.
Полученные результаты показывают, что наилучшую точность демонстрирует вариант Struct-1, в котором термины названия взвешиваются UNI6-профилем, аннотации – J-профилем, а ключевые слова – UNI5-профилем. Близкие по точности результаты получены также для сочетания UNI6-РО-UNI5. Остальные комбинации проигрывают по точности.
Отметим, что для термина, который встречается во всех разделах БО, в Struct-1(UNI6-J-UNI5) происходит существенное увеличение веса и справедливо, учитывая профили, которые входят в UNI6 и UNI5: wuni6-J-UNI5 = 3wJ +2wНМИ+ wРО , где wJ, wНМИ, wРО – вес термина в J-, НМИ- и РО-профиле соответственно. На приведена диаграмма «ящик с усами», на которой показаны медианное значение точности, квартили и размах по всем исследуемым выборкам для наиболее точного базового метода РО и разработанного Struct-1 (UNI6-J-UNI5). На рисунке 3.9 показаны значения точности для этих двух методов на всех сформированных экзаменационных выборках.
Входные данные: профили UNI5, UNI6 и J-, новый документ, подлежащий классификации. Выходные данные: метка класса нового документа. Шаг 1. Для каждого термина нового документа определяется частота встречаемости во всех частях БО - названии, аннотации и ключевых словах ( tff\tff,tf ). Шаг 2. Рассчитывается вес документа в классе к: Wk =Ъ/Р PTofT(x«\Qk) + tfW PTofA(x«\Qk) + tfW ProfK(x«\Qk) (3.3) ( Pro/r( (0,&) , VfA(x(i),Qk) , ProfK(x,Qk) рассчитываются по UNI6, J- и UM5 профилям). Шаг 3. Шаг 2 повторяется для каждого класса k (k = 1… К). Шаг 4. Новому документу присваивается метка класса, имеющего максимальный вес Wk. 3.7. Выбор профилей для структурного метода Struct-2 На первом этапе исследований метода Struct-2, использующего три отдельных словаря, были изучены варианты: IРО,РО,РО/, /J,J,J/ и /НМИ,НМИ,НМИ/, т.е. для взвешивания терминов во всех разделах БО применялся один из базовых профильных методов. При этом согласно п. 2.5.2. веса терминов рассчитывались по трем различным таблицам сопряженности: «термин х в названии - класс Qk », «термин х 1 в аннотации - класс Qi», «термин Xу1 в ключевых словах - класс Qk ».
Настройка порога отсечения статей, относящихся к документам «общей» тематики
Разработанный программный комплекс TextCat используется в научной деятельности Института проблем химической физики РАН (ИПХФ РАН).
В настоящее время ИПХФ РАН ведет базу данных, содержащую библиографические описания статей (преимущественно представлены русские и английские названия публикаций) и отчетов по НИР, выполненных сотрудниками института за период, начиная с 1980 года по настоящее время.
Названия статей отражают основные направления научных исследований ИПХФ РАН, многие из них соответствуют тематикам работ широко известных научных школ, сформировавшихся в институте.
Отметим, что в отличие от рассматриваемых ранее в диссертации библиографических описаний, статьи в базе ИПХФ РАН представлены своими названиями, т.е. они не имеют самой объемной части – аннотации. Кроме того, все заголовки приведены лишь на одном языке: русском или английском. Это связано с тем, что в базу данных (БД) для сокращения трудозатрат заносились только названия статей сотрудников в отечественных и зарубежных изданиях. Создание полнотекстовой (или библиографической) БД не было реализовано из-за недостатка средств и кадровых ресурсов для оцифровки большого числа публикаций, изданных сотрудниками института с 1980 года. Вместе с тем задача анализа документов по названиям достаточно хорошо известна в Text Mining и может рассматриваться как типовая. Обычно обработка документов, заданных своими названиями, предусматривает упорядочивание их по тематикам, устранение дубликатов, извлечение сведений для наукометрического анализа. Для работы с короткими документами необходимо особенно тщательно выбирать программно-алгоритмический инструментарий, способный обеспечивать высокую точность в условиях ограниченного размера словаря (количество доступных терминов из названий на порядок меньше, чем количество терминов той же выборки, содержащей библиографические описания). Кроме того, в случае БД ИПХФ РАН используемые алгоритмы должны быть инвариантными к языку публикаций (названия статей представлены как на русском, так и английском языках).
В ходе обработки и анализа БД ИПХФ РАН с помощью программного комплекса TextCat решались следующие задачи [68]: - Обучение классификаторов по указанным тематикам (классам), обучающие и экзаменационные выборки состояли только из названий статей. Применение построенных классификаторов для отнесения тематически близких документов, находящихся в БД, к выделенным классам, т.е. упорядочивание части публикаций из БД, организация их быстрого просмотра и анализа. - Выявление и удаление полных дубликатов, которые появляются из-за ошибок при вводе информации в БД, а также из-за наличия совпадающих названий, представленных в БД на разных (русском и английском) языках. Для выявления таких дубликатов требуется привести все названия в БД к единому языку (например, с помощью машинного перевода) и проанализировать их на наличие полностью идентичных последовательностей слов. - Проверка работоспособности ПК TextCat и оценка точности реализованных методов в условиях обработки и классификации чрезвычайно коротких текстовых документов, а также обоснование применимости ПК TextCat для анализа научных публикаций в области химической физики.
Для решения первой задачи (обучение классификаторов) были выбраны девять крупных направлений, по которым в ИПХФ РАН в настоящее время активно проводятся научные работы под руководством известных ученых, по ним сформированы и развиваются авторитетные научные школы:
Сформулируем задачу: на основе имеющихся в БД сведений составить обучающие и экзаменационные выборки, позволяющие обучить классификатор, способный с высокой точностью относить новые публикации к одной из вышеуказанных тематик. Это позволит найти и классифицировать все публикации в БД, соответствующие выделенным тематикам. Построенный классификатор может применяться, в частности, для отслеживания публикаций по вышеуказанным тематикам в области химической физики (и родственных направлений) в российских и зарубежных журналах, аналогично тому, как это было реализовано для области Информатика (см.п.4.3). Размер сформированного обучающего и экзаменационного множества составляет 1035 и 315 названий статей на русском и английском языках (по 115 обучающих и 35 экзаменационных документов в каждом классе). Из различных сочетаний указанных тематик было сформировано по три обучающие и экзаменационные выборки одинакового размера, содержащих по 7 классов. При формировании выборок и определении метки класса использовались эксперты – сотрудники ИПХФ РАН [68]. По экзаменационным выборкам рассчитывалась точность классификации.