Содержание к диссертации
Введение
Глава 1. Проблемно-ориентированное исследование и разработка модели задачи тематической сегментации научных текстов 10
1.1. Место задачи тематической сегментации научных текстов в общей структуре процесса проектирования технических систем 10
1.2 Анализ профессиональных интернет-форумов как предметной области для тематической сегментации 21
1.3 Анализ научной прозы как предметной области для тематической сегментации 28
1.4. Разработка проблемно-ориентированной модели задачи тематической сегментации научных текстов 34
1.5 Постановка задач диссертационного исследования 45
Выводы по главе 1 45
Глава 2. Разработка методики отбора и настройки параметров машинного обучения для тематической сегментации научных текстов 48
2.1. Разработка методики отбора и настройки параметров модели тематической сегментации для профессиональных интернет-форумов 48
2.1.1. Формирование и разметка обучающей выборки 48
2.1.2. Отбор признаков для машинного обучения 51
2.1.3. Выбор показателей качества суммаризации интернет-форумов 56
2.1.4. Отбор и настройка алгоритмов машинного обучения для суммаризации интернет-форумов 57
2.2. Разработка методики отбора и настройки параметров модели тематической сегментации для текстов научной прозы 72
2.2.1. Формирование и разметка обучающей выборки 72
Формирование экспериментального набора данных 72
Разметка обучающей выборки 76
Предобработка текстов обучающей выборки 78
2.2.2. Выбор показателей качества тематической сегментации для текстов научной прозы 81
2.2.3. Отбор и настройка алгоритмов машинного обучения для тематической сегментации научной прозы 82
Отбор алгоритмов 82
Специфика настройки параметров алгоритмов для тематической сегментации научной прозы 85
Эффективность тематической сегментации научной прозы в зависимости от характеристик текстов 88
Выводы по главе 2 95
Глава 3. Разработка метода композиции алгоритмов тематической сегментации научных текстов и средства его программной поддержки 96
3.1 Ансамблевый метод структуризации научных текстов 96
3.2 Программная реализации сервиса тематической сегментации для профессиональных интернет-форумов 99
3.3 Архитектура и программная реализация сервиса тематической сегментации для научной прозы 100
Выводы по главе 3 106
Глава 4. Результаты экспериментальных проверок разработанного метода композиции алгоритмов тематической сегментации 107
Выводы по главе 4 114
Заключение 115
Список литературы 116
Источники на русском языке 117
Источники на английском языке 121
- Место задачи тематической сегментации научных текстов в общей структуре процесса проектирования технических систем
- Отбор признаков для машинного обучения
- Эффективность тематической сегментации научной прозы в зависимости от характеристик текстов
- Результаты экспериментальных проверок разработанного метода композиции алгоритмов тематической сегментации
Введение к работе
Актуальность темы. В современном профессиональном образовании в качестве средств обучения широко используются компьютерные тренажеры – программно-технические системы, позволяющие сформировать у будущих специалистов качества, определяемые их профессиональной деятельностью. В условиях быстро меняющихся требований к квалификации будущего специалиста педагог должен иметь возможность совместно с проектировщиком гибко и оперативно проектировать и модифицировать такие системы. Поэтому интеллектуализация их проектирования является важной задачей в рамках формирования АСУ образовательного процесса.
Однако в общей структуре процесса проектирования технических систем имеются процедуры, интеллектуализации которых до сих пор уделялось недостаточное внимание, и среди них – поиск и анализ научно-технической информации. Как показывает практика, эта проблема особенно важна для таких этапов проектирования, как разработка технического задания и НИР, когда требуется оперативно освоить максимально широкий спектр научной и технической информации, релевантной рассматриваемой задаче. При этом наиболее актуальная информация содержится в оригинальных текстах – в научных статьях и монографиях, а также на тематических форумах Интернета, часто написанных на иностранном языке. Исследования показывают, что структура научных текстов далеко не всегда может быть представлена типовыми атрибутами информационного поиска, такими как оглавление, метатеги или набор ключевых слов.
Интеллектуализация проектирования тренажеров как сложных программ-мно-технических систем может быть связана с тем, чтобы предоставить педагогу и проектировщику возможность анализировать не весь потенциально интересный текст, а только его фрагменты, содержащие релевантную информацию, профессиональную значимую для подготовки будущих специалистов. Для их выделения необходимо решить задачу тематической сегментации (ТС) текстов – автоматического членения документа на последовательность сегментов с однородной семантикой (топиков), учитывающих внутренние особенности текста и целей запроса. ТС может обеспечить исходную структуру текста из топиков в качестве опорной, чтобы он смог построить свою интерпретацию с минимальным затратами ресурсов – выбрать для чтения то, что необходимо, или убрать то, что заведомо не требуется.
Использование ТС текстов при проектировании компьютерных тренажеров позволит сократить время их создания и улучшить качество профессиональной подготовки будущих специалистов. Поэтому разработка и исследование методов и алгоритмов интеллектуализации проектирования таких сложных программно-технических систем, как компьютерные тренажеры, посредством ТС является актуальной и своевременной задачей.
Степень научной разработанности проблемы. Вопросы интеллектуализации проектирования технических систем представлены в работах таких отечественных и зарубежных авторов, как И.О. Жаринов, А . Г. Коробейников, В.М. Курей-
чик, И.П. Норенков, И.В. Романова, Н . Г. Ярушкина, P.J.W. ten Hagen, T. Tomiyama, а применительно к образованию – в работах В.Н. Васильева и Л.С. Лисицыной. Однако, как показал анализ литературных источников, в общем комплексе задач проектирования технических систем недостаточное внимание уделяется интеллектуализации поиска и анализа научно-технической информации. Эта задача практически не поддерживается существующими средствами САПР. Вопросы автоматической обработки текстов на естественном языке широко представлены в литературе, причем в качестве базового подхода рассматривается машинное обучение. Здесь нужно отметить работы таких отечественных авторов, как Ю.И. Журавлев, И.А. Бессмертный, Е.И. Большакова, К.В. Воронцов,. Н.Н. Леонтьева, Н.В. Лукашевич, С.И. Николенко. Не менее широко этот круг вопросов рассматривают и зарубежные авторы, в том числе М. Hearst, G. Ingersoll, D. Jurafsky, Ch. Manning, G. Marchionini, J. Martin, R. Mitkov, T. Morton, H. Schutze. В работах Воронцова К.В. и Журавлева Ю.И. раскрыты преимущества ансамблирования отдельных алгоритмов машинного обучения для повышения эффективности классификации.
Однако большинство исследований, посвященных ТС протяженных текстов, направлено на тексты из социальных сетей и новостных ресурсов, что не позволяет учесть специфику научных текстов. При обработке текстов Интернет-форумов преобладают такие задачи, как сентимент-анализ, выделение фактографической информации, анализ активности пользователей, в то время как задача выделения профессионально значимой информации из текстов Интернет-форумов в известных работах не рассматривается.
Цели и задачи исследования. Цель диссертационной работы состоит в разработке методов и алгоритмов интеллектуализации проектирования технических систем посредством тематической сегментации научных текстов. В соответствии с поставленной целью необходимо решить следующие задачи:
1. Провести проблемно-ориентированное исследование научных текстов, выде
лить специфические свойства задачи тематической сегментации научных тек
стов как объектов машинного обучения.
2. Разработать методику отбора и настройки алгоритмов машинного обучения
для тематической сегментации научных текстов.
3. Разработать метод композиции (ансамблирования) алгоритмов тематиче-ской
сегментации и средство его программной поддержки.
Методы исследования. В диссертационной работе применяются различные методы и алгоритмы машинного обучения. При разработке программного обеспечения использованы методы объектно-ориентированного программирования.
Достоверность работы. Теоретические и экспериментальные исследования, проведенные в работе, являются обоснованными и достоверными, что подтверждается представлением основных результатов на российских и международных конферениях, а также сравнительным анализом полученных результатов с исследованиями в этой области.
Научная новизна работы состоит в разработке методов и алгоритмов интеллектуализации проектирования технических систем посредством тематической сегментации текстов. При этом:
-
Разработана методика отбора алгоритмов машинного обучения и настройки их параметров для тематической сегментации научных текстов, отличающаяся тем, что она является единой для текстов разных жанров и позволяет учесть внутреннюю структуру текста и цель запроса.
-
Разработан ансамблевый метод структуризации научных текстов, основанный на алгоритмах тематической сегментации текстов, и средство его программной поддержки. Метод позволяет реализовать одновременную демонстрацию нескольких вариантов тематической сегментации.
Теоретическая значимость работы обусловлена совершенствованием метода и алгоритмов тематической сегментации научных текстов. Практическая значимость результатов диссертации. Практическая значимость работы состоит в разработанной системе визуализации ТС протяженных текстов, применяемой для удобства понимания семантической структуры текста в целом и его фрагментации, при использовании различных алгоритмов сегментации и их композиций. Специфику сервиса реализуют следующие компоненты: утилита для визуализации тематической структуры связных текстов (Свидетельство о государственной регистрации программы для ЭВМ № 2017 660417 от 21.09.2017); утилита для визуализации тематической структуры несегментированных текстов (Свидетельство о государственной регистрации программы для ЭВМ № 2017 660443 от 21.09.2017); модуль обработки пользовательских запросов на анализ текста (Свидетельство о государственной регистрации программы для ЭВМ № 2017 660432 от 21.09.2017).
Разработанная система демонстрирует структуру текста, что позволяет педагогу и проектировщику при проектировании компьютерных тренажеров выделять и анализировать не весь текст целиком, а только фрагменты, соответствующие текущим информационным потребностям. Архитектура системы для тематической сегментации научных текстов является модульной, что позволяет добавлять новые алгоритмы машинного обучения и представлять одновременно несколько результатов сегментации (в виде линеек) для одного текста. Соответствие паспорту специальности. Работа выполнена в соответствии с паспортом специальности ВАК РФ 05.13.06 «Автоматизация и управление технологическими процессами и производствами (по отраслям)», п. 15, 17.
На защиту выносятся:
-
Методика отбора алгоритмов машинного обучения и настройки их параметров для интеллектуализации проектирования технических систем посредством тематической сегментации текстов.
-
Ансамблевый метод представления результатов тематической сегментации текстов для интеллектуализации проектирования технических систем и средство его программной поддержки.
Степень достоверности и апробация результатов исследования. Основные положения диссертационной работы докладывались и обсуждались на: XVI Всероссийской научной конференции «Электронные библиотеки: перспек-
тивные методы и технологии, электронные коллекции» (С.-Петербург, 2014); International Conference on Knowledge Engineering and the Semantic Web (Казань, 2014); 20 International Conference «Dialogue» (Прага, 2014); XVIII объединенной конференции «Интернет и современное общество. Компьютерная лингвистика и вычислительные онтологии» (С.-Петербург, 2015); IV и V Всероссийских конгрессах молодых ученых (С.-Петербург, 2015, 2016); International Conference on Knowledge Engineering and the Semantic Web (Москва, 2015); XLV, XLVI, XLVII научных и учебно-методических конференциях Университета ИТМО (С.-Петербург, 2016, 2017, 2018); 21st International Conference on Text, Speech and Dialogue (Брно, 2018). По материалам диссертационной работы опубликованы десять научных работ, в том числе пять в рецензируемых журналах, включенных в перечень ВАК, и пять – в рецензируемых журналах, включенных в базу данных Scopus, зарегистрировано девять результатов интеллектуальной деятельности.
Распределение работ между соавторами публикаций: Добренко Н.В. принимала участие на всех этапах работы; Гусарова Н.Ф. - постановка задач исследований; Боярский К.К., Станкевич А.С., Шалыто А.А. – общая координация работ; Артемова Г.О., Бурая К.И., Трофимов В.А., Грозин В.А. - проблемно-ориентированное исследование; Нигматуллин Н., Ведерников Н., Васильев А. -написание кода; Авдеева Н., Макаренко А., Ватьян А., Нин Т., Виноградов П.Д. – тестирование и отладка; Каневский Е., Гузевич Д. - обзор литературы. Доля личного вклада соискателя в статьях, написанных в соавторстве, не меньше, чем у каждого из соавторов.
Работа выполнена при финансовой поддержке Министерства образования и науки РФ, Соглашение № 14.578.21.0196 от 03.10.2016 (проект RFMEFI57816X0196). Результаты работы использованы в учебном процессе и научно-исследовательских работах Университета ИТМО (акты внедрения в НИР № 615870 и НИР № 617042), при разработке программного обеспечения в АО «Навигатор» (акт использования от 11.10.2018) и для поддержки учебного процесса в Центре детского юношеского технического творчества Кировского р-на СПб (акт использования от 27.07.2018).
Структура диссертации. Диссертационная работа состоит из введения, четырех глав, заключения, списка литературных источников.
Место задачи тематической сегментации научных текстов в общей структуре процесса проектирования технических систем
Проектирование – многоступенчатый итерационный процесс с возрастающей детализацией и точностью проработок, связанный с получением достоверной и полной информации и позволяющий принимать решения на основе оптимальных компромиссов с минимальным техническим и экономическим риском [26]. Проектирование современных технических систем предполагает разделение этого процесса на несколько взаимосвязанных и последовательных этапов: разработка технического задания (ТЗ), предварительное проектирование, в ходе которого ведется научно-исследовательская работа (НИР) и результатом которого является техническое предложение, эскизный проект, технический проект, рабочий проект, технология испытания и изготовления разработанного объекта (сертификация) [18]. На рисунке 1 представлены основные этапы проектирования технических систем. Основным способом повышения эффективности проектирования технических систем, сокращения ресурсных и временных затрат на проектирование является его интеллектуализация [4, 37, 42]. При этом классические процедуры проектирования усиливаются различными информационными технологиями, в том числе средствами машинной графики, обработки знаний, специализированными базами данных и пакетами прикладных программ, которые позволяют автоматизировать расчетные, оптимизационные и имитационные процедуры [18, 21, 37, 55].
В [57, 58] выделены основные парадигмы, лежащие в основе интеллектуализации САПР. Так, на базе парадигмы человеко-машинного взаимодействия развиваются диалоговые, вопросно-ответные подсистемы САПР, которые обеспечивают активное участие пользователя в решении задач проектирования. На базе парадигмы инженерии знаний были созданы модели представления знаний (фреймы, продукции, семантические сети), которые, в свою очередь, послужили основой для разработки и внедрения в САПР экспертных систем различного типа и назначения. Парадигмы мягких вычислений и вычислительного интеллекта сочетают в себе подходы нечеткой логики, генетических вычислений и нейроком-пьютинга, тем самым обеспечивая качественный рост интеллектуальных возможностей САПР.
С точки зрения проблематики диссертационной работы интерес представляют аспекты интеллектуализации, связанные с извлечением, представлением и использованием знаний проектировщиков.
Нечеткие экспертные системы представляют знания в форме совокупности нечетких продукций и лингвистических переменных; знания в этом случае фиксируются в виде функций принадлежности, которые строятся на базе статистики предыдущих решений или опыта экспертов.
Мягкие экспертные системы представляют знания как совокупность лингвистических переменных, нечетких продукций и обученных нейронных сетей, при этом вывод по нечетким продукциям обеспечивается комбинацией генетических алгоритмов с шагами многокритериального выбора решений. Тем самым формируется экспертная система проектирующего типа, которая сочетает экспертизу и расчетные процедуры.
САПР на базе вычислительного интеллекта позволяют моделировать рассуждения проектировщика на базе метода байесовских сетей доверия, выявлять скрытые структуры в массиве документов на базе их индексирования (формирования пар «слово-частота встречаемости в документе»).
САПР на базе гранулярных вычислений выполняют анализ временных рядов, описывающих развитие класса проектируемых систем. В качестве знаний здесь рассматриваются выявленные нечеткие тенденции о динамике различных показателей, получаемые на базе доступной статистики и экспертных мнений. Тем самым повышается информативность результатов моделирования и прогнозирования, а в целом - эффективность проектных процедур.
Как следует из приведенного описания, эффективность использования рассмотренных средств интеллектуализации САПР во многом определяется полнотой извлеченных знаний и их соответствием конкретной задаче проектирования. Для оценки возможности извлечения профессиональных знаний из эксперта в [13, 14] предлагается условная шкала:
1. знания, используемые для изложения или доказательства и представимые в словесной форме;
2. знания, которые эксперт применяет в своей реальной практике и которые он принципиально может выразить в словесной форме;
3. опыт - знания глубинных уровней, отвечающие за креативные, творческие решения эксперта.
Существенно подчеркнуть, что подавляющее большинство методов извлечения знаний из эксперта ориентировано на верхний и частично на средний уровни этой шкалы.
Как указывается в [57] и подтверждается практикой проектирования, «знания, используемые разработчиком на этапе общего проектирования, легко укладываются в форму продукций типа ситуация-действие». Эти знания, как правило, соответствуют на шкале уровням 1 и 2, т.е. они могут быть извлечены из эксперта, формализованы и далее использованы в интеллектуальных САПР.
В то же время в процессе проектирования присутствуют этапы, требующие от проектировщика нестандартных, креативных, творческих решений, которые опираются на его опыт, интуицию и широкий диапазон профессиональных умений и навыков. Интеллектуализация этих этапов проектирования, очевидно, должна быть связана с тем, чтобы помочь проектировщику более эффективно формировать собственные профессиональные знания, максимально соответствующие (релевантные) конкретной решаемой задаче проектирования.
Профессиональные знания - это характеризующие особенности конкретной деятельности сведения, которые необходимы для эффективной ее реализации [45]. В рамках компетентностного подхода [39] чаще используется термин «профессионально значимая информация» (ПЗИ) [32].
Можно выделить ряд особенностей ПЗИ, характерных для участников процесса проектирования технических систем.
Для повышения эффективности проектирования технических систем требуется привлечение к коллективной разработке проекта большого числа высококвалифицированных специалистов различных специальностей [26], для каждого из которых характерен свой объем и содержание ПЗИ.
Содержание и специфика ПЗИ, необходимой конкретному участнику процесса проектирования, зависят от назначения, условий работы и особенностей эксплуатации проектируемой системы, а также степени знакомства разработчика с ней.
В современном мире, вследствие постоянного возникновения новых технологий, принципы создания технических систем также непрерывно совершенствуются и меняются. Поэтому объем и содержание ПЗИ, которой владеет каждый разработчик, должны оперативно обновляться.
Таким образом, в процессе проектирования технических систем могут быть выделены этапы, на которых проектировщик сталкивается с необходимостью оперативного освоения максимально широкого спектра научной и технической информации, релевантной конкретной задаче проектирования. Анализ показывает и практика подтверждает, что наиболее значимыми в этом плане являются этапы разработки ТЗ и предварительного проектирования (НИР), выделенные на рисунке 1. Поиск, отбор и анализ научно-технической информации на этапе разработки ТЗ являются базой для формирования технических требований к системе, а на этапе предварительного проектирования (этапе НИР) обеспечивают поиск принципиальной возможности построения системы. Качество решений, принимаемых на этапах разработки ТЗ и предварительного проектирования, оказывает основное влияние на продолжительность процесса создания новой технической системы.
На этапе разработки ТЗ, на основе предоставленных заказчиком исходных данных и проведенного проектировщиком исследования, составляется ТЗ, которое содержит основные технические требования к разрабатываемой системе и служит основанием для ее проектирования [4]. В дальнейшем отобранное техническое решение, если оно вышло за рамки ограничений ТЗ, проходит множественные этапы согласования с заказчиком, при этом проектировщик должен давать обоснование отобранных, отличающихся от первоначальных, требований. От качества разработанного ТЗ зависят результаты дальнейшего проектирования системы. На этом этапе поиск, отбор и анализ научно-технической информации выступают как база для формирования основных технических требований, предъявляемых к системе, ограничений или особых условий эксплуатации проектируемой системы.
Отбор признаков для машинного обучения
Как отмечено в 1.2, в литературе предлагается целый ряд характеристик интернет-форумов, потенциально подходящих для оценки информационной ценности постов. В диссертационном исследовании отбор признаков производился в соответствии со спецификой постановки задачи – требованием максимально возможной языковой независимости характеристик. Список отобранных признаков представлен в таблице 6.
Для оценки важности автора поста на форуме использовалась типовая модель поведения пользователей форума – социальный граф [89], где вершинами являются пользователи, а ребра указывают на связь между двумя пользователями.
Для повышения объективности анализа связь определялась по наличию цитирования: если пользователь А цитирует пользователя Б, то между A и Б фиксируется связь. Однократное цитирование интерпретируется как направленная связь с ве сом 1 от вершины-пользователя А к вершине-автору исходного сообщения Б. Пост считается процитированным, если имя автора цитаты Б встречается в тексте сообщения А, или если А прочитал сообщение Б и отвечает на него (обращается к Б).
Количество цитирований Quoted (F10, таблица 6) определялось следующим образом: если имя Б встречено в сообщении А, то можно считать, что А процитировал последнее сообщение Б. Эта методика является языково-независимой, т.е. не требует точно знать сообщение и, тем более, анализировать его текст, т.е. выделять текст исходного сообщения в текущем посте. Кроме того, она легко реализуется программно.
Согласно [89], позиция автора на социальном графе определяется его возможностями влиять на других: у «центрального» автора больше связей, он может быстрее доставить информацию остальным пользователям, он контролирует информационные потоки между остальными. Очевидно, что здесь важна не только конфигурация ребер, но и их веса. Автор [118] предложил использовать при анализе социальных графов инвертированный вес ребра, который интерпретируется как пропускная способность ребра, т.е. величина, обратная стоимости доставки информации по нему (чем больше вес ребра, тем легче доставка). Веса ребер социального графа определялись через значения эмоциональной компоненты (Sentiment) соответствующего поста (F12, таблица 6). Значения Sentiment оценивались в соответствии с экспертной разметкой постов .
Для описания позиции автора поста на форуме использованы такие характеристики, как Degree (степень вершины) и Betweenness (центральность по промежуточности, чаще – просто центральность). Величина Degree определяется через число вершин, с которыми связана данная вершина. Так как социальный граф является ориентированным, то для него выделяются характеристики AuthorInDegree (полустепень захода вершины) и AuthorOutDegree (полустепень исхода вершины). Значение InDegree (F2, таблица 6) определяется как количество ребер, входящих в данную вершину, а AuthorOutDegree (F3, таблица 6) - как количество ребер, входящих в данную вершину. На взвешенном графе суммируются веса ребер соответственно:
NN
outDegreeSent(k) = J] wa; inDegreeSent(k) = wk., (ЗО)
2=1 2=1
где N - общее количество вершин в графе, {w } - матрица весов ребер социального графа, к- номер вершины, для которой рассчитываются характеристики.
Величина Betweenness определяется через число кратчайших путей между любыми парами вершин в графе, которые проходят через данную вершину. Кратчайший путь на невзвешенном графе - это количество ребер на пути между парой вершин (F1, таблица 6). Однако в случае наличия кратных ребер или на взвешенном графе, т.е. для расчета BetweennessSent (F4, таблица 6) ситуация усложняется: возможны варианты, когда информация будет проходить быстрее по непрямой связи, но обладающей большим весом, а не по прямой связи, но с меньшим весом. В литературе предложены различные подходы к расчету Betweenness на взвешенных графах, отличающиеся нормировочными коэффициентами и добавочными эвристиками. В нашей работе использован следующий подход: для ребер с отрицательным весом знак веса меняется (берется модуль), после этого веса кратных ребер складываются и инвертируются (т. е. рассчитываются как Их). Такая инверсия гарантирует, что кратчайший путь пролегает через ребра с наибольшим количеством цитирований (в графе без эмоциональный оценки) или с наибольшей суммой модулей эмоциональных оценок.
Если сумма кратных ребер оказалась равной нулю, то связь между такими вершинами игнорируется:
u . (31) Здесь Wi,j – вес ребра между вершиной i и вершиной j в преобразованном графе, Ni,j – количество ребер между вершинами i и j в исходном графе, wi,j,k – вес k-го ребра между вершинами i и j в исходном графе (он принимается равным 1 в случае невзвешенного графа).
Величина Num_Of_Threads (F7, таблица 6) определяется как количество тредов, в которых участвует данный пользователь на форуме, и также характеризует его активность. Содержание величин Length (F8, таблица 6) и Links (F9, таблица 6) очевидно из таблицы.
Величина Position_In_Thread (F11, таблица 6) характеризует тенденцию ухода поста в офф-топик и связана с закономерностями дрейфа темы на конкретном форуме. В настоящей работе мы предположили простейший, линейный механизм дрейфа; соответственно, величина Position_In_Thread определялась как номер поста в форуме в хронологическом порядке. Более сложные механизмы дрейфа темы, например, наличие некоторых периодичностей в обращениях пользователей к конкретному посту, могут служить предметом будущих исследований.
Как уже отмечалось в 1.2, назначение ключевых слов является в определенной степени базисной операцией для любой интеллектуальной обработки текста. В связи с этим для оценки влияния ключевых слов на эффективность ТС использовались два признака: величина Query_keyword_count (F13, таблица 6), рассчитываемая как количество ключевых слов в конкретном посте, и величина Most_used_topic_keyword_count (F13, таблица 6) – число наиболее частотных ключевых слов в посте. Ориентируясь на требование робастности по отношению к языку форума, для отбора ключевых слов мы использовали простейшую эвристику [132]: ключевые слова для оценки этого признака выделялись из заголовка треда, при необходимости использовался стемминг посредством усечения окончаний. Более обширный список ключевых слов потребовал бы поиска синонимов и эквивалентов, что предопределяло бы языковую зависимость характеристики.
Таким образом, компоненты множества объектов Х (6), которые соответствуют значениям лингвистических переменных кортежа (8), сформированы в сле-дуюшем виде: модель текста = статистическая (используется подход «мешок слов») + структурная (используется формальная структура форума как последовательности постов) ; (32) компоненты множества объектов Х (6), которые соответствуют значениям лингвистических переменных кортежа (10), сформированы в следующем виде: язык оригинала - языково-зависимые признаки не используются; текстовые признаки - признаки F8, F9, F12, F13, F14 (таблица 6); структурные признаки, характеризущие позицию автора в социальном графе - признаки F1-F7 (таблица 6); (33) структурные признаки, характеризущие положение поста в треде – признаки F10, F11 (таблица 6).
Эффективность тематической сегментации научной прозы в зависимости от характеристик текстов
В таблице 23 представлены средние значения и дисперсии F-меры (47) в зависимости от тематики и языка обрабатываемых текстов.
Результаты для всего датасета (таблица 23, поз. 1) показывают, что все выбранные алгоритмы демонстрируют достаточно близкие значения F-меры независимо от тематики и языка текста. Практически идентичные значения F-меры были получены на реальной научной прозе и на искусственно сформированном (конкатенированном) тексте, что является косвенным подтверждением репрезентативности разработанных в диссертации методов ТС. Эти результаты четко подтверждаются подробным анализом отдельных текстов, представленных в таблице 23.
Таблицы 24 и 25 иллюстрируют зависимость эффективности ТС научной прозы от внутренней структуры текстов, оцениваемой через количество уровней авторского структурирования (табл. 19). А именно, в таблицах 23, 24 показаны значения F-меры для всех выделенных границ топиков независимо от уровня заголовка, а в таблице 25 – количество выделенных границ для заголовков первого уровня.
Отметим, что, несмотря на сложную терминологическую основу медицинских текстов, для них достигается довольно качественная сегментация без использования внешних лексических ресурсов или n-граммных алгоритмов.
Это обнадеживающий результат, особенно для условий России, где лексические ресурсы по медицинской тематике очень слабо развиты.
Выявлена зависимость эффективности ТС от структурной организации текста. В частности, тексты T1 и T2 с практически линейной организацией демонстрируют лучшую F-меру (таблица 23, поз. 2, 3).
Сравнение таблиц 24 и 25 подтверждает, что качество сегментации с учетом всех уровней структурирования лучше, чем с учетом только верхнего уровня. Этот несколько неожиданный результат противоречит мнениям [106, 133, 148], которые были получены на основе изучения искусственных (конкатенированных) текстов. В то же время наши исследования показали, что в рамках научной прозы иерархическая структура оглавления может достаточно слабо соответствовать реальным результатам ТС.
Исследовано влияние языка текста на качество ТС. В таблицах 26 и 27 представлено сравнение топ-10 слов, выделенных алгоритмом ARTM для оригинальных текстов на английском языке и их профессиональных переводов на русский язык.
Результаты исследования для оригинальных текстов и их русскоязычных «зеркал» показывают, что количество и общая структура тем, представленных через топ-10 слов, сохраняются. Однако при переводе появляется дополнительный шум, который дает некоторое смещение позиций сегментации для каждого алгоритма (см. Рисунки 16 и 17, строки II и III), а также распределения тем по абзацам (см. Рисунки 16 и 17, строки V). Шум перевода также проявляется в изменении топ-10 лучших слов, а также их распределения в рамках тем и их состава (см. таблицы 26 и 27). Из этого следует, что при использовании средств интеллектуальной поддержки приобретения ПЗИ из научной прозы целесообразно, прежде всего, анализировать исходный текст.
Границы тем, выбранных алгоритмами, графически показаны на рисунках 12–19 по сравнению с границами тем, которые были представлены в авторском содержании, а также в экспертной разметке. На рисунках использована следующая легенда: заголовок – номера абзацев, строка I – сегментация автора, разбитая по уровням заголовка (II, I.II, I.III), строка II – сегментация алгоритмом LSA, строка III – сегментация алгоритмом TextTiling, строка IV – сегментация алгоритмом ARTM + TextTiling; для строк I–IV указаны границы тем, для линии V оттенки серого показывают принадлежность абзацев к одной из тем в соответствии с алгоритмом ARTM + TextTiling: светло-серый – тема 1, средний серый – тема 2, темно-серый – тема 3, черный – тема 4, белый – две темы в данном абзаце представлены одинаково. Количество выбранных тем автоматически устанавливается алгоритмом ARTM и варьируется от 2 до 4 в зависимости от текста, преобладают 3 темы.
Хотя, согласно таблице 23, все алгоритмы демонстрируют примерно одинаковую эффективность в смысле F-меры, но анализ рисунков 12–19 подтверждает, что каждый алгоритм принципиально выполняет ТС по-разному, выделяя ту или иную из характерных особенностей структурной организации текста. Например, алгоритм TextTiling характеризуется ошибками сдвига границ, а алгоритм ARTM -небольшими «пятнами» (включениями) в текущем сегменте из других сегментов.
В целом, все алгоритмы, несмотря на отдельные включения, демонстрируют реальное распределение тем в текстах (см. cтроки V на всех рисунках). Однако в ходе работы было обнаружено, что существуют зоны частых изменений тем между соседними абзацами, то есть выделяются отдельные топики размером 1 абзац. Подробный семантический анализ текстов в сравнении с результатами на рисунках 11–18 показывает, что эти зоны значимо согласуются с параллельным типом связности. Он может проявляться или непосредственно – в виде списочных струк тур (например, рисунок 14, абзацы 18–33), или косвенно – в форме обсуждений различных аспектов одного и того же тезиса (рисунок 16, абзацы 66–70). Сопоставление рисунков 13–18 показывает, что параллельная связность весьма характерна для научной прозы. Согласно общей теории понимания текста [10], такие топики нужно рассматривать как фрагменты общего тезиса автора. Следовательно, их целесообразно показывать читателю не по отдельности, а в сочетании с результатами, полученными другими алгоритмами, что является предметом рассмотрения в следующей главе.
Таким образом, результаты исследований позволили выявить зависимости между компонентом «признаки_для_машинного_обучения» (10) оценочного множества Y (12), с одной стороны, и компонентом «параметры_алгоритма» множества алгоритмов А (16), с другой стороны, для задачи ТС научной прозы. А именно: з. выделены алгоритмы, показавшие наилучшую эффективность для выделения ПЗИ из научной прозы (таблица 22); и. показано, что, независимо от отобранного алгоритма, лексическую схожесть соседних блоков целесообразно оценивать одинаково – с использованием косинусной меры (выражение (48)); к. выявлены диапазоны оптимальных значений уровня отсечки для алгоритма TextTiling (выражение (48)), а также оптимальных сочетаний уровня отсечки и количества сингулярных чисел для алгоритма LSA (рисунок 11); л. выявлена зависимость эффективности ТС от структурной организации текста; показано, что качество ТС с учетом всех уровней структурирования, имеющихся в тексте, лучше, чем с учетом только верхнего уровня; м. при сравнении ТС текстов на нативных языках и их профессиональных переводов выявлено, что количество и общая структура тем сохраняются, однако при переводе появляется дополнительный шум, который дает некоторое смещение позиций сегментации для каждого алгоритма; н. экспериментально показано, что, несмотря на практически идентичный уровень F-меры, каждый алгоритм ТС принципиально выполняет ТС по-разному, выделяя ту или иную характерную особенность структурной организации текста. Экспериментально показано, что все выбранные алгоритмы демонстрируют достаточно близкие и высокие значения F-меры независимо от тематики и языка текста.
Некоторые результаты, представленные в данной главе, опубликованы в статьях [2, 7, 8, 9, 24, 62, 63, 65, 92, 93, 142].
Результаты экспериментальных проверок разработанного метода композиции алгоритмов тематической сегментации
Как уже говорилось ранее, в 1.1, большую роль в повышении эффективности поиска научно-технической информации играют современные ИПС, которые довольно успешно решают первые два типа задачи поиска. Однако в случае проблемного поиска, являющегося основной составляющей творческого процесса, когда поисковые признаки неизвестны и вероятность пропуска необходимой информации все равно существует, применение современных ИПС, например, на таком этапе, как НИР, уже недостаточно. В связи с этим проектировщику необходимо либо проводить информационный поиск более широко, что ведет к росту временных и интеллектуальных затрат, либо, для сокращения временных и ресурсных затрат, предоставить проектировщику возможность анализировать не весь потенциально интересный текст, а только его фрагменты, содержащие релевантную, профессиональную значимую информацию, путем применения ТС текстов.
В данной главе приводятся результаты экспериментальных проверок повышения эффективности поиска научно-технической информации путем сокращения временных затрат при проблемном типе запроса. Экспериментальные проверки основаны на сравнительном анализе временных затрат на поиск информации пользователей с применением визуализатора, разработанного на основе полученных в диссертационной работе результатов, и с применением сервиса Google-Книга [9].
Таким образом, для подтверждения полученных в диссертационном исследовании результатов проведены экспериментальные оценки сокращения временных затрат, достигаемых проектировщиками при применении разработанных методов и алгоритмов. Для проведения проверок использованы тексты, описывающие технологии различных предметных областей, представленные в диссертационном исследовании ( 2.2.1, таблица 16).
Экспериментальная проверка эффективности разработанной методики методика отбора и настройки алгоритмов машинного обучения для суммаризации интернет-форумов проводилась в сравнении с бейзайном, и подробнее описана в 2.1.4. Результаты показали, что методика обеспечивает лучшую эффективность выделения ПЗИ по сравнению с бейзлайнами на 20%.
Среди текстов, относящихся к жанру научной прозы, являющихся типичными источниками для различных проблематик, проведена стратификация в соответствии с важными для нашего исследования характеристиками. Как уже говорилось, тексты отобраны таким образом, чтобы каждая страта в датасете была представлена несколькими образцами, и при этом в каждом тексте были представлены все вышеупомянутые типы связности, поэтому с точки зрения репрезентативности такой подход представляется вполне правомерным.
Для проверки полученных в диссертационном исследовании результатов были проведены два эксперимента. Первый эксперимент проводился среди научных сотрудников, в том числе научных сотрудников научно-исследовательского сектора АО “Навигатор”. Второй эксперимент проводился среди молодых ученых и студентов 3 и 4 курса Университета ИТМО.
Предварительные эксперименты показали, что указанные группы пользователей при поиске информации практически не применяют сплошной линейный поиск во всем тексте найденного документа, а, для повышения надежности поиска, опираются на какое-либо структурирование. При этом им доступны следующие виды внешнего структурирования:
- структурирование, заложенное автором, в виде оглавления или другой рубрикации текста;
- структурирование по плотности ключевых слов в тексте, предоставляемое поисковыми системами.
Наиболее продвинутым во втором случае является поиск по ключевым словам с применением сервиса Google-Книга [91].
Как показали предварительные эксперименты, временные затраты на поиск информации во втором случае оказались выше, чем в первом случае. В связи с этим сервис Google–Книга был выбран в качестве бейзлайна для наших экспериментов.
Методика экспериментальных проверок организована в соответствии с рекомендациями [23, 35] и состояла в следующем:
1. Одному или группе пользователей, в соответствии с предоставленным экспериментатором запросом, необходимо было найти в текстах релевантную, по их мнению, информацию. Время, затраченное пользователями на поиск, с момента старта и до момента получения полной релевантной информации по запросу, фиксировалось экспериментатором.
2. Пользователи осуществляли поиск информации как с помощью разработанного средства визуализации, описанного в 3.3, так и с помощью бейзлайна (сервиса Google–Книга).
3. Производилось сравнение времени, затраченного на поиск в обоих случаях.
Первый эксперимент проведен на базе АО “Навигатор”, в научно-исследовательском секторе интегрированных радионавигационных комплексов. В эксперименте участвовали научные сотрудники АО «Навигатор», работающие в области проектирования технических систем ближней и дальней навигации и имеющие стаж работы в научной сфере более 10 лет. Для этой экспериментальной группы характерно то, что работа на некоторых этапах проектирования в данном секторе требует от проектировщиков нестандартных, креативных, творческих решений, которые опираются на опыт, интуицию и широкий диапазон профессиональных умений и навыков специалистов.
Второй эксперимент проводился среди молодых ученых и студентов Университета ИТМО, со стажем работы в научной сфере менее 10 лет, однако работающих над актуальным научным исследованием в рамках НИР № 617042, исследования которого связаны, в том числе, с обработкой медицинских данных и текстов. Кроме работающих в рамках данного гранта студентов, для экспериментальной проверки были привлечены студенты, обучающиеся по дисциплине “Интеллектуальные технологии в гуманитарной сфере”. При этом экспериментальная группа студентов была разделена на две подгруппы: первая подгруппа выполняла поиск актуальной информации согласно предоставленному экспериментатором запросу путем применения разработанного средства визуализации, а вторая подгруппа путем поиска информации также согласно запросу, но уже путем применения сервиса Google–Книги.
Таким образом, организованные экспериментальные проверки обеспечили охват пользователей, различающихся не только опытом работы в научной сфере, но и содержанием и спецификой ПЗИ, описанной в 1.1.
Более подробная информация о составе экспериментальных групп приведена в таблице 28.
На рисунке 22 представлены усредненные значения (в секундах) времени, затраченного на поиск релевантной информации с помощью средства визуализации и сервиса Google–Книга, для всех трех групп: научные сотрудники, молодые ученые и студенты. Как видно из результатов экспериментальных проверок, получено сокращения временных затрат на поиск информации как по каждому тексту в отдельности (рисунок 23), так и при группировании текстов по отдельным характеристикам (рисунок 24).
Сводка данных по сокращению временных затрат для научных текстов различной проблематики, полученных в результате проведенных экспериментальных проверок, представлена в таблице 30.
Усредненное по всем экспериментам сокращение временных затрат для научных текстов различной проблематики и различных групп пользователей составило 20%.