Содержание к диссертации
Введение
Глава 1. Современное состояние проблемы автоматического сводного реферирования текста 13
1.1. Актуальность задачи автоматического реферирования текста 13
1.2. Реферати аннотация : 15
1.3. Постановка задачи реферирования текста 17
1.4. Обзор методов автоматического реферирования текста 19
1.5. Современные системы автоматического реферирования текста 40
1.6. Особенности сводного автоматического реферирования 41
1.7. Обзор методов сводного автоматического реферирования 43
1.8. Современные системы автоматического сводного реферирования 46
1.9. Постановка задачи исследования диссертационной работы 48
1.10. Выводы по Главе 1 50
Глава 2. Разработка метода тематического связанного ранжирования для задач сводного реферирования 52
2.1. Метод Manifold Ranking 52
2.2. Использование метода Manifold Ranking для задачи сводного реферирования 55
2.3. Использование метода Manifold Ranking для задачи сводного реферирования новостных кластеров на русском языке
2.4. Подбор параметров метода Manifold Ranking 59
2.5. Модифицированный метод Manifold Ranking 62
2.6. Подход к описанию модели кластера документа на основе тематической связности 68
2.7. Метод тематического связного ранжирования
2.7.1. Ранжирование на основе меры лексической близости предложений 73
2.7.2. Ранжирование на основе меры лексической близости предложений с учетом более сложных лингвистических критериев 74
2.7.3. Ранжирование с учетом нелинейности текста, как связной структуры на основе метода Manifold Ranking
2.7.4. Метод построения графа тематической связности 78
2.7.5. Метод формирования сводного реферата на основе графа тематической связности 80
2.8. Выводы по Главе 2. 82
Глава 3 Разработка алгоритма, автоматического сводного реферирования научно-технических Информационных сообщений 85
3.1. Обобщенный алгоритм автоматического сводного реферирования научно-технических информационных сообщений 85
3.2. Выбор способа формулировки тем 90
3.2.1. Использование заголовков документов в качестве формулировок основных тем коллекции документов 91
3.2.2. Использование шаблонных фраз как формулировок основных тем коллекции документов 3.3. Предварительный анализ текста 93
3.4. Модель и алгоритм вычисления TF-меры с учетом связей понятий по тезаурусу 97
3.5. Алгоритм формирования связного текста сводного реферата на основе графа тематической связности 100
3.6. Выводы по Главе 3 104
Глава 4. Исследование эффективности метода тематического связного ранжирования 105
4.1. Основные подходы к функциональной оценке качества систем реферирования 105
4.2. Экспертные ручные оценки качества реферирования 106
4.3. Метрика ROUGE-RUS
4.3.1. Метрика ROUGE-N 107
4.3.2. Метрика ROUGE-L 107
4.3.3. Метрика ROUGE-RUS для кластеров на русском языке
4.4. Описание эксперимента по оценке 109
4.5. Достоверность экспертных оценок и корреляция между критериями 111
4.6. Результаты оценки 115 4.7. Оценка производительности 120
4.8. Выводы по Главе 4 121
Глава 5. Программный комплекс «MDS Evaluation» 123
5.1. Общая концепция организации программного комплекса автоматического сводного реферирования 123
5.2. Программный комплекс для автоматического сводного реферирования «MDS Evaluation» 124
5.3. Архитектура ПК «MDS Evaluation» 125
5.4. Пользовательский интерфейс ПК «MDS Evaluation» 130
5.5. Пример работы ПК «MDS Evaluation» 130
5.6. Оценка эффективности ПК «MDS Evaluation» 130
5.7. Выводы по Главе 5 132
Заключение 134
Список литературы
- Современные системы автоматического реферирования текста
- Использование метода Manifold Ranking для задачи сводного реферирования новостных кластеров на русском языке
- Использование заголовков документов в качестве формулировок основных тем коллекции документов
- Метрика ROUGE-N
Введение к работе
Актуальность темы. В процессе своей деятельности промышленные предприятия, корпорации, ведомственные структуры, научно-исследовательские институты, проектные бюро, органы государственной власти и управления накопили большие объемы данных. Эти данные хранят в себе огромные потенциальные возможности по извлечению полезной информации, на основе которой можно выявлять скрытые тенденции, строить стратегию развития, находить новые решения. Необходимость осуществлять целенаправленную политику, эффективно действовать в условиях нового информационного режима, принимать эффективные управленческие, проектные и технические решения привела к развитию информационно-аналитической деятельности, как необходимого условия развития современного информационного общества. Объём информации, необходимой и используемой в аналитической деятельности, и далее принятии решений, достигает десятков и сотен мегабайт, а в крупных корпоративных и общегосударственных системах — терабайт (десятки и сотни тысяч электронных документов). Традиционные ручные методы обработки электронных документов экспертами-аналитиками, и даже автоматизированные методы обработки этих документов информационно-аналитическими системами оказываются малоэффективными. В таких условиях особую актуальность приобретают методы смыслосохраняющего сжатия текста, позволяющие извлекать наиболее значимую информацию из электронных текстовых документов. Среди них особое место занимают методы интеллектуального реферирования документов и коллекций документов. Классическое реферирование -процесс сжатия текстового документа и получение реферата, в котором сохраняется смысл оригинала. Реферат представляет собой краткое изложение содержания документа, его части или коллекции документов, включающее основные фактические сведения, необходимые для первоначального ознакомления с первоисточником и определения целесообразности обращения к нему. Наибольшую потребность в реферировании испытывает преимущественно научная и техническая литература, в которой содержится преимущественно новая информация. Использование рефератов вместо первоисточников документов позволяет эффективнее работать с большими объемами текстовой информации. Наибольший интерес для аналитической деятельности представляют обзорные или сводные рефераты, составляемые на некоторое множество документов, содержащие основные положения из них.
Одним из наиболее важных этапов жизненного цикла сложных технических систем является проектирование, которое, как правило, включает в себя сбор и анализ существующей информации о технических характеристиках, опыте эксплуатации в различных условиях, показателях надежности, авариях, отказах, контрактах на поставку, проектирование или приобретение аналогичных систем или систем-конкурентов. При этом объем информации, используемой для поиска и принятия нужных проектных и управленческих решений, может быть настолько большим, что делает невозможным ее полный анализ и обработку в виду существенных трудовых и временных затрат, что в конечном итоге затрудняет принятие правильных решений.
Таким образом, актуальным является создание новых эффективных методов и
алгоритмов, позволяющих автоматизировать формирование технических и
информационно-аналитических справок, информационных бюллетеней,
сокращающих трудовые и временные затраты на принятие проектных и управленческих решений, на основе сжатого представления коллекций научно-
технических текстовых документов на русском языке для задач информационной поддержки аналитической деятельности при проектировании сложных технических систем.
Цель работы. Целью диссертационной работы является повышение эффективности процесса проектирования сложных технических систем, а также качества информационного обеспечения аналитической деятельности в процессе проектирования с использованием современных методов обработки информации.
Задачи исследования. Главной научной задачей диссертационной работы является разработка нового эффективного метода автоматизации сводного реферирования научно-технических документов для информационной поддержки проектной и аналитической деятельности. Для решения этой главной задачи в работе поставлены и решены следующие частные научные и практические задачи:
Анализ основных современных подходов и методов, применяемых при решении задач автоматического сводного реферирования, методов оценки качества сводного реферирования.
Разработка модели тематической связности кластера научно-технических документов.
Разработка метода тематического связанного ранжирования, учитывающего связную природу текста, но не требующего большого количества лингвистических ресурсов.
Разработка алгоритма автоматического сводного реферирования коллекций научно-технических текстовых документов на основе предложенного метода.
Создание программного комплекса для автоматического сводного реферирования научно-технических информационных сообщений на основе разработанного алгоритма, ручной и автоматизированной оценки качества сводного реферирования.
Экспериментальные исследования оценки качества сводного реферирования на основе разработанного метода.
Объект исследований. Объектом исследования является семантико-синтаксическая структура научно-технического текста на русском языке.
Предмет исследований. Предметом исследования являются математические методы и модели автоматического сводного реферирования.
Методы исследования. При проведении исследований были использованы методы теории вероятностей, математической статистики, теории графов, теории информационного поиска, компьютерной лингвистики, современные технологии программирования. Разработанные теоретические положения и методы подтверждены экспериментально на базе созданного программного комплекса.
Научные положения, выносимые на защиту:
Модель тематической связности кластера научно-технических документов.
Подход к описанию кластера научно-технических документов на основе модели тематической связности.
Метод тематического связанного ранжирования.
Алгоритм формирования различных типов сводных рефератов на основе метода тематического связанного ранжирования.
Способ и результаты оценки качества сводного реферирования на основе предложенного метода.
Научная новизна.
Предложенный подход формального описания кластера научно-технических документов на основе модели тематической связности отличается учетом некоторых положений современной лингвистической теории связного текста Т. А. ван Дейка -В. Кинча, что позволяет формализовать сложную тематическую структуру кластера документов, выделять тематические связи в тексте для задач автоматического сводного реферирования.
Метод тематического связанного ранжирования отличается использованием строгого аппарата формализации тематической структуры текста и учетом его связности, что позволяет повысить качество сводного реферирования научно-технических документов, обеспечить связность текста получаемого сводного документа.
Разработанный метод также отличается возможностью реализации различных подходов к выбору основных значимых тем коллекции документов, включая полностью автоматический, что позволяет формировать различные типы сводных документов с заданными характеристиками для различного типа задач.
Разработанный алгоритм отличает универсальность в отношении лингвистических ресурсов, что позволяет применять метод для текстов практически на любом естественном языке, масштабировать программное обеспечение сводного реферирования в зависимости от наличия тех или иных лингвистических ресурсов для данного естественного языка.
Практическая ценность работы. Разработанное программное обеспечение на основе предложенных методов и алгоритмов позволяет реализовывать системы автоматического сводного реферирования научно-технических информационных сообщений на русском языке, учитывающие нелинейную и иерархическую природу текста. Разработанный автором программный комплекс позволяет автоматизировать процесс сводного реферирования научно-технических документов, создание аналитических справок и информационных бюллетеней на базе автоматических сводных рефератов, производить ручную и автоматическую оценку качества сводного реферирования. Программный комплекс имеет свидетельство о регистрации в Реестре программ для ЭВМ Федеральной службы по интеллектуальной собственности, патентам и товарным знакам РФ.
Внедрение и реализация результатов. Результаты работы использовались в
ОАО «Восточно-Европейский головной научно-исследовательский и проектный
институт энергетических технологий» (ОАО «Головной институт «ВНИПИЭТ») при
организации информационно-аналитической деятельности отдела
автоматизированных систем управления технологическими процессами в рамках проектирования комплекса технических средств АСКУ технологическими процессами промышленного производства МОКС-топлива; ООО «Инженерный Центр СпепАтомПроект» при организации информационно-аналитической деятельности в отделе комплексного проектирования для разработки технической документации на информационно-компьютерную сеть и оснащение рабочих мест персонала комплекса контейнерного хранения отработавшего ядерного топлива Филиала ОАО «Концерн Росэнергоатом «Ленинградская Атомная Станция» (подтверждено актами о внедрении).
Результаты работы внедрены в учебный процесс кафедры «Информационные системы и компьютерные технологии» БГТУ «ВОЕНМЕХ» им. Д. Ф. Устинова для
дисциплин «Моделирование систем представления знаний», «Автоматическая обработка естественного языка» (подтверждено актом о внедрении).
Достоверность результатов. Достоверность научных положений, результатов и выводов подтверждается корректным использованием математического аппарата, результатами вычислительных экспериментов по разработанным методам, алгоритмам и программам, обсуждением полученных результатов на научных конференциях, а также результатами использования и внедрения.
Апробация работы. Результаты работы докладывались и обсуждались на II Российской конференции молодых ученых по информационному поиску (Таганрог) в 2008г., на X Всероссийской научной конференции «Электронные библиотеки. Перспективные методы и технологии, электронные коллекции» (Дубна) в 2008г, на XI Национальной Конференции по Искусственному Интеллекту с международным участием (КИИ-2008, Дубна) в 2008 г., на XI Всероссийской научной конференции «Электронные библиотеки. Перспективные методы и технологии, электронные коллекции» (Петрозаводск) в 2009г.
Личный вклад автора. Основные научные положения, алгоритмы и их программная реализация, содержащиеся в диссертационной работе, получены автором самостоятельно.
Публикации. Основные теоретические и практические результаты диссертации опубликованы в 13 научных работах, среди которых 5 статей в ведущих рецензируемых изданиях, рекомендованных в перечне ВАК, 4 доклада на всероссийских и международных научно-практических конференциях и 2 свидетельства об официальной регистрации программ для ЭВМ.
Структура и объем диссертации. Диссертация состоит из введения, пяти глав, заключения, списка литературы, включающего 225 наименований, и 7 приложений. Работа изложена на 157 страницах, содержит 25 рисунков, 21 таблицу, объем приложений составляет 54 страницы.
Совре Методы на основе машинного обучения стали своеобразным развитием статистических методов классического подхода. В качестве набора признаков выбирается ряд статистических характеристик (сумма частот слов предложения, местоположение предложения в документе, наличие индикаторных фраз и т.д.). На основе корпуса текстов и имеющихся ручных рефератов, составленных экспертами, происходит обучение классификатора. Первые принципы автоматического реферирования с применением корпусного подхода были изложены в [159]. Первой работой, в которой задача выделения предложений была сформулирована как задача автоматической классификации на основе машинного обучения, стала публикация [182]. В работе используется относительно небольшой набор признаков, который был опробован в более ранних работах: длина предложения, «сигнальные фразы», положение предложения в абзаце, наличие в предложении частотных (для этого документа) слов, присутствие слов, набранных в верхнем регистре. В качестве метода использовался байесовский классификатор. Корпус для экспериментов состоял из 188 научно-технических статей на английском языке, для которых профессиональными библиографами были составлены рефераты. Так как предложения из составленных вручную рефератов могли отличаться от предложений оригинального текста, проводилась дополнительная процедура нахождения соответствия между предложениями реферата и оригинала. Результат оценки методом перекрестной проверки {cross validation): при формировании рефератов, совпадающих по длине с ручными рефератами (в среднем три предложения), доля совпадений с сопоставимыми предложениями рефератов-образцов составила 42%. Дальнейшим развитием стала работа [197] по созданию системы автоматического реферирования научно-технических текстов на корейском языке на основе алгоритма КРС. Авторами было обнаружено, что более чем 96% предложений ручных рефератов были главными предложениями темы. Метод сначала использует байесовский классификатор, чтобы определить принадлежит ли предложение главной теме, и затем комбинирует признаки из нескольких байесовских классификаторов, чтобы определить принадлежит ли предложение к реферату. Затем применяется фильтр, чтобы устранить лишние предложения. В данной работе был сделан вывод, что использование комбинации статистических, позиционных и индикаторных методов ведет к наилучшим результатам. Аналогичный подход используется и в [170]. В работе используется -больший набор признаков, а также более совершенный метод классификации — метод опорных векторов (support vector machine). В качестве корпуса используются 180 газетных статей корпуса Text Summarization Challenge на японском языке. Для каждого документа в корпусе редакторами выделены наборы наиболее важных предложений, соответствующие 10%, 30% н 50% объема исходного текста (по количеству предложений). В работе используется достаточно широкий набор признаков: позиция предложения, длина предложения, вес предложения (сумма модифицированных весов TF-IDF всех слов предложения), а также веса предыдущего и последующего предложений, плотность ключевых слов документа, наличие в предложении имен собственных определенных типов, присутствие определенных союзов и других функциональных слов, учитываются части речи, «семантическая глубина» существительных (определяется по словарю), жанр документа (каждому документу в корпусе приписан один из четырех жанров), наличие специальных символов, прямая речь, утвердительные высказывания. Пятикратная перекрестная проверка дала такой результат: 46,2% совпадающих предложений при объеме реферата 10% от исходного документа и 51,6% -при объеме 30%. Дальнейшее развитие подхода КРС есть в [140]. В работе предлагается несколько дополнений к традиционным статистикам: помимо морфологии предложено использовать словарь синонимов, а также идентифицировать имена собственные, названия, сокращения и т.д. В работе [174] рассматривается сразу несколько различных методик в области автоматического реферирования на основе машинного обучения. Авторы описывают реферирование, как процесс, состоящий из частей: идентификация темы, соответствующая этапу анализа исходного текста; толкование концептов, соответствующее этапу трансформации; и генерация реферата, соответствующее этапу синтеза результирующего текста. Идентификация темы нацелена на извлечение наиболее значимых понятий в документах с тем, чтобы использовать их для ранжирования предложений. Авторы представляют свой метод для идентификации наиболее, релевантной информации. Посредством обучения на корпусе документов и соответствующих им тем в виде набора ключевых слов предложенный метод выдает ранжированные список позиций предложений; который имеет тенденцию содержать в себе большинство ключевых слов, относящихся к теме. Система была обучена на корпусе из 13 000 статей, содержащем тексты, аннотации и ключевые слова. Метод, получивший название «Optimal Position Policy» показал довольно неплохие результаты. В рамках так называемого «толкования концептов» для того, чтобы перейти к более общим темам, Hovy и Lin делают попытки объединить связанные «концепты» путем подсчета в тексте частот концептов из тезауруса WordNet [195], используя иерархию понятий в тезаурусе для того, чтобы достичь соответствующего обобщения. Предложенную методику можно считать одним из первых шагов на пути от квазиреферирования к составлению абстракций. Однако, поскольку многие ожидаемые связи было довольно трудно найти в WordNet, авторами были использованы также другие методы на основе машинного обучения, включая категоризацию и кластеризацию. В работе присутствует описание эксперимента по категоризации 30 000 текстов из Wall Street Journal, где каждая статья отнесена к одной из 32 возможных тематических категорий (космос, банковское дело, окружающая среда, телекоммуникации и т.п.). Для каждой тематической категории были подсчитаны топ-300 терминов, определяющих тему. В настоящее время данные методы, по мнению авторов, требуют дальнейшего исследования. Из отечественных разработок стоит отметить работу [18]. В качестве корпуса были использованы статьи новостного ресурса Газета.ру (http://www.gazeta.ru). Для построения классификатора был использован метод опорных векторов. В работах [17-19] дана довольно подробная классификация существующих признаков, применяемых в настоящее время для методов машинного обучения. менные системы автоматического реферирования текста
Использование метода Manifold Ranking для задачи сводного реферирования новостных кластеров на русском языке
Работа с текстом на естественном языке до сих пор остается сложной задачей для вычислительной лингвистики: Построение сводных рефератов, как одна из наиболее востребованных в настоящее время задач данного направления, требует использования самых современных научных разработок в данной области. Основным недостатком большинства используемых на сегодняшний подходов к сводному реферированию является поверхностный анализ внутренней структуры текста. Подходы на основе анализа модели связности текста (лексической, структурной и смысловой), например, подходы дискурсного уровня и уровня сущностей текста требуют наличия различных лингвистических ресурсов (лексических и частотных словарей, грамматик, словарей синонимов, тезаурусов), различных баз данных и баз знаний. Такие подходы отличает более высокое качество реферирования. Однако довольно ограниченный набор лингвистических ресурсов промышленного масштаба (известно только несколько ресурсов должного объема: WordNet, «Общественно-политический тезаурус русского языка»), отсутствие многоязыковых ресурсов, сложности при формализации естественного языка, многозначность языка, зависимость от контекста делают промышленную или коммерческую реализацию таких подходов в настоящее время крайне сложной.
В данной работе предлагается подход к решению задачи автоматического сводного реферирования кластеров научно-технических документов на русском языке на основе учета особенностей тематической структуры текста без использования сложных и труднодоступных лингвистических ресурсов. Подход позволяет по-новому и более качественно решить проблему построения сводных рефератов нескольких документов для задач информационно-аналитической и проектной деятельности. Основное внимание в работе уделено вопросам тематической связности текста, а также алгоритмам автоматического построения и анализа такой структуры с целью решения задачи автоматического сводного реферирования. Целью диссертационной работы является повышение эффективности процесса проектирования сложных технических систем, а также качества информационного обеспечения аналитической деятельности в процессе проектирования с использованием современных методов обработки информации. Главной научной задачей диссертационной работы является разработка" нового эффективного метода автоматизации сводного реферирования научно-технических документов для информационной поддержки аналитической деятельности. Для решения этой главной задачи необходимо решить следующие частные научные и практические задачи:
Анализ существующих подходов к автоматическому реферированию текстов на естественном языке, в том числе многодокументному (сводному, обзорному) показал, что на сегодняшний день практически реализуемы в основном методы квазиреферирования, основанные на подходе извлечения из исходных документов предложений или абзацев. Простейшие методы позволяют подсвечивать наиболее значимые текстовые единицы, наиболее сложные алгоритмы позволяют формировать из них текст краткого реферата или аннотации. Наиболее существенным недостатков данного подхода является отсутствие связности получаемого текста. Методы абстракции на основе предварительного анализа, смыслового сжатия текста, как семантической структуры, и последующего синтеза реферата, несмотря на свою перспективность, пока остаются в рамках научно-исследовательских работ. Большинство методов, имеющих коммерческое или промышленное применение, позволяющих получить хоть сколько-нибз ДЬ связный реферат (аннотацию), ориентированы на особенности конкретного естественного языка и существующие лингвистические ресурсы для этого языка. Это создает дополнительные трудности при использовании данных методов для других языков, при создании многоязычных систем сводного реферирования. Кроме того, возможности существующих лингвистических ресурсов довольно ограничены. Для их создания и поддержки требуются колоссальные затраты, связанные с работой лингвистов, экспертов в различных предметных областях, специалистов по системам искусственного интеллекта.
В результате анализа материалов, посвященных современным исследованиям в области автоматического реферирования текстов, выявлено, что в настоящее время существует только несколько систем, позволяющие осуществлять сводное реферирование текстов на русском языке. Все эти системы являются коммерческими, используют внутренние, не раскрываемые авторами, методы и алгоритмы, основанные, в основном, на комбинации методов поверхностного уровня и уровня лексической связности.
С учетом результатов проведенного анализа сформулирована цель и основные задачи работы. В рамках подхода квазиреферирования (экстракции) необходимо разработать эффективный формализм описания тематической связности кластера документов для отражения нелинейности и внутренних тематических связей в предварительно кластеризованной коллекции документов, что позволит производить более качественное сводное реферирование научно-технических новостных сообщений на русском и любом другом языках, получать сводные рефераты в виде связного текста без использования больших и труднодоступных лингвистических ресурсов.
Использование заголовков документов в качестве формулировок основных тем коллекции документов
Автором для; научно-исследовательских задач был использован метод, основанный на наборе эвристик с последующей ручной корректировкой; однако в работе [130] был; предложен статистический подход к задаче определения траницщредложе-нийгвіпроизвольном тексте:на русском языке на,основе машинного обучения. Алгоритм основан, на: контекстах знаков препинания и не требует синтаксического анализа, что позволяет обрабатывать документы с.высокой скоростью. Экспериментальная оценка показала, что статистический- подход позволяет добиться; существенно более точного и полного выделения границ, чем наиболее распространенные эвристики. Таким образом, для промышленной реализации системы такой подход является более предпочтительным.
Разбиение предложений на отдельные слова может быть выполнено при помощи конечного автомата (простейший-лексический анализатор), либо на основе набора регулярных выражений с применением ряда эвристик, отражающих правила построения сокращений, инициалов, аббревиатур, составных слов для выбранного естественного языка.
Лемматтация (морфологический анализ). Целью и результатом морфологического анализа является определение морфологических характеристик слова и его основная; словоформа. Перечень всех морфологических характеристик слов и допустимых значений каждой из них зависят от естественного языка. Тем не менее, ряд характеристик (например, название части речи) присутствуют во многих языках. Результаты морфологического анализа слова, как правило, неоднозначны. Существует три основных подхода к проведению морфологического анализа:
«Четкая» морфология. Для русского языка данный,подход основан на словаре Зализняка [45]. Словарь Зализняка содержит основные словоформы слов русского языка, для каждой из которых указан определенный код. Известна система правил, с помощью которой можно построить все формы данного слова, отталкиваясь от начальной словоформы и соответствующего ей кода. Помимо построения каждой словоформы, система правил автоматически ставит в соответствие ей морфологиче-ские характеристики. При проведении четкого морфологического анализа: необходимо иметь словарь всех слов и всех словоформ языка. Этот словарь на входе принимает форму слова, а на выходе выдает его морфологические характеристики. Данный словарь можно построить на основе словаря Зализняка по очевидному алгоритму: перебрать все слова из словаря, для. каждого из них определить все возможные их словоформы и занести их в формирующийся словарь. Данный подход применим не всегда: слова, поступающие на вход, могут не входить в словарь всех словоформ. Такая ситуация может возникнуть из-за ошибок ввода исходного текста, из-за наличия в тексте имен собственных и т.д. В случае, когда метод не дает нужного результата, применяется нечеткая морфология.
«Нечеткая» морфология. Этот подход основывается на некоторой системе правил, по заданному слову определяющих его морфологические характеристики на основе морфемного анализа. Наличие тех или иных лексем может определять морфологические характеристики слова: можно построить систему правил, которая будет опираться на наличие или отсутствие каких-либо частей и выдавать одно или несколько предположений о морфологических параметрах. Такой набор правил молено построить двумя способами. Первый основан на морфемном анализе слов, содержащихся в словаре всех словоформ, и их морфологических характеристик. На основе известных пар значений, состоящих из морфемного строения слова и его морфологических характеристик можно сформировать обучающую выборку для самообучающейся системы, которая по морфемному строению слова будет определять его морфологические характеристики. Второй подход состоит в формировании набора правил вручную. По большому счету, его реализация - не что иное, как написание экспертной системы диагностирующего типа [74,126].
Вероятностный подход, основан на сочетаемости слов с конкретными морфологическими характеристиками; он широко применяется при обработке языков со строго фиксированным порядком слов в предложении и практически неприменим при обработке текстов на русском языке.
Для задач морфологического анализа автором была использована библиотека «РНР Morphy» [201] на основе алгоритмов АОТ [2], сочетающих «Русский морфологический словарь Диалинг», базирующийся на грамматическом словаре А. А. Зализняка и включающий 161 тыс. лемм; и метод предсказания словоформ, не найденных в словаре. 4. Определение концепта тезауруса, поиск синонимов, антонимов и так далее. Модель и алгоритм вычисления Г -меры с учетом связей понятий по тезаурусу будут подробно рассмотрены в параграфе 3.4.
Таким образом, тезаурус задает набор бинарных отношений на множестве терминов некоторого естественного языка. Термин — слово или словосочетание, призванное точно обозначить понятие и его соотношение с др. понятиями в пределах специальной сферы. Термины служат специализирующими, ограничительными обозначениями характерных для этой сферы предметов, явлений, их свойств и отношений. Они существуют лишь в рамках определённой терминологии. В отличие от слов общего языка, термины не связаны с контекстом. В пределах определенной системы понятий термин в идеале должен быть однозначным, систематичным, стилистически нейтральным. Наибольший интерес для автоматического сводного реферирования представляет следующий набор отношений между понятиями: антонимия, синонимия, гипонимия, амонимия. Этот набор отношений позволяет вносить поправки в величину TF-ISF, а также вычислять по тезаурусу. Если выбранная лексема присутствует в предложении, то мера tf вычисляется стандартным способом согласно (2.2.5), в противном случае, из (2.2.5) следует, что tf=0. С учетом связей с другими лексемами данного предложения по тезаурусу можно вычислить меру tf: где ос, р, у - коэффициенты соответствующие типу отношения между понятиями / и fom; / """ - длина пути по цепочке в тезаурусе между этими понятиями; tfom - мера tf понятия fom. Рассмотрим пример: предложение 1: «Ракета взлетела», предложение 2: «Булава полетела». Морфологический анализ выявляет следующее пространство лексем: Таблица 3.4.1 - Пространство лексем
Коллективом НИВЦ МГУ под руководствомБ.В. Доброва был создан информационно-поисковый тезаурус для автоматического индексирования текстов в общественно-политической области (Общественно-политический тезаурус), включающий более 32 тысяч понятий, 79 тысяч русскоязычных и 80 тысяч англоязычных текстовых входов [37]. Общественно-политический тезаурус используется как лингвистический ресурс в таких задачах информационного поиска как автоматическое концептуальное индексирование, визуализация результатов поиска, автоматическая рубрикация документов, автоматическое реферирование. С 1998 года Общественно-политический тезаурус вошел в состав Тезауруса русского языка РуТез, который помимо общественно-политической терминологии содержит описаний значений широкий круг общезначимой лексики в виде сети понятий. Существенный интерес для задачи автоматического сводного реферирования научно-технических текстов также представляє г Тезаурус научно-технических терминов [135], который издан в 1972 году. Тезаурус описывает терминологию военно-промышленного комплекса 70-х годов, но, к сожалению, не соответствует реалиям и технологиям настоящего времени. Кроме того ВИНИТИ обладает громадным массивом научно-технических текстов, имеются наборы терминов [5] по научно-техническим отраслям. Но эти термины не организованы иерархическими связями в единый ресурс научно-технической терминологии. Таким образом, единственно возможным с практической точки зрения является использование Общественно-политического тезауруса.
Метрика ROUGE-N
Фреймворк «Zend Framework». Zend Framework — это свободный каркас на РНР для разработки веб-приложений и веб-сервисов. Каркас разрабатывается в соответствие с идеологией РНР, предоставляет простые интерфейсы и мощную функциональность для разработки приложений. Он предоставляет расширения для построения современных, быстрых и безопасных сайтов. Основан на идеях модели MVC. Разрабатывается компанией Zend, являющейся разработчиком самого РНР. Помимо MVC-компонентов Zend Framework содержит множество библиотек, полезных для построения приложения.
JS-библиотека интерфейсов «ExtJS». ExtFS (на сегодняшний день «Sencha») — библиотека JavaScript для разработки веб-приложений и пользовательских интерфейсов. Использует адаптеры для доступа к библиотекам Yahoo! UI Library, jQuery или Prototype. Поддерживает технологию AJAX, анимацию, работу с DOM, реализацию таблиц, вкладок и так далее.
Библиотека сверхбыстрых матричных вычислений «Matrix Template Library (М7Х)».Кроссплатформенная библиотека шаблонов классов и интерфейсов на языке C++, реализующая сверхбыстрые матричные вычисления [218].
Расширение языка «РНР Math Extension». Расширение языка РНР Math Extension предназначено для предоставления программисту, использующему язык РНР, функций и классов для работы с матрицами1 и векторами. Расширение написано на языке C++ и использует сверхбыструю библиотеку для работы с матрицами MTL Library. Это дает возможность осуществлять сложные математические вычисления с матрицами и векторами на интерпретируемом языке РНР со скоростью компилируемой библиотеки. Расширение поставляется в исходных кодах и входит в состав ПК «MDS Evaluation». На библиотеку «РНР Math Extension» получено свидетельство об официальной регистрации программы для ЭВМ №2010612817[99].
Диаграмма компонентов ПК «MDS Evaluation» При разработке архитектуры ПК была использована модель MVC, рекомендуемая каркасом Zend Framework. Model-view-controller (MVC, «Модель-представление-поведение», «Модель-представление-контроллер») — архитектура программного обеспечения, в которой модель данных приложения, пользовательский интерфейс и управляющая логика разделены на три отдельных компонента, так, что модификация одного из компонентов оказывает минимальное воздействие на другие компоненты. Шаблон MVC позволяет разделить данные, представление и обработку действий пользователя на три отдельных компонента:
Важно отметить, что как представление, так и поведение зависят от модели. Однако модель не зависит ни от представления, ни от поведения. Это одно из ключевых достоинств подобного разделения. Оно позволяет строить модель независимо от визуального представления, а также создавать несколько различных представлений для одной модели.
В рамках апробации разработанного программного комплекса была произведена экспериментальная оценка эффективности его применения для задач информационно-аналитической деятельности. Для документов различного объема (приблизительное количество знаков: 3 000, 5 000, 10 000 и 50 000) и различного количества документов в коллекции (кластере) были оценены примерные временные затраты на подготовку аналитической справки на основе сводного реферата. Результаты оценки представлены в таблице 5.6.1. По результатам апробации использование программного комплекса позволяет сократить время на создание аналитической справки в среднем в 500 раз. При этом общие временные затраты на поиск проектного решения в результате аналитической деятельности могут быть снижены в среднем на 30% за счет предварительной обработки первичных документов и подготовки аналитического обзора или справки (таблица 5.6.2).
Сокращение времени на поиск проектного решения можно рассматривать как возможность увеличения количества используемых при анализе первичных документов для повышения эффективности принятия решений и снижения вероятности ошибок. Результаты анализа представлены в таблице 5.6.3.
Разработанный программный комплекс имеет открытую клиент-серверную архитектуру, реализованную с использованием объектно-ориентированного подхода, что позволяет расширять имеющийся функционал. ПК предназначен ручного и автоматического сводного реферирования научно-технических новостных сообщений на основе предложенного метода тематического связного ранжирования, ручной и автоматической оценки качества сводного реферирования по набору критериев, проведения экспериментов и дальнейшей статистической обработки результатов.
Серверная часть программного комплекса «MDS Evaluation» может работать под управлением операционных систем Linux, FreeBSD, MacOS и Windows. Программный комплекс реализует интерфейс «тонкого клиента» (Web-интсрфейс), что позволяет использовать клиентскую часть на любом компьютере, подключенном к локальной сети или Internet с установленным браузером для просмотра Web-страниц.
По результатам апробации использование программного комплекса позволяет сократить время на создание аналитической справки в среднем в 500 раз, в целом сократить временные затраты на процесс поиска проектного решения на 30%, увеличить количество анализируемых документов в среднем в 1,4 раза. Это, в конечном итоге, не только снижает общие затраты на проектирование, но и повышает его эффективность за счет увеличения количества документов, анализируемых при поиске соответствующих проектных решений.