Содержание к диссертации
Введение
1 Обзор существующих решений автоматического реферирования 11
1.1 Обзор методологий решения задачи автоматического реферирования текста 11
1.1.1 Классификация методологий по структурированности реферата... 11
1.1.1.1 Методологии, направленные на получение конечного результата с четкой структурой 11
1.1.1.2 Методологии, направленные на получение конечного результата в виде резюме 15
1.1.2 Классификация методологий по методам составления резюме 16
1.1.2.1 Метод составления выдержек 16
1.1.2.2 Метод формирования краткого изложения 18
1.1.3 Классификация методологий по наличию прототипного программного обеспечения 28
1.1.4 Анализ методологий решения задачи автоматического реферирования текста 31
1.2 Обзор коммерческих систем по автоматическому реферированию текста 33
1.2.1 Системы обработки текста 33
1.2.2 Системы автоматического реферирования 37
1.2.3 Анализ существующих систем автоматического реферирования...41
1.3 Классификация рефератов 42
1.4 Описание проблемы и постановка задачи 43
1.5 Выводы по разделу 44
2 Методы лингвистического анализа научного текста 45
2.1 Обобщенная схема решения задачи автоматического реферирования текста 45
2.2 Морфологический и синтаксический анализы 47
2.3 Выделение устойчивых словосочетаний 49
2.3.1 Модели словосочетаний 50
2.3.2 Способ выделения словосочетаний 52
2.3.2.1 Основные аспекты поиска словосочетаний 52
2.3.2.2 Автоматная модель поиска именных словосочетаний 55
2.3.2.3 Разбиение множества словосочетаний на классы эквивалентностей 58
2.3.2.4 Анализ выделенных словосочетаний 60
2.4 Модифицированный граф зависимостей 63
2.5 Семантический анализ 65
2.5.1 Построение графов семантической окрестности 65
2.5.2 Соединение графов семантической окрестности 67
2.6 Выводы по разделу 72
3 Формирование контента реферата научного текста 74
3.1 Формирование контента резюме 74
3.1.1 Выбор предложений-кандидатов в текст резюме 74
3.1.2 Анализ выбранных предложений на предмет удаления лишних 85
3.1.3 Построение логической последовательности предложений текста резюме 86
3.2 Оценка реферата 87
3.3 Выводы по разделу 88
4 Программное обеспечение и вычислительные эксперименты 90
4.1 Описание программного обеспечения 90
4.1.1 Функциональность системы 90
4.1.2 Основные классы и пакеты системы 91
4.2 Вычислительные эксперименты 93
4.3 Выводы по разделу 110
Заключение 111
Список литературы 112
- Методологии, направленные на получение конечного результата с четкой структурой
- Разбиение множества словосочетаний на классы эквивалентностей
- Построение логической последовательности предложений текста резюме
- Вычислительные эксперименты
Введение к работе
Актуальность исследования. Применение компьютеров в человеческой деятельности, в том числе и научной, не только ускоряет процессы создания и обработки документов, но и чрезвычайно увеличивает их количество и объем. Сегодня многие пользователи регулярно сталкиваются с необходимостью быстрого просмотра большого объема документов и выбора из них наиболее релевантных и действительно нужных документов. Такая проблема возникает при работе с текстовыми документами, базами данных, разборе электронной почты, а также при поиске информации в сети Интернет. Кроме того, очень часто в крупных организациях и компаниях правила делопроизводства предписывают необходимость сопровождать каждый документ кратким рефератом. Во всех указанных случаях выходом из ситуации является просмотр не всего документа, а его сжатого описания - аннотации или реферата. Это обусловило необходимость проведения исследований в решении проблемы автоматического реферирования полнотекстовых документов.
Исследованиями по автоматическому реферированию начали заниматься более 50 лет назад. К настоящему времени разработано достаточно много методов автореферирования, которые можно разделить на методы квазиреферирования и методы генерирования рефератов. Первые основаны на экстрагировании, т.е. выделении из текста наиболее информативных фрагментов, передающих основной смысл текста, вторые — на выделении наиболее существенной информации из текстов документов.
Теория и методика реферирования-экстрагирования были разработаны в конце 70-80гг. группой исследователей Ленинградского института культуры: Д.И. Блюменау, Н.И. Гендиной, И.С. Добронравовым, В.В. Леоновым, Д.Г. Лахути, Н.Э. Сергеевой и др. [23-24, 35, 56]. В рамках этой методики разработаны три вида методов: статистические, позиционные и индикаторные.
Статистические методы основаны на использовании статистических параметров для оценки информативности различных элементов текста (слов, предложений), прежде всего, по частоте встречаемости слов в тексте. Вес предложения определяется как сумма частот, входящих в него значимых слов. Существуют методы, в которых в качестве значимых элементов выбираются не слова, а словосочетания. Например, в методе симметричного реферирования вес предложения определяется количеством связей между данным предложением и предложениями, находящимися слева и справа от него.
Позиционные методы опираются на предположение о том, что информативность предложения находится в зависимости от его позиции в тексте документа.
Индикаторные методы основаны на функциональной идентификации фраз первичного документа с помощью индексации их специальными словами - маркерами, индикаторами и коннекторами, образующими лексический аппарат теории экстрагирования.
Для реализации метода генерирования рефератов требуются мощные вычислительные ресурсы, грамматики и словари для синтаксического разбора и генерации естественно-языковых конструкций, онтологические справочники, отражающие соображения здравого смысла, и понятия, ориентированные на предметную область.
Современные работы основываются на результатах, полученных на этапе становления автоматической обработки текстов, как особого направления компьютерной лингвистики, что отражено в работах Р.Г. Пиотровского, И.И. Севбо, А.А. Поликарпова, Ю.А. Шрейдера, М.В. Арапова, Б.В. Сухотина и других [89].
На сегодняшний день разработаны системы автореферирования текста, такие как промышленная система Newsblaster (Колумбийский Университет, США), система Prosum (British Telecommunication Laboratories), инструмент для автоматического аннотирования документов МЛ Аннотатор
(МедиаЛингва), система «Аналитический курьер», модуль Extractor, выделяющий из представленного ему на вход текста наиболее информативные именные группы, система TextAnalyst (Микросистемы) и целый ряд других. Кроме того, разработаны такие инструменты, как функция AutoSummarize в Microsoft Office, Inxight Summarizer (компонент поискового механизма AltaVista), системы IBM Intelligent Text Miner, Oracle Context. Большинство разработанных систем автоматического реферирования используют метод составления выдержек, т.е. выделяют и выбирают оригинальные фрагменты из исходного документа и соединяют их в короткий текст.
В основе многих систем автореферирования текста лежит статистический анализ текста, а для выявления смысла текста используется построение семантической сети исходного текста. Однако большинство разработок носят экспериментальный характер, не многие существующие системы поддерживают русский язык, генерируют сглаженные рефераты и предполагают опору на знания. Сервисы реферирования ориентированы либо на узкую предметную область, либо требуют участия человека, хотя можно выделить системы, в которых сделана попытка использования знаний на основе онтологического подхода, например, для разрешения проблем омонимии.
Таким образом, необходимо отметить, что в настоящее время переход от экспериментальных лабораторных исследований по созданию качественных рефератов к их использованию в решении прикладных задач реального мира до сих пор не произошел. Поэтому существует техническая проблема, заключающаяся в разработке интеллектуальной системы, позволяющей в автоматическом режиме строить качественные рефераты научного текста. Как правило, в автореферировании выделяются задачи формирования контента реферата и построения дискурса текста реферата. Для решения технической проблемы необходимо в первую очередь решить
научную проблему, связанную с разработкой метода формирования контента реферата, адекватно отражающего смысл текста.
Объект исследований — научный текст и соответствующий ему реферат.
Предмет исследований — методы формирования контента реферата.
Целью работы является разработка и исследование алгоритмов автоматического формирования контента реферата научного текста, позволяющих улучшить смысловое качество реферата и повысить эффективность процессов обработки данных и знаний в компьютерных системах и сетях.
Для достижения поставленной цели в работе решаются следующие задачи:
Обзор и анализ существующих решений в области автоматического реферирования текста.
Выбор и усовершенствование методов лингвистического анализа научного текста.
Разработка алгоритмов выбора предложений в реферат и алгоритма составления логической последовательности предложений в реферате.
Апробация разработанных моделей и алгоритмов.
Основная идея диссертации. В основе автоматического формирования контента реферата лежит лингвистический анализатор научного текста, осуществляющий морфологический, синтаксический, статистический и семантический анализы текста, выделение устойчивых словосочетаний согласно диагностирующим конструкциям. Однако многие методы невозможно построить без использования онтологии. С помощью онтологии можно построить семантическую сеть исследуемого текста, на основе которой предлагается осуществлять выбор предложений в реферат. Такой подход позволяет сформировать совокупность предложений в реферате, отражающих семантический аспект содержания текста. Как правило, сформированная совокупность предложений реферата не
отличается логической последовательностью, поэтому необходимо решить задачу адекватного расположения предложений в реферате на основе анализа семантики исследуемого текста.
Методы исследований. Методологической и теоретической основой выполненного исследования послужили положения теории искусственного интеллекта, логики предикатов первого порядка, нечеткой логики, ситуационного моделирования, теории автоматов и математической лингвистики.
Научная новизна. Научная новизна работы заключается в развитии методов автоматического построения реферата и состоит из следующих
элементов.
Новизна разработанного алгоритма выбора предложений из анализируемого текста в реферат заключается в применении онтологической базы знаний, позволяющей сформировать совокупность предложений реферата, отражающих смысловой аспект анализируемого текста.
Новизна алгоритма формирования логической последовательности предложений в реферате заключается в том, что сформированный контент реферата является информативным и обладает достаточно точным изложением содержания документа.
Практическая ценность исследования состоит в том, что применение алгоритмов формирования контента реферата обеспечит повышение качества реферата в системе автоматического реферирования, применение которой в глобальной сети Интернет, библиотечных системах позволит усовершенствовать процессы обработки данных и знаний в компьютерных системах и сетях.
Достоверность полученных результатов. Достоверность выводов работы определяется сравнительным анализом теоретических положений работы и экспериментальных данных. Сравнение показало корректность разработанных методов и алгоритмов.
Личный вклад автора. Все основные результаты диссертации получены лично автором.
Рекомендации по использованию результатов диссертации.
Результаты работы могут быть использованы при разработке программных средств автоматического построения реферата.
Апробация результатов диссертации. Основные положения и
результаты диссертационной работы докладывались и обсуждались на
Всероссийской научно-технической конференции «Информационные
системы и модели в научных исследованиях, промышленности и экологии»
(г.Тула, 2007 г., 2009 г.); Международной научно-технической
мультиконференции «Актуальные проблемы информационно-компьютерных
технологий, мехатроники и робототехники» (г. Таганрог, 2009 г.);
Всероссийской научно-практической конференции «Системы автоматизации
в образовании, науке и производстве - AS'2009» (г. Новокузнецк, 2009);
Всероссийской научно-технической конференции «Теоретические и
прикладные вопросы современных информационных технологий» (г.Улан-
Удэ, 2008-2009 гг.) и на ежегодных конференциях преподавателей,
сотрудников и аспирантов ВСГТУ. Материалы диссертационных
исследований используются в научных исследованиях Центра
дистанционного образования Воронежского государственного технического
университета при разработке интеллектуальных систем поддержки принятия
решений в части построения семантической сети предметной области
решаемой задачи; в учебной деятельности Восточно-Сибирского
государственного технологического университета при разработке учебного
курса «Естественно-языковые системы» по специальности 230105
«Программное обеспечение вычислительной техники и автоматизированных
систем» в виде курса лекций и методических указаний к лабораторным
работам.
Публикации. Основные результаты диссертационной работы опубликованы в 8 печатных работах, из которых 7 статей и одно свидетельство об официальной регистрации программы для ЭВМ.
Общая характеристика диссертации. Диссертация состоит из введения, 4 разделов, заключения, списка использованных источников, содержащего 131 наименование, 6 приложений. Основная часть работы содержит 125 страниц, включая 24 рисунка и 24 таблицы.
В первом разделе приведен обзор существующих методологий решения задачи автоматического реферирования научного текста и систем автоматического реферирования текста, рассмотрена классификация рефератов, проанализированы методы и системы автореферирования текста, описаны проблема и постановка задачи.
Во втором разделе описаны методы лингвистического анализа текста. Третий раздел посвящен разработанным в рамках работы алгоритмам формирования контента реферата научного текста.
Четвертый раздел посвящен описанию разработанного программного обеспечения и проведенным вычислительным экспериментам.
Заключение по работе содержит перечень научных и практических результатов, полученных при решении поставленной в работе проблемы.
В приложении А приведен текст, на основе которого был осуществлен вычислительный эксперимент, в приложении Б - рефераты текста, сформированные системой JASS по четырем предложенным в работе алгоритмам, в приложении В отражены результаты работы созданной системы автореферирования JASS, в приложении Г показан фрагмент онтологии в формате XML, в приложении Д - результаты оценки качества сформированных рефератов экспертами, а в приложении Е - акты об использовании результатов работы.
Методологии, направленные на получение конечного результата с четкой структурой
Структуры сформированных рефератов в зависимости от принятого подхода в методологиях, направленных на получение реферата с четкой структурой, могут существенно различаться.
В работах В.А.Чижаковского, Э.М.Добрускиной, Р.Г.Пиотровского, Л.Н.Беляевой [19-21,89, 109] структура реферата включает в себя библиографические сведения, информацию о содержании и тематике текста, фактографические данные о названиях релевантных объектов и их свойствах.
В работе О.А. Бородиной [26] на основе анализа текстов научных рефератов выявлено семь основных узлов фрейма научных текстов, отражающих, с одной стороны, типовой референт первичного текста (научно-исследовательская работа), с другой, вторичный референт реферата (первичный текст). В каждом фрейме имеются слоты, содержащие историю вопроса, цель исследования, суть исследования, результат исследования, практическую апробацию, перспективы, характеристику первичного текста, а также соответствующие им типы информации, реализуемые в сложных фреймах. Кроме этого в работе также рассмотрены структуры рефератов документов в реферативном журнале, в котором реферат документа дается совместно с библиографическим описанием, включающим в себя заголовок, фамилию автора и выходные данные. При этом выявлено, что наиболее распространенными являются следующие виды рефератов: - реферат с последовательностью: заголовок, библиографическое описание, текст реферата; - реферат с тематическим предложением на первом месте: тематическое предложение (наиболее важное в информационном отношении предложение, извлеченное из текста реферата), текст реферата, библиографическое описание; - реферат с заголовком на первом месте: заголовок, тематическое предложение, текст реферата, библиографическое описание (без повторения заголовка). Достоинством работы О.А. Бородиной является возможность выбора структуры реферата в виде научного текста или текста для реферативного журнала. Однако структура реферата в виде научного текста не соответствует структуре, рекомендованной в действующем стандарте ГОСТ 7.9-95 «Реферат и аннотация. Общие требования». Следующий подход, который предлагался неоднократно, в частности, профессором Д.Г. Лахути [35], и описан в работе Ю.Г. Зеленкова [42], заключается в составлении структурированного реферата. Реферат составляется из стандартизованных фрагментов текстов, дополненных, в случае необходимости, нестандартными элементами. На основе анализа специалистами рефератов были составлены словарь стандартных фраз и словарь ключевых слов и словосочетаний по информатике и вычислительной технике. Словарь стандартных фраз включал около 600 элементов, а словарь ключевых слов и словосочетаний — около 17 тысяч элементов. Стандартными фразами, например, являются: «Описывается система, предназначенная для», «Обсуждаются вопросы, связанные с», «Дается анализ», «Оцениваются возможности для», «Большое внимание уделяется», «Излагается методика моделирования», «Рассматривается взаимодействие», «Анализируются недостатки», «Предлагается создать», «Описываются требования, предъявляемые к», «Даются рекомендации, направленные на», «Метод можно использовать при». Далее стандартные фразы были сгруппированы в словаре по смысловым аспектам реферирования. Каждой фразе были поставлены в соответствие ключевое слово и словосочетание, отражающее ее смысловое содержание. Примерами смысловых аспектов реферирования являются: «Тема документа», «Состояние проблемы», «Цель исследования», «Объект исследования», «Методы исследования», «Инструмент исследования», «Результаты исследования», «Оценка результатов», «Область применения», «Выводы», «Рекомендации», «Перспективы развития». Достоинством данного подхода является то, что структура реферата наиболее приближена к структуре реферата ГОСТа 7.9-95. К недостаткам следует отнести то, что размеры словарей стандартных фраз и ключевых слов и словосочетаний очень большие, и их необходимо создавать для каждой предметной области, т.к. формирование реферата основано на поиске предложений, содержащих диагностические признаки, описанные в этих словарях. Наиболее проработанным с точки зрения структурированности реферата является подход, получивший название реферирование-экстрагирование. Теория и методика реферирования-экстрагирования были разработаны в конце 70-х-80-х годах группой исследователей из Ленинградского института культуры: Д.И. Блюменау, Н.И. Гендиной, И.С. Добронравовым, В.П. Леоновым, Н.Э. Сергеевой [23-24, 35, 56] и др. В разработке данного подхода также принимал участие Д.Г. Лахути. В рамках экстрагирования под реферированием понимается «извлечение из текста-первоисточника предложений, характеризующих основное содержание этого текста, на основе заранее сформулированных правил. Набор таких предложений образует реферат-экстракт». Правила методики экстрагирования [23] включают: — выделение в структуре первичного документа аспектов его содержания, таких как (а) известный вариант решения проблемы, (б) оценка известного варианта решения, (в) постановка проблемы, (г) целевая установка, (д) предлагаемый вариант решения, (е) оценка предлагаемого варианта, (ж) особенности предлагаемого варианта, (и) результаты, (к) рекомендации; - определение предложений, характеризующих аспекты содержания текста, по лексико-грамматическим признакам, к которым относятся маркеры, индикаторы, коннекторы. Под маркерами понимаются слова и словосочетания, однозначно выражающие тот или иной аспект текста первичного документа. Например, аспект щелевая установка» характеризуется маркерами «Цель», «Целью является», а аспект «предлагаемый вариант решения проблемы» - маркерами «В работе предлагается», «Предлагаемый... основан». Индикаторы, в отличие от маркеров, не связаны с каким-либо аспектом текста, а указывают на предложения, которым автор придает особое значение, например, «Следует подчеркнуть», «Необходимо отметить», «Следовательно». Коннекторы служат для выделения предложений, так или иначе связанных с маркированными предложениями. К ним относятся: а) указательные и личные местоимения, слова-заместители — коннекторы первого типа; б) слова и выражения, говорящие о том, что предложение, в которое они входят, уточняет, конкретизирует содержание маркированного предложения, например, «При этом», «В частности», «Например», «В том числе», «Следующий» - коннекторы второго типа. Экстрагирование проводится с использованием словаря маркеров и индикаторов (словесных клише) и включает следующие этапы. 1. Просмотр текста первичного документа и выписывание предложений, содержащих маркеры. Предложения с индикаторами выписываются только в том случае, если референт считает, что одних маркированных предложений недостаточно. 2. При наличии коннекторов первого типа делается шаг назад и выписывается предыдущее предложение. 3. При наличии коннекторов второго типа делается шаг вперед и выписывается следующее предложение. К недостаткам данного метода можно отнести его трудоемкость при составлении словарей маркеров, индикаторов и коннекторов, а также несоответствие структуры реферата ГОСТу 7.9-95. В рамках рассматриваемой методологии подход, основанный на реферировании-экстрагировании, является самым развитым, но, к сожалению, не имеет программной реализации.
Разбиение множества словосочетаний на классы эквивалентностей
Анализ выделенных словосочетаний выполняется в три этапа: 1) определение и исключение абстрактных прилагательных из словосочетаний; 2) выявление композиционных словосочетаний и разделение их на отдельные словосочетания; 3) определение синонимов термов и замена термов с низкой частотой встречаемости на соответствующие им синонимы. Рассмотрим суть каждого из перечисленных этапов анализа словосочетаний. Определение и исключение абстрактных прилагательных из словосочетаний. Абстрактные прилагательные классифицируются по следующим категориям: - классификация (любой, каждый, некоторый, определённый, специальный, типичный, общий, частный, единичный, уникальный, сложный, простой, отдельный, особенный и т.д.); - качество (равный, такой же, тот же самый, похожий); - количество (максимальный, минимальный, средний); - логические категории (абсолютный, относительный, положительный, отрицательный, реальный, условный); - соответствие (правильный, неправильный, приблизительный, точный); - выгода (выгодный, невыгодный, доходный). Среди выделенных именных субстантивных словосочетаний выполним распознавание лексем, относящихся к абстрактным прилагательным, для чего используются сформированный словарь основ абстрактных прилагательных Sa и морфологическая информация лексем, входящих в анализируемое словосочетание. Как нам известно, для каждой лексемы / имеется множество векторов морфологической информации М- { vi, v2, v3, v4, V5, v6, v7, v8 }. Производим проверку каждого вектора. Если в некотором векторе компонент Уі= прилагательное , то проверяем её наличие в словаре абстрактных прилагательных Sa. Если leSa и содержится в словосочетании хєЕ, то удаляем ее из словосочетания х. Процесс повторяется для всех словосочетаний из множества Е текста Т, в результате которого формируется новое множество словосочетаний Е. Далее производим перерасчет значений частоты встречаемости и весов термов из множества Е. Выявление композиционных словосочетаний и разделение их на отдельные словосочетания. Из множества словосочетаний Е выделим композиционные (составные) словосочетания. Композиционными словосочетаниями будем называть словосочетания, которые включают в себя два и более словосочетаний с разными несущими словами. Например, в словосочетании «экспертная система процедуры управления» можно выделить отдельные словосочетания: «экспертная система», «процедура управлення». В этом случае первое словосочетание является композиционным словосочетанием. Все выявленные композиционные словосочетания разобьем на простые словосочетания и включим их во множество Е, а затем опять произведем перерасчет значений частоты встречаемости и весов словосочетаний. Определение синонимов термов и замена термов с низкой частотой встречаемости на соответствующие им синонимы. Для определения синонимов термов из множества Е будем пользоваться онтологией предметной области. В онтологии множество синонимов текущего словосочетания представлено в виде множества 0={(сьс2) сх — синоним; с2 -ссылка на словарную статью, описывающую с\ как термин} [73]. В Приложении Г приведен фрагмент онтологии предметной области «Системы искусственного интеллекта», которой соответствует исходный текст. Осуществим поиск словосочетаний и соответствующих им синонимов, используя приведенную онтологию, во множестве Е, сравним частоты встречаемости этих термов в тексте Т и произведем замену словосочетаний с низкой частотой встречаемости на синонимы этих словосочетаний с большей частотой встречаемости. В связи с этим возникают два случая: 1) если словосочетания-синонимы встречаются в одном классе эквивалентности, то возрастают частоты встречаемости термов, которые участвовали в вышеупомянутой замене; 2) если словосочетания-синонимы встречаются в разных классах эквивалентности, то класс с меньшим весом удалится, а в класс с большим весом преобразуется за счет добавления всех элементов из удаленного класса. Тем самым сократится количество классов эквивалентности в фактормножестве, а вес преобразованного класса увеличится. Рассмотрим в тексте «Модели представления знаний» словосочетания-синонимы с разной частотой встречаемости: «продукционная система» (f=2), «система продукционного типа» (/=4), «система продукций» (/=1). При замене словосочетаний с меньшими весами на словосочетание с большим весом в классе эквивалентности «.система» останется словосочетание «система продукционного типа» с частотой j=l. Данный пример показывает модификацию класса эквивалентности, в частности, класса «система». В следующем примере показана модификация фактор-множества. В тексте «Функциональная и структурная организация процессорных устройств обработки информации» [4], состоящем из 219 предложений, выделено, кроме прочих, два класса эквивалентности: с несущим словом «компьютер», встречающимся в тексте 8 раз, и класс с несущим словом «ЭВМ», встречающимся в тексте 12 раз. При замене лексемы «компьютер» на лексему «ЭВМ» класс эквивалентности «компьютер» будет удален, а класс эквивалентности «ЭВМ» расширится за счет элементов удаленного класса, и, соответственно, вес класса «ЭВМ» увеличится. Таким образом, в результате выполненных преобразований текста произойдет модификация отдельных классов эквивалентности КЕ и самого фактор-множества {К }. 2.4 Модифицированный граф зависимостей Модификация графов зависимостей G предложений текста Т будет выполнена на основе использования множества выделенных словосочетаний Ё по алгоритму, описанному в работе [13]. Модифицированный граф зависимостей является ориентированным графом, построенным на основе термов из множества Е, входящих в предложение S текста Т: GA/=(FV/, UM), (2.6) где Vй = Vtl и УҐ, VtM и ViM - множества вершин, выраженных термами предложения из множества Е; if1 - множество дуг, определяющих семантическое отношение между термами, находящимися в вершинах графа. На рисунке 7 приведен пример модифицированного графа зависимостей GAt предложения «Данные в процессах компьютерной обработки проходят преобразование от исходной формы данных до базы данных, которая хранится на машинных носителях информации через представления данных на машинных языках», исходный граф зависимостей Gs которого приведен на рисунке 4. Модифицированный граф зависимостей предложения GM Термины, выраженные отглагольными существительными, в графе заменены соответствующими глаголами. Из примера видно, что в вершинах графа зависимостей располагаются термы-словосочетания или термы-лексемы. При этом, между парой терминов {«данные», «процессы компьютерной обработки») существует семантическое отношение, выраженное глаголом «проходят»; между парой терминов {«исходная форма данных», «базы данных») — семантическое отношение, выраженное глаголом «преобразовать», а между парой терминов {«данные», «машинные языки») — семантическое отношение, выраженное глаголом «описывать».
Построение логической последовательности предложений текста резюме
Алгоритм построения логической последовательности предложений также базируется на использовании онтологии предметной области и применяется к выбранной совокупности предложений.
Пусть имеем модифицированное множество предложений резюме Р"-{РІ\РЇ - /_е предложение текста резюме, і =1.. п", п" - количество предложений в тексте резюме} и графы семантической окрестности терминов GF. Необходимо составить текст реферата Р= {p,\pi — i-Q предложение текста реферата}.
Для решения этой задачи строим семантическую сеть резюме. В семантической сети находим узел с наибольшим весом и наибольшим количеством связей. Начинаем поиск расположенного в данном узле сети понятия в онтологии предметной области. Просматриваем последовательно слоты фрейма найденного понятия и выбираем те предложения, которые соответствуют связи в семантической сети между именем понятия и значениями слотов фрейма понятия. Далее выбираем предложения, соответствующие связи этих понятий, являющихся значениями слотов, с другими понятиями в семантической сети. Затем просматриваем фреймы понятий, расположенных в слотах рассмотренного ранее понятия, считая их связанными, и выполняем выбор предложений.
Знаки-фреймы, с помощью которых происходил процесс выбора предложений во вторичный текст, по определению представляют собой иерархическую сеть. Это свойство положено в основу данного алгоритма. Это означает, что сначала необходимо выстроить иерархию терминов, затем в соответствии с ней определить последовательность предложений в реферате. Так, например, в интеллектуальную систему входит база знаний, база знаний состоит из знаний и т.д. База знаний является частью интеллектуальной системы, поэтому ссылка на знак-фрейм термина «База знаний» будет записана в соответствующем слоте знака-фрейма термина «Интеллектуальная система». Знания являются частью базы знаний, поэтому ссылка на знак-фрейм термина «Знания» будет записана в слоте знака-фрейма термина «База знаний» и т.д. Тогда в реферат сначала будут выбраны предложения, содержащие термин «Интеллектуальная система», за ними последуют предложения с термином «База знаний», затем - предложения с термином «Знания» и т.д. Таким образом, все предложения во вторичном тексте будут выстроены в логической последовательности. На наш взгляд, реферат, построенный с помощью предложенного алгоритма, получается связным и осмысленным. Целью методов оценки рефератов является определение смыслового соответствия или, иными словами, семантического тождества реферата и первоисточника. В настоящее время известны две методики оценки [49]. Первая методика - нормативная оценка (оценка «изнутри»). Пользователи судят о качестве реферата, анализируя сам реферат. Оценивается гладкость текста, делаются выводы о том, насколько хорошо реферат отражает основные идеи оригинала, либо сравнивают его с идеальным рефератом, написанным автором исходного текста или другим специалистом данной предметной области (экспертом). Ни одна из этих оценок не может считаться полностью удовлетворительной. В частности, идеальный реферат составить исключительно сложно, и такие продукты очень редки. Разные пользователи могут признать приемлемыми довольно разнящиеся рефераты, будь то краткие изложения или наборы выдержек. Второй метод - оценка «извне». Пользователи оценивают качество рефератов по тому, как он влияет на завершение той или иной работы, например, помогает ли он найти источники информации по данному вопросу, или насколько хорошо он позволяет ответить на определенные вопросы, относящиеся ко всему содержанию текста. Задачу оценки семантического тождества реферата первоисточнику будем решать методом их сравнения по основным смысловым аспектам. В применении к содержанию документов, понятие аспекта соотносится с понятием части-целого, причем части, как правило, наиболее важной. Преимущество такого подхода заключается в том, что смысловые аспекты содержания остаются неизменными на различных этапах переработки информации. Данное обстоятельство имеет важное значение для оценки соответствия реферата первичному источнику. Можно выделить следующие критерии качества реферата: - связность (правильность следования предложений в тексте); - осмысленность (выбор предложений, несущих основную смысловую нагрузку); - полнота охвата всех разделов текста. В данной работе используется первый метод оценки реферата. Полученный реферат сравнивается с рефератом, составленным экспертом в предметной области, которой соответствует первоначальный текст на предмет совпадения выбранных предложений. В данном разделе предложены три алгоритма выбора предложений в текст резюме на основе семантической сети текста и один алгоритм выбора предложений в резюме на основе онтологии. Для получения связного и осмысленного реферата был разработан и описан алгоритм формирования логической последовательности предложений. Первый алгоритм основан на выборе графов семантической окрестности терминов и узлов в графах с наибольшими весами и определении связи между ними в семантической сети. Второй алгоритм заключается в определении самого длинного и весомого маршрута по семантической сети, включающего различные узлы графов семантической окрестности.
Вычислительные эксперименты
В ходе работы была разработана система JASS (Java Automatic Summarize System), которая осуществляет морфологический, синтаксический и семантический анализ естественно-языковых текстов, строит семантическую сеть текста и формирует его реферат.
Для разработки программного обеспечения использовались объектно-ориентированный язык программирования JAVA, среда разработки программного обеспечения Eclipse IDE, фреймворк для визуализации графов JUNG (Java Universal Network/Graph Framework). Разработанная система JASS обладает следующей функциональностью: - производит предварительный анализ текста; - выделяет словосочетания из предложений по xml-шаблонам; - строит классы эквивалентностей терминов; - строит взвешенную семантическую сеть текста; - визуализирует семантическую сеть; - позволяет получать статистическую информацию по тексту; - формирует реферат текста. Функциональность системы обеспечивается основными пакетами и классами, входящими в состав системы. Схема соответствия функций, выполняемых системой, пакетов и классов, входящих в ее состав, представлена на рисунке 11. В состав системы входят следующие пакеты и классы: 1. Package ru.esstu.morph. Данный пакет содержит классы, которые выполняют поиск морфологической информации, а - синтаксический анализ текста. Class Word. Класс - слово. Реализует поиск морфологических характеристик лексем. В конструктор класса передается строковый параметр - лексема, которой присваиваются морфологические характеристики. Класс реализует методы сравнения, поиска частоты встречаемости в тексте. Class WordCombination. Класс - словосочетание. Класс включает объекты типа Word. Класс реализует методы сравнения, поиска, определения несущего слова, пересечения словосочетаний в предложении, вхождения слова в предложение и т.д. Class Sentense. Объектное представление предложения. Разбивает предложение на лексемы, передает лексемы в конструктор класса Word, выделяет словосочетания. Инициализирует лексемы и словосочетания. Реализует методы: сравнение, поиск, вычисление числа вхождений слова и т.д. Class Rule. Этот класс включает в себя набор правил выделения словосочетаний. Инициализируется из xml файла. 2. Package ru.esstu.syntax. Пакет отвечает за семантический анализ, объединяет в себе все стадии анализа текста, реализует методы построения семантической сети и алгоритмы построения рефератов. Class TextReader. Считывает текст из файла или стандартного потока ввода, разбивает текст на предложения. Class ElementaryFragnent. Класс - элементарный фрагмент. Объединяет словосочетания по принципу несущего слова. Взвешивает словосочетания, находит синонимы внутри класса. Class Syntax. Объединяет классы, реализующие синтаксический анализ. Устанавливает связи между фрагментами. Class SyntaxAnalizator. Строит семантическую сеть, взвешивает дуги сети, вычисляет вес вершин сети, реализует методы построения реферата (статистические и по выбору из семантической сети). 3. Package ru.esstu.UseDLL. Class InitDll регистрирует необходимые DLL библиотеки в системе. Class UseDll загружает DLL со словарями морфологического разбора. 4. Package ru.esstu.Interface. Class Interface отвечает за пользовательский интерфейс. Класс объединяет классы диалоговых окон, таблиц, и т.д. 5. Package ru.esstu.Onto. Класс Onto предназначен для работы с онтологией. Класс реализует функции OWL-napcepa, основное назначение которого - раскрытие тэгов OWL-файла. Класс читает записи любой вложенности, используя рекурсию. Данный класс используется для анализа онтологии, хранящейся в формате OWL. Класс Onto реализует методы поиска связанных понятий, синонимов, трассировки онтологии. 6. Package ru.esstu.NetViewer. Класс NetViewer предназначен для визуализации семантической сети. Использует различные алгоритмы расположения узлов. На основе реализованной системы, были проведены вычислительные эксперименты, результаты которых описаны ниже Для апробирования предложенных в работе алгоритмов рассматривались разные по виду, объему, содержанию научные тексты: монографии, диссертации, отчеты о НИР, учебно-методические пособия, конспекты лекций, объемы которых составляют минимум 10 страниц и могут превысить 100 страниц, которые относятся к предметным областям «Искусственный интеллект», «Информатика» и «Экономика». Тематика предметных областей обосновывается с наличием построенных для них онтологии. Объем отологии по искусственному интеллекту составляет 550 терминов, по информатике - 2500 терминов, по экономике - 1200 терминов. В таблице 13 приведено описание коллекции документов, подготовленных для проведения вычислительных экспериментов. Для выполнения эксперимента были приняты следующие условия и ограничения: 1) язык представления документов - русский; 2) документы представлены только текстовой составляющей документа; 3) местоимения в тексте заменены на соответствующие им существительные; 4) сложные предложения разбиты на простые.