Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Компрессия научного текста: методы и модели Дубинина, Екатерина Юрьевна

Компрессия научного текста: методы и модели
<
Компрессия научного текста: методы и модели Компрессия научного текста: методы и модели Компрессия научного текста: методы и модели Компрессия научного текста: методы и модели Компрессия научного текста: методы и модели Компрессия научного текста: методы и модели Компрессия научного текста: методы и модели Компрессия научного текста: методы и модели Компрессия научного текста: методы и модели Компрессия научного текста: методы и модели Компрессия научного текста: методы и модели Компрессия научного текста: методы и модели Компрессия научного текста: методы и модели Компрессия научного текста: методы и модели Компрессия научного текста: методы и модели
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Дубинина, Екатерина Юрьевна. Компрессия научного текста: методы и модели : диссертация ... кандидата филологических наук : 10.02.21 / Дубинина Екатерина Юрьевна; [Место защиты: Рос. гос. пед. ун-т им. А.И. Герцена].- Санкт-Петербург, 2013.- 276 с.: ил. РГБ ОД, 61 14-10/419

Содержание к диссертации

Введение

ГЛАВА 1 реферирование как особый вид аналитико-синтетической переработки текста 15

1.1 Научный текст как объект реферирования 15

1.1.1 Первичные и вторичные документы 15

1.1.2 Текст и текстуальность 18

1.1.3 Лингвистическая специфика научной статьи 24

1.1.4 Структура научной статьи и возможность ее использования для построения реферата 31

1.2 Реферат как вид вторичного документа 34

1.2.1 Реферат и его функции 34

1.2.2. Критерии классификации рефератов 37

1.2.3 Методы интеллектуального реферирования 43

1.3 Методы и системы автоматической компрессии текстов 47

1.3.1 Системы автоматического индексирования 48

1.3.2 Типология систем и методов автоматического реферирования 51

1.3.3 Статистические методы автоматического реферирования 56

1.3.4 Позиционные методы автоматического реферирования 58

1.3.5 Современные системы автоматического реферирования 61

1.4 Учет «сильных» позиций научной статьи в процессе реферирования 67

Выводы к Главе 1 70

ГЛАВА 2 Разработка базовых принципов компрессии на основе сопоставительного анализа рефератов и научных статей 72

2.1 Процедура создания и характеристика структуры массива текстов авторских рефератов и научных статей

2.1.1 Процедура создания исследовательского массива текстов 72

2.1.2 Характеристика внешней структуры исследовательского массива текстов 74

2.1.3 Характеристика внутренней структуры исследовательского массива текстов 81

2.1.4 Характеристика текстов авторских рефератов и заглавий 83

2.2 Процедура выделения ключевых лексических единиц из заглавия и авторского реферата 85

2.2.1 Создание сводного словаря антипризнаков 85

2.2.2 Выделение простых именных групп из заглавия и авторского реферата 89

2.3 Характеристика именных групп, выделенных из заглавия и авторского реферата 92

2.3.1 Анализ именных групп, выделенных из заглавий научных статей 92

2.3.2 Анализ именных групп, выделенных из рефератов научных статей 97

2.4 Использование именных групп, выделенных из заглавия и авторского реферата, в тексте статьи 101

2.4.1 Анализ распределения именных групп разной длины в тексте статьи .101

2.4.2 Анализ распределения именных групп с разной степенью распространенности в тексте статьи 108

2.5 Выявление закономерностей распределения именных групп в тексте научной статьи 113

2.5.1 Анализ распределения именных групп по структурным разделам статьи 113

2.5.2 Оценка информативности именных групп 118

Выводы к Главе 2 123

ГЛАВА 3 Разработка и апробация алгоритмической модели реферирования научного текста 125

3.1 Понятие лингвистической модели компрессии и принципы ее разработки 125

3.1.1 Лингвистические проблемы моделирования процесса компрессии 125

3.1.2 Базовые компоненты модели процесса реферирования 130

3.1.3 Пример подсчета веса предложений 136

3.2 Программная реализация модели и оценка полученных результатов 145

3.2.1 Тестирование системы 145

3.2.2 Оценка качества автоматических рефератов 151

Выводы к Главе 3 155

Заключение 156

Список условных обозначений 160

Список литературы

Введение к работе

В реферируемой диссертации рассматриваются основные вопросы, возникающие при моделировании процесса компрессии научного текста, а также базовые принципы, лежащие в основе операций по выделению его информативных фрагментов.

Актуальность темы исследования обусловлена постоянно растущими потребностями современного информационного общества, основанного на экономике знаний, в совершенствовании систем автоматической переработки текстовой информации, в частности систем компрессии информации, извлекаемой из текстов различной природы и состава; кроме того, возрастание роли английского языка в процессе межкультурной и межнациональной коммуникации, а также рост объемов специальных текстов определяют необходимость создания специализированных систем для компрессии и перевода текстов с английского языка и на него.

По мере совершенствования компьютерных технологий к автоматическим системам компрессии текста предъявляются все более высокие требования, прежде всего – интеллектуальности, т. е. компенсации концептуальных различий между процессами построения текста человеком и компьютерной системой (Т. П. Карпилович). Эти требования, в свою очередь, обусловливают необходимость поиска более совершенных подходов к созданию систем компрессии. В связи с этим исследование соотношения текстов рефератов, созданных человеком – автором статьи – и порожденных компьютерной системой, является актуальным.

При решении задачи компрессии важно установить, как происходит актуализация основных понятий в научном тексте, в частности в тексте научной статьи. В реферируемой работе основными лексическими единицами, являющимися главным средством номинации понятий, служат именные группы.

Если предположить, что именные группы, номинируя основные понятия статьи, несут основную смысловую нагрузку, то и фрагменты текста, в которых они сконцентрированы, являются наиболее значимыми с точки зрения информативности. Такие информационно значимые фрагменты текста, передающие в совокупности его основное содержание, могут быть использованы в процессе создания реферата с помощью компьютерной системы.

Данные о распределении наиболее значимой информации в тексте научной статьи можно получить на основе исследования ее структуры, т. е. таких ее компонентов как заглавие, введение, основная часть, выводы. Соответственно, можно предположить, что изучение композиционной структуры научной статьи и особенностей именных групп в данной структуре позволит сузить сферу поиска необходимой информации в тексте в процессе его компрессии.

Таким образом, изучение распределения именных групп в тексте и установление базовых принципов компрессии находятся в неразрывной связи с одной из самых актуальных задач в области автоматизации свертывания текстовой информации – задачей выделения основного содержания текста.

Степень разработанности проблемы. Работы в области автоматизации свертывания текстовой информации ведутся с 1950-х годов и связаны с именами таких исследователей, как Х. Лун, У. Хан, Г. Эдмундсон, П. Баксендейл, Г. Г. Белоногов, В. Е. Берзон, В. П. Захаров, Т. П. Карпилович, Н. Н. Леонтьева, Н. А. Пащенко, Л. В. Сахарный, Э. Ф. Скороходько, Е. А. Шингарева, В. А. Яцко и др. За это время был создан ряд экспериментальных и практических систем, в которых доля участия человека постепенно уменьшается. Сегодня существует два подхода к решению проблемы компрессии текста.

Первый подход предусматривает создание реферата за счет формирования нового текста. Этот подход базируется на семантическом анализе текста на основе информационных языков и предполагает создание и использование базы знаний (U. Hahn). Второй подход предполагает выделение наиболее информативных фрагментов исходного текста (как правило, предложений) и известен как метод извлечения предложений. После установления набора таких фрагментов из них составляется реферат, в котором предложения расположены в порядке их появления в тексте. Второй подход используется в настоящее время чаще, так как он требует меньшего объема предварительных исследований, что связано с применением различных формальных методов отбора наиболее информативных фрагментов исходного текста.

Рефераты, созданные на основе таких методов, по своей информативности далеки от рефератов, составленных людьми. Главная проблема заключается в сложности, а иногда и в невозможности формализации мыслительных процессов, которые сопровождают процесс реферирования в его «интеллектуальном» варианте. Исходя из вышесказанного, можно сделать вывод о том, что, несмотря на длительную историю развития, проблема автоматизации компрессии текста еще не решена.

Теоретической основой исследования являются следующие теории и положения:

  1. Согласно теории «сильных» позиций текста, наиболее важная информация размещается автором в тех позициях текста, где она будет замечена читателем: в заглавии, первом и последнем предложении, во вводной и заключительной части текста (И. В. Арнольд, Т. П. Карпилович, О. И. Москальская, Г. Г. Москальчук, А. И. Новиков, B. Endres-Niggemeyer).

  2. Именные группы являются главными текстообразующими компонентами и передают основную часть семантической информации, содержащейся в научном тексте (Л. Н. Беляева, Г. Г. Белоногов, Р. Г. Пиотровский).

  3. Основное содержание текста определяется соответствующим списком ключевых лексических единиц, которые встречаются в тексте и отражают его тему (В. П. Захаров, Н. Н. Леонтьева, Л. В. Сахарный, H. Luhn).

  4. Научные статьи имеют определенный, свойственный им порядок расположения компонентов текста и, соответственно, стандартный набор языковых средств для перехода от одного компонента к другому (И. Р. Гальперин, О. И. Москальская, З. Я. Тураева, В. Е. Чернявская).

  5. Составляющими процесса компрессии является анализ первичного текста, его последовательное преобразование и синтез вторичного текста (Т. П. Карпилович, В. А. Яцко, B. Endres-Niggemeyer).

  6. Общение человека с компьютерной системой может осуществляться при условии, что в память компьютера будет введена определенная модель, которая представляет собой краткое описание естественного языка (В. Е. Берзон, Р. Г. Пиотровский).

Объект исследования – простые именные группы в авторском реферате и заглавии статьи и их актуализация в тексте научной статьи.

Предмет исследования – соотношение компонентов научной статьи: заглавие – авторский реферат – текст.

Цель исследования – разработка базовых принципов выделения информативных фрагментов текста научной статьи и модели компрессии текста научной статьи на основе исследования соотношения ее компонентов: заглавие – авторский реферат – текст.

Поставленная цель достигается последовательным решением задач:

изучение реферата как особого вида вторичного документа;

исследование методов реферирования текста и типологии систем реферирования текста;

создание специального массива научных текстов и его анализ на основе количественных методов;

выявление простых именных групп в авторском реферате и заглавии научной статьи и исследование их актуализации в тексте статьи;

установление базовых принципов компрессии текста научной статьи;

разработка и апробация модели компрессии текста научной статьи.

В соответствии с целью и задачами исследования в работе применяются следующие методы: метод количественного анализа, метод моделирования, метод сопоставительного анализа.

Материалом исследования послужили 100 текстов авторских рефератов и соответствующих им научных статей по судостроению, извлеченные из материалов научной конференции «International Conference Fast Sea Transportation», а также журналов «Marine Technology», «International Journal of Small Craft Technology», «Journal of Marine Science and Technology». В анализируемом массиве представлены тексты, которые относятся к двум группам: тексты, написанные на стандартном английском языке (авторы из Великобритании, США, Канады и Австралии), и тексты, написанные на «русском» английском языке (авторы из России).

Гипотеза исследования – в тексте научной статьи можно выделить лексические единицы, которые свидетельствуют об уровне информативности отдельных фрагментов текста; в процессе создания реферата компьютерной системой эти лексические единицы могут служить индикаторами для отбора наиболее информативных фрагментов исходного текста.

Научная новизна работы состоит в интегративном исследовании двух самостоятельных, но неразрывно связанных областей переработки текстовой информации: создание реферата человеком – автором статьи, с одной стороны, и компьютерной системой – с другой. Установлено, что основную роль в процессе компрессии играют простые именные группы; наиболее информативными из них являются именные группы, расположенные в заглавии, введении и выводах. Выявлены закономерности распределения основной информации в тексте статьи, что позволяет установить пути оптимального поиска наиболее информативных фрагментов текста в процессе создания реферата.

Новизну результатов лингвистического исследования составляет создание алгоритмической модели реферирования текста. В этой модели отбор наиболее важной информации происходит на основе базовых принципов компрессии, которые были выработаны в результате сопоставительного анализа представительного массива текстов научных статей и авторских рефератов.

На защиту выносятся следующие положения:

  1. Сопоставительный анализ текстов заглавий, авторских рефератов и научных статей позволяет выработать базовые принципы компрессии, которые могут быть использованы при разработке модели реферирования.

  2. Получение адекватного реферата научной статьи может основываться на анализе таких ее компонентов как заглавие, введение и выводы.

  3. В авторских рефератах основная компрессия осуществляется за счет формирования многокомпонентных именных групп (состоящих их четырех и более компонентов), которые в тексте научной статьи представлены в виде одно-, двух- и трехкомпонентных коллокаций. Именно эти малокомпонентные именные группы целесообразно использовать при автоматизации реферирования.

  4. Именные группы, выделенные из заглавия и авторского реферата текста научной статьи, отражают основное содержание исходного текста и могут рассматриваться как ключевые лексические единицы.

  5. Установление в тексте статьи ключевых лексических единиц позволяет выделить информационно-значимые фрагменты текста, в совокупности представляющие собой изложение основного содержания текста в компрессированной форме.

Теоретическая значимость результатов исследования определяется созданием модели процесса реферирования, учитывающей основы этого процесса, а также закономерности организации научной статьи.
В разработанной модели реферирования учтены все данные, полученные в результате сопоставительного анализа авторских рефератов и научных статей. Проведенное исследование уточняет особенности функционирования именных групп в рефератах и текстах и определяет возможность создания универсальной части лингвистической базы данных для процедуры автоматической компрессии текстов.

Практическая значимость результатов исследования определяется возможностью учета в системах автоматического реферирования стратегий, которыми руководствуется человек при создании реферата; разработкой и апробацией программы автоматического реферирования научного текста, которая при внедрении в промышленные системы будет способствовать ускорению доступа специалистов к необходимой им информации.

Достоверность и научная обоснованность теоретических и практических результатов исследования обеспечивается:

  1. формированием исследовательского массива, в состав которого включены тексты, являющиеся однородными по назначению, структуре и проблемной ориентации;

  2. анализом массива текстов значительного объема (750 000 словоупотреблений) с применением метода количественной оценки;

  3. созданием лингвистической базы знаний, основную часть которой составляет словарь антипризнаков и словарь типизированных конструкций;

  4. программной реализацией разработанной модели реферирования текста.

Рекомендации об использовании результатов диссертационного исследования. Результаты исследования могут быть использованы для совершенствования систем автоматической переработки текста, при решении задач автоматического реферирования. Основные положения и результаты исследования могут также быть включены в теоретические курсы, практические и семинарские занятия по лингвистике текста, теоретической и практической грамматике английского языка, они могут быть также использованы для обучения построению вторичных текстов.

Апробация работы. Основные положения диссертации были представлены в докладах на международных конференциях «Прикладная лингвистика в науке и образовании» (март 2010, апрель 2012) и «Гуманитарные науки и современность» (июль 2011), а также на заседаниях кафедры прикладной лингвистики РГПУ им. А. И. Герцена. По теме диссертации опубликовано 6 работ общим объемом 1,79 п. л.

Объем и структура диссертации. Диссертация состоит из введения, трех глав, заключения, списка литературы, включающего 150 наименований, в том числе 33 на английском языке, списка условных обозначений, списка иллюстративного материала (5 рисунков и 28 таблиц) и 15 приложений. В приложениях представлены ресурсы лингвистической базы знаний (словари антипризнаков и типизированных конструкций), фрагменты таблиц, отражающих результаты количественного анализа массива текстов, примеры работы программы. Общий объем работы составляет 276 страниц печатного текста: основное содержание изложено на 180 страницах, 96 страниц занимают приложения.

Критерии классификации рефератов

В качестве объекта реферирования (компрессии) в данной работе исследуются научные тексты. Качественные характеристики текстов, их структура определяют специфические требования к рефератам, полученным в результате компрессии первичного текста. К таким требованиям относятся, прежде всего, семантическая адекватность реферата основному содержанию первичного текста, меньший по сравнению с ним текстовый объем.

В работах последних десятилетий интерес к тексту как к сложному структурно-многоуровневому и многоплановому продукту речевой деятельности возрос в связи с применением формализованных (машинных) методов переработки текстовой информации, используемых, в частности, в системах автоматического реферирования (подробно см. 1.З.2.).

В исследованиях С. П. Анохиной [5, с. 15], М. Я. Дымарского [49, с. 21] отмечается, что современная лингвистика, в которой проблема изучения текста выдвинулась на первый план, ставит перед собой задачу установления наиболее общих закономерностей порождения текстов и их системного описания. Установление закономерностей порождения текстов необходимо и при изучении механизма реферирования.

Текст как сложный продукт речевой деятельности обладает рядом характеристик - обязательных существенных черт, делающих текст текстом. В современной лингвистике совокупность таких текстовых свойств связывается с понятием текстуальность, под которым, как считает В. Е. Чернявская, подразумевается способность конкретного текста обнаруживать ряд специфических свойств, присущих тексту как особому лингвистическому явлению [112, с. 14]. Понятие «текстуальность» и «критерии текстуальности» были введены Р. Бограндом и В. Дресслером [121]. Критерии текстуальности, т. е. свойства, присущие тексту, позволяют различать текст и «не-текст»: чем большему количеству критериев удовлетворяет текст, тем в большей степени он является текстом. Такими критериями являются: интенциональность, воспринимаемость, информативность, ситуативность, интертекстуальность, когезия, когерентность [121]. Рассмотрение текста с точки зрения перечисленных выше критериев текстуальности дает возможность выработать базовые принципы его компрессии. Рассмотрим эти критерии подробно. Интециональность отражает намерение автора создать связный и цельный текст, который оказывает определенное воздействие на читателя. Воспринимаемость обозначает ожидание читателя получить и воспринять связный и содержательный текст, который является для него нужным или важным (например для приобретения знаний).

Информативность текста складывается, с одной стороны, из количества новой, до этого неизвестной информации, содержащейся в тексте, а с другой стороны, из некоторого количества известной информации. Из этих компонентов для данного исследования наибольший интерес представляет первый компонент - новая информация.

Под ситуативностью, как отмечено в работах М. А. Торгашевой [100] и В. Е. Чернявской [112], понимаются те факторы, которые делают текст релевантным для конкретной коммуникативной ситуации, актуальной или реконструируемой.

Интертекстуальность выражает связь данного текста с другими текстами, в некоторых случаях известными читателю. В исследованиях Л.С.Тихомировой [100], Б. Эндрес-Ниггемейер [129] указывается, что эта связь может быть выражена в виде цитат, косвенной речи, примечаний, сносок и т. д. Следует отметить, что основными критериями текстуальности являются когезия и когерентность, так как именно они обеспечивают целостность и связность текста, т. е. органическое сцепление его частей.

Под когезией понимаются особые виды связи, обеспечивающие логическую последовательность и взаимозависимость отдельных частей текста. Как отмечается в работах М. Хэллидея [132], а также Б. Эндрес-Ниггемейер [129] когезия не выявляет, что сообщает текст, она выявляет, как текст организован в единое целое. Когезия, по мнению Е. А. Давыдовой, определяет формальную (линейную) связность текста посредством различных языковых средств [44]. Для научных текстов формальная связность играет особенно важную роль, поскольку она, как указывает И. Р. Гальперин, обеспечивает логичность и точность изложения, а также однозначную интерпретацию содержания [33].

В научных текстах связность наиболее широко представлена посредством полных или лексических повторов. По мнению Г. Г. Москальчук, широкое распространение повторов в научных текстах связано с устойчивостью терминологии, нежелательностью синонимических замен, вызванной стремлением к однозначности и точности изложения [71]. Полный лексический повтор означает повторение слова или словосочетания в составе предложения, абзаца или целого текста. Частичный лексический повтор, как отмечено в работе Э. М. Добрускиной, В. Е. Берзона, представляет собой повторение семантически близких однокоренных слов [48].

Учет повторов позволяет получить важную информацию о содержании научного текста. Так, например, С. М. Виноградов полагает, что, подсчитав частоту использования повторов, можно выделить те лексические единицы (например терминологические словосочетания), которые часто используются в тексте, что позволяет выявить содержание конкретного текста [29, с. 145; 30]. Для учета повторов в тексте используется методика количественного анализа, предполагающая построение алфавитного или частотного словников.

Изучение частотного словника позволяет выявить частоту лексических единиц, выяснить, какие лексические единицы встречаются чаще, а какие достаточно редко в определенном тексте или лексическом массиве. Такие данные, по мнению Д. Л. Бронниковой, могут служить основой для количественного анализа отдельно взятого лексического пласта или подъязыка [25, с. 21].

К лексическим средствам связности относится и использование слов-заместителей. Словами-заместителями могут быть указательные, личные и притяжательные местоимения, а также местоименные наречия. Связь, осуществляемая такими словами-заместителями, может быть либо анафорической, либо катафорической. Если в тексте присутствуют слова-заместители, замещающие предшествующий фрагмент, то связь является анафорической. Если же в тексте присутствуют указания на последующий контекст, то связь, как отмечает В. Е. Берзон, является катафорической [17, с. 19]. Для данного исследования эти средства связности являются достаточно важными, поскольку их необходимо учитывать в процессе реферирования. Чем больше в предложении (фрагменте текста) слов-заместителей, тем крепче оно спаяно с окружающим контекстом и тем

Характеристика внешней структуры исследовательского массива текстов

Авторский реферат представляет собой сжатое изложение основной фактографической информации, содержащейся в статье. По своему объему авторский реферат в массиве составляет в среднем 161 словоупотребление (наибольший объем - 297 словоупотреблений, наименьший объем - 64 словоупотребления).

Реферат по своей внутренней структуре является достаточно стандартизированным речевым образованием. В нем можно выделить следующие элементы: постановка цели исследования, описание назначения и технической сущности исследования, описание методов исследования, изложение основных результатов исследования. Следует отметить, что по своей внутренней структуре реферат во многом совпадает с такими компонентами статьи как введение и выводы. Так, например, постановка цели исследования вводится следующими конструкциями:

Заглавие, являясь, как и авторский реферат, неотъемлемой частью научной статьи, представляет собой максимальную свертку основного содержания научного текста. Отличительной чертой заглавия научной статьи является точность, краткость и конкретность. В анализируемом массиве длина заглавия составляет в среднем 12 словоупотреблений (наибольший объем - 21 словоупотребление, наименьший объем - 5 словоупотреблений).

В лингвистическом плане заглавие, прежде всего, является названием, т. е. именем текста, и, соответственно, индивидуализирует текст, которому принадлежит, выделяя его в ряду всех других текстов. При этом назывная (номинативная) функция заглавия отражается, как отмечает И. В. Арнольд, в особенностях его синтаксической структуры [7, с. 225].

Синтаксическая структура заглавия зависит не только от функции заглавия, но и от стиля и типа текста. Нормой для заглавия научного реферата является назывное (номинативное) предложение с использованием именных групп, что связано с тем, что в текстах научных рефератов заглавие, как считает К. А. Кулакова, выполняет преимущественно информативную функцию, т. е., отражает суть сообщения, сконденсированную в одном предложении [60, с. 40]. Исходя из этого, можно сделать вывод о том, что заглавие выполняет важную роль в передаче основного содержания научной статьи. Таким образом, научные статьи в созданном массиве текстов имеют четкую композиционную структуру с небольшими вариациями: заглавие, авторский реферат (Abstract) и сама статья, включающая такие компоненты как введение (Introduction), основная часть, выводы (Conclusion). Необходимо отметить, что каждый компонент статьи характеризуется употреблением определенных конструкций. Такие конструкции зависят от того, в какой части статьи они расположены, и их следует учитывать при разработке модели компрессии.

В связи с тем, что авторский реферат и заглавие передают основное содержание текста, именные группы, выделенные из этих компонентов статьи, представляют наибольший интерес для данного исследования.

Исследуемый массив текстов, состоящий из авторских рефератов и соответствующих им научных статей, обрабатывался с использованием количественных методов. Рассмотрим сначала первый массив, состоящий из текстов англоязычных авторов. Отметим, что отбор значимых лексических единиц осуществляется двумя диаметрально противоположными способами: 1) отбор значимой лексики в соответствии с определенными критериями, в то время как вся остальная лексика считается незначимой; 2) выделение по заранее установленным параметрам группы неинформативных лексических единиц, которые в дальнейшем подлежат удалению. В данном исследовании выделение информативной лексики (ключевых ЛЕ) предлагается производить методом исключения неинформативной лексики (стоп-слов, выполняющих в предложении служебные функции), которая установлена и введена в словарь антипризнаков. При формировании этого словаря было предварительно составлено два списка. Первый из них содержал служебную лексику, а второй - общую и общенаучную лексику, т. е. слова и словосочетания общего характера, не имеющие отношения к конкретной тематике текста.

Исходным материалом для создания таких словарей является массив текстов по определенной предметной области.

Для создания словаря антипризнаков был сформирован и проанализирован вспомогательный массив текстов объемом 750000 словоупотреблений, в который вошли дополнительные 200 статей по судостроению из материалов конференций и журналов, указанных выше (см. 2.1.1.). На основе анализа этого массива был составлен частотный словарь, включающий 16000 разных словоформ. В результате обработки этого словаря было составлено два списка: список служебной лексики; список общей и общенаучной лексики (см. приложения 3, 4). К служебной лексике были отнесены предлоги, союзы, частицы, вспомогательные и модальные глаголы, местоимения и местоименные наречия, т. е. служебные части речи, которые, как подчеркивает Т. Н. Хомутова, не имеют номинативной функции, а выражают лишь отношения между предметами, событиями и ситуациями или указывают на них [109, с. 60].

Анализ служебной лексики показал, что наиболее высокую частоту имеют следующие лексические единицы: the (частота - 55929), of (частота -24370), and (частота - 16611), in (частота - 13534), to (частота - 12868) (см. табл. 3 на с. 87).

Лингвистические проблемы моделирования процесса компрессии

Вступление общества в современную информационную эпоху определило необходимость создания систем, позволяющих оперативно перерабатывать большие объемы текстовой информации на электронных носителях. Одной из существенных задач в этой области является поиск путей и методов автоматической компрессии текста. Наиболее рационально решить эту задачу в современных условиях возможно посредством разработки базовых принципов компрессии и последующим моделированием этого процесса.

Исследование принципов выделения наиболее информативных фрагментов текста в целях построения реферата компьютерной системой позволило сделать следующие выводы.

На основе изучения различных видов вторичных документов: обзор, рецензия, библиографическое описание, поисковый образ, реферат — была выявлена особая роль реферата. Реферат является вторичным документом, главное назначение которого — представление актуальной информации в результате ее переработки. В отличие от других вторичных документов, реферат позволяет передавать содержание исходного текста в более экономной форме при максимальном сохранении его информативности. В реферате используются ключевые фрагменты, заимствованные из первичного текста, что делает возможным создание автоматических рефератов.

Исследованы основные функции реферата в системе научной коммуникации. Установлено, что наиболее существенной его функцией является информативная, что позволяет специалисту получить новое научное знание в определенной предметной области без обращения к полному тексту.

Выявлены критерии классификации рефератов; сделан вывод о том, что реферат можно классифицировать по разным основаниям, получая в результате этого различные типы рефератов, в частности машинные (созданные компьютерной системой) и интеллектуальные (составленные человеком).

Изучены методы реферирования, в том числе интеллектуальные и автоматические. Установлено, что ни один тип автоматического реферирования не может быть рассмотрен без исследования интеллектуального реферирования. В результате изучения интеллектуального реферирования сделан вывод о том, что специалисты-референты при создании реферата анализируют не весь документ, а только такие его компоненты как заглавие, заголовки отдельных частей документа, отдельные абзацы, оглавление и т. п., т. е. его внешнюю структуру.

Рассмотрены и проанализированы методы и системы автоматического реферирования. Проведенный анализ показал, что большинство современных систем являются системами экстрагирования, так как они основаны на методах реферирования, предусматривающих отбор наиболее информативных фрагментов первичного текста. Кроме того, установлено, что современные системы автоматического реферирования основаны на методах реферирования, которые предусматривают анализ полностью всего текста в целях выделения его наиболее информативных фрагментов; однако при создании реферата целесообразно применять методы реферирования, учитывающие закономерности распределения информации в тексте.

Для разработки базовых принципов компрессии создан и проанализирован массив текстов, состоящий из 100 текстов авторских рефератов и научных статей, принадлежащих англоязычным и российским авторам, по предметной области «судостроение». Проведенный сопоставительный анализ авторских рефератов и соответствующих им научных статей показал, что максимум информации для построения реферата можно «извлечь» из сильных позиций научного текста.

Традиционно сложившийся подход к составлению рефератов, базирующийся на выявлении основных, наиболее информативных фрагментов содержания первичного документа, получил обоснование в данной работе как метод реферирования, основанный на учете внешней (композиционной) структуры текста научной статьи. Его достоинство состоит в том, что он позволяет осуществить анализ содержания первичного документа, базируясь на «сильных» позициях текста. На основе изучения внешней структуры научной статьи из текста выделяются наиболее информативные фрагменты с последующим их включением в реферат. При этом из статьи удаляется такой компонент как основная часть, поскольку в ней содержится избыточная информация.

Полученные в результате сопоставительного анализа данные использованы при разработке базовых принципов компрессии. В качестве базовых принципов предложены следующие: использование ключевых лексических единиц, выделенных на основе сопоставления заглавия и авторского реферата с текстом статьи; учет «сильных» позиций текста, т. е. заглавия, введения и выводов, с исключением обработки основной части; установление степени информативности предложений по частоте и степени распространенности ключевых лексических единиц, а также по наличию в предложениях типизированных конструкций.

Установлено, что в авторских рефератах основная компрессия осуществляется за счет усложнения простых именных групп: в большей части авторских рефератов используются многокомпонентные именные группы. Поскольку в самих научных статьях многокомпонентные именные группы практически не используются, сделан вывод о том, что наиболее перспективным для автоматизации реферирования является использование малокомпонентных именных групп с учетом закономерностей их распределения в тексте.

Оценка качества автоматических рефератов

В результате работы на первом этапе программа, проанализировав введенные данные, сообщит пользователю исходные параметры, а именно: количество лексических единиц в загруженном словаре; количество предложений в загруженном тексте введения и заключения; общее количество предложений в тексте. Далее по алгоритму, приведенному выше, программа рассчитает вес каждого предложения текста и выведет полученные данные на экран. После этих расчетов пользователю необходимо ввести степень компрессии анализируемого текста (в процентах). После ввода степени компрессии программа выведет на экран автоматически сформированный реферат. Для апробации модели реферирования в данном исследовании были составлены автоматические рефераты к 10 статьям из журналов «Marine Technology», «The Royal Institution of Naval Architects». Три из них принадлежат российским авторам, остальные — англоязычным авторам из США и Великобритании (см. приложение 15). Отметим, что в этом приложении приведены рефераты, созданные к трем статьям англоязычных авторов.

A risk-cost model for the preliminary design of aluminium high-speed craft was created as part of the S@S project. A notable feature of this model is the combination of risk analysis and structural reliability theory. This combination allows the naval architect to see both the broad overview of potential failure mechanisms expressed as a fault tree and their relative importance; but also to accurately evaluate how small changes in the structural design will affect the risk via reliability theory. By computing the through-life cost associated with different structural designs, the model can investigate both the most cost-effective measures for lowering risk, and if extra capital investment will be repaid through lower repair costs in service.

To fit within the time and budget constraints of the project, several simplifications were required for the structural risk-cost model. Refining these simplifications are the next step to improving the tool. First, as structural failures after collision and grounding are a significant source of structural risk to the vessel, a model to estimate the relative crashworthiness of various structural configurations would be a worthwhile extension. This could be coupled to a progressive collapse ultimate strength routine, allowing better estimates of the hull girder ultimate strength in both the intact and post-damage condition. For the S@S project, both lateral pressure loads and transverse structure were not included, and their addition would help further to refine the model. Finally, as these improvements are made, the accuracy of the FOR techniques in determining the probabilities of failure may no longer be sufficient. Second-order reliability methods or response surface techniques may become necessary. On the whole, the S@S structural risk-cost model demonstrated that the combination of risk techniques and structural reliability theory is both possible and worthwhile for the additional feedback it provides the naval architect for evaluating different designs. This combination has potential to improve the structural design technique for a wide range of vessels, including high speed craft.

Как видно из рис. З, в словаре антипризнаков содержится 16179 слов. Во введении содержится 8 предложений, в заключении - 13. Общее количество предложений в тексте введения и заключения равно 21.

При оценке «изнутри» пользователь получает возможность ознакомиться не только с текстом реферата, но и с первичным текстом, а также с «идеальным» рефератом, т. е. рефератом, написанным автором текста или другим специалистом. При этом пользователь оценивает качество реферата, сравнивая его с «идеальным» рефератом и первичным текстом и отвечая на заранее составленные вопросы, касающиеся связности реферата, его объема, его соответствия содержанию текста.

В большинстве существующих систем автоматического реферирования реализуется второй метод оценки качества реферирования, т. е. метод оценки «изнутри». Это связано, вероятно, с большей простотой осуществления этого метода, так как при этом реферат оценивается по определенным, заранее заданным критериям.

В данной работе выбран второй метод оценки, т. е. оценка «изнутри». Поскольку научные статьи, входящие в наш исследовательский массив, относятся к достаточно узкой предметной области, желательно, чтобы рефераты, составленные к ним, оценивались специалистами. Поэтому рефераты, составленные к статьям российских и англоязычных авторов, оценивались пятью специалистами-экспертами из ЦНИИ им. академика А. Н. Крылова. Методика оценки заключалась в следующем. Пяти специалистам-экспертам были предъявлены 10 текстов научных статей и их рефераты, созданные с помощью разработанной программы. Специалистам-экспертам было предложено ответить на следующие вопросы, выбрав ответ из шкалы оценки:

Похожие диссертации на Компрессия научного текста: методы и модели