Содержание к диссертации
Введение
Глава 1 Проблемы автоматического реферирования, аннотирования и переводимости научных текстов 14
1.1 Реферат и аннотация в отечественной и зарубежной практике 14
1.2 Основные методы автоматического реферирования и аннотирования
1.2.1 Экстрагирующие методы 23
1.2.2 Абстрагирующие методы 36
1.2.3 Гибридные методы 42
1.2.4 Извлечение ключевых слов как необходимый этап автоматического реферирования 50
1.3 Проблема переводимости текстов с помощью систем автоматического перевода 59
Выводы по ГЛАВЕ 1 65
Глава 2 Лингвистические критерии оптимальных рефератов научно-технических текстов, ориентированных на автоматический перевод 68
2.1 Предварительные замечания 68
2.2 Прагматико-функциональные требования к подъязыку научно-технических рефератов 70
2.3 Подъязык рефератов математического моделирования 72
2.4 Индикаторы переводимости текстов по математическому моделированию 77
2.5 Сопоставительный анализ рефератов и статей предметной области
«математическое моделирование» 85
2.5.1 К постановке задачи 85
2.5.2 Методика сопоставительного анализа 88
2.5.3 Выборка и этапы анализа 91
2.5.4 Результаты сопоставительного анализа 93
Выводы по ГЛАВЕ 2 100
Глава 3 Модель автоматического реферирования и аннотирования 103
3.1 База знаний 103
3.2 Алгоритм автоматического реферирования 112
3.3 Апробация автоматической модели реферирования 135
3.3.1 Выбор способов оценки модели 135
3.3.2 Оценка результатов реферирования по модели путем сравнения с «золотым» авторским рефератом 137
3.3.3 Оценка уровня автоматической переводимости полученного реферата
Выводы по ГЛАВЕ 3 142
Заключение 144
Список сокращений 148
Список терминов 148
Список литературы 150
- Основные методы автоматического реферирования и аннотирования
- Подъязык рефератов математического моделирования
- Алгоритм автоматического реферирования
- Оценка результатов реферирования по модели путем сравнения с «золотым» авторским рефератом
Введение к работе
Актуальность темы исследования обусловлена тем, что разработка формальных
моделей реферирования и аннотирования является основой автоматизации этих
процессов, что настоятельно требуется необходимостью оперативной обработки все
возрастающих потоков информации. Рефераты и аннотации научных статей служат
приоритетным средством обмена информацией в процессе профессиональной
коммуникации. При этом при постоянно возрастающих потоках информации
возникает угроза обесценивания информации из-за трудностей поиска необходимых
сведений среди множества доступных текстов. Несмотря на то, что исследования в
области моделирования процессов реферирования и аннотирования текстов
продолжаются уже более 65 лет, проблема формального получения
высококачественных рефератов до сих пор не решена, что обусловлено сложностью этой задачи.
В настоящее время, когда темпы глобализации требуют все более оперативного обмена научно-технической информацией в международном масштабе, а ценность научных публикаций часто определяется их включением в престижные журналы и международные базы цитирования (например, Scopus, Web of Science), особенно остро встает проблема повышения качества автоматического перевода рефератов и аннотаций на английский язык. При всем несовершенстве автоматического перевода (АП), который, тем не менее, превращается в социальную и экономическую необходимость, качество продукции систем АП можно существенно повысить, если выявить, систематизировать и устранить из текста лингвистические явления, вызывающие ошибки при АП. Этой проблеме до сих пор не уделялось должного внимания, особенно в области моделирования рефератов и аннотаций.
Модель реферирования научно-технических текстов разрабатывается на примере научных статей в области математического моделирования до сих пор остающихся за рамками внимания исследователей-разработчиков систем реферирования. Между тем реферирование статей по математическому моделированию особенно актуально, поскольку математическое моделирование используется практически во всех отраслях науки и техники.
Степень разработанности проблемы. Исследования по моделированию и автоматизации реферирования и аннотирования возникли во второй половине XX века. Этой проблемой занималось большое количество исследователей как в нашей стране (Р.Г. Пиотровский, В.П. Леонов, Д.Г. Лахути, Э.Ф. Скороходько, С.М.
4 Приходько, В.А Яцко, Н.В. Лукашевич, О.А. Емашова, В.С. Ступин, О.В. Корхова, А.В. Анисимов, С.АТревгода, и др.), так и за рубежом (H.Р. Luhn, D. Marcu, К. Опо, D. Radev, Н. Saggion, L. Plaza, Н.Р. Edmundson, J. Kupiec, E. Lloret, J.J. Pollock, Pierre-Etienne Genest, U. Hahn, T. Strzalkowski и др.). С начала проведения исследований по автоматическому реферированию и аннотированию было разработано множество различных методов, которые можно разделить на две группы: экстрагирующие или извлекающие методы, основанные на извлечении из первичных документов наиболее информативных фрагментов и включении их в реферат в порядке следования в тексте, и абстрагирующие или генерирующие методы, предусматривающие создание нового текста, обобщающего первичные документы. Среди методов второй группы можно выделить чисто абстрагирующие методы, обобщающие текст первичного документа на достаточно высоком уровне и гибридные методы, которые сочетают техники экстракции и абстракции.
Рефераты, полученные в рамках экстрагирующих подходов, часто характеризуются низким качеством текста — бессвязностью, и низкой степенью сжатия — так как не выполняется обобщение информации и не происходит замены конкретных слов на более общие понятия.
Чисто абстрагирующие подходы потенциально способны обеспечить лучшее качество текста реферата и более высокую степень сжатия текста, но они чрезвычайно трудны для практической реализации и находятся на уровне исследовательских разработок. Сложность в реализации гибридных методов заключается в выборе наиболее удачного сочетания сторон абстракции и экстракции.
Несмотря на множество исследований, проблема разработки формальных моделей для автоматического реферирования и аннотирования еще не решена, так как естественный язык характеризуется неоднозначностью, неограниченностью и чрезвычайно сложно поддается формализации.
Цель исследования состоит в разработке общего алгоритма и основных компонентов формальной модели реферирования и аннотирования научно-технических текстов, ориентированной на генерацию корректного по содержанию текста реферата с синтаксической структурой, позволяющей избежать значительного числа ошибок при автоматическом переводе.
Поставленная цель достигается последовательным решением задач:
изучение понятия «реферат» и «аннотация» в отечественной и зарубежной практике, выявление их функций, требований к составлению;
исследование различных подходов к формализации и автоматизации реферирования и аннотирования научно-технических текстов;
исследование различных подходов к извлечению ключевых слов;
анализ параметров переводимости научно-технического текста и разработка правил контролируемого языка для повышения качества автоматического перевода рефератов научно-технических текстов;
создание специализированного корпуса научных статей и соответствующих авторских рефератов и их анализ на основе количественных методов;
разработка автоматизированной методики сопоставительного анализа полнотекстовых статей и их рефератов;
определение лингво-статистических характеристик научных статей, рефератов и аннотаций и их соотношения в ходе их сопоставительного анализа с выявлением формальных индикаторов включения информации в реферат и аннотацию;
разработка базы знаний модели;
разработка правил извлечения релевантной для реферата информации из полнотекстовых документов и ее формального представления в виде шаблонов;
разработка правил генерации текста реферата на основе шаблонов при соблюдении правил контролируемого языка;
разработка алгоритмов моделирования и апробация модели реферирования и аннотирования научных текстов.
Объектом исследования являются структура и подъязык научно-технических текстов и соответствующих рефератов и аннотаций.
Предметом исследования является разработка модели на основе выделенных корреляций фрагментов научно-технических текстов и соответствующих рефератов и аннотаций, обусловленных особенностями структуры подъязыка.
Материалом исследования являются корпуса 137 текстов научных статей и соответствующих им текстов рефератов/аннотаций по математическому моделированию на русском языке, из которых 107 документов было использовано для построения базы знаний (объем корпуса статей — 203729 словоупотреблений без учета библиографических списков, объем корпуса рефератов — 4924 словоупотреблений), а 30 документов дополнительно использовались для апробации модели (объем корпуса статей — 99000 словоупотреблений без учета библиографических списков, объем корпуса рефератов — 2000 словоупотреблений). Научные статьи и соответствующие рефераты/аннотации были взяты из следующих журналов и сборников статей: «Вестник Южно-Уральского государственного университета. Серия: Математическое моделирование и программирование», «Математическое моделирование», «Вестник Томского государственного университета. Математика и механика», «Математические заметки», «Вестник Ивановского государственного энергетического университета», «Известия Челябинского научного центра УрО РАН».
Научная новизна работы состоит в том, что языковой материал впервые исследуется с применением совокупности современных лингвистических и компьютерных методов, что обеспечило новизну полученных результатов. Существенной новизной отличаются конкретная методика сопоставления полнотекстовых документов и авторских рефератов с помощью существующих программ автоматизированного перевода. Новой является достаточно глубокая база знаний модели, включающая информационно-концептуальную сеть в виде корневого дерева, фреймовые шаблоны для глубинного представления содержания реферата, стоп-лексикон, правила извлечения релевантной для реферата
6 информации, основанные не только на распределении и весе ключевых слов, но и на выделении семантических маркеров и наложении фреймовых шаблонов, а также правила генерации текстов реферата, включающие правила контролируемого языка реферата, позволяющие избежать существенного количества ошибок при АП на иностранный язык.
Актуальность и новизна исследования определяют его теоретическую и практическую значимость.
Теоретическая значимость исследования заключается в моделировании
механизмов идентификации основного содержания научно-технического документа
на основе достаточно глубокого (морфосинтаксического и семантического) анализа
его лингвистической структуры, а также лингвистических механизмов порождения
нового текста строгой функциональной направленности на основе формального
представления содержания. Теоретическую значимость имеют способы
представления знаний в виде информационно-концептуальных сетей и фреймовых шаблонов. Методика идентификации релевантного содержания реферата развивается путем введения в дополнение к распределению ключевых слов новых параметров различного семантического статуса, позволяющих определить релевантность квантов информации статьи для определенной информационной части реферата (тема, цель, метод, результат). Разработанная в процессе исследования методика сопоставительного анализа текстов одного языка с помощью существующих инструментов автоматизированного перевода и результаты сопоставительного анализа полнотекстовых научно-технических документов и авторских рефератов в области математического моделирования вносят определенный вклад в разработку таксономии подъязыков науки и техники, а также в развитие теории обработки естественного языка.
Практическая значимость исследования заключается в возможности создания на базе разработанной модели системы автоматического реферирования и аннотирования, с помощью которой решаются задачи облегчения и повышения оперативности оформления реферативных документов на родном и иностранных языках. Описанная модель допускает дальнейшее развитие и может быть экстраполирована на другие предметные области и национальные языки. Результаты исследования и конкретные результаты анализа подъязыка математического моделирования, а также разработанный контролируемый язык могут использоваться для разработки других типов систем автоматической обработки текста, например, информационно-поисковых систем и систем автоматического перевода. Отдельные положения работы могут применяться при обучении реферированию и аннотированию, чтении курсов по функциональной стилистике и прикладной лингвистике.
В работе использовались следующие методы исследования: метод сплошной
выборки, описательный метод, метод статистического анализа, метод
трансформаций, метод моделирования, метод сопоставительного анализа, метод экспертных оценок.
Теоретическую базу и методологическую основу исследования составили положения теории свертывания информации, приведенные в работе Д.И. Блюменау
7 (2002); теоретические положения информационного поиска G. Salton (1975), K.S. Jones (2004); теория риторической структуры W.C. Mann (1988); работы по исследованию подъязыков различных областей Z. Harris (1968), J. Lehrberger (1982), S.B. Johnson (1989), R.I. Kittredge (2003), N. Sager (1990); работы по автоматическому переводу и переводимости текстов СО. Шереметьевой (2006), Л.Н. Беляевой (2013), Е.М. Мещеряковой (2013), P. Koehn (2009), К. Uchimoto (2005), S. O'Brien (2004), А. Hartley (2012); работы по формализации естественного языка В.А. Тузова (2001), О.В. Корховой (2001); работы по автоматическому извлечению ключевых слов СО. Шереметьевой (2009), М. Гриневой (2009), W.D. Abilhoa (2014), СВ. АН (2013), S. Rose (2010); работы по ручному реферированию В.И. Горьковой (1964), Е.Т. Cremmins (1982), R.E. Maizell (1978), J. Е. Rowley (1988), F.W. Lancaster (2003); работы по автоматическому реферированию Р.Г. Пиотровского (1978, 1983), В.П. Леонова (1986), Н.В. Лукашевич (1998, 2009), В.А. Яцко (2002), P.-Е. Genest (2011), Е. Lloret (2013), М. Kumar (2009), M.G. Ozsoy (2011), L. Plaza (2008), H. Saggion (2002, 2009), D. Radev (1998), D. Marcu (1998, 1999). На защиту выносятся следующие положения:
-
Создание модели реферирования и аннотирования, которая позволяет получить реферат (аннотацию) высокого качества и снимает многие проблемы его последующего автоматического перевода, обеспечивается сочетанием экстрагирующих и абстрагирующих методик на основе лингвистической базы знаний.
-
База знаний модели представляет собой набор формальных конструктов, содержащих информацию о структуре реферата, лексических, грамматических и семантических характеристиках составляющих реферат (аннотацию) элементов и индикаторах переводимости.
-
Алгоритм создания реферата (аннотации) включает две основных процедуры: а) извлечение релевантной для реферата информации с помощью метрики, которая основана на дистрибуции ключевых слов и количественных характеристик лексем-маркеров из базы знаний, и б) генерация текста, удовлетворяющего требованиям корректности и переводимости.
-
База знаний модели и алгоритмы построения реферата (аннотации) разрабатываются как на основе анализа подъязыка рефератов по математическому моделированию, так и по результатам сопоставительного анализа полного текста статей и их рефератов.
-
Сопоставительный анализ может проводиться с помощью доступных компьютерных инструментов, предназначенных для автоматизации перевода.
Достоверность и научная обоснованность теоретических и практических результатов исследования обеспечивается:
формированием и анализом массивов текстов полных документов и их авторских рефератов значительного объема (302729 словоупотреблений и 6924 словоупотреблений, соответственно) с применением статистического, сопоставительного и описательного методов;
созданием лингвистической базы знаний, основную часть которой составляют информационно-концептуальная сеть, набор фреймовых шаблонов, правила
извлечения релевантной для реферата информации и правила генерации
текста с учетом разработанного контролируемого языка, стоп-лексикон,
состоящий из четырех списков, различным образом сжимающих текст;
положительными результатами тестирования разработанной модели
реферирования путем сравнения сгенерированных ею рефератов с «золотым»
корпусом авторских рефератов, с рефератами сгенерированными другими
системами (ОРФО) и на основании экспертного суждения.
Апробация работы. Основные положения исследования обсуждались на
заседаниях кафедры лингвистики и межкультурной коммуникации ФГБОУ ВПО
«Южно-Уральский государственный университет» (НИУ), а также докладывались
на международных, всероссийских, межрегиональных и региональных
конференциях: конференция аспирантов и докторантов ЮУрГУ (Челябинск, 2012-
2014 гг.), «Язык. Культура. Коммуникация» (Челябинск, 2014), «Прикладная
лингвистика в науке и образовании» (Санкт-Петербург, 2014), «Диалог»
(Московская область, 2014). Результаты работы применялись при выполнении
государственного задания 2012054-ГЗ15 по созданию системы автоматического
перевода рефератов и аннотаций с русского языка на английский. Основные
положения исследования отражены в 11 печатных работах, 7 из которых
опубликованы в журналах, входящих в перечень ВАК.
Диссертационная работа состоит из введения, трех глав, заключения, списка сокращений, списка терминов, списка литературы и трех приложений. Объем диссертации составляет 239 страниц. В диссертации содержится пять рисунков, двенадцать таблиц. Список литературы состоит из 227 источников (из них 168 источников — на иностранных языках).
Основные методы автоматического реферирования и аннотирования
Реферирование научно-технической литературы представляет собой важный вид коммуникации, целью которого является оперативный обмен информацией как в рамках одной страны, так и в международном масштабе. В современных условиях значение реферирования постоянно возрастает, поскольку для современного мира характерно состояние информационной перегрузки: пользователь не в состоянии обработать потенциально полезную для него информацию в полном объеме (Каптерев А.И. Информатизация социокультурного пространства. М.: ФАИР-ПРЕСС, 2004. 512 с.; Еляков А.Д. Информационная перегрузка людей // Социологические исследования. 2005. № 5 С. 114–121; Афанасьев А.А. Особенности поддержки принятия решений на предприятии в условиях информационных перегрузок // Российский научный журнал. 2013. № 6 (37). С. 253–259; Афанасьев А.А. Теоретические основы управления предприятием в условиях повышенных информационных нагрузок // Российский научный журнал. 2014. № 4 (42). С. 284–291; Антипьев К.А., Антипьева М.В. Информационные перегрузки в системе образования // Формирование гуманитарной среды в вузе: инновационные образовательные технологии. Компетентностный подход. Материалы XIV Всероссийской научно-практической конференции г. Пермь, 24–25 апреля 2014 г. Перм. нац. исслед. политехн. ун-т. Пермь: изд-во ПНИПУ, 2014. C.210–213; Богатова Е.Б. Информационный взрыв в документной среде // Исторические, философские, политические и юридические науки, культурология и искусствоведение. Вопросы теории и практики. 2014. № 3-1 (41). C. 36–40; Пронина Л.А. Информационная культура как механизм преодоления информационной перегрузки // Вестник Тамбовского университета. Серия: Гуманитарные науки. 2013. № 4 (120). С. 325– 329; Bawden D., Robinson L. The dark side of information: overload, anxiety and other paradoxes and pathologies // Journal of Information Science. 2008. V. 35. № 2. P. 180-191; Jackson T.W., Farzaneh, P. Theory-based model of factors affecting information overload // International Journal of Information Management. 2012. V. 32. № 6. P. 523-532; Hall A., Walton G. Information overload within the health care system: a literature review // Health Information and Libraries Journal. 2004. V. 21. № 2. P. 102-108.). По данным торговой ассоциации издателей научной литературы, ежегодно в мире только в рецензируемых журналах публикуется около 2,5 миллионов научных статей (The STM Report. 2015. An overview of scientific and scholarly journal publishing URL: http://www.stm-assoc.org/2015 02 20 STM Report 2015.pdf (дата обращения: 06.06.2016).
Понятия «реферат» и «аннотация» трактуются несколько по-разному как в нашей стране, так и за рубежом. В настоящее время вместо терминов «реферат» и «аннотация» иногда используется термин «авторское резюме» (Кириллова О.В. Подготовка российских журналов для зарубежной аналитической базы данных Scopus. Рекомендации и комментарии. URL: http://elsevierscience.ru/info/add-journalo-scopus/ (дата обращения: 06.06.2016).
Российский ГОСТ 7.9-95 «Реферат и аннотация. Общие требования» (ГОСТ 7.9-95. Система стандартов по информации, библиотечному и издательскому делу. Реферат и аннотация. Общие требования. Введ. 1997-07-01. М. : Изд-во стандартов, 1995. 8 с.) дает следующие определения. «реферат — краткое точное изложение содержания документа, включающее основные фактические сведения и выводы, без дополнительной интерпретации или критических замечаний автора реферата»; «сводный реферат — реферат, составленный на основе двух и более исходных документов»; «аннотация — краткая характеристика документа с точки зрения его назначения, содержания, вида, формы и других особенностей». Согласно ГОСТу реферат и аннотация должны выполнять следующие функции: давать возможность установить основное содержание документа, определить его релевантность и решить, следует ли обращаться к полному тексту документа; использоваться в информационных, в том числе автоматизированных системах для поиска документов и информации.
Исследованию функций рефератов и аннотаций посвящено большое количество работ отечественных и зарубежных ученых.
Дубинина Е.Ю. выделяет следующие функции рефератов: информативная, поисковая, справочная, сигнальная, коммуникативная (Дубинина Е. Ю. Компрессия научного текста: методы и модели. : автореферат дис. ... кандидата филологических наук: 10.02.21 / Дубинина Екатерина Юрьевна. СПб., 2013. 24 с). По мнению В.В. Богданова (Богданов В. В. Реферирование // Прикладное языкознание : учебник / С.-Петерб. гос. ун-т ; отв. ред. А. С. Герд. СПб. : Изд-во С.-Петерб. ун-та, 1996. С. 389-399.) реферат и аннотация различаются, во-первых по выполняемым функциям, во-вторых по объему. Аннотация только указывает на характер информации в первичном документе, а реферат в дополнение к указанию также раскрывает содержание первичного документа. При этом объем аннотации значительно меньше объема реферата. В (Блюменау Д.И. Информационный анализ/синтез для формирования вторичного потока документов. СПб.: Профессия, 2002. 240 с.) отмечается, что реферат и аннотация представляют два различных вида вторичных документов. Основная функция реферата — отражение фактоконцептографического содержания исходного документа, основная функция аннотации — отражение формальных признаков и тематического содержания исходного документа. При этом у реферата и аннотации есть общие функции — поисковые, коммуникативные, оценочные. В (Федосюк М.Ю. О лингвистических критериях разграничения информативных и индикативных рефератов // НТИ. Сер. 2. 1978. № 9. С. 11-17.) указывается, что рефераты традиционно разделяются на индикативные — сообщающие, о чем говорится в исходном документе, и информативные — сообщающие, что говорится в исходном документе. В (Сенкевич М. П. Стилистика научной речи и литературное редактирование научных произведений // М.: Высшая школа, 1976. 263 с.) отмечается, что Б.Г. Тяпкин предлагает следующую классификацию рефератов: индикативный реферат (объем до 200 знаков), описательный реферат (объем до 600 знаков), конспективный реферат (объем до 2000 знаков), аналитический реферат, расширенный реферат (объем до 10000 знаков).
В (Библиотечная энциклопедия / Российская государственная б-ка; сост.: Е.И. Ратникова, Л.Н.Уланова; гл. ред. Ю.А. Гриханов. М.: Пашков дом, 2007. 1300 с.) в качестве классифицирующих признаков аннотаций выделяются следующие: 1) целевое назначение; аннотации подразделяются на справочные (без критической оценки) и рекомендательные (с рекомендацией полезности для определенных групп читателей). 2) способ характеристики документа; выделяются общие аннотации (характеристика документа в целом), аналитические (характеристика отдельного аспекта документа), групповые (характеристика нескольких документов по некоторому обобщающему признаку). 3) объем; аннотации бывают расширенные (детальное рассмотрение одного из аспектов документа) и реферативные (подробное раскрытие нескольких аспектов документа). 4) степень использования средств автоматизации; аннотации делятся на интеллектуальные или формализованные (создаются человеком), автоматизированные (создаются с помощью компьютера).
Подъязык рефератов математического моделирования
Кроме указанных индикаторов переводимости на качество переводов рефератов по математическому моделированию негативно влияет использование большого количества математической и разнообразной технической терминологии, что обуславливается двойственной природой текстов по математическому моделированию. Системы автоматического перевода не в состоянии покрыть весь терминологический инвентарь текстов по математическому моделированию. Поэтому пользователи систем АП должны непременно проверять перевод терминологии не только по специализированным словарям, чья покрываемость оставляет желать много лучшего, но и с использованием интернет-методики, в разработке которой автор данного исследования принимал непосредственное участие (Шереметьева С. О., Осминин П.Г., Щербаков Е.С. К вопросу об электронных ресурсах профессиональной лексики // Вестник ЮУрГУ. Серия: Лингвистика. 2014. Т.11. №1. С.57-63).
Следующий пример, взятый из (Дильман В.Л. Исследование аналитическими методами математических моделей напряженного состояния тонкостенных неоднородных цилиндрических оболочек // Вестник ЮУрГУ. Серия: Математическое моделирование и программирование. 2009. Вып.3. №17 (150). С. 36), иллюстрирует целый ряд лингвистических явлений, негативно влияющих на АП:
«Строятся и исследуются аналитическими методами математические модели напряженных состояний тонкостенных цилиндрических оболочек, продольных, поперечных и спиральных менее прочных слоев (прослоек) в них, в том числе содержащих дефекты, более прочных слоев с дефектами, при нагружении оболочек внутренним давлением и осевой силой».
Только в одном приведенном выше примере наблюдаются следующие явления: большая длина предложения (40 слов), инверсия подлежащего и сказуемого (Строятся и исследуются аналитическими методами математические модели…), дистантное расположение зависимых членов (модели напряженных состояний… при нагружении оболочек…), однородные члены (продольных, поперечных и спиральных…), синтаксическая омонимия (непонятно от какого члена («Строятся и исследуются…» или «напряженных состояний… ») зависит предложная группа «при нагружении…»), эллипсис существительных (во фрагменте «в том числе содержащих дефекты» пропущено слово «слоев»).
Кроме этого, в рефератах по математическому моделированию часто встречаются следующие негативно влияющие на АП факторы: Инверсия определения-прилагательного и определяемого слова «Численные расчеты нахождения собственных значений для оператора Штурма-Лиувилля показывают, что предлагаемые формулы при больших номерах собственных значений дают результат точнее, чем метод Бубнова-Галеркина».
Инверсия опре деления-причастного оборота и определяемого слова, т.е. наличие причастного оборота в препозиции к определяемому слову
«Задача решается в динамическом варианте, когда для определения текущего приближения неизвестного управления разрешено использовать только поступившие в данный момент приближенные измерения, реконструкция управления должна осуществляться в динамике (по ходу процесса, по ходу движения системы)» Эллипсис глаголов: «Решение уравнения ищется в пространствах Соболева с достаточно большим показателем суммируемости, а неизвестный коэффициент – в классе непрерывных функций» Вложенные конструкции: «Получены достаточные, а в случае когда бесконечность является устранимой особой точкой резольвенты пучка операторов, и необходимые условия существования и единственности оптимального управления такими решениями». Разбиение частей составного и именного сказуемых вставленными выражениями: «Этот метод был ранее разработан для явного решения задачи факторизации Винера-Хопфа мероморфных матриц-функций». В дополнение к сказанному на переводимость влияют грамматические ошибки и опечатки, сделанные авторами.
Примеры переводов фрагментов текстов с перечисленными явлениями (индикаторами переводимости), вызывающими ошибки при АП, приведены в Таблице 4. Для автоматического перевода мы использовали системы Google и PROMT. Терминологические ошибки не учитывались.
На основании универсальных индикаторов переводимости и индикаторов переводимости релевантных для текста по математическому моделированию, выявленных при анализе подъязыка, мы разработали следующие правила контролируемого языка, соблюдение которых позволяет избегать ошибок при АП. Контролируемый язык для построения рефератов по математическому моделированию: 1) ограничить длину предложения 20 словами, 2) не использовать вставленных конструкций, 3) не допускать синтаксической омонимии, множественной сочинительной связи, 4) предложения должны содержать глагол в личной форме, 5) не допускать эллипсис, 6) не допускать дистантного расположения зависимых членов, 7) ставить определение-причастный оборот после определяемого слова, 8) ставить определение-прилагательное до определяемого слова, 9) не допускать разбиения составного и именного сказуемых вставленными выражениями, 10) использовать в русском предложении прямой порядок слов, характерный для английского языка. 11) перед существительными, требующими при переводе определенного артикля, ставить указательные местоимения или определения, например, «этот», «наш» «указанный» и т.д. В таблице 5 приведены примеры применения правил контролируемого языка (указаны в скобках) к примерам из таблицы 4 и их влияние на автоматический перевод, который после предредактирования выполнен теми же системами АП корректно.
Алгоритм автоматического реферирования
В результате анализа было выявлено, что отдельные предложения реферата могут а) совпадать с предложениями из статьи полностью, б) совпадать частично и в) не совпадать вообще. В случаях б) и в) при построении реферата частично или полностью используются лексико-грамматические средства, отличные от тех, что использованы в статье.
Тексты рефератов могут полностью состоять из предложений, извлеченных из статьи (полная экстракция), представлять собой комбинацию фрагментов статьи и нового текста, возможно даже в рамках одного предложения (сочетание экстракции и абстракции), а также не содержать предложений статьи вообще (полная абстракция).
В таблице 8 приведены количественные данные о предпочтительных способах построения рефератов человеком и данные о локализации предложений, передающих фрагменты содержания рефератов.
Большая часть предложений рефератов — 63,15% составлена авторами сочетанием методик экстракции и абстракции. В 35,34% случаях авторы составляли предложения рефератов только из нового текста полной абстракцией. Полным извлечением предложений из текста составлено только 1,51% предложений рефератов. Так как большинство предложений рефератов составлено авторами из отредактированных фрагментов статьи, то наш метод отбора информации для включения в реферат будет ориентирован на извлечение текстовых фрагментов статьи релевантного для реферата содержания с последующим их редактированием, т.е. на сочетание методик экстракции и абстракции.
Изменение формы глагола, описывающего действие. Например, следующее предложение из текста статьи «Проведем редукцию задачи (0.3) - (0.5) для уравнений (0.2) к задаче Коши для линейного уравнения Соболевского типа второго порядка» было изменено в авторском реферате на «Проводится редукция к абстрактной задаче Коши для уравнения Соболевского типа второго порядка». В реферате используется страдательный залог глагола «проведем».
Использование синонимов. Предложение статьи «Предлагаемая заметка посвящена решению задачи Коши в классической постановке для нелинейного уравнения теплопроводности» было изменено в авторском реферате на «Статья посвящена решению задачи Коши в классической постановке для одного нелинейного уравнения теплопроводности при определенных условиях нелинейности». Для слова «заметка» в реферате использовался синоним «статья».
Слияние предложений. Например, предложению статьи «Приведем анализ некоторых проблем» соответствует предложение авторского реферата «Приводится анализ некоторых проблем фигурных чисел и решения соответствующих диофантовых уравнений» дополненное информацией из другого предложения.
Слияние нескольких предложений статьи в одно предложение в реферате. Например, два фрагмента статьи а) и б) в авторском реферате были слиты в одно предложение в). При этом предложения сливаемые предложения в статье могут находиться далеко друг от друга, даже в разных разделах. а) Рассмотрение дистрибутивной решетки минимальных разрезов дало принципиально новый подход к задаче перечисления множества минимальных разрезов, результатом чего явилась разработка оригинального эффективного комбинаторного алгоритма поиска минимальных разрезов. б) Созданный алгоритм явился основой для построения алгоритмов перечисления разрезов, близких к минимальным, в частности, перечисления одно-, двух и трехэлементных разрезов. в) На основе оригинальной процедуры нахождения всех минимальных разрезов графа предложен эффективный метод перечисления одно-, двух и трехэлементных разрезов, т.е. метод перечисления разрезов, не являющихся минимальными. Замена термина статьи своим гиперонимом. Предложению статьи «Рассмотрена спектральная задача Штурма-Лиувилля, в которой и дифференциальное уравнение и собственные функции имеют полюс внутри интервала, а краевые условия зависят от функций спектрального параметра» соответствует предложение авторского реферата «Рассмотрена спектральная задача Штурма-Лиувилля, в которой и дифференциальное уравнение и собственные функции имеют особенность внутри интервала», в котором термин «полюс» заменен на гипероним «особенность». Опущение в реферате вводных выражений, ссылок на формулы. Например, предложению статьи «В настоящей работе исследуется обратная задача для степени оператора То, порожденного краевой задачей (1)» соответствует предложение авторского реферата «Исследуются обратные спектральные задачи для математических моделей с оператором Лапласа», где опущено выражение «в настоящей статье» и обозначение оператора. Копирование текстового фрагмента статьи без изменения.
В реальной практике к одним и тем же фрагментам статьи могут применяться несколько разных трансформаций.
В таблице 9 приведены количественные данные о трансформациях, использованных авторами в проанализированном сопоставленном корпусе статей и рефератов.
Из таблицы видно, что наиболее часто при изменении текста статьи в текст реферата применяются следующие трансформации — изменение глагола, описывающего действие, слияние предложений. Этот факт необходимо отразить в разрабатываемой модели реферирования и аннотирования.
Кроме этого, в ходе анализа было выявлено, что в статье информация, принадлежащая одному разделу реферата (тема, цель, метод и результат) может находиться или повторяться в различных разделах статьи и в различной языковой репрезентации, в то время как в реферате каждый тип информации (информационная часть (ИЧ) — тема, цель, метод, результат) представляется один раз.
Оценка результатов реферирования по модели путем сравнения с «золотым» авторским рефератом
Подпроцедура заполнения шаблонов осуществляется сопоставлением шаблонов и отобранных наиболее релевантных предложений. Предложения просматриваются слева направо. Неоднозначность маркеров разрешается при заполнении определенных слотов шаблона, то есть у маркера остается тот код, который присутствует в слоте шаблона. При заполнении слота X разрешение однозначности маркеров не требуется, поскольку весь фрагмент X переносится в шаблон целиком. В шаблонах для извлечения информации задан порядок последовательности маркеров и других слов в предложении. Если предложение (или его часть) подходит под шаблон, то слоты шаблона заполняются частями этого предложения. Например, результатом наложения шаблона {N:8 ИЧ: Результат [X: {слово}] [Группа 1: (АР(слово-маркер AOR) [Т])] (Группа 2: (NP(слово-маркер OR) [Т])) (Группа 3: (VP(слово-маркер PR) [Т])) {X}} на предложение
Полученный APR результат OR ОМ ОА использован РМ PR при исследовании OR ОА начально-краевой задачи OR ОМ О А ОТ для параболического интегро-дифференциального уравнения [22] с памятью. 117 является следующий заполненный шаблон: Номер шаблона ::= 8 ИЧ ::= Результат X ::= AP(слово-маркер_AOR) ::= Полученный_AOR NP(слово-маркер_OR) ::= результат_OR_OM_OA VP(слово-маркер_PR) ::= использован_PM_PR X ::= при исследовании_OR_OA начально-краевой задачи_OR_OM_OA_OT для параболического интегро-дифференциального уравнения с памятью Номер предложения ::= 6 Вес ::= 77 В случае если на какое-либо из отобранных предложений невозможно наложить шаблон из базы знаний, то такое предложение исключается из дальнейшей обработки. Например, для предложения:
При этом часто встречаются системы с памятью, поведение которых не определяется целиком состоянием в настоящий момент, а зависит от всей истории системы. подходящего шаблона не существует.
Процедура генерации текста состоит из трансформации заполненных шаблонов в предложения реферата, в соответствии с правилами генерации предложений (см. раздел 3.1), по которым фрагменты текста, заполняющие слоты шаблона выстраиваются в линейном порядке и далее проверяются на наличие индикаторов переводимости и, в случае необходимости, редактируются. На этой же стадии выполняется проверка на избыточность текста реферата и его объем. Например, шаблон «Тема» Номер шаблона ::= 2 ИЧ ::= Тема X ::= В AP(слово-маркер_AOT) ::= этом_AOT_AOA NP(слово-маркер_OT) ::= параграфе_OT AP(слово-маркер_APT) ::= VP(слово-маркер_ PT) ::= изложены_PT X ::= используемые при получении основного_AOR_AOM_AOA_AOT результата_OR_OM_OA факты из классической теории_OM полугрупп операторов Номер предложения ::= 9 Вес ::= 118 будет трансформирован в предложение реферата следующим образом. По правилу 4 шаблон линеаризуется в предложение-кандидат как показано ниже: «В этом параграфе изложены используемые при получении основного результата факты из классической теории полугрупп операторов».
Проверка на наличие глаголов в форме первого лица по правилу 5 дает отрицательный результат.
Далее по правилу 6 в предложении-кандидате выполняется поиск маркеров из стоп-списка D. В данном примере найден маркер «параграф» и поэтому содержащая его лексическая группа («в этом параграфе») удаляется. По правилу 7 в реферат включается следующее предложение: «Изложены используемые при получении основного результата факты из классической теории полугрупп операторов». По правилу 8 и 9 выполняется проверка предложения реферата на наличие индикаторов переводимости, негативно влияющих на АП, и предредактирование. Ориентированность на автоматический перевод достигается с помощью использования контролируемого языка, который основан на правилах генерации, указанных при описании алгоритма. В рассматриваемом примере обнаружен следующий индикатор переводимости – причастный оборот в препозиции к определяемому слову: «…используемые при получении основного результата факты из классической теории полугрупп операторов», который отредактирован следующим образом: «факты из классической теории полугрупп операторов, используемые при получении основного результата». Окончательный вариант предложения, ориентированного на АП, выглядит следующим образом: «Изложены факты из классической теории полугрупп операторов, используемые при получении основного результата».
После проверки предложения на индикаторы переводимости происходит проверка текста реферата на избыточность — присутствие предложений, выражающих одинаковое содержание. Предложения реферата сравниваются на сходство при помощи TM-программы следующим образом: в программу загружается текст реферата, предложения сопоставляются самим себе (таким образом, у каждого предложения есть 100% совпадение), и просматриваются на нечеткие совпадения. Если для предложения есть нечеткое совпадение, то такое предложение считается избыточным и не включается в окончательный текст реферата.
Затем происходит проверка объема реферата. Если объем реферата меньше рекомендуемого ГОСТом, то процедура рекурсивно возвращается на этап наложения шаблонов на взвешенные предложения, пока объем реферата не достигнет рекомендуемого объема. Шаблоны накладываются на предложения, которые не вошли в порог отбора на этапе взвешивания.
На заключительном шаге перед текстом реферата ставится авторский заголовок статьи, и после текста реферата добавляется блок ключевых слов, состоящий из пяти наиболее релевантных, поскольку по рекомендациям журналов требуется от трех до пяти ключевых слов. При этом более короткие ключевые слова, являющиеся частью более длинных ключевых терминов, не повторяются. Если какие-либо выделенные ключевые слова отсутствуют в тексте сгенерированного реферата, то они заполняют слот {КС} предложения-клише ИЧ «Тема» «Рассматривается вопрос о {КС}».