Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Построение модели извлечения информации из технических текстов Бабина Ольга Ивановна

Построение модели извлечения информации из технических текстов
<
Построение модели извлечения информации из технических текстов Построение модели извлечения информации из технических текстов Построение модели извлечения информации из технических текстов Построение модели извлечения информации из технических текстов Построение модели извлечения информации из технических текстов Построение модели извлечения информации из технических текстов Построение модели извлечения информации из технических текстов Построение модели извлечения информации из технических текстов Построение модели извлечения информации из технических текстов
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Бабина Ольга Ивановна. Построение модели извлечения информации из технических текстов : Дис. ... канд. филол. наук : 10.02.21 Челябинск, 2006 272 с. РГБ ОД, 61:06-10/1568

Содержание к диссертации

Введение

Глава I Модели и средства извлечения информации 16

1 1. Основные понятия и определения теории информационного поиска 16

1.2. Информационно-поисковые системы 18

1.2.1. ТшгаИПС 18

1.2.2. Лингвистический компонент ИПС 20

1.2.2Л. Информационно-поисковые языки : 20

1.2.2,2. Словарные средства ИПС 22

1.2.3- Оценка эффективности ИПС 25

1.3. Модели документального информационного поиска 27

1.3.1. Статистические модели поиска 27

1.3.1.1. Теоретико-множественные модели 27

1,3 Л .2. Векторные модели 29

13.1.3. Вероятностные модели 31

1.3.2. Лингвистические модели поиска 32

1.3.2.1, Синтаксические модели 32

3.3.2.2. Семантические модели 38

1.4. Поиск и извлечение информации в патентных исследованиях 39

1.5. Выводы по главе 1 45

Глава 2. Подъязык формул изобретения патентов на способ в фармакологаи ,,.47

2.1. Корпус текстов формул изобретения патентов 47

2.2. Общая характеристика лексики 53

2.3. Знаменательная лексика аргументов предикатов 55

2.4. Грамматическая и лексическая семантика предикатов 56

2.4Л. Морфологические характеристики предикатов 56

2.4.2. Валентности предикатов 64

2АЗ, Семантическая классификация предикатов 74

2,4.3.L Состав семантических классов предикатов 74

2.4.3.2. Семантический класс предикатов «Изменение состояния» 78

2.4.3.3. Семантический класс предикатов «Динамическое взаимодействие» 85

2.4.3.4. Семантический класс предикатов «Получение нового объекта»... 88

2.4.3.5. Семантический класс предикатов «Выявление» 91

2.4.3 А Семантический класс предикатов «Воздействие» 92

2,4.4. Функционирование предикатов в тексте патентной формулы 97

2.5. Служебные слова 103

2.6. Выводы по главе 2 108

Глава 3. Модель извлечения информации из поискового массива формул изобретения патентов на способ 111

3.1. Общая схема модели извлечения информации 111

3.2. Модуль формирования «индексной» части информационного массива 113

3.2.1. Разработка лексического компонента индексирования 113

3.2.1.1. Структура лексикона для автоматического анализа текста 113

3.2.1.2. Адаптация лексикона для патентных формул на способы в области фармакологии 120

3.2.2, Процедура индексирования и ее грамматический компонент 122

3.2.2.1. Общая схема индексирующей процедуры анализа 123

3.2.2.2. Первичное разбиение текста 129

3.2.2.3. Лексико-грамматический анализ текста 130

3.2.2.4. Семантико-синтаксический анализ текста 134

3.2.2.4.1. Восходящий анализ синтаксических конструкций 134

3.2.2.4.2. Восстановление кореференции именных групп 137

3.2.2.4.3. Поиск семантических зависимостей 139

3.2.2.5. Преобразование аргументов предиката 142

3.2.2.6. Определение состава компонентных зон 145

3.2.2.7. Заключительные замечания 148

3.3. Модуль формирования поискового предписания 149

3.4. Модуль выявления релевантных запросу документов 154

3.4.1. Тезаурус предметной области для процедуры сопоставления ПП и ПОД 154

3.4.2. Процедура сопоставления ПП и ПОД 157

3.4.2.1. Общая схема процедуры сопоставления 157

3.4.2.2. Поиск в ПОД кандидатов на соответствие единицам ПП 164

3.4.2.3. Сопоставление ПП и ПОД на уровне предикатно-аргументной конструкции 170

3.4.2.3.1. Сопоставление именных групп 172

3.4.2.3.1.1. Сопоставление головных существительных именных групп 176

3.4.2.3.1.2. Сопоставление прочих элементов в лексическом составе именных групп 186

3.4.2.3.1.3. Сопоставление валентностей аргументных выражений.. 190

3.4.2.3.1.4. Оценка сходства именных групп в целом 192

3.4.2.3.2. Сопоставление аргументного состава конструкций ПП и ПОД 193

3.4.2.3.3. Сопоставление предикатно-аргументных конструкций 193

3.4.2.4. Сопоставление ПП и ПОД на уровне компонентной зоны 195

3.4.2.5. Сопоставление ПП и ПОД на уровне запроса/документа 196

3.5. Выдача релевантных документов 199

3.6. Эксперимент по отбору текстов 200

3.7. Выводы по главе 3 206

Заключение 208

Список литературы

Введение к работе

Как известно, научно-технический прогресс является движущей силой современного общества. Развитие наук сегодня идет все увеличивающимися темпами. И вслед за ним, как «снежный ком», увеличивается объем информации, посвященной научным исследованиям и открытиям. Официальным способом регистрации новых изобретений является их патентование. Таким образом, развитие наук обусловливает рост массива патентных документов. Так, за последние годы количество патентов, зарегистрированных в Американском офисе патентов и торговых марок только на метод в фармакологии, возросло почти на 13 тыс. патентов (для сравнения, с 1976 по 2002 гг. в этой предметной области было зафиксировано чуть более 17 тыс. документов1).

Наличие новых устройств и изделий, защищенных патентами, напрямую связано с экономической прибылью предприятия-патентообладателя, а также иногда сама торговля патентами приносит сверхприбыли. Таким образом, анализ всей ситуации, сопутствующей появлению и функционированию новшества, способствует созданию новых изобретений и правильному позиционированию уже имеющихся разработок. Количество запатентованных объектов практически напрямую связано с получаемой прибылью и, в конечном счете, с процветанием предприятия.

Таким образом, актуальность настоящего исследования обусловлена тем, что постоянно увеличивающийся поток информации требует совершенствования автоматизированных средств ее обработки.

Патентные исследования являются тем самым инструментом, с помощью которого менеджеры высшего звена предприятия могут оценивать текущую ситуацию и прогнозировать развитие ситуации вокруг научно-технических новшеств. Проведение патентных исследований, с одной стороны, позволяет реально оценивать патентоспособность разрабатываемых объектов техники, и с другой стороны, предотвратить нарушение чужих прав, сохранив патентную чистоту объекта.

Таким образом, в ходе проведения патентных исследований предприятия и работники патентных ведомств сталкиваются с проблемой отбора информации из имеющегося массива патентных текстов. Это один из основных, наиболее трудоемких этапов экспертизы, так как он связан с необходимостью оценить степень сходства/различия с огромным множеством имеющихся текстов. Отбор необходим при решении задач получения обзорной информации о современном состоянии дел в науке, проверки вновь поступающих заявок на новизну изобретения, выявления новых прогрессивных способов, устройств и других объектов патентования, которые могут минимизировать затраты и увеличить прибыль при их внедрении в производство, и т.д. Однако неумолимый рост массива документов приводит к тому, что отбор релевантной информации вручную становится задачей, несоизмеримой с возможностями человека, и - поэтому - практически невыполнимой. Такое положение дел ставит человека перед необходимостью автоматизации извлечения релевантной информации из массива полнотекстовых документов.

Автоматический отбор информации осуществляется посредством поисковых систем. В большинстве случаев, отбор информации ограничивается выбором из всего массива документов тех, которые удовлетворяют запросу, и результат представляется в форме ранжированного списка документов. Сущест щ вующие сегодня информационно-поисковые и аннотирующие системы, как правило, основаны на достаточно простых методиках с использованием ключевых слов и не обеспечивают требуемого качества отбора и представления информации.

Традиционно предметная область в системах поиска представляется посредством искусственного языка, представляющего собой некоторое упроще И ние естественного [напр., Шингарева 1981; Рубашкин 1989]. Однако огромные объемы имеющейся на сегодняшний день информации, представленной на естественном языке, делают неподъемной задачу преобразования вручную со держания документов в поисковый образ на искусственном языке. Кроме того, естественный язык представляет собой сложную, многогранную систему, которая имеет нечеткую природу [Заде 1976; Налимов 1979; Пиотровский 1999], отличную от искусственных языков. В связи с этим описание на упрощенном языке позволяет весьма приблизительно представить содержание документа, что влияет на показатели точности поисковых систем.

Поэтому сегодня все большую актуальность приобретают системы поиска, где в качестве поискового образа документа выступает сам документ, написанный на естественном языке (ЕЯ). При этом, учитывая асимметричность естественного языка и его слабую формализуемость в силу своей природы, остро встает проблема разработки адекватного лингвистического обеспечения поисковых систем, позволяющего максимально приблизиться (в идеале) к такой работе системы, которая была бы сравнима по получаемому результату с тем, как информацию на ЕЯ обрабатывает человек.

Система должна учитывать особенности ЕЯ на всех его уровнях. При использовании распространенного в большинстве поисковых систем метода координатного индексирования язык рассматривается лишь на лексическом и морфологическом уровнях. При этом практически не уделяется внимания синтаксическим и, особенно, семантическим аспектам языка.

Однако в рамках прикладной лингвистики уже около полувека ведется работа над созданием лингвистических процессоров (ЛП), позволяющих вести синтаксический разбор текстов на естественном языке и делаются попытки учитывать семантику при автоматической обработке текстов. Как правило, результаты этих исследований применяются в системах машинного перевода, реферирования и т.д. Однако системы поиска работают с теми же естественноязыковыми текстами. А для отбора релевантной информации необходимо не только формальное совпадение поискового предписания с ПОД на поверхностном уровне, но важно попытаться более тонко смоделировать содержание документов, учитывая лексику, морфологию, синтаксис и семантику текста. По этому использование этих методов в системах поиска документальных текстов представляется оправданным.

Следует отметить, что далеко не все системы, в основе которых лежит лингвистический процессор, успешны. Это объясняется тем, что при переходе от уровня к уровню языковые закономерности, действующие на каждом из них, становятся все сложнее, и их все труднее описать с помощью формальных средств. Так, возможность учета семантики осложняется тем фактом, что лексика естественного языка в значительной степени неоднозначна, и эту неоднозначность приходится разрешать в ходе автоматического анализа. Для машины, не обладающей сознанием, эта задача крайне сложная. Возможным решением этой проблемы является ограничение языка. Это позволяет сузить спектр лексических и грамматических явлений языка, которые необходимо учитывать при автоматическом анализе, и в значительной мере избавиться от полисемии. Поэтому во многих случаях для получения надежных результатов при автоматической обработке текста исследователи предпочитают ограничить анализируемый язык до размеров подъязыка отдельной предметной области.

Тогда для создания эффективных алгоритмов обработки текста необходимо вести изучение корпуса соответствующих текстов в каждой предметной области отдельно, так как процедура обработки в этом случае будет полностью зависеть от языкового материала. Такое ограничение поискового массива заданной предметной областью позволяет создавать ЛП с высокой степенью адекватности лингвистического разбора. А использование подобного ЛП при отборе информации даст возможность в большей степени, нежели чем это было до сих пор распространено в поисковых системах, учитывать природу и много-уровневостъ языка.

Формула изобретения - это та часть патента, которая имеет «решающее значение для оценки органов, осуществляющих государственную научно-техническую экспертизу изобретений, новизны и существенных отличий, а также положительного эффекта заявляемого объекта» [Изобретателям 1980], Причем только эта часть патента имеет правовое значение: она является един ственным критерием для определения объема изобретения и по ней устанавливается факт использования изобретения. Поэтому именно формула изобретения подвергается проверке при проведении экспертизы заявки по существу. Значит, целесообразно проводить поиск и формировать критерии отбора на основании текстов этой части описания изобретения.

Руководствуясь этими соображениями, мы определили объект и предмет исследования.

Объектом исследования является семантико-сиитаксическая структура формулы изобретения ш способ (ФИС) патентов по фармакологии.

Предметом исследования является разработка процедуры автоматизиро-ванного отбора релевантной информации из информационного массива ограниченной предметной области, использующей предикатно -аргументпуіо конструкцию в качестве единицы поиска.

В качестве объекта изобретения могут выступать устройство, способ, вещество, штамм, программное обеспечение (не во всех странах), применение известных ранее устройства, способа, вещества, штамма по новому назначению. При этом формулы изобретения на каждый из объектов имеют ряд существенных отличий, и потому должны быть исследованы отдельно, В рамках одного исследования невозможно проанализировать все виды формул. При этом следует отмстить, что изобретениям на устройство уделялось достаточно внимания в рамках научно-исследовательских разработок. Другие же объекты не получи- щ ли столь пристального к себе внимания.

В данной работе рассмотрение патентных текстов ограничивается формулами изобретения на способ. Очевидно, что в дальнейшем необходимо также вести исследования по изучения особенностей формул изобретения патентов на вещества, штаммы и т.д. В качестве предметной области мы выбрали область фармакологии, так как она наиболее благодатна для проведения исследований на различных объектах изобретения. Кроме того, автоматизации лингвистиче ской обработки фармакологических текстов становится все более актуальной в последнее время.

Гипотеза исследования заключается в том, что использование лингвистического анализа для организации информационного массива позволит усо-вершенствовать процедуру поиска в полнотекстовом массиве документов ограниченной предметной области и расширить область учета семантики текста при отборе релевантной информации.

Основной целью исследования является построение модели отбора информации из патентных текстов в узкой предметной области, использующей модуль автоматической обработки текста на естественном языке для максимально полного представления знаний.

В соответствии с целью и гипотезой исследования были поставлены елс-Ы дующие конкретные задачи:

1. Исследовать существующие подходы к построению систем автоматического поиска информации и границы использования лингвистических процессоров в этих системах;

2. Определить лингвистические особенности организации ФИС;

3. Провести сравнительный анализ отличий лексики и грамматики в формулах изобретения патентов на устройство (ФИУ) и на способ;

4. Модифицировать процедуру анализа текста ФИУ, настроив на обработку текстов ФИС;

Расширить процедуру автоматического анализа текста для решения задач индексирования патентных документов посредством представления се щ мантико-синтаксической структуры ФИС;

6. Определить возможности переиспользования интерфейса системы автоматического синтеза формулы изобретения для определения запроса к системе автоматического поиска патентных текстов;

7. Разработать критерии оценки сходства образа запроса и документа для текстов формул изобретения патентов на способ в фармакологии,

Основным методом исследования является моделирование [Лосев 1968;

Степанов 2001; Рсвзин 1977], посредством которого определяется структура и особенности исследуемого подъязыка и осуществляется построение модели представления знаний и функционирования системы извлечения информации. Вспомогательными методами выступают:

? метод сплошной выборки при отборе документов, составивших корпус текстов;

? валентный анализ языкового материала;

? классификационно-типологический подход при анализе языкового материала;

? метод компонентного" анализа лексики;

? метод статистического анализа для определения особенностей функционирования лингвистических единиц в тексте ФИС;

? метод дистрибутивно-статистического анализа при настройке процедуры автоматического анализа текста;

? метод экспериментальной проверки модели, воспроизводящей процедуру отбора релевантных текстов документного массива;

? аппарат теории множеств, математической логики, а также теории представления знаний и теории алгоритмов при описании основных положений модели отбора информации.

Научная новизна работы обусловлена тем, что данный языковой материал впервые исследуется с применением указанной совокупности современных лингвистических методов, что определяет новизну полученных результатов. Существенной новизной отличается разработанный метод отбора инфор- ц мации, основанный на использовании предикатно-аргументной структуры тек ста формулы изобретения в качестве единицы поиска при сопоставлении образов документа и запроса. Впервые разработаны формальные правила сопоставления патентного документа и запроса, использующие лингвистические особенности структуры формулы изобретения.

Актуальность и новизна исследования предопределяют его теоретиче- скую и практическую значимость.

Теоретическая значимость исследования заключается в формальном описании одной из обособленных языковых подсистем (подъязыка ФИС), а также в моделировании системы отбора информации на основе использования в качестве образа документов в информационном массиве результата применения к ФИС процедуры автоматического лингвистического анализа текста. Полученные результаты вносят определенный вклад в разработку общей таксономии подъязыков науки и техники. Предложенный способ отбора информации дает основания расширить теорию информационного поиска, включив в область ее рассмотрения модели, использующие в качестве единицы поиска не только номинативные элементы, но и ситуативные (предикативные) единицы.

Практическая значимость исследования состоит в возможности создания на базе разработанных правил системы автоматического отбора информации из массива патентных документов, с помощью которой решается задача автоматизации патентной экспертизы в ходе рассмотрения заявки на вновь патентуемые объекты. Тем самым облегчается труд и значительно уменьшаются затраты времени работников патентных ведомств.

Результаты исследования подъязыка ФИС могут быть использованы также при разработке других приложений автоматической обработки текста: систем автоматического перевода, аннотирования и реферирования текстов, а также при чтении курсов по прикладной лингвистике. Описанная модель в дальнейшем может быть модифицирована для автоматизации не только этапа поиска, но и всей процедуры патентной экспертизы.

Материалом для исследования послужил корпус текстов, включающий ФИС 295 патентов США по фармакологии объемом -210 тыс, словоупотреблений.

Положения, выносимые на защиту;

1. Использование лингвистической базы знаний, определяемой предложенной методологией извлечения информации, обеспечивает более полное и глубокое представление поисковых образов документа и запроса, учитывающее семантические отношения между участниками описываемых в текстах ситуаций;

2. Использование унифицированной формы для представления поискового образа полнотекстового документа и запроса с помощью набора фреймо-подобных предикатно-аргументных структур расширяет возможность сравнивать образы на семантическом уровне;

3. Разработанные правила и предложенные метрики для сличения образов запроса и документа позволяют проранжировать результаты в зависимости от степени релевантности запросу отобранных документов,

4. Переиспользование некоторых, алгоритмов и правил автоматического анализа текста, настроенных для использования в другой предметной области, повышает эффективность разработки новых приложений на новом материале, уменьшая затраты труда и времени.

Апробация материалов исследования. По теме диссертации были сделаны доклады на международной научно-практической конференции «Теория и методика преподавания языков в вузе» (Челябинск, 15-17 декабря 2003 г) и на Второй международной конференции по модели «Смысл Ф Текст» (Москва, 23-25 июня 2005 г). Отдельные этапы исследования обсуждались на научных семинарах кафедры лингвистики и межкультурной коммуникации Южно-Уральского государственного университета.

По теме диссертационной работы имеются следующие публикации:

1. Бабина, О.И, Автоматический отбор релевантной информации из информационного массива патентных текстов / О.И. Бабина // Вестник ЮУрГУ. Сер. Лингвистика.-Челябинск; Изд-во ЮУрГУ, 2006, -№2. -С. 67-72.

2. Бабина, О.И. Семантическое сопоставление образов запроса и документа при автоматическом документальном поиске / О.И. Бабина // Наука и образование. IV международная научная конференция: Материалы конференции, (Белово, 2-3 марта 2006 г). - Кемерово: Изд-во КемГУ, 2006,

3. Sheremetyeva, S. Meaningext theory for textual input analysis and proofing in a generation system I S. Sheremetyeva, O. Babina II Восток - Залад: Вторая международная конференция по модели «Смысл f= Текст» / отв. ред. Ю.Д. Ап ресян, Л.Л. Иомдин. (Москва, 23-25 июня 2005 г). - М.: Языки славянской культуры, 2005. - С. 458-466.

4. Бабина, G.IL Специфика процедуры автоматического анализа текстов патентов на метод / О.И. Бабина // Объединенный научный журнал. №33 (125). Декабрь 2004-С 62-66.

5. Бабина, О Л. Грамматические характеристики предикатов формулы изобретения патентов на метод / ОМ. Бабина // Вестник ЮУрГУ. Сер, Лингвистика. - Челябинск: Изд-во ЮУрГУ, 2004. - №1. - С. 8 12.

6. Бабина, О.И. Предикатная лексика формул изобретения патентов на метод / О.И. Бабнпа // Фундаментальные и прикладные исследования в системе образования: Материалы 2-й Международной научно-практической конференции / ото. ред. Н.Н. Болдырев. (Тамбов, 28 марта 2004 г). — Тамбов: Изд-во ТГУ им, Г.Р. Державина, 2004. Ч. 4. - С. 62-65.

7. Бабина, ОД. Частотные характеристики семантических классов предикатов, встречающихся в формулах изобретения патентов на метод в фармакологии / О.И. Бабина // Международная научно-практическая конференция «Теория и методика преподавания языков в вузе»: Тезисы докладов / под ред. Е.Н. Ярославовой. (Челябинск, 15-17 декабря 2003 г). —- Челябинск: Изд-во ЮУрГУ,2003.— С. 141-142.

Структура и объем работы. Предлагаемая вниманию диссертационная работа состоит из введения, трех глав, заключения, списка литературы и 9 при ф ложений.

В первой главе «Модели и средства извлечения информации» рассматриваются информационно поисковые системы и модели извлечения информации из массива текстов. Особое внимание уделяется лингвистическому компоненту, являющимся ключевым при отборе текстов на естественном языке. Рассматривается место поиска при проведении патентных исследований.

Щ Во второй главе «Подъязык формуя изобретения патентов на способ в фармакологии» представляется результат лингвистического анализа языкового материала подъязыка ограниченной предметной области. Акцент делается на синтактико-семантической структуре исследуемых текстов, в частности на особенностях предикатно-аргументной структуры текстов формул изобретения патентов на способ. Детально исследуется семантика предикатов подъязыка ФИС.

В третьей главе «Модель извлечения информации из поискового массива формул изобретения патентов на способ» описывается модель извлечения информации из корпуса текстов формул изобретения. Описывается методика переиспользования и применения процедур автоматической обработки текста для представления поисковых образов патентных документов в информационном массиве. Показывается способ формирования образа запроса на основе использования интерфейса системы формального синтеза ФИС. Определяются принципы и правила сопоставления образов запроса и патентных документов с целью отбора релевантных текстов. Приводится пример применения описанной модели для извлечения из патентной базы патентных документов.

В заключении подводятся общие итоги работы, намечаются направления для дальнейших исследований, обозначаются перспективы для применения и совершенствования описанных в работе правил и процедур.

Лингвистический компонент ИПС

Основу лингвистического обеспечения ИПС составляет информационно-поисковый язык. По типу организации выделяются предкоординируемые и по-сткоординируемые ИПЯ. Предкоординирумые ИПЯ представляют собой различного рода классификации к рубрикаторы: иерархические, алфавитно-предметные, фасетные классификации, Международная классификация изобретений. Библиотечно-библиографическая классификация и др. Категории этих классификаций выступают в роли терминов ИПЯ. Данные классификации носят тематический характер: каждая категория объединяет набор документов заданной тематики. Такие языки не дают возможности проведения поиска по любому, не введенному в систему сочетанию признаков.

Посткоордииируемые ИПЯ представляют собой языки, обладающие некоторым вокабуляром (набор терминов языка) и грамматикой. Грамматика в таких языках представлена отношениями, связывающие термины языка между собой. Отношения, которые репрезентируют логические связи между предметами, называют парадигматическими (аналитическими, базисными, имманентными) [Монастырский 1983:49]. В качестве парадигматических отношений могут выступать отношения вида род-вид, часть-целое, причина-следствие, функциональное сходство, отношения эквивалентности и т.д.

Другим типом отношений, связывающих слова языка, являются синтагматические отношения. Это такие линейные отношения, которые устанавливаются непосредственно при соединении слов в словосочетания и фразы [Мо настырский 1983:50]. С точки зрения оформления синтагматических отношений в языке, выделяют три уровня грамматики ИПЯ [Методы 1987:11]: а) «теоретико-множественная» («мешочная», вырожденная, тривиальная, «без грамматики»): описание на языке осуществляется посредством набора лек сических единиц (дескрипторов, ключевых слов, словоформ и т.п.), не связан ных между собой никакими текстуальными отношениями (большинство совре менных систем поиска в Интернет)гЄумма показателей точности и полноты для систем, использующих ИПЯ с «теоретико-множественной» грамматикой редко превышает 1,1 [Методы 1987:6]; б) «линейная» («позиционно-скобочная»); средства грамматики фикси руют деление поискового образа текста на предложения, группы предложений (абзацы) и т.п., взаимное расположение лексических единиц в предложениях, предложений в абзацах и т.д. (например, [Автоматизированные 1985; Автома тический 2000; Обработка 2001; и др.]). Для таких систем, как отмечается в [Методы 1987:6], суммарный показатель точности и полноты составляет от 1,2 ДО 1,6; в) «сетевая»; использует указатели связи, соединяющие лексические еди ницы не по их внешнему расположению в тексте, а по смыслу (например, [Де рецкий 1999; Одинцов 1999 и др.]).

Как отмечается, посткоординируемые языки лучше описывают содержание документов как политематических, так и узкотематических баз данных по сравнению с предкоординированными иерархическими ИПЯ [Захаров 1997:24]. В дальнейшем будем рассматривать системы и модели поиска, опирающиеся на использование посткоординируемых ИПЯ.

Сравнительная эффективность ИПЯ оценивается посредством семантической силы языка [Монастырский 1983:50], которая характеризует смысловы-разительные возможности ИПЯ и показывает, насколько хорошо данный ИПЯ реализует коммуникативную функцию. Этот параметр, очевидно, тождествен понятию семантической силы системы, так как сила системы определяется ее лингвистическим обеспечением. Несомненно, функция смыслоразличения в ее тественном языке (ЕЯ) реализуется с наибольшей точностью. В этом смысле ЕЯ, используемый в качестве ИПЯ, обладает максимальной семантической силой. Однако, с другой стороны, ЕЯ представляет гораздо большие трудности, чем формальные искусственные языки, при реализации смыслоотождествления, что обусловлено наличием в ЕЯ таких явлений, как синонимия, омонимия и полисемия, которые не всегда позволяют (автоматически) однозначно определить содержание текста. Максимизация семантической силы языка обеспечивается посредством оптимизации при моделировании его состава и структуры представления в средствах лингвистического обеспечения систем поиска,

Словарные средства ИПС хранят данные, описывающие терминологический состав ИПЯ. Они используются для индексирования массива документов, нормализации (лемматизации) лексических единиц в запросе и документе, расширения запроса и т.д. Целью этих операций является приведение запроса и документа к такому представлению, которое бы позволило эффективно сопоставлять их на уровне лексики,

С точки зрения использования словарных средств документальные ИПС делятся на две категории: словарные и бессловарные. К бессловарным относятся системы, в которых операции над лексическими единицами проводятся посредством алгоритмических преобразований с большей или меньшей погрешностью (например, нормализация лексических единиц производится путем так называемой свертки [Методы 1987:24]).

Модели документального информационного поиска

Основу векторных (или алгебраических) моделей составляет метод координатного индексирования, впервые примененный М. Таубе. В методе для индексирования используются слова и словосочетания документа, которые служат координатами и образуют некоторый вектор многомерного пространства. Размерность вектора определяется количеством слов и словосочетаний, участвующих в индексировании документа или всей коллекции документов.

Вектор многомерного пространства выступает в качестве поискового образа документа. Для его хранения чаще всего используются инвертированные файлы, в которых ПОД представлен в виде матрицы типа термин х документ. В простейшем случае, чтобы задать состав индексирующего множества посредством вектора, используется бинарная система соответствующая координата в матрице принимает значение 1 или 0 [Черный 1975]. что соответствует присутствию/отсутствию термина в ПОД. В таком варианте векторная модель является аналогом теоретико-множественных моделей.

В расширенном варианте каждый документ характеризуется не просто наличием/отсутствием терминов, но каждому термину приписывается его вес -некоторое число, характеризующее, в какой мере данный термин важен при описании содержания документа [Rrjsbergen 1979; Lin 2002]. Весовые коэффициенты основываются на частотных характеристиках терминов в документах.

Использование весовых коэффициентов дают лучшие показатели поиска, чем без взвешивания. Это было экспериментально показано, например, в fSparck Jones 1972]? где в качестве весов терминов использовалась величина, обратная частоте термина в поисковом массиве: idj=log(N/k) + 1 (JV- количество документов в поисковом массиве; к - количество документов, в которых присутствует і-ьга термин). Наиболее известным способом определения веса і-го термина является w tfxidf, где tf- частота термина в индексируемом документе [Manning and Schiitze 1999]. При определении окончательного веса терминов полученное по этой формуле значение нормализуется.

При организации поиска ПП формируется как n-мерный вектор, где і-ая координата свидетельствует о наличии і-го термина в запросе и/или его весе в запросе. Отбор документов осуществляется на основании коэффициентов сходства, в которых используется векторное представление запроса и документа. В качестве таких коэффициентов используют [см. Rijsbergen 1979; Lin 2002; Семенов 2006]: - скалярное произведение векторов запроса и документа [Youli et al. 2001 и др.]; - косинусный коэффициент: отношение скалярного произведения векторов к корню квадратному из произведения их длин [Donghong et al 2002 и др.]; - коэффициента Дайса: отношение удвоенного скалярного произведения векторов к сумме их длин; - коэффициент Жаккара: отношение скалярного прорїзведения векторов к разности суммы квадратов их длин и их скалярного произведения; - коэффициент перекрытия: отношение скалярного произведения векторов к минимальной из их длин.

В ответ на запрос пользователю выдаются документы, для которых коэффициент сходства превышает некоторое пороговое значение, устанавливаемое, как правило, на основании эмпирических данных.

В вероятностных моделях поиск осуществляется на массивах полнотекстовых документов или инвертированных файлах. Решение о выдаче документа в ответ на запрос принимается па основании оценки вероятности того, что документ D релевантен запросу Q: P(D релевантен ).

При подсчете вероятностей учитываются частотные характеристики ключевых слов запроса в информационном массиве. Для определения вероятностных коэффициентов сходства чаще всего используются: - Формула условной вероятности по теореме Байеса; отношение произведения вероятностей того, что документ релевантен P(D релевантен) и того, что будет задан именно такой запрос, в зависимости от документа, который пользователь считает релевантным P(Q D релевантен) к вероятности того, что запрос будет задан P(Q); - Модель логистической регрессии: сумма логарифмов коэффициентов, в которых учитываются частоты терминов в запросе, документе и информационном массиве [см. Kishida 2001 и др.]; - 2-пуассоновская модель (Okapi): сумма взвешенных числовых параметров для всех терминов запроса, где учитываются частоты каждого термина в документе и запросе, а также длина оцениваемого документа и средняя длина документа в коллекции [Robertson and Sparck Jones 1976; Robertson and Walker 1999]; - Модель Pircs: вероятностный коэффициент сходства определяется как линейная взвешенная сумма активаций терминов запроса и документа в концептуальной сети индексирующих терминов [Kwok 1996; Luk 2002 и др.]; и т.д.

Пользователю на запрос выдаются документы, для которых значение вероятностного коэффициента превышает устанавливаемое в системе пороговое значение.

Грамматическая и лексическая семантика предикатов

Лексика аргументов предикатов в тексте патентных формул представлена, преимущественно, частями речи, входящими в состав именных ірупп. Значительный слой лексики составляют названия химических формул фармакологических препаратов и их составляющих. Также частотны названия, связанные с различного рода заболеваниями, что обусловлено спецификой патентов на способ в фармакологии: целью науки в целом является создание средств для лечения недугов. Поэтому, чаще всего, патентуются способы лечения какого-либо заболевания с помощью оригинального средства или способы получения таких средств.

В исследовательском корпусе встречаются аргументы предикатов, обо значающие функциональные признаки, которые в то же время уже стали рас хожими общими техническими средствами. Например, довольно часто ветре чающееся в фармакологическом корпусе, слово solvent - это функция, но в то же время уже сейчас это общее техническое средство.

Учитывая семантические характеристики лексики рассматриваемой ПО, вся терминологическая лексика (номинативные единицы) была разбита на несколько семантических классов. Набор семантических классов, характеризующих предметную область, включает: 1) Вещество: antibody, epinephrine, ligand, oxide, peptide и др.; 2) Единица измерения: degree.С, day, milligram, ml, mole и др.; 3) Заболевание: Alzheimer s disease, disorder, migraine, necrosis, phobia, psoriasis и др.; 4) Клетка (клеточный уровень организации живого): cell, mammalian cell, recombinant cell и др.; 5) Орган (органный уровень организации живого): bone, gland, kidney, organ, retina и др.; 6) Организм (организменный уровень организации живого): subject, mammal, mouse, insect и др.; 7) Параметр: condition, рН, specificity, temperature и др.; 8) Ткань (тканевый уровень организации живого): tissue, myocardium, xenograft и др.; 9) Физический объект: catheter, element, pump, structure! и др.; 10) Формула (включает простые корни, участвующие в образовании названий химических веществ): alkyl, benz, indol, methyl и др.; 11) Другие: amount, fingerprint, signal, structure2 и др.

Наиболее типичным классом предикатных слов являются глаголы [Тень-ер 1988; Helbig and Schenkel 1973; Грязнухина 1999 и др.]. Для под-ьязыка патентов на способ это утверждение также верно: глагол является наиболее пред ставительной группой предикатов и составляет 94,23% предикатной лексики. Кроме того, в подъязыке патентных формул можно отметить также наличие предикатов, принадлежащих следующим частям речи: ? прилагательные - 4,84% предикатной лексики; ? функциональные существительные (в основном, существительные, обозначающие узкоспециальные процессы) - 0,93% предикатной лексики.

Морфологический состав категории существительных-предикатов весьма беден: существительные имеют лишь одну форму, так как функциональные существительные принадлежат к неисчисляемым и не имеют форму множественного числа. Поэтому начальная форма таких предикатов совпадает с формой этих слов в тексте патентных формул.

В качестве начальной формы глаголов-предикатов рассматриваются причастия, так как а) причастия - это наиболее частотная форма глаголов-предикатов в корпусе текстов (39,4% словоупотреблений предикатов приходится на причастие настоящего и прошедшего времени); б) образование части аналитических форм глагола основано на использовании формы смыслового гла-гола, совпадающей с его причастием (из наиболее частотных форм - Present Simple Passive, Gerund Simple Active).

Глаголы-предикаты, используемые в тексте в активной и пассивной фор ме (соответствующие причастиям настоящего и прошедшего времени), рас сматриваются как различные предикаты. Это обусловлено, прежде всего, ce ll мантическими отличиями этих форм. В узком подъязыке формул изобретения некоторые предикаты в различных формах имеют отличия на уровне лексиче ской семантики [Шереметьева 1985]. Кроме того, несмотря на традиционное игнорирование того факта, что мена залога связана с изменением смысла, сего дня признается, что всякий диатетический сдвиг влечет вполне ощутимые раз личия прагматического порядка [Падучева 2004:51]. « Тогда, например, предикаты connecting и connected рассматриваются как различные предикаты.

Разработка лексического компонента индексирования

Валентность Субъект всегда заполнена для предикатов-глаголов в форме страдательного причастия или пассивной формы настоящего времени, а также для предикатов-прилагательных и предлогов. Предикаты-глаголы в форме герундия и предикаты-существительные не имеют валентности Субъект.

Валентность Цель показывает, для чего необходимо действие, выраженное предикатом. Реализация данной валентности осуществляется через предикатную конструкцию, центром которой является глагол в форме инфинитива, либо герундиальная конструкция, введенная предлогом for. Благодаря функциональности текста патентных формул все описываемые действия совершаются с целью получить некий результат. В связи с этим, валентность Цель часто сливается с валентностью Результат.

Валентность Результат показывает конечное состояние объектов после выполнения действия. Результат, как и цель, выражается посредством предиката с реализованными валентностями. В связи со строгой семантической ограниченностью предикаты, выражающие валентность Результат, относятся к предикатам состояния, или к семантическим классам, в которых предикаты выражают действия, имеющие четкое начало и конец. Это, например, такие семантические классы, как предикаты изменения состояния, предикаты создания нового, предикаты, обозначающие свойство. Синтаксически валентность реализуется посредством следующих конструкций: а) инфинитив глагола: в этом случае валентность Результат, как правило, совпадает с валентностью Цель; б) простым придаточным предложением, вводимым с помощью союза such that, в) предложной фразой со сложным предлогом resulting in иди другим предлогом, обусловленным моделью управления предиката.

Валентность Место рассматривается как среда или организм, в котором протекает указанный в способе процесс. Валентность заполняется именной группой с предлогом in. Также валентность может выражаться наречием, имеющим в своем денотативном значении сему локализации.

Валентность Время может указывать: 1) непосредственно на временные промежутки, которые необходимы для выполнения действия; причем указание на эти промежутки может осуществляться косвенным путем; 2) в другом случае посредством заполнения валентности вводится лишь понятие о том, что фактор времени присутствует, и все описываемые -в- патенте действия можно расположить на временной оси. В этом случае становится значимой последовательность выполнения действий, а не промежуток времени, в течение которого действия выполняются.

В первом случае промежутки времени указываются чаще всего через численное выражение времени в стандартных единицах измерения, и обычно вводится посредством предлогов for, during. Например, (US 6,475,992) the concentration of the aminoglycoside is maintained at 1-4 mg/lfor up to 16 hours.

Однако промежуток времени может выражаться неявно, с помощью предикатного выражения. В этом случае, как правило, происходит «смешение» валентностей Время и Цель. Например, (US 6,482,921) contacting said bacteria for a time effective to inhibit bacterial growth.

В данном примере сдерживание роста бактерий является целью, но действие, выраженное предикатом, должно выполняться в течение любого времени, пока эта цель не будет достигнута. Данная информация формально выражается посредством валентности Время, семантически же две валентности «склеиваются».

Во втором случае время обычно указывается относительно момента выполнения других процессов и вводится посредством предикатной конструкции с предлогом, имеющим временное значение, в которой предикат (существительное или герундий) обозначает процесс, относительно которого рассматривается выполнение действия, выраженное предикатом с валентностью Время. Например, (US 6,479,509) said tropane compound is administered prior to smoking... Последовательность действий выражается посредством предлогов. По времени осуществляемый процесс изменения состояния может протекать: а) до процесса, обозначаемого предикатом, заполняющим валентность Время: выражается с помощью предлога prior to, before, until the time when; б) одновременно с процессом, обозначаемым предикатом, заполняющим валентность Время: выражается с помощью предлогов concurrent with, during; в) после процесса, обозначаемого предикатом, заполняющим валентность Время: вводится посредством предлога after.

Временной показатель может вводиться также посредством некоторых наречий с временным значением simultaneously, further. Наречия также выра-жают последовательность процессов во времени, однако, на уровне текста предикаты, выражающие процессы, объединяются не в иерархию, а связаны сочинительной связью.

Рассматривая перечисленные выше способы поверхностной реализации валентности Время, необходимо отметить, что в ряде предложений эти зависимые могут выражаться при одном и том же предикате несколько раз несочиненными составляющими. В этом данные единицы напоминают элементы, которые называют адъектами [FeuiUet 1980; Lazard 1994, 1997, 1998]. Разница состоит лишь в том, что адъекты являются обязательными зависимыми, а элементы, заполняющие валентность Время, как правило, факультативны.

Похожие диссертации на Построение модели извлечения информации из технических текстов