Содержание к диссертации
Введение
Глава 1. Проблема лексической многозначности 10
1. Лексическая многозначность 10
2.1. Методы описания многозначности 10
2.2 Метафора и метонимия 13
3. Грамматика конструкций. Другой взгляд на многозначность 15
4. Конструкции с предметными именами. Разрешение многозначности 17
Глава 2. Методы снятия семантической неоднозначности ...20
2.1 О методах снятия семантической неоднозначности 20
2.2 Снятие неоднозначности с помощью правил, построенных вручную 21
2.3 Снятие семантической неоднозначности на основе данных электронного корпуса 26
2.3.1 Словари и снятие семантической неоднозначности 29
2.3.2 Выбор значения более одного слова одновременно 35
2.3.3 Разметка корпуса вручную 36
2.3.4 Переводные словари и параллельные корпуса 38
2.3.5 Параллельные корпуса 40
2.3.6 Тезаурусы 41
2.4 Тестирование системы 46
2.5 Итоги 49
Глава 3. Классификация предметных имен 52
3.1 Основные понятия 52
3.1.1 Естественность классификации.. 53
3.1.2 Иерархия 54
3.1.3 Фасетная классификация 54
3.1.4 Наследование признаков 58
3.2 Примеры лексических классификаций 59
3.2.1 Тезаурус Питера Марка Роже 60
3.2.2 База данных WordNet 62
3.2.3 EuroWordNet 66
3.2.4 Русский WordNet 67
3.2.5 Русский семантический словарь (РСС) 70
3.3 Классификация предметных имен в нашей работе ...72
3.3.1 Работа над исходным материалом 73
3.3.2 Структура классификации 75
Глава 4. Конструкции с предметными именами как основа для глобальных и локальных правил выбора значения 84
4.1 Типы синтаксических зависимостей 87
4.1.1 Адъективное определение 87
4.1.2Генитивная конструкция 88
4.1.3 Предложное управление 89
4.1.4 Глагольное управление 89
4.2 Конструкции с предметными именами 91
4.2.1 Семантическая разметка 92
4.2.2 Правила снятия семантической неоднозначности 96
4.3 Типы правил 97
4.3.1 Глобальные правила 97
4.3.1 Локальные правила. Модели многозначности 101
4.4 Итоги 104
Глава 5. Имена веществ и растений: правила разрешения многозначности .106
5.1 Предметные имена класса ВЕЩЕСТВ ..106
Глобальные правила 106
Локальные правила 115
Модель ВЕЩЕСТВО - ПРОСТРАНСТВО / МЕСТО 116
Модель ВЕЩЕСТВО-НАПИТОК 121
Модель ВЕЩЕСТВО - ЧЕЛОВЕК 125
Модель ВЕЩЕСТВО-ПРИСПОСОБЛЕНИЕ 127
Модель ВЕЩЕСТВО-РАСТЕНИЕ 128
Модель ВЕЩЕСТВО-ИЗОБРАЖЕНИЕ 129
5.2 Предметные имена класса РАСТЕНИИ 132
Глобальные правила 132
Локальные правила 141
Модель РАСТЕНИЕ-ПЛОД 142
Модели РАСТЕНИЕ-ЕДА и РАСТЕНИЕ-НАПИТОК 149
Заключение 153
Литература 155
- Конструкции с предметными именами. Разрешение многозначности
- Снятие неоднозначности с помощью правил, построенных вручную
- Русский семантический словарь (РСС)
- Семантическая разметка
Введение к работе
Реферируемая диссертация посвящена изучению многозначных предметных имен в русском языке. На базе подробной таксономической классификации предметной лексики, созданной для Национального корпуса русского языка (НКРЯ) при участии автора диссертации, в работе строятся и описываются модели многозначности покрывающие предметные слова для словаря объемом около 120 тыс. лексем. Исследуются особенности сочетаемости лексем, входящих в эти модели, и конструируются правила выбора значения, работающие с опорой на сочетаемостные ограничения. На размеченном корпусе объемом около 20 млн. словоупотреблений была опробована их работа и оценена точность и эффективность.
Таким образом объектом исследования являются предметные имена, представляющие регулярные модели многозначности.
Целью работы является подробное описание таких моделей, а также описание сочетаемости многозначных предметных имен в рамках определенных языковых конструкций, которое позволило сформулировать ряд лингвистических правил разрешения многозначности предметных имен при их употреблении в корпусе текстов с морфосемантической разметкой.
В соответствии с поставленной целью необходимо было решить ряд конкретных задач:
— создание полной таксономической классификации предметных имен во всех значениях;
— выделение регулярных моделей многозначности;
— описание структуры правил сочетаемости предметных имен, способствующих разрешению многозначности, для продуктивных моделей
— создание комплексов пилотных правил для отдельных таксономических классов и проверка их точности и эффективности на представительном корпусе русских текстов.
Актуальность исследования определяется, тем, что в теоретическом плане регулярная многозначность предметных имен мало изучена. Если для глагольной лексики существует большое количество работ, посвященных исследованию моделей многозначности, то для предметных имен число таких работ чрезвычайно мало. Между тем, многозначность предметных имен представляет серьезную проблему, которая хорошо осознана в прикладной области (например задачи машинного перевода, см. отечественные исследования Апресян и др. 1989, Шаляпина и др. 1999).
В свою очередь, внимание прикладных специалистов к этим задачам должно стимулировать и теоретический анализ данной проблематики. Действительно, адекватное решение проблемы именной многозначности моделирует когнитивные механизмы выбора верного значения в тексте человеком. Такой выбор происходит, с одной стороны, с опорой на хорошо известные эффекты семантического согласования (см. Шмелев 2002, Апресян 1974/95), а с другой стороны, на базе синтаксических конструкций, различающих противопоставленные друг другу значения: каждому значению свойственен свой набор таких конструкций. Теоретические принципы грамматики конструкций отражены в работах Fillmore, Kay 1992; Goldebrg 1995, ср. также Шведова 2003, Апресян 1967. Именно эти принципы и стали предметом подробного теоретического исследования в настоящей работе.
Материалом исследования сочетаемости предметных имен стал Национальный корпус русского языка (www.ruscorpora.ru). На момент проведения эксперимента корпус имел объем 20 млн. словоупотреблений. Именно этот вариант корпуса использовался при работе на диссертацией. Базовый морфологический словарь корпуса (основан на словаре системы "Диалинг" объемом около 120 тыс. единиц, см. Сокирко 2001) был использован для выбора массива предметных имен (около 22 тыс. словозначений), который стал основой для таксономической разметки многозначной предметной лексики (около 10 тыс. словозначений).
Основой для создания таксономической классификации предметной лексики стала электронная база данных "Лексикограф", разрабатываемая под руководством Е.ЕШадучевой в отделе лингвистических исследований ВИНИТИ с 1992 г.
Научная новизна исследования заключается прежде всего в том, что все теоретические построения были применены и проверены на реальном представительном корпусе русского языка. В работе впервые приводятся полные списки всех многозначных предметных имен в русском языке, а также выделяются все модели регулярной многозначности, существующие в данной лексике. Созданы и описаны механизмы создания правил сочетаемости предметных имен, на основе которых можно осуществлять выбор верного значения имени в тексте, а также приводятся конкретные группы правил для нескольких таксономических классов. Кроме того, данное исследование представляет собой эксперимент по формированию методов работы над корпусом с морфосемантической разметкой.
Теоретическая значимость. В диссертации исследуется связь отдельных значений многозначных имен с конкретными семантико-синтаксическими конструкциями русского языка и доказывается роль таких конструкций при выборе значений в тексте. В этом состоит теоретическая значимость работы. В работе изучается природа многозначности и ее отражение в сочетаемости лексики. Эти результаты важны для создания специальной грамматики конструкций для русского языка, а также могут быть использованы в других лексикографических исследованиях русского языка.
Практическая ценность работы заключается в том, что все ее результаты, начиная от таксономической классификации лексики, полных списков предметных имен русского языка, перечня моделей многозначности и, наконец, правил снятия семантической омонимии, базирующихся на анализе конструкций, могут быть использованы для создания грамматических описаний (в том числе грамматики конструкций), а также при составлении словарей.
Кроме того, правила, предложенные в работе, позволяют снять часть лексической неоднозначности на любом корпусе с морфосемантической разметкой. Таким образом, результаты диссертационного исследования могут найти применение при разработке информационных систем нового поколения, в которые входит семантическая интерпретация текстов: описанные правила могут повысить точность и эффективность работы подобных систем.
Апробация работы. Основные положения диссертации и результаты исследования на его различных этапах обсуждались на семинарах отдела лингвистических исследований ВИНИТИ, а также семинарах по корпусной лингвистике Института русского языка им В.В.Виноградова; на конференции Диалог 2004; 2-м Международном конгрессе исследователей русского языка (Москва 2004). Правила разрешения многозначности, сформулированные в исследовании, использовались для обработки текстов в Национальном корпусе русского языка, и отражены в отчете по проекту создания Электронного корпуса русского языка.
Структура работы. Диссертация состоит из введения, пяти глав, заключения, двух приложений и списка литературы, включающего 128 названий.
Во Введении формулируется объект исследования, обосновывается актуальность и новизна выбранной темы, определяются цели и содержание поставленных задач.
В первой главе рассматривается проблема многозначности с точки зрения корпусной лингвистики. Подробно определяется задача исследования, описываются принятые в нашей работе подходы к проблеме описания сочетаемости предметных имен. Обосновывается необходимость построения таксономической классификации предметной лексики, ориентированной на сочетаемостные свойства лексем.
Во второй главе приводится обзор существующих в зарубежных исследованиях методов разрешения семантической неоднозначности. Оцениваются их преимущества и недостатки, а также возможность применения к русскому материалу. Подчеркивается новизна нашего метода, построенного на сочетаемостных правилах, ориентированных на описание контекстов в терминах таксономических классов.
В третьей главе дается краткий обзор метода классификации принятого в работе. В связи с этим рассматриваются общие проблемы и существующие подходы к созданию лексических классификаций, в зарубежной и отечественной лингвистике. Дается описание таксономической классификации предметных имен.
В четвертой главе рассматривается проблема выбора значения на основе сочетаемости таксономических классов. Формулируется метод разрешения семантической неоднозначности, основанный на последовательном применении правил семантической сочетаемости разного уровня семантической дробности: определяются понятия глобальных и локальных правил. Приводятся основные характеристики этих правил и их различия. Описываются различные типы конструкций, на основе которых строятся правила выбора значения.
В пятой главе подробно рассматриваются конкретные правила выбора значения для многозначных предметных имен, представляющих классы растений и веществ. Приводятся сами правила и подробно анализируются и классифицируются исключения из них. Дается статистическая оценка эффективности работы правил на материале Национального корпуса русского языка и рекомендации по уточнению таксономической классификации, принятой в корпусе.
В Заключении обобщаются основные результаты исследования, их соотношение с поставленными задачами и определяются перспективы дальнейшей работы в данной области.
Основные положения диссертации отражены в следующих публикациях автора:
1. Морфология и синтаксис в проекте Русский стандарт (создание корпуса грамматически размеченных русских текстов) // Кобозева И.М. (ред), Компьютерная лингвистика и интеллектуальные технологии: Труды Международной конференции Диалог 2003. М.: Наука, 2003, с.272-2782
2. Методы снятия семантической многозначности // Научно-техническая информация, сер.2,2004, N 2.
3. Именная классификация как лингвистическая проблема // П Международный конгресс исследователей русского языка "Русский язык: "Русский язык: исторические судьбы и современность". Москва, 18-21 марта 2004 г. Труды и материалы. М.: МГУ, 2004, с. 224
4. Автоматическое разрешение семантической неоднозначности в Национальном корпусе русского языка // Компьютерная лингвистика и интеллектуальные технологии. Труды Международной конференции Диалог 2004. М.:Наука, 2004, с.298-304.
5. Разрешение семантической неоднозначности предметных имен на основе правил сочетаемости для таксономических классов // "Обработка текста и когнитивные технологии", № 10. Материалы конференции Cognitive modeling in Linguistics. М:"Учеба", МИСиС, 2004. с.55-62
Конструкции с предметными именами. Разрешение многозначности
В лингвистических исследованиях прослеживается устойчивая тенденция к изучению многозначности с точки зрения предикатных слов. Такой "глаголоцентричный" подход объясняется разными причинами. В первую очередь это связано с тем, что, как правило, в центре высказывания находится предикат, который в целом определяет ситуацию, описываемую в высказывании. При этом информацию об основных участниках и свойствах ситуации принято фиксировать именно в глаголе. Таким образом, неоднозначность высказывания обычно воспринимается, как многозначность глагола — вершины предложения.
Помимо этого, многозначность в предикатной лексике представлена гораздо шире, чем в именной, и в ней можно выделить намного более регулярные механизмы переноса значений6.
Несмотря на это, представляется, что малое внимание к проблемам именной многозначности необоснованно. Действительно, во многих случаях глагольной полисемии различие в значениях слова заключается в разных аспектуальных характеристиках или в изменениях актантно-аргументной структуры предиката, однако, при этом общие признаки ситуации, которую называет данный глагол, чаще всего не меняются. В то же время, для предметных имен характерна иная ситуация: как правило, разные значения одного существительного относятся к разным объектам окружающего мира. В связи с этим задача правильной интерпретации многозначных предметных имен оказывается крайне важна.
Такая задача тесно переплетается с созданием специальной грамматики конструкций для русского языка. В самом деле, в любой конструкции каждый ее участник выступает только в одном из своих значений, таким образом, выделение ряда конструкций позволит на их основе создать соответствующие правила выбора значения имени.
Заметим здесь, что при такой постановке задачи (выбор значения на основе анализа семантико-синтаксического контекста) нивелируется противопоставление омонимии и полисемии лексических единиц (отсутствие такого противопоставления вообще характерно для лингвистических задач, связанных с анализом текста, см., в частности, Поляков 2004). Действительно, семантические связи между подзначениями слова или их отсутствие не играют никакой роли, так как при выборе правильной интерпретации важен только непосредственный контекст употребления.
В некотором смысле процедура выбора значения слова на основе конструкций является продолжением хорошо известного в лингвистике принципа семантического согласования: когда в предложении выбираются те значения многозначных единиц, которые обеспечивают максимальную повторяемость семантических признаков (Гак 1972, Апресян 1974/95). Однако в грамматике конструкций в качестве элементов высказывания, определяющих выбор того или иного значения слова, выступают не только семантические свойства контекста, но и морфо-синтаксические показатели — те признаки, которые и конституируют саму конструкцию.
Таким образом, мы подошли к моменту, когда можем сформулировать основную задачу настоящего исследования: это изучение конструкций с предметными именами, определение их структуры и типологии (этому посвящена четвертая глава диссертации). На основе сформулированных теоретических построений проводится лингвистический эксперимент по изучению конструкций и правил выбора значения для предметных имен классов веществ и растений (см. главу 5).
Главной особенностью нашего метода является то, что конструкции определяются не только на основе семантических признаков конкретных слов, входящих в конструкцию - исследуются контексты употребления имен целых таксономических классов. Такой подход позволяет охватить общие семантико-сочетаемостные свойства для больших групп лексики и, соответственно, повысить эффективность экспериментальных правил разрешения многозначности.
В соответствии с этим для успешного решения поставленных задач необходимо иметь полную таксономическую классификацию лексики русского языка (см. главу 3). Такая классификация (для слов всех грамматических категорий) была создана при участии автора и внедрена в структуру Национального корпуса русского языка. Этот корпус (на момент исследования объемом 20 млн. словоупотреблений) также стал реальным языковым материалом для исследования конструкций и проведения эксперимента по созданию правил разрешения многозначности русских предметных имен. Глава 2. Методы снятия семантической неоднозначности
В этой главе представлен обзор описанных в англоязычных работах последнего времени исследований и методов, посвященных снятию семантической неоднозначности. Глава состоит из трех разделов: в первом рассматриваются системы с правилами выбора значений, построенными вручную, во втором — системы, использующие данные о сочетаемости, автоматически извлеченные из больших корпусов текстов, в заключительном разделе обсуждаются проблемы, присущие разным подходам, а также рассматриваются вопросы сравнения качества работы различных систем и вопросы применения таких систем при информационном поиске. Обычно под снятием семантической неоднозначности подразумевают выбор конкретного словарного толкования для данного употребления слова в тексте. Задача, таким образом, разделяется на два этапа: (1) выделение всех различных значений слова; (2) создание автоматических правил, позволяющих определить значение каждого употребления слова в тексте. На первом этапе работы по снятию неоднозначности обычно опираются на данные об общепринятых значениях слова - в них используются: списки значений, например, толкования в обычных словарях; группы свойств, семантических категорий или семантически связанных слов (например, синонимов, как в тезаурусных толкованиях); статьи из двуязычных словарей, включающие переводы на другой язык, классы переводных эквивалентов и т. д.7 На этапе (2) выполняется выбор значения слова, который базируется на использовании в основном информации двух типов: контекст слова, для которого осуществляется выбор значения. Контекст включает сведения из текста, в котором употребляется слово, вместе с другими экстралингвистическими данными об этом тексте, например, знание ситуации, в которой употребляется слово и т. п. внешние источники знаний, включая лексические и энциклопедические словари, и другие источники знаний, которые содержат данные полезные при определения значения слова. Сама процедура снятия семантической неоднозначности работает следующим образом. Сначала собираются сведения о контексте употребления слова, сюда могут входить данные о конкретных лексемах, грамматических конструкциях, семантических категориях слов, входящих в окружение рассматриваемого многозначного слова. А затем эта информация сравнивается с такими же данными из базы знаний, в которой собраны свойства контекста для уже определенных значений слова. Если свойства контекста для рассматриваемого словоупотребления совпадают (или имеют высокое сходство) со свойствами контекста из базы знаний, то данному употреблению слова приписывается соответствующее значение из базы знаний.
Снятие неоднозначности с помощью правил, построенных вручную
Большинство систем разрешения семантической неоднозначности, разрабатывавшихся до 1980 гг., были основаны на использовании правил, созданных вручную. Такие правила представляли собой операцию условного выбора, когда для каждого допустимого типа контекста словоупотребления выбиралось одно значение из словаря. Таким образом, лингвист работал с одним видом исходных данных: словарными толкованиями. Выбор правильного значения осуществлялся на основе анализа семантических ограничений, налагаемых на контекст рассматриваемого слова.
Вообще говоря, особенностью подобных систем того времени является то, что в основном они существовали "на бумаге" - бурное развитие компьютерных технологий было еще впереди, и полностью реализовать свои идеи в виде работающей системы разрешения многозначности было невозможно в силу недостаточной вычислительной мощности, отсутствия возможности работы с корпусами примеров и трудностей при оценке эффективности. Чтобы определить точность работы правил, исследователю приходилось вручную выполнять каждый шаг алгоритма для некоторого употребления, что существенно снижало скорость оценки, а также оставляло возможность для ошибок. Построение правил снятия многозначности для отдельных слов требует чрезвычайно больших затрат времени и очень высокой квалификации исследователя (подробнее о таких системах см. Hirst 1986). Теперь уже ясно, что если перед исследователем стоит задача создания системы, способной работать (то есть проводить снятие семантической омонимии) с тысячами слов естественного языка, то придумать отдельные для каждого слова правила выбора значения практически невозможно. Сейчас подобный подход к разрешению семантической неоднозначности большинством ученых признается неперспективным. Поэтому здесь мы основном хотим познакомить читателя с существовавшими методами работы и показать, какие идеи из первых экспериментов по разрешению многозначности были унаследованы в работ последующих работах.
Система Вайса: общие контекстные правила и правила-шаблоны Один из примеров ранних исследований в этом направлении можно найти в работе Вайса (Weiss 1973). В своей работе он взя пять слов английского языка и вручную построил группу правил для выбора верного значения. Он предложил использовать правила двух типов: общие контекстные правила и правила-шаблоны. Общее контекстное правило задает выбор определенного значения слова, если это слово употребляется рядом с некоторым конкретным словом. Например, если со словом type тип, печатать на машинке в предложении появляется слово print печатать , то значением type скорее всего будет печатать .
Таким образом, в общих контекстных правилах отражается идея о семантическом согласовании значений слов в предложении. Семантическое согласование можно рассматривать как повторение отдельных компонентов смысла в значениях слов в высказывании "в принципе подобное грамматическому согласованию" (см. Гак 1972). Оно, по-видимому, является общим свойством естественного языка и используется во многих системах автоматического семантического анализа.
Правила-шаблоны работают несколько иначе. В их условии жестко определяется ближайший контекст слова. То есть в них четко фиксируется относительное положение слов контекста, тогда как в общих контекстных правилах говорится лишь о "присутствии в предложении" определенного слова.
Чтобы рассматриваемое слово получило правильную интерпретацию, необходимо, чтобы в определенной позиции, которая указывается в самом правиле, относительно него стояло некоторое конкретное слово. Например, если слово of из, показ, притяжательности появляется непосредственно справа от слова type, то значением последнего будет скорее всего множество, тип чего-либо . Таким образом, можно сказать, что общие контекстные правила задают выбор значения на основе семантической близости слов в предложении (или на основе пересечения некоторых семантических признаков слов), тогда как правила-шаблоны задают жесткую конструкцию с участием данного слова, в этом случае выбор значения определяется по гораздо более формальным признакам
После серии проведенных тестов своей системы Вайс обнаружил, что использование правил-шаблонов дает гораздо более точные результаты. Поэтому было решено в процессе снятия семантической неоднозначности применять их первыми. При создании таких правил Вайс сначала исследовал 20 употреблений многозначного слова type и на основе этого создавал макеты правил выбора значения, а затем применял их к другим 30 употреблениям этого слова, чтобы выяснить степень их достоверности. Такие тесты были проведены для пяти многозначных слов Точность разрешения неоднозначности построенного алгоритма составила порядка 90 %. Проанализировав случаи неправильного выбора, Вайс обнаружил, что в основном это случаи идиоматического использования слова.
Нельзя не отметить, что использование правил-шаблонов дает чрезвычайно высокий проценты эффективности снятия многозначности. Однако трудозатраты на их создание слишком высоки - создание системы разрешения многозначности для всех слов языка -задача невыполнимая. Как говорилось выше, для создания правил-шаблонов лишь для 5 слов ангийского языка понадобилось весьма много времени. Тем не менее, идея использовать правила для выбора верного значения очень продуктивна, так как позволяет содержательно описывать закономерности поведения слов в тексте. Как мы увидим далее, эта идея была в несколько трансформированном виде унаследовано в более поздних системах снятия многозначности, этот подход используется и в нашей работе. Система, работающая с гораздо большим количеством слов, была построена Келли и
Стоуном (Kelly, Stone 1975), которые вручную создали правила для 6000 слов. Среди них были контекстные правила, похожие на те, которые использовал Вайс, кроме них использовались правила, анализирующие определенные грамматические свойства употребления слова. В некоторых случаях грамматическая категория слова однозначно определят его значение, например, the train поезд , to train тренировать . Грамматические и контекстные правила группировались в связанные цепочки, таким образом в конкретных ситуациях применялись только определенные, применимые в данном конкретном случае, правила. Применение таких цепочек задавалось специальными условиями. В отличие от системы Вайса этот метод был создан для выбора значений всех слов в предложении одновременно. В этой системе нельзя было менять порядок рассмотрения слов, например, приостановить работу над одним словом, сделать попытку определить значение других слов в этом предложении, а затем вернуться обратно к исходному слову, чтобы выяснить возможен ли выбор его значения в новых условиях (на основе данных, полученных после определения значений других слов).
Заметим, что главным достижением данной системы является снятие частеречной многозначности на основе синтаксического контекста для большой группы слов. В случаях же семантической неоднозначности результаты работы системы оказались намного хуже. В некотором смысле это связано с тем, что основное внимание в рассматриваемой системе уделялось как раз выбору правильной синтаксической категории слова. Помимо этого, на наш взгляд, низкая эффективность разрешения смысловой многозначности связана в том числе и с тем, что для описания значений слова использовалось очень небольшое число семантических маркеров (аналог семантических классов) - всего 20 для существительных, прилагательных и наречий (глаголы вообще не получают семантического описания). Такой бедный инвентарь семантических признаков не соответствует языковой интуиции и вряд ли достаточен для успешного разрешения семантической неоднозначности.
Русский семантический словарь (РСС)
Подходя к созданию классификации предметных имен, мы сформулировали несколько основных требований, которым она должна удовлетворять. Во-первых, в ней должны быть представлены онтологические связи между описываемыми объектами, во-вторых, номенклатура классов должна быть компактна, логична и удобна в использовании, в-третьих, в классификации должны отражаться сочетаемостные свойства лексем. Наконец, классификация должна быть реализована в таком формате, который допускал бы ее простое применение для семантической разметки текста и анализа семантических контекстов.
Большинством из перечисленных свойств обладает лексическая база данных "Лексикограф", разрабатываемая группой специалистов под рук. Е.В.Падучевой в отделе лингвистических исследований ВИНИТИ РАН с 1985 г., поэтому было решено в качестве основы взять из этой базы классификацию предметных имен, расширить ее за счет словника словаря Ожегова и, некоторым образом переработав ее, приспособить для наших задач.
Главной идеей, положенной в основу системы "Лексикограф", является предположение о том, что все сочетаемостное поведение лексемы мотивируется особенностью ее семантических свойств15. С этой точки зрения классификация является результатом анализа этих свойств. Дальнейшая работа по исследованию методов разрешения многозначности позволяет провести детальную проверку адекватности предложенной модели - то есть принятого формата описания предметной лексики и проверке самой гипотезы: насколько верна идея выводимости поверхностных характеристик лексемы из анализа ее значения.
Для нас главным является именно относительная простота семантического описания. Дело в том, что в рамках проекта создания Национального корпуса русского языка осуществляется разработка и внедрение варианта семантического описания лексики, которое ориентируется на широкие круги лингвистов, филологов, литературоведов и ученых других специальностей. Такая постановка задачи предполагает, что состав семантических атрибутов и их значений будет достаточно немногочисленным и очевидным для большинства пользователей. Мы планируем ввести в корпус такую семантическую разметку, которая, с одной стороны, не вызывала бы споров, а с другой -предоставляла бы насколько возможно подробную классификацию лексики русского языка. Такая разметка предоставляет возможность первичного семантико-сочетаемостного анализа на материале корпуса и может стать удобной исходной базой для различных семантических и лексикографических исследований.
Основой для создания классификации предметной лексики в нашем исследовании стал электронный морфологический словарь системы "Диалинг"16 объемом около 120 тыс. единиц (Сокирко 2001). Его словник был дополнен из электронной версии словаря русского языка под редакцией СИ.Ожегова (www.starling.rinet.ru ). а также словами из базы данных "Лексикограф" (Кустова, Падучева 1994; Красильщик, Рахилина 1992). В качестве справочного материала использовались толкования всех авторитетных словарей русского языка: МАС, БАС, НОСС, словаря Ушакова и др.
Структура семантического описания и состав таксономических классов были взяты из базы "Лексикограф", и затем переработаны в соответствии с задачами Национального корпуса русского языка. На первом этапе работы со словарем из исходного словаря был выделен массив существительных, который, в свою очередь, был подразделен на предметные и непредметные имена. Массив предметных имен, на котором осуществлялась классификация значений, составил около 21 тыс. словозначений. В процессе классификации исходный словарь предметных имен был переработан: в отдельных случаях было необходимо добавить описание значения слова, для того, чтобы сохранить целостность словарного описания и отразить реальную семантику слова. Дело в том, что в словарях не всегда последовательно проведено описание имен, принадлежащих Этот словарь, в свою очередь, основан на Грамматическом словаре русского языка (Зализняк 1977). одному таксономическому классу. Например, для лексемы соболь в словаре Ожегова выделяется два значения: 1) хищный зверек семейства куньих и 2) мех этого зверька , в то время как у остальных слов этого класса (животные), реально имеющих такое же второе переносное значение, оно явно не выделяется, а словарная дефиниция звучит как "животное определенного вида, а также мех его"17. Нам представляется, что в подобных случаях правильнее проводить единообразное описание имен, отделяя одно значение от другого. Таким образом нами было добавлено около 1000 значений слов, изначально не отраженных в исходном словаре. Помимо добавления недостающих значений мы также удаляли "лишние" значения, которые достаточно широко представлены в словаре. Так, у довольно большого количества слов выделяется пара значений, обладающих следующей особенностью: описание одного значения полностью вкладывается в описание другого, ср: бригада 2) Личный состав, обслуживающий поезд. бригада 3) Производственная группа, и вообще группа, объединенная каким-н. общим заданием, деятельностью, или времянка 1) Временная, обычно железная печка, времянка 2) Вообще всякое временное сооружение, оборудование. Нам представляется, что выделение подобных значений неоправданно: они создают избыточность словаря и отвлекают пользователя от действительного значения слова. В подобных случаях нельзя говорить о двух разных значениях существительного — речь идет о разных употреблениях слова. Тот факт, что существительное времянка используется для обозначения печки с частотой равной количеству остальных употреблений вместе взятых, по нашему мнению, не является достаточным основанием для вынесения его в отдельное значение. Если в словарном описании определяется, что данное имя может использоваться для обозначения некоторого класса явлений, то совершенно очевидно, что оно может называть и отдельное явление, принадлежащее данному классу. Кстати, это решение согласуется с тем, которое принято в БАС. Итак, основной единицей описания нашей классификации является отдельное словарное значение. Процесс классификационного описания происходил следующим образом: 3.3.2 Структура классификации. Ниже в этом разделе приводится подробное описание внутренней организации нашей классификации. Рассматривается структура словарной статьи, детально разбирается каждый из семантических атрибутов, вьщеленных для описания предметных имен, а также исследуется иерархическая структура классов. Структура словарной статьи. В свое время, при создании базы "Лексикограф" был выработан определенный формат словарной статьи и внутренняя структура словаря, при которых эту базу данных можно было легко реализовать имеющимися программными средствами. Помимо этого, окончательная реализация этой базы данных должна была предоставить лексикографу быстрый и удобный механизм поиска и выборки лексики по запросу — это также накладывало определенные требования к конечному продукту, учитывая невысокие вычислительные возможности компьютерной техники в то время (по сравнению с сегодняшним днем).
Семантическая разметка
В отличие от глобальных локальные правила ориентированы в первую очередь на выбор правильного значения из списка возможных (селективные правила). Локальное правило пытается определить, какое из существующих значений имени может употребляться в рассматриваемом контексте. Анализ контекстных свойств именно в противопоставлении отдельных значений позволяет сделать правило выбора значения гораздо более точным - в идеале, эффективность локального правила должна составлять 100% (единичные случаи, противоречащие локальным правилам рассматриваются специально). Заметим сразу, что локальные правила, как и глобальные, могут формулироваться в виде ограничений на контекст. Однако в отличие от последних в них используются гораздо более строгие ограничения, свойственные только небольшой группе слов.
Необходимо подчеркнуть, что в данном исследовании не ставится задача выделить и описать все возможные локальные правила контекстной сочетаемости — главной целью является построение правил, которые были бы применимы к максимальному числу случаев многозначности в корпусе.
Для того, чтобы упростить и оптимизировать работу по созданию локальных правил, все слова, принадлежащие определенному таксономическому классу, разбиваются на модели многозначности22. Под моделью многозначности понимается множество слов, одно из значений которых относится к таксономическому классу А, а другое - к классу Б. Если слово имеет более двух значений, то оно может входить в состав нескольких моделей многозначности. Заметим, что в таком понимании "модель" не эквивалентна "механизму" переноса значения. Несмотря на то, что в большинстве случаев между отдельными значениями слов в модели существуют более или менее регулярные семантические связи, выделение модели на основе совпадения таксономических классов делает возможным соседство в одной модели слов-омонимов (см. ниже модель "растение-транспорт", где амфибия является полисемичным словом, а боб — чистым омонимом). Тем не менее, такой подход только упрощает описание и повышает эффективность работы правил: так как нашей основной задачей является оптимизация семантического описания корпуса, то в первую очередь нас интересует синхронное состояние языка, а вопрос о динамике формирования новых значений отходит на второй план. Необходимость выделения моделей многозначности обусловлена тем, что в ряде случаев решение о выборе значения существительного можно сделать не исходя из особенностей сочетаемости имен определенного класса, а как раз на противопоставлении двух значений в одинаковом контексте (примеры такой ситуации см. в разделе 5.2 Модель "растение—плод"). Отметим, что у слова может быть более двух значений. В таком случае оно может относиться к нескольким моделям многозначности и возникает вопрос, локальные правила для какой модели необходимо применять для данного существительного. В настоящем исследовании мы не столкнулись с ситуацией, когда условия двух правил, выбирающих разные значения, оказались бы одинаковыми - тогда возникла бы дилемма, какое из значений все-таки должно быть выбрано. Думается, что в ходе дальнейшей работы над корпусом НКРЯ, когда будет набран более обширный материал и сформулировано большее число правил снятия многозначности, мы сможем вплотную заняться вопросом о приоритете выполнения правил и способах разрешения неоднозначных ситуаций, связанных с совпадением условий этих правил. Из описанных типов правил несколько выделяются случаи, когда вывод о значении слова можно сделать лишь на основе грамматического числа, в котором употреблено это слово. Это свойство имен последовательно проявляется для существительных, обозначающих вещества, для них во многих предложениях мы можем выбрать правильное значение без обращения к контексту, ср., например: 103 И не в другом, а словно бы идет он по этому мосту тыщу лет, идет и идет: справа впереди белеют черные деревья Летнего сада — и все никак до них не дойти. (Битов А. Сад) В этом предложении для существительного дерево ( 1) растение; 2) древесина ) автоматически можно исключить второе значение. Обратим внимание на тот факт, что для локальных правил можно выделить три различных уровня общности условий: 1) описываемый контекст определяется только в терминах таксономических классов 2) в контекст входит конкретная лексема 3) выбор значения имени задается для конкретного словосочетания Правила первого типа применимы к наибольшему числу употреблений. В этом смысле они являются наиболее "глобальными" среди локальных правил. если имя из модели "растение — плод" употребляется с адъективным определением из класса цветообозначений, то оно выступает в значении плод, ср.: Красный помидор можно есть; зеленый несъедобен. (Зайцев А. Загадки эволюции: Краткая история глаза) Правила второго типа описывают более частные особенности сочетаемости имен определенных таксономических классов. Так например, следующее правило основано на том, что прилагательное постный может относится только к названию еды: В то время как занимаешься постным салатом, на память приходят разные забавные случаи, связанные с деревенской банькой зимнего дела. (Пьецух В. Деревенские дневники) Несмотря на кажущуюся малоупотребимость прилагательного постный, в корпусе на 20 млн. словоупотреблений оно встретилось около 220 раз, что является достаточно представительной выборкой примеров для введение указанного правила. В качестве примера правила третьего типа приведем следующее: если имя чай или кофе употребляется с адъективным определением, выраженным прилагательным крепкий, то оно выступает в значении напиток, ср: Она встает и голая, счастливая идет на кухню, чтобы заварить им обоим крепкого чая и чтобы он видел, как и каким шагом она чай сейчас сюда принесет. (Маканин В. Отдушина) Такие правила представляют собой своего рода вырожденные случаи конструкций, то есть конструкции, в которых отсутствуют места для лексических переменных, и они выделяются в отдельный тип, так как число предложений в корпусе, в которых они позволяют выбрать верное значение, весьма велико относительно общего числа вхождений имен, участвующих в таких вырожденных конструкциях.