Содержание к диссертации
Введение
1. Методы представления смысла текста на естественном языке 17
1.1. Основа теоретических представлений 17
1.2. Лексические функции НА Мельчука 20
1.3. Теоретико-множественные модели языков 22
1.4. Кпассификация инструментальных систем для описания структур естественного языка 23
1.5. Общие принципы систем обработки текстов 25
1.6. Система ДИАЛИНГ 26
1.7.DSTO Fact Extractor System 2В
1.8. Системы, основанные на памяти с параллельным доступом к информации 29
1.9. Выводы 33
2. Грамматические и синтаксические предикаты 35
2.1, Грамматические предикаты 35
2.1 Л. Имя существительное 36
2.1.2. Имя прилзгэтельное 40
2.1 3 Имя числительное 45
2.1.4. Местоимение 46
2.1.5. Глагол 43
2.1.6. Причастие 53
2.1.7. Деепричастие 55
2.1.8. Наречие 55
2 1.9. Предлог 58
2.1.10. Сот 59
2.1 11, Частица 50
2.2, Синтаксические предикаты 62
2.3, Выводы 63
3. Структуры данных, ассоциированные с текстами 70
3.1. Структуры и потоки 70
3.1.1. Структуры, соответствующие предложениям на естественном языке 70
3.1.2. Сопоставление текста и потоков 75
3.2, Общие принципы организации памяти с параллельным доступом к информации 77
3.2.1. Пространство памяти и универсальные последовательности 77
3.2.2, Память с параллельным доступом к сегментам многомерных массивов 81
3.2.3. Применение влингвистике памяти с параллельным доступом 86
3.3, Выводы 90
4. Исследование структуры информации в толковом словаре С.И.Ожегова 92
4.1. Структура словарных статей в словаре Ожегова 92
4.2. Связь между набором словарных статей словаря Ожегова и текстом на естественном языке 98
4.3. Применение деревообразного представления предложений в поисковых системах 99
4.3.1. Представление лредложений с помощью деревьев с пометками 99
4.3.2. Системы составляющих 106
4.3.3. Деревья подчинения 108
4.3.4. Конструкции языка REFAL 110
4.3.5. Обработка поисковых запросов на естественном языке 113
4.4. Выводы 118
5. Формирование речи у человека 120
5.1. Данные и гипотезы антропологии 120
5.2. Психология развития и формирования речи у ребенка 126
5.2.1. Когнитивное (познавательное) развитие 126
5.2.2. Возникновение грамматики языка 133
5.3. Формальные модели базовых конструкций языка 137
5.3.1. Периодизация освоения языка ребенком 131
5.3.2, Применение конструкции конечного форсинга 140
5.4. Выводы 143
Заключение 145
Список литературы
- Теоретико-множественные модели языков
- Имя прилзгэтельное
- Структуры, соответствующие предложениям на естественном языке
- Применение деревообразного представления предложений в поисковых системах
Введение к работе
Теория языка как структуры, соответствующая классификация и методы обработки формальных и естественных языков начали разрабатываться в математике, а позднее и в информатике, еще с 30-х годов. Однако прямое применение существующего аппарата описания формальных языков к естественному языку невозможно из-за того, что это объект принципиально другой природы. В частности, в отличие от формального языка, естественный язык не следует задуманной и последовательно реализованной концепции. Ои развивается с течением времени под воздействием многих внешних и внутренних сил, становится тем, что он из себя представляет, и усваивается в сообществе через использование в коммуникации, а не благодаря правилам. Кроме того, чисто грамматическое описание естественного языка не достаточно для использования, поскольку естественный язык не является просто вещью в себе, он необходимо соотносится со структурами знания, используемыми его носителями, В результате описание грамматики естественного языка как некоторого класса формальной грамматики оказывается затруднено, что все же не отменяет полезность классификации формальных грамматик для компьютерной лингвистики,
С другой стороны, для того чтобы допускать возможность реальной компьютерной реализации, лингвистическая теория должна обладать высокой степенью формализации и полноты. Поэтому общей чертой для всех теорий, используемых в компьютерной лингвистике, является их генеративность в том смысле, что исследование естественного языка ведется через построение полностью явных (explicit) описаний и определение общей структуры (framework) пространства этого описания [42]- Кроме того, реализация лингвистической теории через инструментальную систему для описания структур естественного языка зависит также от методов программирования, использованных для ее написания. Таким образом, развитие компьютерной лингвистики стимулируется, с одной стороны, развитием теоретических средств описания естественного языка, а с другой - прогрессом технологий программирования, в первую очередь, в области искусственного интеллекта (ИИ).
Если понятие инструментального средства рассмотреть в контексте классического различия, проводимого в лингвистике между языковой компетенцией и использованием языка его носителем, то можно отметить, что, во-первых, это инструментальное средство должно обладать возможностью представлять знание о языке, во-вторых, в нем должно быть организовано использование этого знания, для того чтобы понимать и/или генерировать конкретный текст па естественном языке. Иными словами, идеальная инструмен-
тальная система обработки естественного языка должна основываться на идеальной лингвистической теории, т.е. обладать средствами представления лингвистических структур, структур представления знаний, а также на алгоритмах для обработки таких структур. Она, в частности, должна поддерживать возможность представления сложных средств выражения, свойственных естественному языку, таких как лексические омонимия и полисемия (несколько значений, соответствующих одному слову), синонимия (несколько слов имеют близко связанные значения), привязка к контексту речи (с помощью анафорических местоимений) и к контексту ситуации (экзофорические или дейктические указатели), эллипсис (как синтаксический, так и семантический), фигуры речи (использование слов не в их прямом значении) и т. д. Традиционной проблемой является также описание взаимосвязи между грамматическими структурами и содержанием предложения, при этом содержание представлено либо как логическая формула, либо как структура, записанная на некотором языке представления знаний.
Совокупная сложность вышеописанных феноменов существенно выше существующих на данном этапе теоретических построений для их описания, обладающих требуемой степенью полноты и формализации. Иными словами, не существует пи идеальной теории для компьютерной лингвистики, ни идеальных средств ее реализации. По этой причине невозможно создать идеальную инструментальную систему для обработки естественного языка, что приводит к изобилию существующих систем. Чаще всего набор средств представления инструментальной системы (а также полнота этого набора) определяется теоретической моделью, лежащей в ее основе. В соответствии с двумя источниками развития компьютерной лингвистики естественно выделять два вида теоретических основ инструментальных систем: из лингвистики и искусственного интеллекта. В этой связи утверждается, что описание должно быть трехчастиым: лингвистические теории, средства ИИ и описание конкретных систем, использующих изложенные концепции. Однако одной из тенденций последних десяти-пятнадцати лег является то, что теория в области компьютерной лингвистики и ИИ и практическая реализация этой теории в значительной степени переплетены, поэтому четкого разделения по этим признакам провести не удается. В частности, в [55] обсуждаются проблемы, связанные с разделением труда между лингвистической теорией и формальными средствами ее реализации.
Более удачной кажется отраженная в таблице 1 структура уровней абстракции описания в компьютерной лингвистике (схема основана на идеях из [44]). При движении от верхних к нижним уровням этой схемы происходит переход от описания конкретных лингвистических проблем к механизмам, на которых основывается такое описание. Так конкретный язык описывается на основе системы правил используемой для этого граммати-
ческой теории, набор категорий и методология которой задаются ее грамматической моделью, которая строится на основе грамматического формализма (т. е. математического аппарата, использующегося для описания феноменов естественного языка). В свою очередь, последнему ставится в соответствие декларативная и процедурная семантика вычислительного формализма, т. е. языка программирования, на котором реализуется грамматический формализм. Поскольку семантика языка программирования не полностью определяет способ его реализации, эта шкала завершается уровнем компьютерной реализации вычислительного формализма.
Таблица 1.
Структура уровней абстракции описания лингвистических проблем Хотя эта схема отличается чрезмерной дробностью, так как при анализе конкретных средств компьютерной лингвистики иногда бывает трудно провести грань между теорией и моделью, моделью и грамматическим формализмом и т. д., все же позиционирование того или иного подхода относительно этой шкалы помогает уяснению целей его разработки. Очень условно можно считать, что дачный обзор начинается с введения в грамматические модели, затем следует описание грамматических формализмов и грамматических теорий (дополнительные грамматические модели, например, категориальные грамматики, вводятся по мере необходимости). В качестве иллюстрации того или иного подхода в тексте данного обзора приводятся ссылки на компьютерные реализации и реализации грамматик.
Целью работы является разработка методов, позволяющих проводить разносторонний анализ текстов и отдельных предложений на естественном языке, в том числе, позволяющих осуществлять представление смысла текстов и предложений.
В работе приведен обзор существующих теоретических методов отображения семантики текстов и формализации структур естественных языков - подход И.А. Мельчука,
С. Маркуса. Кратко рассмотрены уже существующие инструментальные средства для обработки текстов на естественном языке: система ДИАЛИНГ, DSTO Fact Extractor System. Приведена классификация инструментальных систем для описания структур естественного языка и основные компоненты, из которых состоят системы анализа текстов. В работу включен обзор систем, использующих память с параллельным доступом к информации.
В работе изложены способы сопоставления предикатов и формул узкого исчисления предикатов словам и предложениям на естественном языке. Предикаты можно получать сопоставлением частям речи с учетом соответствующих грамматических признаков и, в некоторых случаях, в зависимости от принадлежности к той или иной смысловой группе. Такие предикаты мы назвали грамматическими. Предикаты можно ассоциировать с членами предложения. Их мы назвали синтаксическими. Синтаксические предикаты могут быть одноместными и двухместными, для неоднородных и однородных членов предложения. В формулах отражена взаимосвязь между разными группами предикатов.
В третьей главе диссертации рассмотрены структуры данных и потоки, которые удобны для представления предикатов и конечных моделей, сопоставляемых предложениям на естественном языке. Они легко могут быть реализованы средствами языка C++.
Предложенные методы реализованы на компьютере группой студентов. За основу была взята система ДИАЛИНГ. Но выяснилось, что программа [69, 72, 75, 77] работает медленно. Поэтому мы обратились к следующим вопросам.
1. Как происходит освоение речи человеком, и насколько это применимо к компь
ютеру?
а) с одной стороны, это естественнонаучный вопрос. Здесь могут быть использова
ны данные и гипотезы антропологии, психологии и т. д.;
б) с другой стороны, это вопрос об эффективности при реализации на компьютере.
Например, чтобы понять, является ли данное слово словоформой исходного, эффективнее
проверить слова на совпадение, чем выяснить, какие у слова род, падеж и т. д.
2. Какова структура словарных статей в толковых словарях, и можно ли ими эф
фективно воспользоваться при компьютерной обработке текстов? Речь идет именно о «че
ловеческих» толковых словарях, а не о специализированных компьютерных, наподобие
толково-комбинаторного словаря, составленного академиком Апресяном. Подобные сло
вари слишком трудоемкие, а как следствие неполные и дорогостоящие.
Помимо этого, была рассмотрена возможность применения общих принципов организации памяти с параллельным доступом к обработке лингвистической информации.
В работе предпринята попытка анализа структуры словарных статей словаря СИ. Ожегова. Рассмотрена взаимосвязь между набором словарных статей толкового сло-
варя и текстом на естественном языке. На основе анализа предложен механизм представления предложений в виде деревьев с пометками. Рассмотрены уже существующие и наиболее используемые в лингвистике способы описания синтаксической структуры предложения - с помощью систем составляющих и с помощью деревьев синтаксического подчинения.
Предложены конструкции, представляющие собой модификацию конструкций языка символьных преобразований REFAL, которые применимы для формирования дере-вообразного представления предложений на естественном языке и схем «вопрос-ответ», и описан алгоритм использования их в поисковых системах.
Были рассмотрены данные и гипотезы антропологии на основе работы Б.Ф. Поршнева «О начале человеческой истории», упоминается подход Пиаже к формированию речи у детей, рассмотрены подходы Хомского, Брауна и Брэйна к возникновению грамматики в речи ребенка.
Рассмотрены основные этапы формирования речи у человека на ранней стадии развития, и, как результат, предложена формализованная модель конструкций языка, называемых базовыми. Применение конструкции конечного форсинга предложено в качестве метода разбиения текста на фрагменты, соответствующие различным эпизодам.
Практическая ценность. Результаты работы могут быть применены в автоматизированных системах акцепции информации из текстов на естественном языке, интеллектуальных системах поиска информации в сети, при построении систем автоматического резюмирования, электронных переводчиков и словарей. Предполагается использование результатов работы в системах безопасности, работающих с банковской информацией. К вопросу о размещении данных в памяти с параллельным доступом и некоторым другим вопросам проявила интерес корпорация IBM. Она выделила грант на поддержку данной работы.
Апробация работы. Результаты работы были представлены на IV Международной конференции по вычислительным наукам, проходившей в Польше в Кракове, докладывались на конференциях-конкурсах «Технологии Microsoft в информатике и программировании», проходивших в Новосибирске в 2004 - 2006 годах и на международных научных студенческих конференциях «Студент и научно-технический прогресс» в 2003 - 2006 годах, также в Институте систем информатики, Институте математики СО РАН и Новосибирском государственном университете, а также на встречах с иностранными специалистами: американскими, французскими и корейскими.
По теме диссертации опубликовано 14 работ.
Структура и объем работы. Диссертационная работа состоит из введения, пяти
глав, заключения, списка литературы и трех приложений. Объем диссертации - 184 страницы. Список литературы содержит 79 наименований. Работа включает 11 рисунков и 3 таблицы.
Первая глава посвящена описанию общих понятий, лежащих в основе современных средств компьютерного представления лингвистической информации. Основы описания уровней формальной мощности формализмов заложены классификацией формальных языков и грамматик, предложенной Хомским. Для компьютерной лингвистики среди них наиболее важны грамматики конечных автоматов, контекстно-свободные и контекстно-зависимые грамматики.
Одна из широко известных теорий отображения смысла текста на естественном языке принадлежит И.А.Мельчуку. При создании модели «Смысл <=> Текст» И.А. Мельчук вводит понятие лексической функции. Лексическая функция ставит в соответствие каждой из лексических единиц (слов и словосочетаний) набор альтернативных лексических единиц, находящихся с исходной единицей в соответствующем смысловом соотношении.
Среди задач данной диссертационной работы есть задача о сопоставлении предикатов предложениям на естественном языке. В данной главе рассмотрен алгоритм, основанный на лексических функциях, предложенных Мельчуком. Эти функции можно представить на синтаксическом уровне в виде предикатов следующим образом. Если рассмотреть совокупность словоформ в языке, возникающих при склонениях существительных, спряжениях глаголов и т. д. (т. е. весь словарь), и считать, что х и у - слова или словосочетания из этой совокупности, то получаем предикаты следующего вида; Syn{x,y), х, у -синонимы; Destr(x,y), у -типовое название «агрессивного» действия (х = «оса»,_у = «жалит»).
Другой подход к формализации структуры естественных языков - создание теоретико-множественных моделей языков - принадлежит С. Маркусу. Теоретико-множественные модели языков Маркуса строятся следующим образом. Рассматривается некоторое разбиение словаря естественного языка (он считается конечным множеством) на классы (например, совпадающие со множествами флективных форм слов). С помощью такого разбиения можно дать формальное определение грамматического рода или категории падежа. Кроме этого, Маркус вводит понятие синтаксических типов, которые приблизительно соответствуют традиционным частям речи. Осуществляя операции над синтаксическими типами, становится возможным определить грамматическую правильность предложения на естественном языке.
В данной главе сделан обзор уже существующих инструментальных систем для
описания структур естественного языка. Приведена классификация этих систем с точки зрения их реализации. Системы анализа текстов состоят из графематического, морфологического, фрагментационного, синтаксического и семантического компонентов. Примером такой системы является система ДИАЛИНГ. Еще одна система, рассматриваемая в этой главе, DSTO Fact Extractor System - система для извлечения информации конкретного вида из произвольных текстовых документов.
Одной из поставленных в работе задач является задача о рассмотрении возможности применения для обработки лингвистической информации общих принципов организации памяти с параллельным доступом к информации. В первой главе дан краткий обзор существующих систем с использованием параллельной памяти.
Во второй главе предложено несколько алгоритмов сопоставления предикатов и формул узкого исчисления предикатов предложениям па естественном языке.
Один из способов введения предикатов - сопоставление частям речи. Предикаты, полученные таким образом, мы назвали грамматическими.
Аф\ (х,у) - категория числа прилагательного: у = «ед», если х - прилагательное в единственном числе, у — «ми», если х — прилагательное во множественном числе.
Аф'3{х,у) - категория рода прилагательных: у = «мр», если х - прилагательное
мужского рода, у = «жр», если х ~ прилагательное женского рода, у = «ср», если х - прилагательное среднего рода.
(\/x)[Adj 2(х,ед) о (Adj3(x,Mp)v Adj2(x>oicp)v Л4]ъ{х,ср)у\ - формула обозначает, что если прилагательное в единственном числе, то оно обязательно либо мужского, либо женского, либо среднего рода, и наоборот.
Кроме этого, предикаты можно ассоциировать с членами предложения. Такие предикаты мы назвали синтаксическими. Одноместные предикаты членов предложения: Psub(x), где х-подлежащее; Pobj(x), где л: -дополнение; Padv(x), где х -обстоятельство и
др. Двухместные предикаты членов предложения: Р d(x,y),x- сказуемое; Pa(tr(x,y), х-
определение; у играет роль определяемого слова или словосочетания.
Можно записать формульное представление этих предикатов, считая, что х, у -слова или словосочетания. Верхний индекс в скобках при Q — местность предиката, нижний индекс Q является показателем, от какого члена предложения задается вопрос. Например, если определяемое слово является сказуемым, то от сказуемого можно задать вопрос к обстоятельству (Vx,y)(Q(22)(x,y) о (Ра^(у,х)&Рр^(х)&Р^(у))).
В общем виде формулы для п неоднородных членов предложения записываются
следующим образом. Например, формула
(\/х,Уі,...,уп)
6,(B+,4*J'i....0'l,)o[&/,e„>|fx)&?„,(*)&&^^)4
означает,
чт. е. неоднородные определения при подлежащем.
Пример представления предложения в виде предикатов. Купить машину нам не по средствам.
Рргес1(купить) , Pobj (машину) , Padv{ne по средствам) , Ромашину, купить) ,
Р0у(нам), Padv(rte по средствам, купить), Pobj{na.\t, купить).
Если положить х = «купить», у = «не по средствам», то верна формула {Vx,y)(Qi2)(x,y)^(Padv(y,x)&Ppred(x)&P„Jv(y))).
Если положить х = «купить», у] - «машину», уг = «нам», то верна формула
В качестве промежуточного результата мы получили, что с помощью введенных предикатов можно определять синтаксические валентности слова. Последние играют немаловажную роль в подходе Мельчука при построении модели «Смысл <=> Текст».
На данном этапе в полученных формулах недостаточно отражена семантическая структура текста, и позже введенные предикаты будут подвергнуты различным преобразованиям средствами математической логики.
В третьей главе рассмотрен набор структур, соответствующих предложениям на естественном языке. Предложению сопоставляем набор структур, состоящих из кортежей, которые в конечном итоге определят набор предикатов.
С другой стороны, можно считать элементы словаря естественного языка константами, ввести предикаты любым из описанных ранее способом, иа основе их получить формулы. Предикаты, в свою очередь, сначала рассматриваем на синтаксическом уровне. Затем смотрим на них уже как на подмножества основных множеств моделей в соответствующих декартовых степенях. Такой подход дает возможность сконструировать модели, т. е. осуществить переход с синтаксического на семантический уровень.
Первоначально предикаты рассматриваем на синтаксическом уровне, т. е. как записи. В дельиейшем на основе полученных структур будут конструироваться модели, т. е. будет осуществлен переход на семантический уровень. Под предикатами в этом случае будем понимать подмножества в соответствующих декартовых степенях основных множеств моделей.
Например, рассмотрим структуры, соответствующие предложениям с глаголами.
Они получаются следующим образом. Пусть в предложении встречается только один глагол. И присутствует несколько существительных в различных падежах, относящихся к этому глаголу. Считаем, что в каждом падеже имеется не более одного существительного. Такому предложению может быть сопоставлена структура.
Здесь V - глагол; NounNom - существительное в именительном падеже, если имеется и т. д. В случае, когда существительное в данном падеже в предложении отсутствует, соответствующая позиция структуры может быть заполнена некоторой вспомогательной информацией: о том, что существительное в данном падеже отсутствует, но в принципе оно может присутствовать, или о том, что существительное в данном падеже отсутствует, и вообще не может присутствовать.
Такой структуре соответствует предикат вида Р(у,пх,...,пь) , где V - глагол;
П],...,Иб - имена существительные. Предикат шестиместный, так как в русском языке имеется шесть падежей.
Далее считаем, что на вход поступает текст, т. е. набор предложений. Хотим, чтобы применяя средства математической логики, можно было осуществить переход с синтаксического на семантический уровень. На выходе формируется несколько потоков, В потоки можно записывать информацию о словообразовании. С лексическими функциями тоже могут быть ассоциированы потоки. Конечные модели, сопоставленные исходному тексту, также будем формировать в виде потоков.
Например, выделяем все существительные из предложений и записываем их в поток: <\,п\,...,п) 2,rf,...,nf ;...>, где последовательно записываются номера предложений
и списки существительных, входящих в данное предложение (/,- - длина списка). Причем
номер предложения, в котором нет существительных, может быть пропущен. Перепишем этот поток в другом виде:
«І,/») >,...,<\,п)х >,<2,п?> <2,Я/22 >,„.>.
Обозначим, C = \
потоке. Основными множествами моделей будут множества вида СО /~, где С0 сС, — некоторое отношение эквивалентности. Отношения эквивалентности будут возникать примерно так же, как в конструкции Хенкина при доказательстве теоремы о существовании модели. Пары вида
лентными.
Суть конструкции Хеикина состоит в следующем.
Теорема (о существовании модели). Если Т непротиворечивая теория, то Т имеет модель, в которой она истинна.
Т = {й> 91, -. *V }
Двигаясь по формулам теории р|,^,,.,,^,.„, формируем конечные множества S\ с, с...с S„ с .... После их объединения и факторизации по некоторому отношению эквивалентности получаем модель М такую, что М |= Т.
Объектам, упоминаемым в теории, соответствуют в итоге элементы модели.
Наш подход состоит в следующем. Рассмотрим предложение на естественном языке. Ему можно сопоставить различными методами множество логических формул узкого исчисления предикатов (\,<р2,.-,<рп,..., к которым возможно применить отдаленный аналог конструкции Хенкина.
У нас цепочки формул щ,(р2,—,(рп конечны, получаем, как правило, конечную
модель М. Можно считать, что эта модель отражает смысл предложения.
Этот подход является развитием идеи Мельчука. Мельчук сопоставляет тексту граф, который называет смыслом. Но он рисует его, опираясь на свою интуицию и т. д. А в данной работе этот процесс фактически формализован. К тому же граф - частный случай модели, так как в действительности могут быть многоместные отношения.
В данной главе, кроме того, рассмотрена возможность применения общих принципов организации памяти с параллельным доступом к обработке текстов.
Рассматриваем предложение на естественном языке как совокупность слов. Слова параллельно подаются в память, т. е. одновременно доступны несколько слов, по одному в каждом модуле. Далее перестановкой строк и столбцов при работе с параллельным доступом к информации можем подбирать нужные сочетания слов.
Другая идея относится к организации структур данных в памяти. Часть слова, состоящая из основы и формообразующего суффикса, запоминается только один раз. В остальных местах, где она встречается, ставится метка. Таким образом, остается хранить только окончания форм слова, что значительно экономнее.
Особый интерес эта деятельность вызывает у разработчиков переносных электрон-
пых переводчиков и словарей, в частности у корпорации IBM.
В четвертой главе осуществлен анализ структуры словарных статей из толкового словаря СИ. Ожегова, в частности для временных конструкций и для понятий (см. Приложения 1 и 2), связанных с местоположением объектов. На основе этого анализа предложена деревообразная структура, которая может быть использована для представления любых предложений.
На рис. 1 приведен пример представления словарной статьи в виде дерева.
МЕЖДУРЕЧЬЕ. Местность между двумя или несколькими реками, включающая водоразделы и прилегающие склоны долин.
start
двумя
междуречье
I более общее понятие
признак предмета; между чем?
местность
признак предмета
„ между реками
сколькими? J г
сколькими?
part_phrase которая включает
несколькими
что? / \ что?
водоразделы склоны
чего?
признак предмета
прилегающие
Рис. 1. Пример представления словарной статьи в виде дерева Деревообразное представление предложений предполагается использовать в поисковых системах следующим образом. Считаем, что поисковый запрос представляет собой совокупность предложений на естественном языке. Эту совокупность предложений можно расширить, используя словарные статьи из толкового словаря (например, словаря Ожегова), т. е. фактически приписать определения отдельных слов. На следующем этапе представляем предложения запроса в виде помеченных деревьев. Вершины помечаем словами, а ребра - вопросами, задаваемыми от одного слова к другому.
При формировании деревообразного представления предложений на естественном языке и схем типа «вопрос-ответ» предлагается использовать конструкции, представляющие собой модифицированные конструкции языка символьных преобразований REFAL:
а) целесообразно использовать новые типы переменных, связанные с частями речи,
частичным совпадением слов и т. д.;
б) в языке REFAL для любого оператора <р-^у выполнено var( <р) z> var( ц/ ). У нас
это нарушается, таким образом пытаемся учесть контекст. Пример REFAL-подобной конструкции:
Это английские книги —> Это английские и американские книги Это ((altr <- (e[Adj]Q))sub(e{)) -»Это ((atlr <-(е[Аф']0) и attr <- (e[Adj\2))sub{e-{)).
Далее рассмотрим текст достаточно большого объема, из которого необходимо выбрать предложения по тематике поискового запроса и, таким образом, сформировать аннотацию или решить, является ли текст релевантным данному запросу. Для этого предложения данного текста также могут быть представлены в виде деревьев. После этого необходимо сопоставление на соответствие деревьев из запроса и деревьев, возникших из текста. Для этого предлагается рассматривать конечные автоматы, работающие на деревьях, по аналогии с подходом Бюхи.
Фактически на данном этапе заданному вопросу соответствует несколько возможных ответов. Поэтому можно считать, что схема перехода «вопрос-ответ» имеет вид (р -» ц/\ v у/2 v... v у/п . После отождествления <р с вопросом переменные, входящие в нее, приобретают значения. Далее в тексте ищем предложения, которые можно отождествить хотя бы с одной из формул цг{, Все такие предложения выдаем пользователю в качестве
ответов.
В пятой главе проведен анализ процесса формирования речи у человека на основе данных психологии развития. В результате этого анализа произведена периодизация освоения языка ребенком и получены формальные модели базовых конструкций языка.
Под базовыми конструкциями понимаются простейшие в алгоритмическом плане. Они же самыми первыми возникают при освоении речи ребенком. Причем не ставится целью, чтобы эти базовые конструкции «покрыли» весь язык, как, например, базис по типу базиса во множестве булевых функций.
Условно в процессе формирования речи можно выделить пять стадий.
1. На первой стадии формируются отношения эквивалентности, т. е. формируется и
запоминается функция вида / :со -> Р(со), где со - множество натуральных чисел, Р(а>) -
множество конечных подмножеств натуральных чисел.
2. На второй стадии формируются простейшие ассоциации, т. е. формируется
функция вида g : со -* Pico) Но в отличие от первой стадии возникает связь между образ
ами, т. е. между предметами и действиями и их свойствами.
3. На третьей стадии происходит упорядочение ассоциаций g :со -> \P{co),
этом могут учитываться различные факторы: частота встречаемости данной ассоциации, эмоциональная нагруженность и т. д.
4. На четвертой стадии происходит формирование прототипа грамматики. Имеем
функцию g:co —> К, где К — для каждого слова свое фиксированное множество парадигм
этого слова, т. е. Л'в общем случае состоит из ilt...,i& .
Существенным отличием данной стадии от стадии 2 является то, что мы образуем ассоциации, рассматривая близость не в пространстве или во времени, а фактически, работаем с графом, возникающим на стадии 1, т. е. происходит отчуждение слов от образов.
5. На пятой стадии происходит эпизодизация информационного потока. На первой
стадии развития ребенка сигнатура может быть простейшей:
Р(х,у) —субъект л: совершает действие^;
P(x,y,z) — субъект х совершает действие у с объектом г;
Q(x, у) - объект х обладает свойством у.
Для того, чтобы данный подход работал корректно, нам необходима еще функция вида Inconsist: со —> Р(со). Пример работы этой функции: Inconsist (белый) = {черный, красный, зеленый,...}.
Можно предполагать, что человек не имеет какой-то законченной модели мира, а оперирует эпизодами, как форсирующими условиями в конструкции конечного форсинга, рассматриваемой в математической логике.
Конечный форсинг в обработке текстов на естественном языке предполагается использовать следующим образом. Считаем, что у нас есть текст, состоящий из предложений на естественном языке. Двигаясь по тексту, получаем истинные и ложные предикаты описанными ранее способами. По некоторым признакам из этих предикатов мы можем формировать множества. Один из таких признаков: если в тексте непротиворечивая информация о чем-либо располагается близко, то речь идет об одном и том же, т. е. синтаксическая близость влечет семантическую. Для противоречивых сведений о чем-то используем другие критерии.
Можно считать, что эти условия образуют верхнюю полурешетку. В ней содержится вся информация из текста. Мы можем рассматривать различные пути, которые будут давать непротиворечивые теории. Таким образом можем получить диаграмму модели, которая, по сути, отражает определенную сюжетную линию в исходном тексте.
Теоретико-множественные модели языков
Теоретико-множественные модели языков Маркуса [18] строятся следующим образом. Рассматривается некоторое разбиение словаря (он считается конечным множеством) естественного языка на классы. Тогда тройку {Г,Р,Ф}, где Г - конечный словарь, Р разбиение Г,аФ -подмножество свободной полугруппы над Г, назовем языком.
С помощью такого разбиения и введенных Ревзнным [24] понятий цепь и длина цепи Маркус дает формальное определение мужского, женского и среднего родов, основанное на переходе от естественного к грамматическому роду.
Маркус [17] также вводит понятие синтаксических типов, которые приблизительно соответствуют традиционным частям речи. Рассмотрим язык {Г,Р,Ф}, интерпретируя Г как словарь естественного языка L, Р(х) (при хвГ)- как множество всех форм слова х, а Ф - как множество всех правильно построенных предложений языка L. Пусть слово х имеет две различные формы х} и х2. Тогда будем считать, что Р(х1)Г\Р(х2) = 0. В дальнейшем две омонимичные формы такие, как free (прилагательное) и free (глагол), будут рассматриваться как различные слова, а соответствующие им Р -клетки - как непересекающиеся.
При предлагаемой интерпретации клетки производного разбиения Р (называемые Маркусом синтаксическими типами) могут рассматриваться как приближенная модель частей речи в языке X.
Пусть даны два слова а и Ъ\ мы можем считать, что Р(а) и Р(Ь) относятся к одной части речи тогда и только тогда, когда Р{а) и P{b) Р -эквивалентны, т. е. тогда и только тогда, когда Ье.Р (а). Таким образом, части речи могут быть определены как множество Р -клеток.
Осуществляя операции над синтаксическими типами, становится возможным определить грамматическую правильность предложения на естественном языке.
Для классификации инструментальных систем с точки зрения их реализации можно определить следующие признаки.
1. Цель моделирования, т. е. то, для чего система предназначена. По этому признаку осуществляется классическое разделение на системы, предназначенные для анализа, и системы, предназначенные для синтеза текста. Строгость в этой области нарушают исследования по двунаправленным (reversible) грамматикам, описывающим грамматические ресурсы, пригодные одновременно и для анализа текста, и для его синтеза. Еще одна популярная цель - машинный перевод (МП). Подробный обзор по этому вопросу есть в [5, 6, 21, 32]. МП представляет собой не просто сочетание анализа и синтеза на разных языках, эта область обладает определенной спецификой постановки задач и сложившихся методов их решения. Пограничным звеном между системами МП и синтеза являются инструменты многоязыковой генерации, поскольку в них присутствует описание кросс-языковых соответствий, исследуются вопросы интерлингвистического представления и ведутся многоязыковые словари.
2. Уровень представления. Классическое деление здесь: морфология, синтаксис, семантика, прагматика. Чисто морфологических инструментальных систем не так уж много, поскольку задача морфологического анализа и синтеза чаще всего является лишь частью более сложной задачи. Многие синтаксические системы основываются на соответствующих синтаксических теориях. Если система содержит семантический компонент, то часто он основан на каком-либо логическом исчислении (например, исчислении предикатов первого порядка и т. п.). Наличие прагматического компонента чаще всего ведет к использованию механизма представления знаний. При этом системы анализа, имеющие развитый прагматический компонент, в противовес этому часто не содержат развитого механизма синтаксического анализа, поскольку знание прагматики предметной области существенно облегчает" извлечение знания из текста. Понятие уровня представления не обязательно подразумевает,последовательное разворачивание лингвистической структуры че рез эти уровни, такое разделение может использоваться лишь как средство модуляризации лингвистического знания.
3. Представление знания о мире. В соответствии с этим признаком система может обладать средствами представления только грамматических знаний и методов анализа (описание языка автономно от его использования) или она может давать возможность представления экстралингвистических знаний, т. е. знаний о мире. В последнем случае возможно наличие либо однородной среды представления (в которой язык описания грамматики и представления знаний один и тот же), либо неоднородной (в которой эти задачи описываются на различных языках).
4. Пользователь системы. Большая часть инструментальных систем ориентирована на лингвистов, что определяет простой, но относительно бедный в выразительном отношении язык. Необходимая гибкость представления часто достигается сочетанием простого языка спецификаций и сложного механизма, использующего эти спецификации. Он создается, как правило, в виде специализированной надстройки на основе существующего высокоуровневого языка программирования (классические примеры - LISP и ПРОЛОГ). Часто этот же базовый язык используется и для описания знаний о предметной области (если экстралингвистические представления используются соответствующей системой).
5. Язык программирования, применяемый для реализации системы. Этот критерий не является таким уж техническим, как кажется на первый взгляд. Часто он определяет набор конструкций и стилистику языка инструментальной системы, а в случае языка-надстройки (см. предыдущий пункт) от языка реализации зависят и функциональные возможности системы.
6. Способ реализации. В данном случае имеются в виду два различных способа реализации языка инструментальной системы: создается новый язык или библиотека, которая реализует некоторые функции в существующем языке программирования. Последнее характерно для систем, основанных на LISP.
7. Статус системы. По этому критерию системы можно разделить на коммерческие, чисто исследовательские, предназначенные для тестирования некоторой лингвистической теории и используемые только в группе, их разработавшей, и исследовательские, используемые несколькими независимыми группами. Практически все инструментальные системы в области обработки естественного языка являются исследовательскими в каком-либо смысле.
Имя прилзгэтельное
1. Adj\(x,y) - деление прилагательных по разрядам: у = «кач», если прилагательное качественное, у = «отнс», если относительное, у = «прит», если притяжательное. Качественные прилагательные могут обозначать а) Adj\(x) - цвет (желтый, синий к др.); б) Adjf(x) - пространственные отношения (длинный, прямой и др.); в) Adj](x) - временные отношения (долгий, быстрый и др.); г) Adj (x) - свойства и качества вещей, воспринимаемые органами чувств (слад кий, горячий и др.); д) Adj (x) - физические качества людей и животных (сильный, слепой и др.); е) Adjf(x) -духовные качества людей (добрый, умный и др.). - качест (Vx) Adj,(x,Km) « Sc (-(M W Adj{(x))v {Adj{(x) -» Adj[(x))) W J венные прилагательные - прилагательные, принадлежащее одной из групп а) - е). Эквивалентная запись этой формулы: (Vx) Аф\(х,кач) + {iAdj[(x)Sc Adj((x)Y[Adj{(x)8L- dj[(x) \
Относительные прилагательные обозначают признаки не непосредственно, а через отношение: а) Adj\ (х) — к материалу, из которого что-то сделано (железный, молочный и др.); б) Adjf(x) - к месту (московский, здешний и др.); в) Adj\ (х) — ко времени (вчерашний, летний и др.); г) Adjl(x) - к лицу (детский, студенческий и др.); д) Adj\x(x) -к понятию (философский, научный и др.); е) Adj\2(x) - к действию (стиральный, подготовительный и др.); РОССИЙСКАЯ ГОСУДАР( І БИБЛ1 ЇИЙСКДН "1 РСТВЄННДЯ ТИОТЕКА І ж) Adjl (х) - к числу (двойной, тройной и др.); (Vx) Adj omm) Si ЫА${{Х) -+ Adj{(x))v [Adj{(x) - Adj[(x))) отно сительные прилагательные - прилагательные, принадлежащее одной из групп а) - ж). Эквивалентная запись этой формулы: (V ) Adjx(x,omuc) & {(Adji(x)& Adj{(x))v{Adj{(x)&. Adjl(x))) U-7 (\fx){Adj (x,omnc) - -,{Adj5(x,cpaeu)v Adjs(x,npee))) - относительные прилагательные не изменяются по степеням сравнения; (Vx)(Adj\(xtomnc) -i(Adjl0(x,ноли) v /Цгю (#, ))) - относительные прилагательные не образуют кратких форм; (\fx)(Adj\(x,omttc) -±-iAdj\(x)) - относительные прил. не образуют форм субъективной оценки. Импликация только в одну сторону, так как прилагательное, обладая вышеперечисленными свойствами, может принадлежать к разряду притяжательных.
Притяжательные прилагательные обозначают принадлежность предмета лицу или животному и образуются с помощью суффиксов -ов (-ев-) (дедов кабинет и др.), -іш-(-ЫП-) (гусиная лапка и др.), -ач- (-яч-) (мышиная нора и др.) и -ий (-ja-, -je-) (собачья конура и др.). (Vx){Adjl(x,npum)- t(Adjs(xtcpaeu)vAdjs(xinpee))) - притяжательные прилагательные не изменяются по степеням сравнения; (yx)iAdjt(x,npum) J i{Adj\a(x,noM}i)vАаУю(х,кр)) притяжательные прилагательные не образуют кратких форм; ( x)(Adjl{xfnpum) J tAdjl(x)) -притяжательные прил. не образуют форм субъективной оценки. Импликация только в одну сторону, так как прилагательное, обладая вышеперечисленными свойствами, может принадлежать к разряду относительных.
2, Adj2(x,y) категория числа прилагательного: у = «ед», если х - прилагательное в единственном числе, у - «мн», если х - прилагательное во множественном числе.
3. Adj x.y) категория рода прилагательных: у = «мр», если х - прилагательное мужского рода, у - «жр», если х - прилагательное женского рода, у - «ср», если х прилагательное среднего рода. (Vx)(Adj\(x,Am)) (- dj\(x,Aip)&-A.dj\(xtc icp)&-Adji(x,cp)) - когда прилагательное во множественном числе, то нельзя определить род. То же самое означает формула: (Vx)(Aaj2(x,Mu)) r і(Лф 3(х,мр) v Adj2(x,Dicp) v А(1}г(х,ср)). (Vx)(AdJ 2(х,ед)о(Аф 2(х,мр)\/Aaji(x,jicp)vAdji(x,cp)) если прилагательное в единственном числе, то оно обязательно либо м.р., либо ж.р., либо ср. и, наоборот. Эту формулу можно переписать в эквивалентном виде с импликацией.
4. AdjA(x,yl,y2,yi,y4,y5,y6) категория падежа прилагательного: у} - именительный, у2 - родительный, уз - дательный, у4 - винительный, у5 - творительный, ye - предложный.
5. Adjs(x,y) - степени сравнения, где у = «сравн», если прилагательное в сравнительной степени, у = «прев», если прилагательное в превосходной степени. Для сравнительной степени существует две формы выражения Adj6(x,y), где а) у = «синт», если форма выражения сравнительной степени синтетическая (про стая). Синтетическая форма определяется в морфологическом словаре ДИАЛИНГЛ б) у = «анлт», если форма выражения сравнительной степени аналитическая (слож ная), т. е. представляет собой сочетание слова более с исходной формой прилагательного {более широкий, более красивая и др.). (Vx)(Adj5(x,сравн) - {Adjb(xtcwun) v Аа]6(х,анлт)) - если прилагательное в сравнительной степени, то обязательно в одной из двух форм и, наоборот. Превосходная степень прилагательных имеет три формы выражения Adj-,(x,y), где а) у = «синт», если форма выражения превосходной степени прилагательного син тетическая, т. е. образуется от основы исходной формы при помощи суффиксов -ейш-, -айш- (высокий - высочайший и др.); б) у = «анлт», если форма выражения превосходной степени прилагательного ана литическая, т. е. образуется с помощью слова самый и исходной формы прилагательного (самый строгий и др.); в) у = «сложи», если форма выражения превосходной степени прилагательного сложная, т. е. может образовываться тремя способами: Adj\(x) - сочетание слова наиболее и исходной формы прилагательного (наиболее честный и др.); Adj i(x) — сочетание формы сравнительной степени и слова всех или всего (лучше всего и др.); Adjj(x) - сочетание отрицания нет и прилагательного в сравнительной степени {нет красивее его и др.). (V ) Аф7(х,сложн) - & {-iLidjfc) -» Adjj(x)) v (Adjj(x) -» Лф,(х))) — если в), то одна из последних трех, и обратно. Для этой формулы существует эквивалентная запись без импликации. (Vx)(Adj5(x,ttpee) - (Adj7(x,cwim)v Adj1(x,a}mm)\/ Adj-jiXyCJioo/CH))} - прилагательное в превосходной степени - обязательно в одной из трех форм (аналогично формуле для сравнительной степени). 6. Adj\(x) — степени качества (формы субъективной оценки) обозначают степень проявления признака безотносительно к сравнению предметов. К степеням качества можно отнести следующие формы и словосочетания прилагательных: а) Adj&(x) — приставочные формы прилагательных {прехитрый, всесильный и др.); б) Adj%(x) - суффиксальные образования (здоровенный, красноватый и др.); в) Adjl(x) - сочетания наречий меры и степени с исходной формой прилагательно го (весьма красивый, очень добрый и др.); г) Adjl(x) - повторение исходной формы прилагательного с префиксом или без него (белый-белый, милый-премилый и др.).
Структуры, соответствующие предложениям на естественном языке
Пусть в предложении встречаются два или более глаголов, идущих последовательно друг за другом. Тогда можно выделитьнесколько случаев.
а) Если глаголы записаны через запятую или два из них соединены союзом «и», причем они совпадают по форме (стоят в одинаковой спрягаемой форме или являются инфинитивами), времени, числу и лицу (если это можно определить), то эти глаголы яв-ляются однородными членами предложения, т. е. рассматривается простое предложение.
Поэтому достаточно рассмотреть структуру ранее указанного вида, соответствующую одному из таких глаголов, а для остальных глаголов будет то же самое.
В этом случае, кроме того, может возникнуть ситуация, когда после запятых есть повторяющиеся союзы (и.-., и...; или..., или,,, и г. д.). Тогда глаголы, являясь однородными членами предложения, вновь будут сопоставлены одинаковым структурам.
б) Будем пока считать, что в простом предложении последовательно встречаются только два глагола. Пусть Inf - инфинитив глагола, V, как и ранее, обозначает вообще наличие глагола. При употреблении этого обозначения подчеркивается, что нам не существенно, в какой форме стоит глагол: в личной форме или в форме инфинитива. Теперь все возможные ситуации сочетаемости глагола с глаголом дают нам новые структуры вида: V Inf VRef Inf VRef означаеі, что глагол является возвратным. Предикаты, соответствующие этим структурам, имеют вид P(yinfjnf) и PQflnfRefJnf).
в) Если в предложении подряд идут несколько глаголов, то структуры в предыдущем пункте можно продолжить за счет добавления нужного числа инфинитивов.
1.6. Если в предложении есть глагол и наречие (обозначим его AdV - от англ. adverb), относящееся к этому глаголу, то структура будет иметь вид: AdV V Тогда имеем предикат P(y\adv). Примечание. Ввиду того что правила склонения для существительных и местоимений-существительных (я, вы, on) одинаковые, во всех структурах существительные могут быть заменены местоимениями-существительными.
2. Структуры, соответствующие предложениям с прилагательными, 2Л. Пусть сначала в предложении есть полные прилагательные, и нет прилагательных в краткой форме, в сравнительной или превосходной степенях. Рассмотрим самый простой случай, когда в предложении одно существительное и прилагательное, которое с ним согласовано, и стоят они рядом, К тому лее, так как известно, что род, число, падеж полного прилагательного определяются родом, числом и падежом относящегося к нему существительного, то структуру таких предложений можно представить в виде: Adj N
Здесь Adj (от англ. adjective) - прилагательное, N - существительное; род, число, падеж существительного и прилагательного совпадают. Поэтому получаем предикат вида форме, можно по роду и числу. Структура и соответствующий ей предикат при этом остаются без изменений.
Структура, соответствующая простой форме сравнительной степени прилага тельного, имеет следующий вид:
N Compar NGen где (от англ, noun) - существительное в любом падеже; Compar (от англ. comparative) - прилагательное в простой форме сравнительной степени; NGen-существительное в родительном падеже.
Этой структуре соответствует предикат Р (compar чпипг).
В случае, когда существительное в данном падеже отсутствует, соответствующая позиция структуры может быть заполнена специальной константой Nothing.
Идущие подряд прилагательные (в полной, краткой форме или в форме срав нительной степени) обозначают признак одного предмета, поэтому относятся к одному и тому же существительному и совпадают с ним по роду, числу и падежу (если соответст вующие морфологические признаки имеют место). В частности, к этому случаю можно отнести структуру, соответствующую сложной форме превосходной степени прилагательного. «самый» + AdjC N В этой структуре «самый» и AdjC - два идущих подряд прилагательных, которые относятся к одному существительному N . В предложениях естественного языка может встречаться согласование прилагательного и наречия. Поэтому необходимо, рассматривать структуру вида и соответствующий ей предикат Pfadjrfdv ). Adj AdV Примечание. Во всех структурах вместо существительных могут стоять местоимения-существительные, а вместо прилагательных - местоимения-прилагательные (ваш, который, мой, самый, какой-то и т. Д-). N 1 AdV и предикат Р (л ,adv). Остальные структуры, соответствующие предложениям с существительными, по существу совпадают со структурами, соответствующими предложениям с глаголами (кроме случаев 1.5, 1.6) и прилагательными.
Теперь будем считать, что на вход поступает текст, т. е. упорядоченный набор предложений Р[Р2 »Рм На выходе формируется несколько потоков: k - Skl Sk2 Skmk -"
Простейший вспомогательный поток состоит из упорядоченных пар І,/ ,2, ,.. Л ,/?дг , где первый компонент - помер предложения, а второй - само предложение.
Информацию о словообразовании можно поместить в потоки вида h,kl,Lx,k1}L2, , где й-заголовок потока, например, конкретный суффикс; ,-номер предложения, где встретилось слово с данным суффиксом (т. е, к,- - номера не всех предложений, а только тех, в которых встречаются эти слова); Lt - список слов с данным суффиксом, содержащихся в данном предложении. Иногда удобнее в поток записывать не сами объекты, а указатели на них, т. е. адреса, где находятся объекты (предложения или слова из предложений). В частности, могут быть указатели на объекты в других потоках, а не в исходном тексте.
С лексическими функциями тоже могут быть ассоциированы потоки, аналогичные потокам, содержащим информацию о словообразовании.
Сопоставленные исходному тексту конечные модели, которые будут Б какой-то мере отражать смысловую структуру текста, будем также формировать в виде потоков.
Рассмотрим на примере, как происходит формирование основных множеств моделей. Выделяем, например, все существительные из предложений и записываем их в поток: ],и],..,,и! ;2,tfj2,.",nj -.„ 9 где последовательно записываются номера предложений и списки существительных, входящих в данное предложение (// - длина списка). Причем номер предложения, в котором нет существительных, может быть пропущен.
Применение деревообразного представления предложений в поисковых системах
Предположим, что задан некоторый текст на естественном языке. Имея морфологический разбор слов, становится возможным каждому слову из данного текста сопоставить статью из словаря С. И. Ожегова. Отсюда возникает вопрос о связи между набором словарных статей и текстом на естественном языке. Можно сделать следующие предварительные выводы.
К составляющим смысла предложения па естественном языке относятся: 1) грамматические категории отдельных слов (род, число, время и т. д.); 2) определенный порядок слов в предложении; 3) лексическое значение отдельных слов. Грамматические категории слов получаются из морфологического разбора.
Определенный порядок слов (стилистическая составляющая смысла предложения) получается из синтаксического разбора предложения, так как порядок определяется задаваемыми от слова к слову вопросами.
Лексическое значение отдельных слов в общем случае мы получаем из социального общения, из личного опыта. Примером подобного способа получения значения слова является статья в словаре Ожегова. В частном же случае, лексическое значение слов может быть получено при помощи запоминания (можно разбить по смыслу все слова на некоторые группы и помнить про каждое слово, к какой группе оно принадлежит). Кроме этого, на машине возможно реализовать принцип проведения аналогии таким же образом, как это осуществляет человек, например, заменяя слово его синонимом. Используя запоминание, легко реализуемое на компьютере в отличие от человека, и принцип проведения аналогии, становится возможным обобщать или конкретизировать понятия, а в этом и заключается определение лексического значения слова.
В лингвистике существует, например, деление существительных на нарицательные н собственные. Причем нарицательные существительные можно разделить на группы, представляющие собой обобщенные названия однородных предметов: лиц, животных, птиц, явлений природы и т. д. Принято также делить прилагательные на качественные, относительные и притяжательные. Каждая из этих групп может быть разбита на свои смысловые группы. Глаголы образуют группы со значениями движения и перемещения в пространстве, конкретного действия, физического и душевного состояния и др. Можно делать разбиение на группы с учетом словообразования. Данная классификация рассматривалась в [67, 68, 70] при формировании грамматических предикатов и взята из [28, 29].
Эти группы, конкретизируя, можно, в свою очередь, разбить на более мелкие. Каждую из таких групп независимо от части речи в дальнейшем для удобства будем называть смысловым множеством.
Итак, имея разбиение всех слов на части речи и выше представленную классификацию для каждой из частей речи, получаем разбиение множества всех слов 2 естественного языка на смысловые множества Mh iel.
Предполагаем, что имеется предикат Quest{\v ,q,W2), где IVJ - слово (или группа
слов), от которого задается вопрос, q - вопрос, iv2 - слово (или группа слов), к которому задается вопрос. Под группой слов понимается причастный или деепричастный обороты, словосочетание, фразеологический оборот или даже целое предложение (в случае сложноподчиненного предложения будут W] - главное предложение, it 2 - придаточное предложение). Пока будем рассматривать случай, когда щ и w2 - слова. Тогда принцип проведения аналогии запишется в виде: 3/3/(( eMt&w2 еMj &qeQ)- (Vm, еM ymj еMj) Quest(m m,)).
Применение деревообразного представления предложений в поисковых системах1. Представление предложений с помощью деревьев с пометками Обозначим Т = (V, Е) - ориентированное дерево с корнем Л, причем необязательно бинарное, где V - множество вершин этого дерева, Е - множество дуг. Если v0,Vi є V , то дугу между вершинами v0 и v( (если она существует) будем обозначать как пару el = (v0, ) є Е. Причем v0 - начало дуги (предок), v, - конец дуги (потомок).
Пусть задан конечный алфавит 2. Буквами из него будем помечать вершины ориентированного дерева Т. Будем считать, что 2 - множество слов естественного языка. Аналогично, предположим, что имеется конечный алфавит Q для пометок дуг ориентированного дерева Т. Будем считать, что этот алфавит состоит из вопросов или вопросов со служебными словами. К вопросам со служебными словами отнесем вопросы типа «является синонимом?» или «что делает?» и т. д. Тогда получаем отображения s:E- Q Рассмотрим выделенные подмножества 0cS,60c{), В нашем случае 0 состоит из слов типа start, end, next_sentence, a QQ состоит из вопросов к подлежащему (кто?, что?) и сказуемому (что делает?, что делал? и пр.) Пусть v0,vy є V - некоторые вершины Т; ei = (v0,v,-) є Е - некоторые дуги Т, исходящие из v0 и входящие в уп1 \,...,к. И пусть ст0 єЕ - некоторое слово естественного языка; qf = (ст0,ст,) є Q вопросы, заданные от слова сг0 к слову ст,,/ - 1,...Д; ст, е 2 - ответы, соответствующие вопросам qt.