Введение к работе
Актуальность темы исследования. Автоматическая обработка естественноязыковых текстов относится в настоящее время к числу ключевых направлений в области информационных технологий В результате исследований в данной области было сформировано прикладное направление, получившее название «Извлечение знаний», Information Extraction (употребляются также термины Content и Knowledge Extraction), в рамках которого ведется разработка соответствующего класса систем Такого рода системы выполняют автоматический анализ естественноязыкового дискурса и представляют в той или иной форме семантику документов с точки зрения релевантных для пользователя аспектов экстралингвистической действительности, например, идентифицируют упомянутые в тексте факты, ситуации определенного рода При этом очевидно, что одной из задач, решение которых может представлять значительный практический интерес, является в этой связи анализ взаиморасположения идентифицированных ситуаций во времени
Исследованию различного рода явлений, так или иначе связанных с семантикой времени, посвящено в лингвистической науке множество работ В числе основополагающих в отечественной лингвистике можно отметить работы Ю С Маслова, Е В Падучевой, В А Плунгяна и многих других, в зарубежной науке - Б Комри, Э Даля, К Смит и др Однако в большинстве случаев это фундаментальные исследования теоретического (зачастую типологического) характера, результаты которых не ориентированы на непосредственное внедрение в прикладные системы Что касается работ прикладного характера, то в рассматриваемой сфере наиболее значимые из них представлены в рамках зарубежных исследований и проектов и основаны, главным образом, на англоязычном материале В числе такого рода проектов особый интерес представляет программа TimeML, целью которой является разработка языка разметки текстов с точки зрения
4 семантики времени и создание соответствующего корпуса, который должен стать «золотым стандартом» для систем автоматического анализа естественного языка. При этом даже среди наиболее развитых систем обработки англоязычного дискурса (считающегося одним из наименее сложных с точки зрения автоматического извлечения знаний) не представлено решений, обеспечивающих полномасштабный анализ внутреннего времени ситуаций и временных отношений между ними Что же касается машинных средств извлечения информации из русскоязычного дискурса, то число такого рода систем, имеющих какую-либо практическую значимость, крайне незначительно При этом автоматический анализ семантических типов ситуаций и их взаиморасположения во времени представляет существенный интерес для потенциальных пользователей, особенно в случае больших коллекцияй документов, чем и объясняется актуальность исследования
Таким образом, объектом исследования является лингвистическая модель времени в контексте автоматической обработки естественного языка Предметом исследования являются языковые выражения, позволяющие ввести в рассмотрение следующие типы лингвистических и экстралингвистических феноменов
(1) автономные языковые объекты с семантикой времени («временные
сущности»), в том числе, выступающие в качестве актантов ситуаций,
«внутреннее время», статус, тип ситуаций,
взаиморасположение во времени двух и более ситуаций
Цели и задачи исследования Целью диссертационного исследования является разработка и реализация лингвистической модели времени в рамках практически значимой системы извлечения информации
Для достижения указанной цели были поставлены и решены следующие основные задачи
определение круга лингвистических явлений, наиболее релевантных с соответствующей точки зрения, автоматический анализ которых представляется возможным и целесообразным,
разработка классификации типов автономных временных сущностей и маркеров, а также типов временных отношений между ситуациями, оптимальных с точки зрения внедрения в прикладные системы,
разработка формализма представления временных отношений между ситуациями, пригодного для внедрения в прикладные системы и позволяющего адекватно описывать языковой материал,
разработка общего алгоритма автоматического временного анализа извлекаемых из дискурса ситуаций,
апробация разработанных моделей и алгоритмов путем реализации подсистемы временного анализа в рамках практически значимой системы извлечения знаний
Материалы исследования. Исследование выполнялось на корпусе текстов делового характера (главным образом, интернет-документов) в предметной области «Бизнес и политика» В корпус вошли тексты на русском, английском, немецком и французском языкам Основной акцент был сделан на анализ русскоязычного дискурса
Методы исследования. Результаты исследования основаны на анализе корпуса текстов фиксированного набора жанров При анализе сложных, неоднозначных контекстов с существенным объемом имплицитной составляющей для выбора наиболее вероятных вариантов интерпретации привлекались информанты - носители языка
Теоретической основой исследования служат методы семантической разметки корпусов и представления лингвистических знаний на основе продукционно-фреймового формализма, статистические методы оценки релевантности лингвистических явлений, а также отдельные положения теории Discourse Representation Theory Ключевыми понятиями,
б используемыми в настоящей работе, являются понятия актантной структуры и онтологии
Достоверность положений и обоснованность результатов исследования обеспечены внутренней согласованностью разработанного формализма и системы правил, а также использованием полученных результатов в практически значимых прикладных системах.
Научная новизна:
Предложен онтологический дискурсивный подход к временному анализу естественноязыковых текстов
Сформулирован и обоснован постулат о необходимости обращения к онтологическим знаниям в целях наиболее адекватной интерпретации естественноязыкового дискурса.
Разработаны лингвистические классификации временных сущностей и отношений, ориентированные на внедрение в прикладные системы
Разработана онтология времени и временных отношений, ориентированная на внедрение в прикладные системы.
Разработан алгоритм временного анализа дискурса в контексте извлечения знаний
Практическая значимость работы, область применения результатов. Разработанная в рамках исследования модель времени, а также подсистема идентификации временных сущностей и маркеров временных отношений (ориентированная на многоязычный дискурс) реализованы и внедрены в рамках семейства систем OntosMmer, являющихся в настоящий момент одними из наиболее практически значимых систем извлечения информации из естественноязыковых текстов Подсистема идентификации временных отношений между извлекаемыми из дискурса ситуациями (фактами экстралингвистической действительности) находится на этапе внедрения. На разработанной модели временного анализа основан ряд
7 практически значимых приложений, в частности, подсистема кросс-языкового реферирования
Разработанный формализм и результаты временного анализа -временные когнитивные карты текстов - могут быть использованы как на практике в аналитической деятельности экспертов в различных предметных областях, так и в лингвистических исследованиях - в качестве вариантов репрезентации структуры дискурса, что говорит о теоретической значимости полученных результатов Предполагается, что при больших объемах данных описание корпуса текстов с помощью предложенного формализма позволит делать выводы об особенностях отражения в том или ином языке представлений носителей о физическом времени (область типологии), а также о специфике кодирования семантики времени в различных жанрах (область дискурсивного анализа) и о проявлении в конкретном дискурсе индивидуальных особенностей автора (область лингвистической криминалистики и психолингвистики)
Результаты, выносимые на защиту:
1 Метамодель временного анализа, основанная на совокупности
онтологии
Формализм представления временных отношений между ситуациями
Подсистема автоматического временного анализа дискурса, реализованная в рамках сформулированного подхода.
Апробация работы. Основные результаты исследования были представлены и прошли обсуждение в ходе докладов на всероссийских и международных конферениях 9-ой международной конференции «Speech and Computer - 2004» (г С -Петербург, сентябрь 2004 г), 9-ой Всероссийской с международным участием конференции по искусственному интеллекту КИИ-2004 (г Тверь, октябрь 2004 г), 10-ой международной конференции «Speech and Computer - 2005» (Греция, г Патрас, сентябрь 2005 г), 10-ой Всероссийской с международным участием конференции по искусственному
8 интеллекту КИИ-2006 (г Обнинск, октябрь 2006 г), 2-ого международного научного семинара «Autonomous Intelligent Systems. Agents and Data Mining» (г. С -Петербург, июнь 2007 г, приглашенный доклад), в рамках круглых столов на семинаре RANLP-2005 (Recent Advances in Natural Language Processing, Болгария, г Боровец, сентябрь 2005 г) и конференциях ИАИ-2004 и ИАИ-2005 (Интеллектуальный анализ информации, Украина, г Киев, май 2004, 2005 гг), а также на заседаниях Кафедры теоретической и прикладной лингвистики МГУ им М В Ломоносова
Публикации. Основные результаты, полученные при выполнении диссертационной работы, опубликованы в 8 печатных работах, включая публикацию в издании, рекомендованном ВАК Из них лично соискателем опубликовано 4 работы общим объемом 2 5 п л. В соавторстве опубликовано 4 работы общим объемом 2 8 п л
Личный вклад сосискателя Результаты, выносимые на защиту, получены автором самостоятельно Личный вклад соискателя в совместно опубликованных работах составляет 1 5 п л.
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка использованной литературы (164 наименования) и одного приложения. Общий объем работы без приложений составляет 155 стр, 5 таблиц, 16 рисунков