Содержание к диссертации
Введение
1. Теоретический обзор методов анализа текста 13
1.1. Задачи обработки текстов 13
1.2. Этапы анализа текста 20
1.2.1. Общая схема обработки текстов 20
1.2.2. Анализ отдельных слов 21
1.2.3. Анализ отдельных предложений 23
1.2.4. Семантический анализ 25
1.3. Методы семантического анализа 26
1.4. Комплексные интеллектуальные программные системы для обработки текстов 31
1.5. Выводы и постановка задачи исследования 35
2. Разработка и исследование статистической модели текста 37
2. 1. Статистическая модель текста 39
2.2. Информационный портрет текста 47
2.3. Выводы по главе 51
3. Информационная технология анализа текста 53
3.1. Описание модели текста 54
3.2. Этапы анализа текста 61
3.3. Выделение векторов цели 66
3.4. Выводы по главе 71
4. Система анализа текста 73
4.1. Архитектура системы и сценарий диалога 73
4.2. Эксперименты с текстом 76
4.2.1. Изучение статистических характеристик текста 76
4.2.1. Выделение векторов цели 81
4.3. Пополнение баз знаний на основе информационной технологии 87
4.4. Выводы по главе 88
Заключение 91
Список литературы 95
Приложение! 105
- Методы семантического анализа
- Информационный портрет текста
- Выделение векторов цели
- Изучение статистических характеристик текста
Введение к работе
С развитием информационных технологий высокими темпами растут объемы информации по тем или направлениям развития науки и техники. В качестве источников могут выступать различные информационные ресурсы (Интернет, лекции, электронные книги, диссертации, статьи, журналы и др.), представленные в текстовом виде. Актуальность задачи компьютерного анализа текстовой информации связана с необходимостью обработки пользователем больших объемов неструктурированной информации по его профессиональной деятельности.
Среди задач обработки текстов можно выделить следующие: автоматическое реферирование, автоматический машинный перевод, определение принадлежности текста конкретному автору, создание профессиональных каталогов и др.
Особую актуальность приобретает разработка методов извлечения и формирования новых знаний, необходимых для решения конкретных задач в той или иной профессиональной деятельности специалиста. Одним из стратегических направлений решения данной проблемы является комплексное системное использование различных лингвистических подходов и методов искусственного интеллекта, направленных на сокращение объемов хранимой информации, выявление семантической составляющей текста, определяющей основную идею, заложенную автором.
Проблеме анализа текстовых документов посвящено значительное количество работ [1, 2, 7,16, 18, 20, 21, 26, 37, 41 - 45, 60, 64, 66, 81-83, 88-90, 94-98]. В качестве широко используемых методов компьютерного анализа выделяют статистические и лингвистические методы [4, 31, 33, 48, 57, 66, 71, 80, 87].
Статистические методы достаточно хорошо зарекомендовали себя при построении поисковых систем, выделении ключевых слов и словосочетаний и т.п. В основном в них используются общие законы теории вероятности и математической статистики. Ряд алгоритмов основаны на использовании
закона Зипфа [25].
В то же время, при решении задач анализа текстовой информации, возникающих при построении информационных систем, в частности, при формировании профессиональных баз знаний, требуется привлечение алгоритмически более сложных процедур проведения синтаксического и семантического анализа.
Основную часть знаний специалисты конкретной предметной области получают в результате сравнения, анализа и синтеза информации из разрозненных фактов, размещенных в текстах. При работе с большими потоками документов процесс автоматического структурирования текстовой информации заменяет экспертный процесс выделения фактографической информации и объектов, выполняемый вручную. В работе рассматривается использование новой технологии извлечения знаний из текстов на русском языке.
До 85% новых знаний пользователи получают, изучая тексты и в ближайшем будущем наиболее востребованными будут системы с максимально автоматизированными ETL-процессами (extract, transfer, load -сбор, выделение, преобразование, загрузка) структурирования контента [38]. Другой важной чертой современных технологий является наличие функции оперативного анализа информации, полученной по запросу для выбора дальнейшего направления исследования документов, выполняемой с помощью методов интеллектуального анализа текста.
Основные методы анализа текста достаточно подробно изложены в трудах Апресяна Ю.Д., Виноградова Д.В., Гладкого А.В., Клосса Б.М., Кожуновой О.С., Мельчука И.Д., Солтона Г., Селезнева К., Супруна А.Е., Тодда А., Трубецкого Н.С., Филмора Ч., Финна В.К., Фоменко А.Т., Харина Н. П., Шведовой Н.Ю. и др. Ряд современных усовершенствованных методов представлены в статьях Ермакова А.Е., Леонтьевой Н.Н., Мозгового М.В., Плешко В.В., Сокирко А., Толпегина П.В., Тузова В.А. и др. За последние 10 лет реализованы и специализированные программные средства для анализа и
7 поиска информации, например, такие как Cros (Кронос-Информ), diskMETA (ЗАО "МЕТА"), Oracle Text, ODB-Text (НГЩ «ИНТЕЛТЕК ПЛЮС»), TextAnalyst, инструменты компании Smartware, XANALYS Link Explorer, «Аналитический курьер», инструменты компании Гарант-Парк-Интернет, «Медиалогия», «Система управления досье X-Files» и целый ряд других.
Анализ текста предполагает извлечение семантически связанной, полезной для пользователя информации, которая может быть использована им при построении различных онтологии, классификаторов, банков данных, баз данных, баз и систем знаний, в том числе, профессиональных [17, 19, 24, 27, 53, 69].
Однако можно отметить, что на текущий момент задачи автоматического проведения анализа русскоязычных текстов до конца не решены. Это связано, в первую очередь, с характерной особенностью русскоязычных текстов, отличающихся разнообразием и сложностью структуры предложений. Существующие методы компьютерного анализа текста показывают относительно невысокие результаты на уровне семантического анализа предложений сложной структуры.
Таким образом, существующие методы компьютерного анализа текста не полностью обеспечивают потребности конечных пользователей, связанные с обработкой русскоязычных текстов, автоматизацией процессов накопления и использования информационных ресурсов по различным направлениям профессиональной деятельности. Указанные обстоятельства и обусловили выбор темы диссертационного исследования.
Объектом исследования являются методы компьютерного анализа русскоязычного текста на естественном языке.
Предметом исследования являются методы синтаксического и семантического анализа русскоязычного текста.
Целью диссертационной работы является разработка и исследование моделей и информационной технологии семантико-синтаксического анализа русскоязычного текста, обеспечивающих эффективное решение экспертом
задач, связанных со структуризацией текстовой информации и
формированием информационных ресурсов.
Для достижения поставленной цели требуется решение следующих задач:
- проведение оценки современного состояния проблем анализа
русскоязычных текстов и выявление направлений возможных вариантов совершенствования методов анализа текста;
разработка процедуры нормализации сложных предложений русскоязычного текста;
построение статистической и векторной моделей текста;
исследование методов сокращения объема текстовой информации;
разработка информационной технологии семантико-синтаксического анализа;
экспериментальная проверка предложенных решений анализа русскоязычных текстов на базе специально созданной компьютерной программы.
Методы исследований. Теоретические исследования выполнены с применением методов системного анализа, метода аналогий, теории графов и математической логики, методов искусственного интеллекта.
Исследование базируется на всестороннем анализе отечественных и зарубежных источников, сравнительном анализе известных программных продуктов компьютерной обработки текстовой информации.
Экспериментальные исследования выполнены с помощью разработанного программного комплекса анализа текстовой информации.
На защиту выносятся предлагаемые модели анализа текстовой информации, а также результаты исследования предложенных методов:
статистическая модель текста;
векторная модель текста;
векторная технология анализа текстовой информации;
метод нормализации сложных предложений;
структурная схема и IDEFO-диаграмма процессов анализа текстовой
9 информации в программной системе, созданной на основе предложенных моделей и технологии;
- сравнительный анализ результатов работы известных компьютерных
программ с результатами работы разработанного компьютерного
комплекса «ТЕКСТАН».
Научная новизна полученных результатов заключается в следующем:
разработана векторная модель представления текста, основанная на целевой функции структурной единицы текста;
разработан метод нормализации сложных предложений русскоязычных текстов;
разработана информационная технология анализа русскоязычного текста, включающая в себя этап предварительного анализа и этап семантико-синтаксического анализа текста, при этом, на этапе предварительного анализа текста осуществляется сокращение объема текстовой информации за счет направленной фильтрации с использованием статистических методов анализа, а на этапе семантико-синтаксического анализа проводится качественный разбор и осуществляется структуризация текста, представляемая в виде развернутого плана анализируемого текстового документа. Практическая полезность. Разработанные модели и технология
анализа русскоязычных текстов позволяют повысить эффективность систем анализа текста за счет:
направленной фильтрации на этапе предварительной обработки и уменьшения за счет этого объема обрабатываемой информации;
применения векторной технологии анализа текста, обеспечивающей высокий уровень структуризации текста и формирование развернутого плана анализируемого текстового документа для работы эксперта;
применения процедуры нормализации сложного предложения, обеспечивающей однозначное разбиение сложного предложения на множество простых.
Полученные результаты могут быть применимы для дальнейшей
научной разработки принципов и методов, связанных с разработкой
профессионально-ориентированных информационных систем и
формированием соответствующих информационных ресурсов.
Разработанная информационная технология может быть использована при решении следующих задач анализа и обработки русскоязычных текстов:
классификации объектов;
разработки систем информационного поиска;
формирования информационных ресурсов;
разработки технологий машинного перевода;
разработки модулей проверки правописания;
разработки диалоговых систем;
определения авторства;
создания spam - фильтров для электронной почты;
синтеза текстовой информации и др.
Практические рекомендации по решению указанных выше задач могут быть использованы в деятельности образовательных учреждений, коммерческих и других предприятий при создании и использовании соответствующих информационных ресурсов.
Реализация результатов работы. Основные положения, модели и технология обработки русскоязычных текстов реализованы автором в виде программного комплекса «ТЕКСТАН». Данный программный комплекс разработан как часть программного обеспечения информационной системы ИжГТУ и применен при формировании «Фонда электронных изданий» (создание онтологии предметных областей, формирование рефератов, выделение метаинформации) по направлению «Информатика и вычислительная техника».
Программный комплекс «ТЕКСТАН» послужил прототипом создания АРМ преподавателя для подготовки к лекционным и практическим занятиям.
Апробация работы. Основные положения диссертационной работы
11 докладывались на следующих конференциях: научно-техническая конференция с международным участием в рамках форума «Высокие технологии - 2004», ноябрь 2004, г. Ижевск; научная конференции «Технологии информатизации профессиональной деятельности (в науке, образовании и промышленности)», Ижевск, 23-26 ноября 2004 г.; международная научная конференции аспирантов «Управление экономикой в условиях интеграции хозяйственных систем», г.Ижевск, 18-20 апреля 2005 г.; межрегиональная научно-практическая конференция «Реализация стратегии устойчивого развития города Ижевска: опыт и проблемы, г. Ижевск, 28 сентября 2005 г.; международная научная конференция «Современные информационные технологии и письменное наследие: от древних рукописей к электронным текстам», г. Ижевск, 13-17 июля 2006 г.; на рабочих семинарах, проводимых Управлением информатизации и Центром телекоммуникаций и технологий Интернет ИжГТУ по вопросам создания «Фонда электронных изданий» и организации дистанционного обучения.
Публикации. По материалам диссертации опубликовано 6 статей.
Структура и объем работы определены целью и задачами исследования. Работа состоит из введения, четырех глав, заключения, библиографии и приложений. Основной текст изложен на 120 машинописных страницах с иллюстрациями. Список литературы включает 102 наименования.
Аннотация диссертационной работы по главам.
В первой главе диссертационной работы описаны существующие методы и подходы к анализу текстовой информации. Основное внимание уделено особенностям анализа русскоязычных текстов.
Во второй главе диссертационной работы описывается разработанная автором модель и метод статистического анализа текстовой информации.
В данной главе описываются некоторые результаты исследований, проведенных с целью определения статистических зависимостей, характеризующих текстовые документы из различных предметных областей.
В третьей главе рассматриваются вопросы, связанные с разработкой алгоритмов морфологического, синтаксического и семантического анализа текста.
Основное внимание в работе уделено разработке методов, связанных с семантико-синтаксическим анализом текста.
В четвертой главе описываются архитектура системы анализа текста, которая была разработана и использована для проведения экспериментальных исследований.
Экспериментальные исследования разработанных моделей, алгоритмов и методов проводились в основном на текстах следующих предметных областей: техническом, экономическом, экологическом и правовом.
В ходе проведения экспериментов решались такие задачи как проверка правильности выделения именованных групп, определения ключевых слов, выделение векторов цели предложений и абзацев, структуризация текста.
В заключении приведена общая характеристика работы, а также основные выводы и результаты диссертационного исследования.
Методы семантического анализа
Для семантического анализа может быть использован метод семантических падежей К. Филмора [94], получивший развитие в работе [82] для разбора русского ЕЯ. При таком подходе считается, что предложения выражают чаще всего действия, которые отображают в виде предиката в модели на основе логической функции. Под предикатом в данном случае понимается любой элемент или группа элементов, выполняющих функции сказуемого в предложении, а также атрибутивные формы глагола - причастие, деепричастие, инфинитив. Предикат имеет признаки (модальность, переходность, время, наклонение, возвратность, безличность и т.д.), которые являются необходимыми компонентами для правильной семантической интерпретации остальных членов предложения из внешней (грамматической) во внутреннюю (семантическую) структуру. Остальные члены предложения разбиваются на группы сильносвязанных слов, в которых выделяется главное слово (как правило, существительное). В группу его актантов включаются причастия, прилагательные, числительные, местоимения, неопределенно-количественные слова и т.д. Главные слова группы являются актантами предиката и выполняют различные семантические «роли», которые можно описать на основе семантических падежей К. Филмора [94]: агент, объект, цель и т.д., а также дополнительные падежи: адресат, добавочный предикат, инструмент, время, место, определитель, указатель, количество, пример, деталь и т.п.
В основе другого метода семантического анализа лежит подход, основанный на представлении предложения в виде реляционного графа, интерпретируемый как «граф с центром в глаголе» [64]. В данном методе глагол считается центральным звеном любого предложения. Маркеры времени и отношения пишутся прямо рядом с концептами, которые представляют глаголы.
Несмотря на то, что графы с центром в глаголе довольно гибкие по своей структуре, они обладают рядом ограничений. Одно из них заключается в том, что они не проводят разграничение между определителями, которые относятся только к глаголу, и определителями, относящимися к предложению целиком.
Эти графы также плохо справляются с предложениями, находящимися внутри других предложений.
При работе с реляционными графами возникают ряд проблем, связанных с передачей всего многообразия временных отношений и отношений модальности. Практически любая автоматическая интерпретация текста, требует привлечения словарей, которые соотносили бы единицы текста как символьные объекты со смысловыми эквивалентами. В число словарей, способных выполнять такую функцию, входит машинный семантический словарь.
Синтаксические отношения в пределах именных групп могут быть описаны десятком правил бесконтекстной грамматики, которые учитывают лишь согласование грамматических форм.
После выбора наилучшего варианта разбора фразы выполняется обратный алгоритм синтеза, который проходит по дереву зависимостей и собирает все именные группы. Одновременно входящие в них слова ставятся в согласованные грамматические формы.
На различных этапах анализа предложения возникают ряд проблем, связанных с неоднозначностью отнесения слов к той или иной части речи или синтаксической группе. Это явление носит название омонимии, разрешение которой невозможно без привлечения семантически словарей.
С точки зрения омонимии/полисемии большинство словарей устроено следующим образом: каждому омониму слова приписывается отдельный вход, а все полисемичные слова содержатся в одном входе, где внутри явно прописано отношение, которое связывает полисемичные элементы. Такие словари называются SEL-словарями (Sense Enumerative Lexicons), и единственное их достоинство в том, что можно отделить словарь от его обрабатывающего программного кода, разделив таким образом данные и программу. Но SEL-словари не могут:
1. Объяснить, как слова принимают новые значения в разных контекстах;
2. Смоделировать достаточно точно отношения между полисемичными входами;
3. Отнести разные синтаксические модели управления одному значению слова.
Падежный фрейм состоит из заголовка и набора ролей (падежей), связанных определенным образом с заголовком [66]. Фрейм для компьютерного анализа отличается от обычного фрейма тем, что отношения между заголовком и ролями определяется семантически, а не синтаксически, т.к. в принципе одному и то же слову может приписываться разные роли, например, существительное может быть как инструментом действия, так и его объектом.
Информационный портрет текста
Автор текста, как правило, оперирует предложениями определенной длины, со среднестатистическими характеристиками, которые представлены в табл. 2.1. Данные ограничения возможно связанны с общим количеством информации, которое может быть переработано человеком в течение определенного промежутка времени. А это, в свою очередь, также может быть связанно с предельным количеством информационных понятий, с которыми автор может оперативно работать в пределах одного предложения. При этом возникает вопрос о роли остальных предложений, расположенных по соседству с рассматриваемыми, в пределах некоторого выбранного участка текста (абзаца).
Для изучения этого вопроса было высказано предположение о том, что не только рядом лежащие предложения, но и рядом расположенные абзацы могут иметь высокую степень семантической корреляции.
На рис. 2.7 - 2.8 приводятся распределения абзацев по числу предложений соответственно для экономического, экологического и
На рис. 2.10 - 2.12 показаны информационные картины соответствующих текстов, представляющие собой зависимость между числом предложений в каждом абзаце и номером абзаца в структуре текста. Анализируя рис. 2.10 - 2.12 можно сделать следующие предварительные выводы:
- количество информационных областей текста определяется количеством максимальных локальных пиковых значений;
- количество информативных зон определяет количество глобальных целей, раскрываемых автором;
- значимость (весомость) ключевых слов в информативных зонах приходится на информационные зоны с большим пиковым значением;
Выделение векторов цели
После нормализации предложений и выделения именованных групп на основе векторной модели строится вектор предложения. С этой целью строится семантическая таблица.
Ноль в полях «X» и «Y» означает, что главное слово не выделено, а ноль в поле «Z» означает, что в предложении не найдена связь между координатами Хи Y. Корефернтность на данном этапе устраняется путем применения семантических словарей. Подобный словарь содержит название кореферента и ссылки на возможные варианты интерпретации данного термина.
Поскольку в координаты вектора могут входить и местоимения, то проводится этап устранения анафоричности. Процедура заключается в сопоставлении местоимения найденному главному слову из другого вектора.
Поскольку вектор должен иметь начальную и конечную координаты, то следующим шагом является восстановление координат вектора на основе ранее выявленных связей.
Если в качестве координаты вектора выступает местоимение, то делается замена местоимения на главное слово. При этом могут быть два варианта:
1) Если X содержит местоимение, то X присваивается значение координаты предыдущего вектора. Тип координаты (начальная X или конечная У) определяется по связке Z (если Z имеет атрибут «инфинитив», то присваивается координата X, в противном случае координата Y) и по согласованности морфологических характеристик;
2) Если Y содержит местоимение, то Y присваивается значение координаты X; Рассмотрим все типы восстановления векторов.
1) X = О, Y = О, Z = 0; X = 0, Y = 0, Z = 1. При этом вектор восстановлению не подлежит и исключается из рассмотрения;
2) Х= 0, Y= 1, Z= 1. При этом значению координаты X присваивается значение координаты предыдущего вектора (Х( = Ум)
3) Х= \,Y=Q, Z=l. При этом значению координаты У присваивается значение координаты следующего вектора (Yj = Xi+{)
Связь между предложениями строится на основе ранее установленных связей векторов. При этом соблюдается следующий алгоритм: 1) если 0 0,тоХ(=АХі.д 2) если Xi Л Ум 0, тоХ( =ЛУІ-Ї)
Связь между полученными векторами можно представить в виде семантической сети (рис. 3.2).
Поскольку связи между векторами устанавливаются на этапе семантико-синтаксического анализа, то связи между предложениями, а также между абзацами можно выявить по координатам векторов.
Таким образом, описанная информационная технология позволяет осуществить семантический анализ текста, включающий в себя выделение основных понятий и установление связей между ними. Эти понятия и связи в дальнейшем используются для различных задач обработки текстов.
Рассмотрим пример. Пусть заданы следующие предложения для анализа:
«Во все времена люди сталкиваются с одними и теми же проблемами экономики. Они всегда заботятся об удовлетворении своих потребностей посредством развития и совершенствования производства материальных благ и услуг».
Оба предложения простые, поэтому имеем два вектора: Vp\(xi,y\) Oi) и Vp2{x\,y2) ().
Координаты и атрибуты первого вектора Vp\\ координата х\ = {люди}, координата / = {проблемы экономики}, связь z/ = (сталкиваются), атрибуты координаты X] - ах1 = {во все времена}, а атрибуты координаты у і - ау} = {одни и те же}. Координаты и атрибуты второго вектора Vp?. Х2 = {люди}, координата У2 {удовлетворении своих потребностей}, связь Z2 (всегда заботятся), атрибуты координаты - аУ2 = {посредствомразвития и совершенствования производства материальных благ и услуг}. Устранение отрицания иллюстрируется на примере анализа следующего предложения: «Основные положения меркантилизма являются результатом не теоретического анализа хозяйственной жизни, а просто описания наблюдаемых явлений и отчасти их классификации». После выполнения процедуры нормализации получаем: «Основные положения меркантилизма являются результатом просто описания наблюдаемых явлений и отчасти их классификации». В данном примере один вектор Vpi(xi, у і) (zj). Здесь координата лгу = {основные положения меркантилизма}, координата у\ = {результатом описания наблюдаемых явлений и отчасти их классификации], связь z/ = {являются). Атрибут координаты yi - ау\ = {не теоретического анализа хозяйственной жизни}.
Изучение статистических характеристик текста
Исследовались статистические зависимости, характеризующие особенности построения русскоязычных текстовых документов различных предметных областей. При построении статистической информационной модели использовались тексты по технической, экономической, экологической и правовой тематике.
В качестве укрупненных смысловых единиц текста рассматриваются отдельные предложения и абзацы.
С целью более глубокого изучения вопросов связанных со структурной организацией отдельных предложений и абзацев различных текстов, рассматривались характеристики текстов следующих видов:
- среднестатистическая длина абзаца, выражаемая через число предложений в абзаце;
- закон распределения длин абзацев исследуемого текста;
- семантические зависимости между отдельными абзацами.
Массив предложений и абзацев текста для анализа представляется в виде генеральных совокупностей, для которых рассчитываются статистические показатели.
Для данного этапа анализа используется команда меню Анализ! Статистика. Среднее время обработки одного текста составляло 36 секунд. В табл. 4.1 - 4.3 представлены основные характеристики некоторых из исследуемых текстов.
Проведенные исследования показали следующее.
1. С точки зрения человека - эксперта, рассмотренные тексты отличаются различной сложностью, отражают характерные аспекты, связанные с проблематикой текста, отличаются количественными и качественными характеристиками.
2. Средняя длина абзацев по совокупности текстов составляет 3-7 предложений, т.е. для выражения идеи абзаца требуется соответствующее количество предложений определенной сложности. Таким образом, фактически определяются основные законы построения текста, что может быть использовано, например, при синтезе текстовой информации.
3. Информационная картина текста позволяет выделить в нем информативные зоны, что помогает эксперту провести выборочную направленную фильтрацию.
4. Закон распределения частей речи в рассмотренных текстах близок к экспоненциальному закону. Это хорошо согласуется с известным законом Зипфа.
5. Средняя длина предложений в рассмотренных текстах примерно одинакова и составляет величину порядка 12 - 14 слов. Такие характеристики как асимметрия и эксцесс имеют индивидуальные значения для каждого текста.
В дальнейших экспериментах статистические количественные характеристики текстов использовались для направленной фильтрации.
После определения статистических характеристик может быть использован ручной режим фильтрации. Для этого эксперт сам указывает либо интервал длин предложений, либо процент сжатия текста. При автоматической настройке фильтрации система сама определяет степень сжатия по ранее выявленным характеристикам текстов данной предметной области.