Содержание к диссертации
Введение
1. Анализ предметной области и постановка задач исследования 8
1.1 Тезаурусы и глоссарии 11
1.2, Электронные словари 15
1.3. Системы синтаксического анализа 18
1А Онтологическая информационная система 21
1.5, Система WordNet 25
1.6. Система Visual Thesaurus 29
1-7. Выводы по первой главе 31
2 Визуально-динамический интерфейс понятийно-терминологической информационной системы 34
2.1 Подсистема синтаксического разбора 34
2.2. Морфологический анализ 39
2.3. Система построения визуальных глоссариев 42
2.4. Реализация системы построения визуальных глоссариев 48
2-5. Выводы по второй главе 51
3 Разработка семиологического подхода семантической обработки русскоязычных текстов 52
3.1.. Основы семиологического подхода 53
3.2. Модель семиологической системы 56
3.3. Семиология и лингвистика 58
ЗА Выводы по третьей главе 60
4. Реализация системы построения динамических тезаурусов и самореферирования и экспериментальная оценка ее эффективности 62
4.1. Модель динамической визуальной понятийно-терминологической информационной системы 62
4.2. Аналитическое самореферирование текстов 64
4.3. Поиск в коллекции документов по запросу 65
4.4. Визуализационное моделирование динамических сетевых структур 67
4.5. Описание программной реализации системы 71
4.6. Прикладные возможности системы и экспериментальная проверка разработанных методов 84
4.7. Выводы по четвертой главе 88
Заключение 89
Список использованной литературы
- Системы синтаксического анализа
- Система построения визуальных глоссариев
- Модель семиологической системы
- Аналитическое самореферирование текстов
Введение к работе
Наиболее естественным для человека способом общения является естественный язык (ЕЯ), Предлагаемые методы ориентированы на решение поставленной проблемы путем создания русскоязычных онтологических информационных систем.
Проблема создания тезаурусов и глоссариев как информационной базы является ключевым моментом в любой предметной области на определенном этапе ее развития. При этом в настоящий момент нет русскоязычной ментальной модели лексикона человека, дающей возможность динамического развития семантических понятий предметной области, связанной с информационными технологиями.
Разработка автоматизированной системы семантического анализа является основой программного обеспечения с пользовательским интерфейсом, близким к естественно-языковому. Построение тезаурусов должно способствовать снятию проблемы терминологической путаницы в работе информационных систем.
Анализ существующих исследований, посвященных решению задачи автоматизированного построения тезаурусов, выявил крайне незначительное число готовых и апробированных решений, что во многом связано с отсутствием достаточно проработанной теории и практики решения задач анализа неструктурированной, естественно-языковой текстовой информации. Эффективное решение задачи разработки программы, реализующей динамическую визуализацию понятийных окружений, и составляет суть диссертационной работы.
Целью работы является разработка и исследование семиологического подхода, обеспечивающего анализ и обработку текстовой информации»с целью получения структурированных словарей, глоссариев и тезаурусов для
5 выбранного антологического материала. Для достижения поставленной цели в диссертационной работе поставлены и решены следующие задачи:
Анализ основных подходов к выбору, представлению и обработке русскоязычной совокупности текстов - антологии;
Построение модели семантического представления текстов и компьютерного формирования тезаурусов;
Разработка методов аналитического самореферирования русскоязычных текстов;
Разработка методов поиска документов в рамках предложенного семиологического подхода.
Основные методы исследования. В качестве методов исследования использовались статистический анализ, теория множеств, теория графов, реляционная алгебра. Компьютерная реализация разработанных алгоритмов производилась на основе объектно-ориентированного подхода.
Научная новизна* В предлагаемой диссертации разработаны новые подходы к решению следующих задач:
1 Формирование семантических полей заданной предметной области, представленной выбранной совокупностью текстов.
Представление тезаурусов предметных областей в виде визуальной интерактивной среды.
Использование данных, сформированных на основе терминологических семантических полей для ассоциативного поиска текстовых документов,
Использование результатов формирования семантических полей для оценки семантической связности текстов.
Положения, выносимые на защиту.
На основе проведенных теоретических работ и их экспериментальной апробации на защиту выносятся следующие положения:
Алгоритм формирования семантических полей заданной предметной области, представленной набором текстов.
Метод формирования структуры графа по текстовой информации.
Разработка основных теоретических положений семиологического подхода.
Теоретическая значимость работы заключается в создании семантических моделей проблемно-ориентированных знаний, которые послужат платформой в создании глоссариев, тезаурусов и систем аналитического самореферирования. Разработанные алгоритмы обработки текстов позволяют формировать сети отношений между терминами предметных областей, что дает возможность применять методы теории графов при работе с текстовыми данными. Кроме того, сетевая модель текстовой информации дают возможность наглядного представления связей между понятиями. Особенно это актуально в среде Internet-образования для построения обучающих программ, ориентированных на различные предметные области.
Практическая значимость работы заключается в создании программной системы, реализующей теоретические результаты работы, которая может использоваться для создания глоссариев, тезаурусов для требуемых предметных областей- Предложенный критерий семантической связности текстов позволяет производить эффективное ранжирование документов в результатах поиска при работе поисковых систем.
Реализация и внедрение. Полученные результаты реализованы в виде ряда программных систем на различных языках программирования (Java, Delphi), Данные программные системы используются в качестве он-лайн справочных систем в Internet, модулей автоматического реферирования и поисковых подсистем в системах корпоративного документооборота.
Публикации* Автором опубликовано по теме диссертации 10 печатных работ.
7 Структура и объем диссертационной работы. Диссертация состоит из введения, 4 глав, заключения, излагается на 100 страницах, включая перечень используемой литературы из 90 наименований, 27 рисунков и 1 таблицу. Кроме того, в диссертации имеется приложение на 10 листах, содержащее в себе примеры работы разработанных программ, реализующих алгоритмы, описанные в диссертации.
Системы синтаксического анализа
Взаимодействие между лингвистикой и Computer Science началось еще полвека назад с возникновением теории Н, Хомского, развитием геиеративизма и появлением электронно-вычислительных машин. Многие лингвистические идеи и концепции на протяжении последних десятилетий были заимствованы и воплощены в программировании, теоретической информатике и информационных системах. Наиболее яркими примерами такого заимствования могут служить базисный компонент порождающей грамматики Н. Хомского, который стал прототипом первых компиляторов искусственных языков, или выдвинутая М- Мински, исследователем в области ИИ, теория фреймов для представления реальных объектов в системах распознавания образов и естественных языков [17], которая сыграла свою роль как в становлении объектно-ориентированного подхода в программировании, так и в семантических исследованиях языка, а наследование и полиморфизм -фундаментальные принципы объектно-ориентированного программирования -стали применяться в проектировании лексиконов [72].
Существует и удивительная связь между естественными и искусственными языками, которая заключается в закономерности эволюции языков. Первый опыт программирования в машинных кодах или на языках низкого уровня, к которым относится ассемблер, характеризуется скорее командным (императивным) стилем, где только упорядоченная последовательность операторов (команд) образует осмысленное действие, подобно тому, как в языках с развитым словообразованием последовательная конкатенация грамматических аффиксов порождает слово, обладающее новым значением, С развитием таких языков как ALGOL-60 или COBOL усложняются синтаксические конструкции языка, появляется блочная структура программ. В следующем поколении языков, Pascal и С, текст программы становится похож на многопролетные лестницы, возможность описывать логику действий развернутыми синтаксическими конструкциями задает «ступенчатую» форму текста Последнее поколение объектно-ориентированных языков (C++ и Java) стремится к описанию ключевых абстракций предметной области; абстракции объединяются в библиагеки классов, а программы оперируют объектами этих классов, вызывая методы классов и используя свойства классов, тем самым, упрощая синтаксические конструкции, но усложняя структуру объектов и семантические зависимости между ними; текст современной программы напоминает набор коротких четверостиший или деклараций, где каждая строка - обращение к объекту со своим значением и сложной семантикой. Нечто подобное наблюдается и в процессе эволюции естественных языков, когда постепенное вырождение словоизменительной парадигмы в морфологии приводит к ужесточению порядка слов в предложении и фиксации жестких синтаксических конструкций, а последующее усложнение семантики, за счет насыщения языка идиомами и фраземами, за счет появления более абстрактных понятий или новых значений старых слов или за счет пополнения общеупотребительной лексики из научных метаязыков, приводит к упрощению синтаксиса. Конечно, такой сценарий развития не является обязательным и предопределенным для многих языковых групп и семейств, но такой путь эволюции до некоторой степени справедлив для италийской группы индоевропейских языков - от латыни к современному итальянскому и французскому - и для группы германских языков [44],
Разумеется, что такое сравнение программных и естественных языков является во многом условным, но одно можно утверждать с полной уверенностью: «изменчивость - глубинное и универсальное свойство» [16] как естественных, так и искусственных языков. Очевидно то, что направления развития систем естественного и искусственного языков совпадают, как и то, что история человеческого языка насчитывает тысячелетия, а искусственных пять десятилетий. Возможно, именно глобальность задачи и разнообразие явлений синтаксиса предложения, помноженное на число существующих на земле языков с развитой письменностью, оправдывает разработку новых моделей и алгоритмов, отличных от общепризнанной техники синтаксического анализа или математических моделей, успешно используемых в других областях человеческого знания.
Теоретическая лингвистика и типологический опыт исследования языков создали необходимый описательный аппарат для компьютерного моделирования автоматического анализа текстов. Множество теоретических подходов можно разделить на два основных направления: формализм и функционализм. Формализм утверждает, что язык есть врожденная компонента человеческого мышления, которая может быть представлена в виде абстрактной модели на метаязыке формальной грамматики и не зависит от способов использования языка, а функционализм, напротив, полагает, что строение языка определяется его использованием [54]- Исследования в формальной лингвистике можно тоже условно разделить на два подхода: построение универсальной грамматики, верной для всех существующих языков мира, и построение формальной модели, наиболее полно охватывающей все множество грамматических явлений конкретного языка, Н. Хомский стал родоначальником первого подхода и основателем школы генеративистов, самым ярким представителем второго подхода является И. Мельчук, автор модели «Смысл - Текст» [39].
В задачах автоматической обработки текста, как правило, используются концепции, разработанные в рамках формализма. Совмещая два подхода формальной лингвистики, программные модели являются лишь частичной реализацией теоретических исследований
Система построения визуальных глоссариев
Перед сравнением слов производится приведение слов в нормальную форму (ед- число, именительный падеж для имен существительных, И Т-П.) с помощью метода морфологического анализа, предложенного в [43, 45]- Метод работает на основе модели прикладного морфологического анализа без словаря. Алгоритмы морфологии построены на самообучении программы на открытых массивах реальных текстов и совмещают два подхода: лингвистический -формализованная грамматика для построения морфологических гипотез и математический - метод корреляции, позволяющий унифицировать морфологическую гипотезу
При использовании описанного метода два слова считаются идентичными, если полностью совпали их нормальные формы. Например, слова ЛЮМИНОФОРАХ (начальная форма ЛЮМИНОФОР) и ЛЮМИНОФОРЫ (начальная форма ЛЮМИНОФОР) будут признаны идентичными. Несравненным преимуществом подобного метода является корректное сравнение слов, не совпадающих по буквенному написанию, например слово ЛЮДЕЙ (начальная форма ЧЕЛОВЕК) и ЧЕЛОВЕКУ (начальная форма ЧЕЛОВЕК) будут также признаны идентичными.
Принято решение использовать сравнение, основанное на результатах морфологического анализа с применением следующего дополнения: если попытка найти слово в базовой форме окончилась неудачей, производится попытка поиска полного совпадения слова.
Общая эффективность такого метода признана удовлетворительной.
Исследовательский прототип системы VSlovarParser, реализующей описанный выше алгоритм, реализован в среде Delphi на языке Object Pascal. На рис, 14 приведен внешний вид программы для формирования визуальных глоссариев {этапы с 1 по 5 в п. 2,1). Для работы программы достаточно любого словаря по некоторой предметной области. Для формирования тезауруса используется тематический текст следующего вида (словарь):
ТЕРМИН_1 -г- определение термина_1, состоящее из нескольких связных предложений на естественном языке, 0
ТЕРМИН2 4- определение термина_2, состоящее из нескольких связных предложений на естественном языке. 0
ТЕРМИИ_Ы определение термина_1Ч, состоящее из нескольких связных предложений на естественном языке. 0 ? индексный файл для поисковой функции voc.idx ? частотный файл использования терминов voc.frq ? набор файлов гипертекстовых документов для работы визуального интерфейса системы. Возможные дефекты при составлении глоссария проявляются в следующем виде:
? Необъясненные термины - термины, которые не удалось связать с другими терминами из этого же словаря. Наблюдаются в случае разорванности терминологического базиса (объяснение терминов через термины, значение которых не объяснено, или через синонимы).
? Сильная связность терминов — ситуация, при которой не удается сформировать дерево с объясняемым термином в качестве корневого узла, а формируется сеть, в которой большинство элементов (терминов) связаны по принципу «каждый с каждым».
? Зацикленные области - области связных терминов, перемещаясь по связям внутри которых нельзя перейти на другие области. Предельный случай зацикленной области - два термина, объясняющие друг друга.
Эксперименты с различными словарями показали различную степень упорядоченности и организованности терминологической базы предметных областей. Так словари по медицине, психологии, математике [33] показали очень хорошую внутреннюю структуру при практически полном отсутствии дефектов.
Большое количество необъясненных терминов дали узкоспециализированные или неполные словари, так как они предполагают наличие у потребителя данных некоторых априорных знаний о предметной области и объясняют термины через другие термины, отсутствующие в самом словаре (словарь по авиации).
Большое количество зацикленных областей дал при обработке энциклопедический словарь [50], что связано с отсутствием профессиональной направленности и наличием внутри единого словаря замкнутых предметных терминологий- Одновременно с этим (вследствие обозначения одним термином разных понятий в разных предметных областях) в энциклопедическом словаре происходит некорректное объяснение терминов одной предметной области через сходные по написанию термины другой предметной области.
Пример сильной связности терминов был получен при обработке словаря по юриспруденции, что связано со спецификой самой предметной области,
В связи с тем, что метод не учитывает национальные особенности языков (исключая морфологический анализ), а использует структуру текста, которая присуща очень многим языкам, эксперименты были проведены с англоязычным словарем Вебстера (Webster Dictionary). Эксперимент показал применимость описанного подхода для английского языка, а также очень хорошее качество построения Webster Dictionary, что подтверждает корректность его выбора в качестве основного словарного базиса при написании научных статей.
Модель семиологической системы
Экспериментальная версия системы подготовки данных представляет собой интегрированный программный комплекс (VSlovarParser), обеспечивающий выполнение всех этапов алгоритма.
Ниже приводится сокращенное описание алгоритма автоматизированного формирования глоссария заданной предметной области.
1 Формирование общего словаря из антологии для создания множества всех слов во всех формах.
2, Формирование списка терминов - анализ антологии (текстов по предметной области) с целью выделения терминологического базиса для предметной области. Предварительно сформированное множество терминов уточняется на стадии статистической обработки. Отдельным проходом алгоритма выделяются термины, состоящие из нескольких слов.
3. Морфологическая обработка словаря и приведение слов в нормальную форму на основании общего словаря с помощью модуля морфологического анализа
4. Формирование семантической сети - многопроходный алгоритм, формирующий множество связей между элементами списка терминов на основании контента и структуры текстов. Реализация процедуры принятия решения включения новой связи использует механизм сравнения слов в начальных формах, причем приоритет отдается терминам, состоящим из нескольких слов,
5. Определение ранговых распределений для списка терминов -формирование индексов частоты использования терминов в обрабатываемой предметной области и частоты использования связей между терминами [98] 6. Реструктуризация семантической сети на основе ранговых распределений терминов, словаря стоп-слов; уточнение состава базиса предметной области. Также на этом этапе проводится формирование иерархии связей на основе опциональных параметров, задающих количество уровней иерархии и ограничение количества элементов на одном уровне, а также стратегию фильтрации при ограничениях. Ограничения влияют только на визуализацию и позволяют более наглядно представить термины, являющиеся центрами большого количества связей.
7. Формирование визуального представления системы путем заполнения интерфейсно-независимых xml-ориентированных шаблонов для последующего формирования конечного информационного ресурса.
Для функционирования поисковых возможностей также формируется индексный файл.
В результате работы система формирует следующие объекты: множество всех терминов, используемых в данной предметной области, ранжированных по степени информативности с толкованием их значения (в множестве исключается наличие стоп-слов и служебных слов языка), семантическую модель предметной области, описывающую отношения между понятиями, список терминов, которые не удалось включить в семантическую модель, т.е. связать с другими из-за недостаточности соответствующей информации в тексте.
Визуальное представление (рис. 17), формируемое системой, является аналогом иероглифической записи, которая позволяет воспринимать содержимое текста не последовательно, а одномоментно. Это позволяет воспринимать структуру связей предметной области в комплексе, притом именно в том, который соответствует связям, сформированным специалистом или разработчиком системы, а не формировать его самостоятельно при прочтении груды технической документации.
Семиологический подход, включающий принцип идентификации неразличимости Лейбница, принцип размножение сущностей Фреге и принцип этерификации Тойнби [5], не противоречит основам функционирования компьютерных систем. Частичное присутствие некоторых компонентов дает различные виды информационных систем. Реализация всех компонентов дает семиологическую информационную систему. Важно отметить, что информационные системы, а в том числе семиологическая информационная система, не дает знаний человеку. Главной, хотя и не единственной их целью является переупорядочение данных и представление их в удобной для восприятия человека форме. Интерпретирование же данных и накопление знаний целиком остается прерогативой человеческого мышления.
Аналитическое самореферирование текстов
Еще раз подчеркнем, что у болыпиства игроков есть складские запасы и есть товар в розничных точках, что позволит сетям функционировать в нормальном режиме 2-3 недели. Рост цеп обусловлен неясностью на рынке, подогреванием негативных настроений со стороны правоохранительных органов (чего стоят высказывания о том, что конфискованный товар будет продаваться в короткие сроки, хотя даже решения суда по этому делу не было). Рост цен обусловлен исключительно неразрешенностью ситуации, которая вносит нестабильность и не позволяет прогнозировать приблизительные сроки окончания возможных судебных дел- Если бы рынок получил информацию о том, что весь конфискованный товар будет продан третьим лицам, уничтожен, отправлен в Монголию или сделано еще что-то, то элемент неопределенности исчез, и компании бы начали работать в режиме приближенном к нормальному. Пока ситуация неразрешена, ждать улучшения рыночной конъюнктуры нельзя, это единственный и самый большой негативный фактор сегодня. Справедливости ради стоит отметить, что не все сети пошли на повышение цеп. В отдельных несетевых салонах и небольших сетях стоимость телефонов не изменилась. Явление носит временный характер, эти сети не устоят уже в ближайшие дни и пойдут вслед за другими игроками на повышение цен. С 22 августа коррекция цен произойдет на уровне в 15-20 процентов от докризисного. Дальнейший рост цен не только вероятен, но и обусловлен тем, что на рынке ощущается умеренный дефицит, он может увеличиваться. Общий рост цен возможен до уровня в 40-50 процентов.
К сожалению, Россия перестанет быть страной с одним из самых привлекательных рынков для мобильных телефонов, с низкими ценами. Общий рост цен даже после урегулирования текущего кризиса составит минимум 30-35 процентов и будет обусловлен желанием компаний максимально избавиться от оптового направления, компенсировать потери, связанные с конфискацией товара (а эти компании контролируют половину рынка). Рост серого рынка неизбежен и тут надо понимать, что это будут спорадические чемоданные перевозки. Розничная стоимость Sony Ericsson К750І в Германии составляет сегодня около 320 долларов, в то время как в Москве за него просят порядка 550-650 USD. Нехитрый подсчет показывает, что, продавая эти аппараты даже по 420 долларов, перевозчик не останется в накладе. Провезти 10 телефонов в коробках в чемодане не составит труда, этим около 10 лет назад занимались многие. Собственно вот так рынок и будет жить. Объем чемоданных перевозок в сентябре при сохранении текущей ситуации может составить порядка 20 процентов от всего рынка, это очень много.
Рост цен скажется па объемах продаж, как, впрочем, и тот факт, что количество компаний, ориентирующихся только на розницу, возрастет. Мы будем наблюдать замедление роста рынка, в текущем году он может составить 30-31 миллион терминалов, а не 32-34 прогнозируемых ранее. Стоимость входного билета для тех, кгго не имеет сегодня мобильного телефона, также возрастет, и это негативно скажется на показателях операторов (но и не окажет сильного влияния, основной ресурс уже выбран). Любопытно, что следует ожидать роста цен и на рынке б.у, оборудования, он выглядит логичным. Кризис затронет и страны СНГ, в первую очередь Украину, Первоначально изменения рынка не будут заметны, но затем произойдет подтягивание рынка на более высокие цеповые уровни. Что делать в данной ситуации? Если вы покупатель, то вам стоит, наверное, подождать с покупкой мобильного телефона или найти сегодня же салон с неизменившимися ценами, В дальнейшем снижение цен возможно на некоторые интересные модели, но следует понимать, что в целом рынок вряд ли сильно опустится. Новинки, которые должны были появиться в августе, будут на рынке в сентябре, их стоимость будет значительно выше прогнозировавшейся ранее, на них будут зарабатывать деньги.
Если вы торгуете телефонами, то вы сами знаете что делать (это ремарка для крупных компаний). Для тех, кто не является официальным дистрибьютором, стоит проводить взвешенную политику, не раздувать складские запасы и сосредоточиться на розничных продажах. Не стремитесь сделать максимальную наценку, организуйте нормальный товарооборот, вы сможете приобрести в оптовых каналах телефоны, хотя возможно придется сменить поставщика. Уже на этой неделе на рынок поступает до 80 процентов телефонов от требуемых количеств, телефоны не получит независимая розница, мелкие продавцы, по компании с числом салонов от 10 и выше смогут найти товар (вопрос цеп думаю для всех понятен). Для вас не играет роли, как попал товар на рынок, у вас есть сертификаты, плюс документы о покупке телефонов у вашего партнера. Поэтому не стоит переживать, если кто то из контролирующих органов попытается воспользоваться ситуацией, можете смело отстаивать свои права.
Напоследок хочу отметить, что рынок живет, и кризис, несмотря на всю серьезность, не может его обрушить. Те изменения, которые произойдут, быть может, скажутся па оборотах компаний, но их прибыль при этом возрастет. Так, что стоит в негативном находить и положительные стороны.
P.S. После какого-либо разрешения ситуации или хотя бы при появлении признаков этого мы подробно напишем о кризисе во всех его аспектах. Но раскачивать, подобно другим, общую лодку мы не собираемся, истерии на рынке хватает и без нашего участия.
Текст, полученный после применения алгоритма аналитического самореферирования (значение порога фильтрации равно 6), объема текста 13% от исходного размера.
В первый день повышение цен составило порядка 10 процентов, затем достигло 15-20 процентов, в отдельных сетях рост даже составил 25 процентов, а отдельные позиции выросли в несколько раз»
Чем обусловлен рост цен? Коммерческих предпосылок для такого роста цен, за исключением случая двух крупнейших розничных игроков, нет.
Плюс компания получила столь необходимую передышку: за время падения розничных продаж (от 30 до 60 процентов в зависимости от сети после изменения цен) компания сможет восстановить складские запасы, постепенно нормализовать ситуацию.
Рост цен обусловлен неясностью на рынке, подогреванием негативных настроений со стороны правоохранительных органов (чего стоят высказывания о том, что конфискованный товар будет продаваться в короткие сроки, хотя даже решения суда по этому делу не было).
Рост цен обусловлен исключительно неразрешенностью ситуации, которая вносит нестабильность и не позволяет прогнозировать приблизительные сроки окончания возможных судебных дел,