Содержание к диссертации
Введение
ГЛАВА 1. Полнотекстовый документооборот на промышленном предприятии металлургического комплекса и проблемы создания эффективных поисковых машин 14
1.1. Характеристика полнотекстового документооборота на металлургическом предприятии 14
1.2. Архитектура систем документооборота и роль поисковой составляющей 16
1.3. Основные принципы работы поисковых систем 17
1.3.1. Поисковые системы и базы данных 17
1.3.2. Поиск информации и поиск данных І 8
1.3.3. Классические информационно-поисковые системы 20
1.3.4. Критерии релевантности и пертинентности 22
1.3.5. Оценка эффективности поиска 24
1.4. Проблемы и пути развития ИПС 26
1.4.1. Лингвистические проблемы организации ИПС 26
1.4.2. Направления развития ИПС 28
1.5. Методы преобразования запросов 33
1.5.1. Расширение запросов (добавление ключевых слов) 34
1.5.2. Обратная связь как средство повышения релевантности 36
1.6. Поведение пользователей 38
1.7. Представление результатов поиска 40
1.8. Сортировка результатов поиска 40
1.8.1. Определение релевантности по рейтингу 41
1.8.2. Другие подходы к сортировке 43
1.8.3. Группировка по лексическому значению 43
1.9. Интерактивные методы преобразования запросов 45
Ї.9.І. Фокусировка запроса 46
1.9.2. Расширение полноты поиска 49
1.9.3. Лексические онтологии 50
1.10. Поиск по контексту 51
1.11. Интерфейсные (визуальные) модели взаимодействия пользователей с ИПС... 51 1.11.1. Тематические сети TopNet 52
1.11.2. Самоорганизующиеся тематические карты TopSOM 53
1.12. Патентный поиск 55
1.12.1, Традиционный поиск патентной информации 56
1.12.2. Поиск патентной информации в сети Интернет 56
1.13. Выводы... 56
ГЛАВА 2. Диалоговые методы фокусировки и расширения поиска в системах документооборота на предприятии металлургического комплекса 60
2.1. Лингвистические технологии, основанные на лексическом значении 60
2.2. Сортировка результатов поиска 61
2.3. Интерактивные методы преобразования запросов 63
2.3.1. Фокусировка запроса 63
2.3.2. Расширение 66
2.3.3. Переформулирование 61
2.3.4. Лексические онтологии 61
2.4. Формальная постановка задачи 69
2.4.1. Задача поиска в терминах множеств 69
2.4.2. Задача поиска как задача принятия решений 71
2.4.3. Диалоговый алгоритм решения задачи поиска 74
2.5. Реализация ИПС в системе документооборота металлургического предприятия76
2.5.1. Преимущества над традиционными поисковыми системами 76
2.5.2. Алгоритмы работы с интерфейсным (диалоговым) блоком 80
2.5.3. Структура программного обеспечения 81
2.5.4. Настройки ИПС 83
2.6. Выводы 86
ГЛАВА 3. Навигация в пределах лексической онтологии с учетом частотных факторов в задачах патентного поиска 88
3.1. Проект WordNet 88
3.2. Использование онтологии для переформулирования и вербализации запросов в поисковых системах 90
3.3. Частотные факторы 92
3.3.1. Частотная функция узла 93
3.3.2. Вес поддерева 97
3.3.3. Число подчиненных частотных узлов 99
3.4. Способы визуализации частотных факторов 100
3.5. Обсуждение результатов 105
3.6. Выводы 107
ГЛАВА 4. Оценка эффективности предложенных подходов 108
4.1. Целесообразность применения новых поисковых технологий в системах документооборота 108
4.2. Эффективность систем документооборота 109
4.3. Эффект от повышения качества патентного поиска 111
4.4. Влияние новых возможностей поиска на рекламу в сети Интернет 111
4.5. Выводы 122
Заключение 123
Список литературы 125
- Характеристика полнотекстового документооборота на металлургическом предприятии
- Лингвистические технологии, основанные на лексическом значении
- Использование онтологии для переформулирования и вербализации запросов в поисковых системах
- Целесообразность применения новых поисковых технологий в системах документооборота
Введение к работе
Последнее десятилетие ознаменовано феноменальным прогрессом в области телекоммуникаций, информатики, вычислительной техники, что в свою очередь вызвало бурный рост объемов информации, хранящейся в электронном виде. При этом, если крупные массивы структурированных данных накапливаются уже десятилетия, то только сейчас объем текстовых электронных документов многократно превзошел объемы данных.
В настоящий момент большая часть документов на современном металлургическом предприятии, а также в других областях деятельности хранится именно в электронном виде. На предприятиях наиболее широко распространены следующие типы электронных документов: договора, письма, предложения, приказы, конструкторская документация, различные технологические инструкции, бухгалтерские документы.
Месячный оборот текстовых документов крупного металлургического предприятия может составлять десятки тысяч документов. Основные категории документов, это:
нормативно-правовая база;
организационно-распорядительные документы;
внутренний документооборот;
взаимодействие с контрагентами.
Документы хранятся в электронном виде как в различных информационных системах (справочные системы, системы автоматизации документооборота и проектирования), так и в виде отдельных файлов. При этом следует отметить, что, как и в информационных системах, так и в средствах поиска файлов, как правило, присутствует только поиск по ключевым словам, зачастую даже без учета морфологии.
Очень остро стоит вопрос поиска по полнотекстовой конструкторско-технологической документации в проектных организациях металлургической отрасли, например, таких как ОАО «Гипромез». Переход на новую систему стандартизации в связи со вступлением в ВТО ставит вопрос о кросс-лингвистическом поиске и создании двуязычной терминологической системы, обладающей современными средствами поиска и навигации.
Прогресс в области телекоммуникаций, снижение стоимости передачи и хранения данных вызвали бурный рост сети Интернет и объемов информации в ней, а также сделали возможным организацию удаленного доступа к различным библиотечным ресурсам, таким как собственно электронные библиотеки, различные подборки статей, базы знаний и т. д.
Такой рост объема информации, происходящий одновременно с ростом информационных потребностей пользователей и общей тенденцией к понижению требований к их квалификации в области организации поискового процесса, ставит старую проблему эффектив-
ного информационного поиска остро как никогда ранее.
Еще одной областью применения полнотекстовых поисковых машин является патентный поиск. Сейчас в Интернет доступен поиск по крупнейшим базам данных патентов России, США, Европы. Однако современные системы предоставляют поиск только по ключевым словам, то есть для того, чтобы убедиться в новизне своей идеи автор вынужден перебирать различные варианты описания патента, самостоятельно подбирая синонимы, комбинируя ключевые слова. Это нелегко проделать даже для родного языка, поиск же на других языках становится еще более затруднительным.
Необходимо отметить, что, несмотря на непрерывно идущие исследования в области совершенствования поисковых технологий (о чем косвенно может свидетельствовать постоянное появление новых поисковых машин (ПМ) в сети Интернет), нельзя сказать, что поставленная проблема близка к своему решению.
Согласно многочисленным исследованиям, более 50 процентов пользователей заканчивают сеанс работы с поисковой системой на первой же странице, просматривая обычно 10-20 ссылок. При этом, как правило, лишь 2-3 ссылки содержат действительно полезную для пользователя информацию. Можно предположить, что значительная доля этих пользователей уходят с сайта неудовлетворенными результатами поиска. Неэффективный поиск в Интернет приводит к огромным расходам на лишний трафик, который несут как пользователи (в лице предприятий, которые оплачивают использование Интернет в рабочих целях), так и владельцы сайтов, на оборудование которых создается непроизводительная нагрузка такими пользователями. По различным оценкам 50-70% навигационного трафика в Интернет приходится на просмотр ошибочно найденных страниц.
Эта проблема порождает другую. Доход многих информационных ресурсов зависит от эффективности демонстрируемой на их страницах рекламы, таким образом, реклама, продемонстрированная не тому пользователю, означает убытки или дополнительные расходы рекламодателя.
Одной из причин, не позволяющих изменить эту ситуацию, является то, что большинство исследований и способов совершенствования ПМ сфокусировано на развитии традиционных (разработанных еще до современного уровня развития вычислительной техники и проникновения ее во все сферы деятельности) способов индексации текстов и ранжирования результатов поиска.
Итак, в настоящий момент для поисковых машин очевидны следующие области применения:
поиск в Интернет;
поиск в системах документооборота предприятий;
- патентный поиск;
- поиск в хранилищах текстовой информации (новости, научные ресурсы).
Таким образом, актуальность работы обуславливается огромным количеством доступной информации и отсутствием адекватных инструментов ее структурирования, поиска и навигации. К настоящему моменту накоплен достаточный объем знаний в области компьютерной лингвистики, поисковых технологий, разработки поисковых машин, построения пользовательских интерфейсов, кроме того, производительность современной вычислительной техники многократно превосходит ту, которая была в момент начала разработки большинства имеющихся поисковых систем. Это позволяет приступить к созданию поисковых систем, основанных на качественно новых принципах, в частности на интерактивном взаимодействии с пользователями через удобные интерфейсы.
Цель работы заключается в исследовании различных диалоговых (интерфейсных) механизмов поиска, основанных на изменении поисковых запросов, разработка и апробация диалоговых моделей фокусировки и расширения поиска в системах документооборота металлургических предприятий, а также исследование возможностей применения частотных зависимостей для помощи пользователям в формулировании запросов при патентном поиске.
Для достижения поставленных целей были решены следующие задачи:
проанализированы имеющиеся подходы к организации интерфейса поисковых систем, выявлены их узкие места и направления развития;
предложены диалоговые решения для повышения эффективности поиска, основанные на методах фокусировки, расширения и переформулирования запроса;
предложены диалоговые решения для повышения эффективности поиска, основанные на частотных моделях;
предложена формальная постановка задач расширения и фокусировки поиска, создано программное обеспечение для их решения;
проведена оценка эффективности предложенных методов разрешения многозначности, фокусировки поиска, навигации по онтологиям при использовании в системах документооборота металлургических предприятий, патентного поиска, сети Интернет.
Научная новизна работы заключается в:
формальной постановке задачи расширения и фокусировки поиска в интерфейсном модуле поисковой машины, основанной на использовании лексического значения;
интерфейсной модели поисковой машины, основанной на технологиях разрешения многозначности;
подтверждении возможности и эффективности применения частотных показателей при работе с лексическими онтологиями;
- математическом описании различных частотных факторов для использования в
пользовательском интерфейсе.
Практическая ценность работы заключается в следующем:
выполнена формальная постановка задачи построения пользовательского интерфейса, основанного на технологиях разрешения многозначности, и разработке диалогового алгоритма фокусировки и расширения запроса;
создана математическая модель частотных факторов при навигации по онтологической системе, которая позволяет строить пользовательские интерфейсы для различных сфер применения;
использование результатов исследования при построении информационно-поисковой составляющей систем полнотекстового документооборота промышленного предприятия в металлургическом комплексе, должно привести к сокращению потерь и экономии оборотных средств;
разработаны новые интерфейсных принципы с использованием лексических онтологии, которые позволяют строить более эффективные системы патентного поиска
использование новых интерфейсных моделей при создании информационно-поисковых систем в Интернет, имеет потенциал сокращения общего объема передаваемой информации на 10%;
использование разрешения многозначности может повысить отдачу от рекламы при размещении платных ссылок в результатах поиска в сети Интернет в 2-3 раза за счет лучшей фокусировки.
Методы исследования.
При выполнении работы использовались методы:
алгоритмического моделирования;
структурного программирования;
реляционная модель построения баз данных;
метод частотного анализа текстов;
метод частотного анализа запросов к поисковым системам;
методы семантического анализа текстов, основанные на разрешении лексической многозначности;
методы системного анализа и принятия решений.
Результаты работы были практически реализованы в виде программных прототипов пользовательских интерфейсов. Методы организации интерфейса к лексической онтологии на частотных принципах приняты к внедрению в учебном процессе МИСиС для обучения по курсу «Лингвистические основы информатики».
Работа производилась последующим направлениям специальности 05.13.01:
теоретико-множественный и теоретико-информационный анализ сложных систем;
методы и алгоритмы интеллектуальной поддержки при принятии управленческих решений;
визуализация, трансформация и анализ информации на основе компьютерных методов обработки информации.
Апробация работы. Результаты работы докладывались на следующих научных конференциях:
Международный семинар Диалог'2002, Протвино, 6-11 июня 2002 г.;
Когнитивное моделирование в лингвистике'2002, п. Дивноморское, сентябрь 2002 г.;
International Workshop Speech and Computer (SPECOM'2003), Москва, 27-29 октября 2003 г.;
Международный семинар Диалог'2003, Протвино, 11-І 6 июня 2003 г.
Работа выполнялась при частичной поддержке Российского Фонда Фундаментальных Исследований (фант РФФИ № 05-07-90939, «Система онтологического типа для поиска и обработки текстовой информации»).
Результаты работы приняты к внедрению и использованию при создании информационно-аналитических систем разработки ЗАО «Сфера».
Теоретические вопросы диссертации освещаются в следующих научных публикациях:
Поляков В.Н., Бодров Д. А., Точин А. В. Интерактивные методы фокусировки и Расширения поиска в интеллектуальной поисковой машине // Компьютерная лингвистика и интеллектуальные технологии: Тр. Международного семинара Диалог'2002. (Протвино, 6-11 июня 2002 г.): В 2 т. / Под ред. А. С. Нариньяни. — М.: Наука, 2002. Т. 2: Прикладные проблемы. Стр. 438-449.
Бодров Д. А., Поляков В.Н. Проблемы создания эффективных поисковых машин (обзорная статья) // Обработка текста и когнитивные технологии: Сборник (Вып. 7) / Под ред. Соловьева В. Д. — Казань: 2002. Стр. 8-55.
Поляков В. Н., Бодров Д. А. Навигация в пределах лексической онтологии с учетом частотных факторов // Компьютерная лингвистика и интеллектуальные технологии: Тр. Международного семинара Диалог'2003. (Протвино, 11-16 июня 2003 г.) / Под ред. И. М. Кобозевой, Н. И. Лауфер, В. П. Селегея. — М.: Наука, 2003. Стр. 554-568.
Bodrov D. A., Polyakov V. N. Frequency Factors For Navigation through Lexical Ontology // Proceedings of the International Workshop Speech and Computer (SPECOM'2003), Moscow,
Russia, October 2003. — M: 2003. Стр. 77-87.
Бодров Д. А,, Кожитов С. Л., Поляков В. Н. Автоматизация текстового оборота на металлургическом предприятии и новые поисковые технологии // Перспективные технологии и оборудование для материаловедения и наноэлектроники: Материалы семинара / Под ред. проф. Л, В. Кожитова, проф. В. К. Карпасюка. — М.: МГИУ, 2006 — 741 с.
Бодров Д. А., Кожитов С. Л., Поляков В. Н. Задачи интерактивной обработки поисковых запросов в теоретико-множественной постановке. // Известия Саратовского университета. Новая серия. Серия «Математика. Механика. Информатика» — Саратов: 2007. Том 7. Выпуск 1. Стр. 78-83.
Структура диссертации. Работа состоит из введения, четырех глав, заключения, списка литературы.
В первой главе дается анализ проблематики в области полнотекстового документооборота на промышленном предприятии металлургического комплекса.
Даются качественные характеристики полнотекстового документооборота на промышленном предприятии металлургического комплекса. Формулируется проблематика поиска и навигации в массиве документов.
В главе описано принципиальное устройство системы электронного документооборота на металлургическом предприятии и показано место в ней поисковой составляющей.
Производится анализ современного состояния ИПС. В главе освещаются основные критерии оценки качества поисковых машин, освещаются последние исследования в этой области.
Дается краткое введение в проблематику информационно поиска. Проводится грань между информационным поиском и поиском по базам данных. Излагается основная терминология в области информационного поиска. Далее описываются основные принципы работы классических информационно-поисковых систем.
В первой главе также указываются основные общепринятые критерии оценки качества информационного поиска, и указывается разница между двумя ключевыми показателями качества — релевантностью и пергинентностью находимых поисковой машиной документов.
Релевантность определяется как формальный признак соответствия документу поисковому запросу, а пертинентность— как соответствие документа информационной потребности пользователя. Следует отметить, что современные поисковые системы достаточно далеко продвинулись в поиске релевантных документов, однако, добиться повышения перти-нентности можно, только помогая пользователю в более качественной формулировке запроса.
В главе описаны основные проблемы, которые встают перед разработчиками поиско-
вых систем, в том числе и для металлургии. Среди основных проблем:
строй русского языка со сложными правилами словообразования и словоизменения, откуда следует необходимость сложной морфологической обработки;
явление многозначности (омонимии): многие металлургические термины совпадают терминологией других отраслей и областей знаний, а также с распространенными бытовыми словами.
После этого произведен анализ основных направлений и путей развития современных информационно-поисковых систем, среди которых:
поиск по рубрикатору;
поиск по ключевым словам;
поиск по естественно-языковому запросу;
поиск по образцу текста;
поиск с использованием тезауруса;
поиск по сценарию.
Далее исследованы различные перспективные подходы к информационному поиску, основанные на:
различных способах переформулирования запроса;
сортировке и группировке результатов поиска;
интерактивном взаимодействии с пользователями;
графическом представлении результатов поиска.
Также в главе дано краткое введение в проблему патентного поиска и рассмотрены следующие способы поиска патентной информации:
традиционные методы;
поиск в сети Интернет.
В настоящий момент в сети Интернет доступны крупнейшие мировые базы данных патентов: России, США, Европы, однако поиск осложняется отсутствием адекватных поисковых механизмов.
Во второй главе описан предлагаемый подход к интерактивным методам фокусировки и расширения поиска в системах документооборота на металлургических предприятиях.
В главе описаны предлагаемые методы фокусировки и расширения поиска среди которых:
фокусировка на основе тематических и коммуникативных кластеров;
фокусировка по устойчивым словосочетаниям;
расширение на основании списка словообразований;
расширение по аббревиатурам;
переформулирование запросов;
навигация по онтологиям;
После содержательного описания методов на естественном языке выполнена формальная постановка задачи фокусировки/дефокусировки запроса. Для формальной постановки задачи использованы элементы теории множеств и отношений.
Также в главе задача интерактивного поиска представлена как задача принятия решений в нечеткой среде и введены критерии качества информационного поиска.
На основе выполненной постановки задачи разработан алгоритм ее диалогового решения путем последовательного уточнения поискового запроса пользователем.
В главе показано принципиальное отличие диалога с предлагаемой ИПС от механизмов, предлагаемых традиционными поисковыми системами, и отмечено, какие особенности человеческой психологии позволяют делать выводы об эффективности предложенных методов.
Далее приводятся обобщенные алгоритмы функционирования ИПС в системе документооборота металлургического предприятия и принципиальное устройство.
В рамках главы была разработана реляционная схема базы данных, описывающая множества, выявленные в процессе формальной постановки задачи и отношения между ними.
Для отработки предложенных методов в рамках главы было разработано специальное программное обеспечение интерактивной поисковой машины для систем документооборота металлургических предприятий.
В третьей главе произведено исследование возможности применения онтологического дерева для формулирования поисковых запросов с целью проведения патентного поиска.
В главе выдвинуты несколько предложений по организации частотно-зависимых онтологических интерфейсов для различных категорий и информационных потребностей пользователей.
В рамках главы разработана система показателей для отображения частотного фактора в онтологическом дереве:
частотная функция узла;
вес поддерева;
число подчиненных частотных узлов.
Для этих показателей разработаны различные математические методы оценки и рекомендации по их применению.
Для исследования влияния методов на отображение частотного фактора в пользовательском интерфейсе разработано специализированное предложение и произведен частотный анализ корпуса текстов, С помощью приложения произведен анализ различных способов визуализации частотных факторов в интерфейсе и сделаны выводы по их применимости.
В четвертой главе приведены способы оценки эффективности применения систем электронного документооборота, факторы, оправдывающие применение усовершенствованных механизмов патентного поиска, а также пояснено, почему применение предложенных механизмов ориентировано в первую очередь на информационные системы предприятий (в том числе металлургических). Также в главе приведена оценка влияния механизмов разрешения многозначности в поисковых системах в сети Интернет на эффективность рекламы и объемы непроизводительного трафика.
Характеристика полнотекстового документооборота на металлургическом предприятии
Полнотекстовый документооборот металлургического предприятия регламентируется следующими документами: - ГОСТ Р 6.30-2003. Унифицированные системы документации. Унифицированная система организационно-распорядитель ной документации. Требования к оформлению документов; - ГОСТР 51141-98. Делопроизводство и архивное дело. Термины и определения; - ГОСТ Р 50922-96. Защита информации. Основные термины и определения; - ГОСТ 6.10.4-84. Унифицированные системы документации. Придание юридической силы документам на машинном носителе и машинограмме, создаваемым средствами вычислительной техники. Основные положения; - ГОСТ 6.10.5-87. Унифицированные системы документации. Требования к построению формуляра-образца; - ГОСТ 17914-72. Обложки дел длительных сроков хранения. Типы, размеры и технические требования; - ГОСТ Р 34.10-2001. Информационная технология. Криптографическая защита информации. Процессы формирования и проверки электронной цифровой подписи.
В системах документооборота металлургических предприятий обращаются следующие категории документов: - государственные нормативные документы (законы, государственные стандарты, инструкции и т. д.); - внутренние распорядительные документы (приказы; инструкции, распоряжения); - внутренний документооборот (служебные и докладные записки, отчеты, протоколы и т. д.); - документы взаимодействия с контрагентами (письма, акты, договора и т. д.); - конструкторская и технологическая документация.
Нормативно-правовая база, как правило, представлена в виде отдельной специализированной системы (Консультант-Плюс, Гарант).
В настоящее время на металлургических предприятиях активно внедряются системы автоматизации документооборота [1,2,3,4, 5]. Среди наиболее популярных систем ЕВФРАТ-Документооборот, DocsVision, OPTiMA-WorkFIow, DIRECTUM. Это достаточно мощные системы управления потоками документов, содержащие, в том числе, и поисковую составляющую. Однако, как и в других современных информационных системах, в них в первую очередь поддерживается поиск по значениям полей регистрационных карточек, а также по отдельным словам и словосочетаниям, использованным в тексте документа.
Использование поиска по полям регистрационных карточек, требует от пользователей высокой дисциплины в заполнении этих полей, что на практике бывает достаточно редко.
Помимо корпоративной системы документооборота и справочной системы, на любом крупном предприятии имеется достаточное количество текстовой информации за пределами этих систем: - электронная почта; - файловые архивы; - другие системы (например, внутренние доски объявлений).
Отсутствие современных информационно-поисковых систем для предприятий металлургического комплекса приводит к снижению эффективности работы с документами в связи со следующими факторами: - поиск должен производиться в нескольких источниках; - грубый поиск по вхождению слов приводит к большому информационному шуму или ненахождению необходимых документов из-за неправильной подборки ключевых слов.
Проблема усугубляется высокой степенью многозначности для слов металлургической тематики, которые зачастую пересекаются как со словами общей лексики, так и с другими специальными значениями.
В результате пользователи не могут эффективно найти все интересующие их документы по определенному вопросу, что приводит к: - дополнительным временным и трудозатратам из-за необходимости повторно решать уже однажды разрешенные проблемы; - принятию неэффективных управленческих решений в силу неполноты информации; - появлению нежелательных издержек, связанных с выпадением из «поля зрения» ЛПР докумеїггов, содержащих важную информацию.
Например, в металлургии, которая характеризуется много номенклатурным производством, может возникать такая ситуация. Из-за большого числа контрактов, необходимо держать на учете множество параметров: сроки, объемы условия поставки и оплаты. По мере развития отношений с контрагентом, возникают дополнительные соглашения, разные систе
мы оплаты, включая бартер, финансовые и материальные задолженности. Для сверки дебиторской и кредиторской задолженности на конец отчетного периода, необходимо поднимать всю документацию, имеющую отношение к данному контрагенту. В существующих системах документооборота это вызывает определенные трудности.
Лингвистические технологии, основанные на лексическом значении
Проблема маркирования значения или проблема разрешения многозначности, является ключевой при решении многих прикладных задач, связанных с обработкой текстов на естественном языке. Существует несколько подходов к решению этой проблемы [17, 29, 30], однако нельзя сказать, что эта задача решена полностью и включена в арсенал общедоступных лингвистических технологий наравне с морфологическими анализаторами, синтаксическими парсерами и т. п. продуктами.
В связи с этим имеет смысл говорить о новом направлении — лингвистических технологиях, основанных на лексическом значении (meaning-based language technology).
Суть этой технологии заключается в маркировании значения слов в тексте и использовании этой информации наряду с другой лингвистической информацией при решении прикладных задач, таких как машинный перевод, поиск, реферирование, диалоговое общение и т. д.
Предлагаемое исследование базируется именно на такой концепции. При этом надо понимать, что маркирование значения может носить и неявный (для пользователя) характер. Именно так происходит, например при выборе словосочетания, тематического кластера или словообразования. В этих случаях пользователь использует интерактивный метод фокусировки значения, основываясь на своей интуиции, при этом он может и не подозревать о реальном лингвистическом содержании того или иного действия. На наш взгляд, разработчик поисковой системы не вправе требовать от рядового пользователя глубоких лингвистических знаний, поэтому, чем меньше система пытается эксплицировать эти глубинные процессы, тем выше качество диалога.
Для задачи поиска, влияние лексического значения на релевантность поиска трудно переоценить. При среднем коэффициенте многозначности существительных 3.51, можно оценить, что около семидесяти процентов обнаруженных ресурсов в существующих поисковых системах представляют собой информационный шум. Одним из фундаментальных вопросов, обеспечивающих высокую релевантность поиска, является продуманная стратегия сортировки обнаруженных ресурсов. При этом необходимо соблюдать баланс между объемом предоставляемой пользователю информации и возможностью её восприятия.
Согласно исследованиям, 58 процентов пользователей заканчивают сеанс работы с поисковой системой на первой же странице, просматривая обычно 10-20 ссылок. Можно также предположить, что значительная доля этих пользователей уходят с сайта неудовлетворенными результатами поиска.
Стандартный подход к сортировке результатов заключается в расчете рейтинга ресурса в соответствии с частотой использования слова в тексте. При этом могут использоваться дополнительные характеристики ресурсов, например, количество ссылок на ресурс, наличие экспертного заключения, наличие ресурса в директории и др. Для запросов по двум и более ключевым словам часто используют такую характеристику как расстояние между словами в тексте. Можно также ориентироваться на морфологические характеристики слова в тексте.
Еще одна общая проблема, с которой приходится сталкиваться разработчикам поисковой системы, это ранжирование различных типов запросов, составленных на основе одного и того же списка ключевых слов.
Выделяют следующие типы запросов по двум и более ключевым словам: - фраза — предполагает, что поисковый образ ищется в тексте с абсолютно точным совпадением, - И-запрос — в тексте присутствуют оба слова запроса; - ИЛИ-запрос — в тексте присутствуют как минимум одно из слов запроса; - комбинированный И/ИЛИ-запрос — для количества слов свыше двух.
Наиболее продуктивным способом сортировки является такой, который совпадает с порядком их предыдущего перечисления, т. е. сначала список рассматривается как фраза, затем как И-запрос и т. д., однако существуют поисковые системы, в которых применяются другие способы. Например, в ПМ Google не предусмотрена возможность поиска по фразе, а в поисковой машине Go по умолчанию список ключевых слов рассматривается как ИЛИ-запрос,
Подход, принятый в ИПС в системе документооборота металлургического предпри ятия, заключается в том, что в силу заведомой неоднозначности по лексическому значению список, отсортированный по частоте слова, будет иметь малую релевантность (примерно 30 процентов), следовательно, необходимо применить способ сортировки с предварительной группировкой по значениям слов.
При этом предполагается, что существует база данных лексических значений, по которой проиндексированы все (или большинство) лексем в тексте. А уже затем, необходимо отсортировать эти группы в частотном порядке по частоте встречаемости лексемы. В рамках группы, ресурсы, объединенные одним значением, в свою очередь сортируются по частоте встречаемости. В качестве дополнительной информации такая группа ресурсов снабжается текстом толкования или в случае отсутствия такового значением гиперонима из онтологического дерева. Это дает пользователю возможность делать осознанный выбор из списка значений и переходить уже к просмотру списка внутри группы. Этот метод фокусировки можно рассматривать в качестве базового, так как его применение позволяет поднять релевантность поиска в несколько раз.
Возникает естественный вопрос: «А как быть в случае, если мы имеем дело с запросом по двум и более ключевым словам?» Применение группировки по всем сочетаниям значений входящих в запрос ключевых слов приведет к комбинаторному взрыву и резко ухудшит эффективность восприятия информации. В ИПС в системе документооборота металлургиче ского предприятия предложено решение указанной проблемы, которое состоит в том, что вводится понятие ядерного слова. По умолчанию, таковым считается первое существительное в тексте запроса. Кроме того, пользователь имеет возможность указания ядерного слова в явном виде с помощью синтаксических средств языка запросов.
Например, в запросе «семинар #диалог» слово диалог указано как ядерное.
В качестве обоснования этого подхода можно привести тот аргумент, что в силу контекстной связи слов в подавляющем большинстве запросов маркирование лексического значения одного слова неизбежно ограничит список возможных значений остальных слов в запросе.
Использование онтологии для переформулирования и вербализации запросов в поисковых системах
Общая идея фокусировки запроса и расширения поиска заключается в том, что пользователь не всегда способен с первого раза сформулировать запрос с удовлетворяющей его степенью качества. В этом случае онтологии выступают средством переформулирования запроса, обеспечивающим достижение результата, т. е. необходимого качества запроса.
Типичным способом расширение поиска с помощью лексических онтологии является выбор когипонимов и/или гиперонима.
Существует область применения поиска и навигации по онтологиям, которая дает более весомые аргументы в их пользу. Речь идет о применении онтологии для патентного поиска. При поиске аналогов нового изобретения чрезвычайно трудно сформулировать название объекта. Тем более, невозможно предсказать всевозможные имена собственные, которые были использованы в качестве торговых марок образцов-аналогов или взяты по именам авторов изобретений, В этом случае онтология позволяет локализовать поиск определенным классом объектов, внутри которого уже можно осуществлять более детальный просмотр документов. Например, изобретатель нового типа двигателя может начать свой просмотр подходящих патентов, начиная с концепта engine (sense 1):
Engine — (motor that converts thermal energy to mechanical work) = aircraft engine — (the engine that powers and aircraft) = automobile engine — (the engine that propels an automobile) = auxiliary engine, donkey engine — (a small engine (as one used on board ships to operate a windlass)) = generator — (engine that converts mechanical energy into electrical energy by electromagnetic induction) = heat engine — (any engine that makes use of heat to do work) = reaction-propulsion engine, reaction engine - (a jet or rocket engine based on a form of aerodynamic propulsion in which the vehicle emits a high-speed stream) Далее, предположим, что речь идет о тепловых двигателях. heat engine — (any engine that makes use of heat to do work) = external-combustion engine -- (a heat engine in which ignition occurs outside the chamber (cylinder or turbine) in which heat is converted to mechanical energy) = internal-combustion engine, ICE - (a heat engine in which combustion occurs inside the engine rather than in a separate furnace; heat expands a gas that either moves a piston or turns a gas turbine) И если это — двигатель внутреннего сгорания, онтология приведет пользователя к более узкому классу конструкций двигателей, среди которых уже можно осуществлять просмотр патентов. internal-combustion enginet ICE - (a heat engine in which combustion occurs inside the engine rather than in a separate furnace; heat expands a gas that either moves a piston or turns a gas turbine) = diesel, diesel engine, diesel motor — (an internal-combustion engine that burns heavy oil) - four-stroke engine, four-stroke internal-combustion engine — (an internal-combustion engine in which an explosive mixture is drawn into the cylinder on the first stroke and is compressed and ignited on the second stroke; work is done on the third stroke and the products of combustion are exhausted on the fourth stroke) = gas engine - (an internal-combustion engine similar to a gasoline engine but using natural gas instead of gasoline vapor) = gasoline engine — (an internal-combustion engine that burns gasoline; most automobiles are driven by gasoline engines) = outboard motor, outboard — (internal-combustion engine that mounts at stern of small boat) = radial engine, rotary engine — (an internal-combustion engine having cylinders arranged radially around a central crankcase) = reciprocating engine -- (an internal-combustion engine in which the cranbhaft is turned by pistons moving up and down in cylinders) = rotary engine — (an internal-combustion engine in which power is transmitted directly to rotating components) = valve-in-head engine — (internal-combustion engine having both inlet and exhaust valves located in the cylinder head)
Частотный анализ корпуса запросов к поисковой системе Yandex, выполненный в [13] показал, что свыше 90 процентов запросов в тексте содержат имена существительные или именные группы. Это позволяет при навигации по онтологии ограничиться только именами существительными. В разработанной исследовательской прикладной программе Onto-Browser имеется фильтр по частям речи, позволяющий осуществлять такую возможность.
3.3. Частотные факторы
Организация лингвистических исследований, основанных на частотных зависимостях, являются весьма распространенным с прагматической точки зрения подходом, позволяющим сэкономить исследовательские ресурсы и одновременно охватить подавляющую часть явлений языка.
Базовая посылка настоящего исследования заключается в том, что в силу частотных закономерностей большинство пользователей поисковых систем интересует именно частотная лексика. При этом остается открытым вопрос, какие частотные зависимости являются полезными при организации интерфейса по лексическим онтологиям? Представляется, что на поставленный вопрос нет однозначного ответа.
Можно выделить следующие четыре подхода к маркированию лексики, позволяющие организовать частотно-зависимый онтологический интерфейс для различных категорий и информационных потребностей пользователей:
1. Маркирование лексики с максимальной частотой использования.
Можно предположить, что существует категория пользователей, которую не интересует специфическая и редкая, а вполне удовлетворяет общеупотребительная в рамках данного онтологического класса лексика. К такой группе относятся категории пользователей с ограниченным словарным запасом, о которых говорилось выше.
2. Маркирование лексики с минимальной частотой использования.
Некоторых пользователей не интересует информация, связанная с широкоупотребительной лексикой, а интересуют достаточно специфические слова. К этой категории относятся научный и инженерный персонал фирм и организаций.
Целесообразность применения новых поисковых технологий в системах документооборота
Хотя разрабатываемые в рамках проекта ИПМ технологии могут достаточно эффективно применяться в различных средах, в том числе и в сети Интернет, наибольшая результативность ожидается при их применении в рамках систем, ориентированных на специфические группы пользователей, такие как сотрудники предприятий или участники образовательного процесса. Обусловлено это несколькими основными причинами.
Использование технологий разрешения многозначности дает наилучшие результаты, если пользователи хорошо знакомы с терминологией предметной области и имеют четкие информационные потребности. Тем не менее, это не означает неэффективности применения технологий, основанных на использовании лексических значений, для пользователей не вполне хорошо знакомых с предметной областью. Некоторые вопросы работы с группами пользователей с различным уровнем знания языка и информационными потребностями приведены в работе [72].
Пользователи, хорошо знакомые с терминологией и имеющие четкие коммуникативные цели могут осуществлять навигацию по результатам поиска эффективнее, за счет правильного выбора из предлагаемых путей уточнения поискового вопроса, в том числе и когда различия между предложными вариантами достаточно тонкие.
Для эффективной работы с ИПС, построенной на предложенных принципах, пользователи должны быть нацелены на нахождение всех документов, отвечающих их информационной потребности. Однако для поисковых систем в сети Интернет большинству пользователей достаточно получить только какую-то часть документов, соответствующих их запросу.
Стоимость неэффективного поиска в системах документооборота, патентных системах и т. п. гораздо выше, чем при поиске в Интернет. Как правило, на основании только поиска в публичных сетях не принимается важных для деятельности предприятия решений, однако такие решения могут приниматься по результатам поиска в корпоративных информационных системах или базах данных патентных ведомств.
Использование новых поисковых технологий предполагает некоторое изменение стиля работы пользователей с поисковой системой по сравнению с традиционным, на что многие пользователи пойдут неохотно, если их информационные потребности недостаточно важны для них самих.
И, наконец, внедрение сложных поисковых технологий дороже, чем использование поисковых систем, основанных исключительно на поиске ключевых слов. Основными причинами этого являются: более высокие требования к вычислительной мощности и объемам дискового пространства компьютеров, используемых поисковой системой (в силу большего числа индексируемых признаков вырастает объем индексов и затраты их составление и поддержку), а также необходимость привлечения лингвистов на этапе построения семантических связей, формирования кластеров и т. д., а в процессе работы поисковой машины лингвисты должны контролировать результаты работы модулей машинного обучения.
Эффективность систем документооборота
Эффективность применения систем электронного документооборота не в последнюю очередь определяется экономией времени на выполнение рутинных операций по работе с документами. Однако, по мнению экспертов [72], оценка эффективности этих систем затрудняется отсутствием общепринятых критериев оценки производительности труда менеджеров, специалистов, секретарей, и других конторских служащих.
Различные категории работников тратят разное время на работу с документами. Одно из исследований [72], выявило, что: - секретарские работники тратят на разбор, регистрацию и распределение входящей корреспонденции, составление документов, отправку факсов и т. д, около 80% своего рабочего времени; - менеджеры уделяют выполнению своих непосредственных задач— разработке планов подразделений и контролю их исполнения, постановке задач, общению с внешними партнерами, решению кадровых проблем, обучению подчиненных — лишь около 30% своего рабочего времени; - около 25% рабочего времени сотрудников офиса, практически независимо от занимаемой должности распределяется между созданием и обработкой документов, поиском и подбором информации.
Для различных категорий работников экономический эффект от внедрения системы электронного документооборота определяется различными составляющими. Было бы заблуждением считать, что эффект определяется главным образом экономией на заработной плате. Автоматизация документооборота несет организации следующие выгоды [74]; - уменьшение количества претензий, не обработанных в срок, приводящих к выплате неустоек контрагентам или штрафов государству; - сокращение времени на рутинную работу с документами сотрудников подразделений, формирующих доход организации, что высвобождает время лиц, принимающих рсше ния, для работы над выработкой решений; - повышение исполнительской дисциплины — своевременная реализация распоряжений руководителей, как следствие, сокращение времени выпуска новой продукции на рынок.
Следует отметить, что внедрение системы документооборота приносит и другие положительные результаты [75, 76], однако они не связаны с качеством подсистемы поиска, поэтому здесь не рассматриваются.