Содержание к диссертации
Введение
1 Распределенные системы поддержки принятия решений 10
1.1 Понятие систем поддержки принятия решений 10
1.2 Типовые архитектуры систем поддержки принятия решений... 18
1.3 Анализ возможностей современных систем поддержки принятия решений 22
1.3.1 Система поддержки принятия решений - ПАРУС 22
1.3.2 Система поддержки принятия решений на платформе Oracle 26
Выводы по разделу 1 31
2 Модель распределенных систем обработки информации 33
2.1 Обобщенный алгоритм работы поисковых процедур в информационных подсистемах СППР 33
2.2 Модели информационного поиска 35
2.2.1 Общие сведения 37
2.2.2 PageRing 37
2.2.3 Алгоритм Клейнберга 39
2.2.4 Латентно-семантический анализ 40
2.2.5 Алгоритмы морфологического анализа текстов 42
2.2.6 Модель ранжирования с использованием весов сайтов 44
2.2.7 Модель распределенной системы на основе тезауруса 47
2.2.8 Модификация модели распределенной системы на основе тезауруса 50
2.2.9 Модель распределенной системы имеющей тезаурус с весами 54
2.2.10 Модификация модели распределенной системы имеющей тезаурус с весами 57
Выводы по разделу 2 59
3 Система поддержки принятия решения на основе Информационно- лингвистического базиса 61
3.1 Общие положения 61
3.2 Лексико-семантическая база данных типа WordNet для русского языка 62
3.3 Тезаурус SDK 69
3.4 Тезаурус RCO for Oracle 78
3.5 Синтез структуры распределенной системы поддержки принятия решений на основе тезауруса 83
3.6 Модификация синтеза структуры распределенной системы поддержки принятия решений на основе тезауруса 88
Выводы по разделу 3 95
4 Система информационно-лингвистическиого обеспечения распределенных систем поддержки принятия решений 97
4.1 Функциональная структура систем 97
4.2 Алгоритм работы поисковой подсистемы 98
4.3 Функциональные возможности подсистемы синтеза структуры распределенной системы поддержки принятия решений 106
4.4 Программная реализация поисковой подсистемы 108
4.5 Эксперимент 113
Выводы по разделу 4 117
Заключение 119
Список использованных источников 122
- Понятие систем поддержки принятия решений
- Обобщенный алгоритм работы поисковых процедур в информационных подсистемах СППР
- Лексико-семантическая база данных типа WordNet для русского языка
- Функциональная структура систем
Введение к работе
Информационные технологии и компьютерные информационно-поисковые сервисы занимают все более существенное место в современных системах поддержки принятия решений (СППР), так как существенно возрастает потребность лица, принимающего решения (ЛПР), в оперативно доступных документах, данных, информационно-аналитических материалах, позволяющих как улучшить, так и ускорить процесс принятия решений. Для корпораций, которые интенсивно взаимодействуют с зарубежными партнерами, характерен лавинообразный рост объемов разноязычной информации в корпоративной сети, что приводит к формированию мультилингвистической среды информационного взаимодействия пользователей сети. Поэтому неудивительно, что все больше внимания уделяется сетевым сервисам и ресурсам сети Internet, как обширному справочному инструменту, а также технологиям, активно использующим поисковых агентов. Растет количество информационных ресурсов, предоставленных для открытого доступа, включая растущие объемы тематико-ориентированной информации по всевозможным предметным областям. Так же развитие глобальной сети и широкие возможности подключения к ней обусловили увеличение числа корпоративных пользователей сети.
Следовательно, существующая распределенная архитектура систем поддержки принятия решений (включая ресурсы сети Internet), требует специальной организации информационного обеспечения СППР, включая разработку новых методов его эффективного формирования. В настоящее время существует ряд моделей и алгоритмов для представления информации в распределенных информационных системах. Частным случаем подобных систем являются информационно-управляющие системы, корпоративные информационные системы и, конечно, интенсивно развивающиеся системы поддержки принятия решения. Однако большинство моделей
распределенных информационных систем строятся на основе одноязычного представления информации или учитывают многоязычность неявно.
Поэтому, одним из перспективных направлений при разработке новых моделей и алгоритмов представления, поиска и обработки информации в распределенных СППР является применение многоязычных предметных словарей или мультилингвистических частотных тезаурусов. Следует отметить, что в современных информационных системах подобные словари-тезаурусы не имеют мультилингвистической частотной реализации.
Таким образом, диссертационное исследование направлено на решение следующей научной проблемы, включающей:
поиск тематико-ориентированной информации для формирования информационного базиса распределенных систем поддержки принятия решений;
анализ информационно-лингвистического базиса с целью определения принадлежности его документов к предметной области, учитывающей возникающие требования лица, принимающего решения;
анализ частотных характеристик при проведении поисковой процедуры и операций определения релевантности и ранжирования информации;
разработку алгоритмов обработки информации с использованием как обычных мультилингвистических тезаурусов, так и частотных;
разработку моделей и алгоритмов синтеза структуры распределенных систем поддержки и принятия решений.
Наличие данных проблем, которые охватывают весь процесс формирования информационного обеспечения, включая поиск и обработку информации, в распределенных системах поддержки принятия решений, обуславливает актуальность диссертационной работы.
Объектом диссертационного исследования является информационное обеспечение распределенных систем поддержки принятия решений.
Предмет исследований — модели и алгоритмы формирования информационного обеспечения и структуры распределенных систем поддержки принятия решений.
Цель диссертационной работы состоит в повышении эффективности формирования информационного обеспечения в распределенных системах поддержки принятия решений на основе мультилингвистических частотных тезаурусов.
Поставленная цель достигается путем решения следующих задач:
анализ компьютерных систем поиска/метапоиска и обработки информации в распределенных сетях;
анализ структур и алгоритмов работы распределенных систем поддержки принятия решений;
модификация и разработка новых алгоритмов поиска и обработки мультилингвистической информации в распределенных СППР для обеспечения высокого уровня релевантности поисковых процедур;
разработка модели формирования информационного обеспечения распределенной СППР на основе тезауруса;
синтез структуры информационного обеспечения распределенной СППР на основе тезаурусов.
Методы исследования. При выполнении работы использовались методы системного анализа, элементы теории множеств, методы измерения количественных и качественных показателей информационных систем, методы оптимизации, прикладной структурный анализа.
Новые научные результаты, полученные лично автором:
модель формирования информационного обеспечения в
распределенных системах поддержки принятия решений на
основе мультилингвистических тезаурусов;
модификация модели формирования информационного обеспечения для распределенных систем поддержки принятия решений, имеющих мультилингвистический частотный тезаурус с весами;
модель синтеза структуры информационного обеспечения в распределенной системе поддержки принятия решений, использующей мультилингвистический частотный тезаурус;
программный комплекс формирования информационного обеспечения систем поддержки принятия решения.
Значение для теории. Результаты, полученные при выполнении диссертационной работы, имеют существенное значение для развития моделей и методов компьютерной обработки информации, а также создания специального математического и программного обеспечения систем поддержки принятия решений.
Практическая ценность.
Создан инструмент, обеспечивающий эффективное применение мультилингвистических тезаурусов, как с частотными характеристиками, так и без них для формирования и управления многоязычным информационным базисом в распределенных системах поддержки принятия решений.
Разработанные модели и алгоритмы поиска и обработки информации позволяют выполнить качественную подборку данных и документов, необходимых для составления и актуализации, частотных мультилингвистических тематико-ориентированных тезаурусов и словарей, используемых в СГШР предприятий и организаций.
Реализация результатов работы
Работа выполнялась в рамках ряда проектов аналитической
ведомственной целевой программы "Развитие научного потенциала высшей
школы (2006-2008 и 2007-2008 годы)", в частности, РНП 2.2.23.9676
«Модельно-алгоритмическое обеспечение мультилингвистической
технологии интерактивного формирования многоязычных информационных
ресурсов» и РНП 2.2.2.3.10144 «Программно-информационная технология интерактивного формирования многоязычных частотных словарей терминологической лексики».
В ходе работы над диссертацией реализованы программные разработки, зарегистрированные в Отраслевом фонде алгоритмов и программ (ОФАП).
Разработанная автором диссертации компьютерная система формирования информационного обеспечения распределенных СППР принята в опытную эксплуатацию на кафедрах Информатики, Информационных технологий и Юнеско НТиМ ФГОУ ВПО «Сибирский федеральный университет».
Основные тезисы, выносимые на защиту
Модифицированные модели и методики обработки информации, основанные на использовании корпоративных и Internet ресурсов, а также средств многоагентной поисковой и метапоисковой технологии на основе мультилингвистического тезауруса (как с частотной характеристикой, так и без нее), позволяют повысить эффективность формирования и качество полученного информационного обеспечения в распределенных системах поддержки принятия решений.
Модифицированная модель и методика синтеза структуры информационного обеспечения в распределенных системах поддержки принятия решений на основе тезаурусов, позволяет организовать многоязычное информационное взаимодействие ЛПР с распределенными ресурсами корпоративных информационно-управляющих систем.
Разработанная программная система обладает языковой универсальностью организации обработки информационных ресурсов корпоративных систем, что позволяет формировать информационное обеспечение СППР с заданным уровнем релевантности относительно
мультилингвистических тематико-ориентированных запросов лиц, принимающих решения. Апробация работы. Основные результаты
Структура и объем работы. Диссертационная работа состоит из введения, четырех разделов, заключения и списка использованной литературы.
Понятие систем поддержки принятия решений
Основой успешного функционирования производственной среды является принятие решений, адекватных условиям, в которых функционируют объекты. Системы поддержки принятия решений, в которых сконцентрированы мощные методы математического моделирования, науки управления, информатики, являются инструментом, призванным оказать помощь руководителям в своей деятельности во все усложняющемся динамичном мире.
На первых этапах использования ЭВМ в процессе принятия решений копировался человеческий подход к решению проблем. Преимущество компьютера состоит в большом быстродействии и памяти с возможностями расширения до необходимых размеров, что делает его необходимым практически во всех областях человеческой деятельности. В принятии решений важнейшими областями, в которых компьютер становится ближайшим помощником человека, являются [52]: - быстрый доступ к информации, накопленной в компьютере, лица, принимающего решение (ЛПР) или /и в компьютерной сети; - осуществление оптимизации или интерактивной имитации, основанных на математических или эвристических моделях; - нахождение в базах данных принятых ранее решений в ситуациях, подобных исследуемым, для использования ЛПР в подходящий момент; - использование знаний лучших в своей области специалистов, включенных в базы знаний экспертных систем; - представление результатов в наиболее подходящей для ЛПР форме. Но традиционное использование ЭВМ не самое эффективное решение.
Руководитель, кроме информации из базы данных, кроме некоторых экономических или технологических расчетов, в своей деятельности встречается с большим количеством задач по управлению системой, которые не решаются в рамках традиционной информационной технологии. Эти соображения привели к разработке нового типа компьютерных систем, называемых "системами поддержки принятия решений" (СППР). Можно представить несколько определений, которые показывают, как эволюционировал смысл, вкладываемый в системы поддержки принятия решений. СППР - совокупность процедур по обработке данных и суждений, помогающих руководителю в принятии решений, основанная на использовании моделей [31]. СППР - это интерактивные автоматизированные системы, помогающие лицу, принимающему решения, использовать данные и модели слабоструктуризированных проблем [21, 13]. СППР - это компьютерная информационная система, используемая для поддержки различных видов деятельности при принятии решений в ситуациях, где невозможно или нежелательно иметь автоматизированную систему, которая полностью выполняет весь процесс решения [43]. СППР - это системы обработки на ЭВМ информации в целях интерактивной поддержки деятельности руководителя в процессе принятия решений.
Можно выделить два основных направления такой поддержки: - облегчение взаимодействия между данными, процедурами анализа и обработки данных и моделями принятия решений, с одной стороны, и. ЛПР, как пользователя этих систем - с другой; - предоставление вспомогательной информации, в особенности для решения неструктурированных или слабоструктурированных задач, для которых трудно заранее определить данные и процедуры соответствующих решений.
Другими словами, СППР - это компьютеризированные помощники, поддерживающие руководителя в преобразовании информации в эффективные для управляемой системы действия. Эти системы должны обладать такими качествами, которые делают их не только полезными, но и незаменимыми для ЛПР. Как любые информационные системы, они должны обеспечивать специфические нужды процесса принятия решений в. информации. Кроме того, и это, видимо, главное - она должна адаптироваться к его стилю работы ЛПР, отражать его стиль мышления. СППР должна ассистировать все (в идеале) или большинство важных аспектов деятельности ЛПР, который, будучи руководителем, выполняет множество функций. Руководитель являясь, лидером и организатором взаимодействия своих сотрудников в организации и с другими партнерами, передает поступающую извне информацию своим подразделениям в соответствии с потребностями выполнения специфической деятельности. Как организатор принятия решений ЛПР обеспечивает корректиторовку непредвиденных отклонений от нормального функционирования системы,, определяет стратегию выделения ресурсов для различных областей деятельности организации.
СППР должны иметь возможность адаптироваться к изменению вычислительных моделей, общаться с пользователем на специфическом для управляемой области языке (в идеале на естественном), представлять результаты в такой форме, которая способствовала бы более глубокому пониманию результатов.
Роль СППР не в том, чтобы заменить руководителя, а в том, чтобы повысить его эффективность. Цель СППР заключается не в автоматизации процесса принятия решения, а в осуществлении кооперации, взаимодействия между системой и человеком в процессе принятия решений.
Обобщенный алгоритм работы поисковых процедур в информационных подсистемах СППР
Обобщенно алгоритм работы поисковой системы и рейтинг, который она выстраивает на основе запроса (ключевое слово, словосочетание), учитывает и анализирует следующее [42, 26]: 1. Общее количество ключевых слов на сайте. 2. Общее количество ключевых слов на странице. 3. Соотношение общего числа слов на сайте к количеству ключевых слов на сайте. 4. Соотношение общего числа слов на странице к количеству ключевых слов на странице. 5. Индекс цитирования. 6. Популярность тематики. 7. Число запросов по конкретному ключевому слову за определённый период времени. 8. Общее количество страниц сайта. 9. Применение стиля к страницам сайта. Ю.Общий объём текста сайта. 11. Общий объём сайта. 12.Общий объём каждой страницы сайта. 13.Общий объём текста каждой страницы сайта. 14.Возраст сайта. 15.Название URL сайта (имя домена) 16.Периодичность обновления информации на сайте. 17.Последнее обновление страниц сайта. 18.Общее число картинок (рисунков) на сайте. 19.Общее количество мультимедийных файлов. 20.Наличие замещающих надписей на рисунках (картинках). 21.Длину (в количестве символов) замещающих надписей рисунков (картинок). 22.Использование фреймов. 23 .Язык сайта (русский или иностранный). 24.Размер шрифта, которым оформлены ключевые слова. 25.Жирность шрифта ключевых слов. 26.Написаны в разрядку или нет ключевые слова. 27.Написаны или нет заглавными буквами ключевые слова. 28.Как далеко от начала страницы располагаются ключевые слова. 29.Стиль заголовков и наименований ключевых слов. ЗО.Наличие и анализ мета-тэгов.
.Наличие и содержание описания и свойств страницы. 32.Наличие файла "робот". 33.Географическое месторасположение сайта. 34.Комментарии внутри программного кода сайта.
К какому типу страниц относится каждая страница сайта: html или asp. 36.Наличие в составе сайта flash модулей. 37.Наличие в составе сайта страниц с незначительными отличиями друг от друга. 38.Соответствие ключевых слов сайта тому разделу каталога поисковой машины, в котором зарегистрирован сайт. 39.Наличие "шумовых слов" ("стоп слов"). 40.Общее количество гиперссылок сайта. 41.Количество внутренних гиперссылок сайта. 42.Количество внешних гиперссылок сайта. 43.Глубина сайта. 44.Ряд других специальных технических параметров.
Необходимо отметить, что некоторые поисковые машины сложного алгоритма как такового вообще не имеют, а работают по упрощенной схеме.
Их работа сводится, в основном, к очистке текста сайта от программного кода и выстраивания слов, встречающихся на сайте по их частоте.
Может быть это и правильно, потому что чем сложнее алгоритм работы поисковой машины, тем, с одной стороны, больше вероятность получения наиболее точных и полных результатов, но, с другой стороны, больше вероятность ошибок в работе самого алгоритма. Другими словами, усложняя алгоритм работы поисковой машины можно как достичь более полных и точных результатов, так и, наоборот, получить менее точные и полные результаты. .
Работа по поиску информации в любой поисковой подсистеме СППР примерно одинакова, и сводится к работе нескольких агентов. Суть работы агентов заключается в следующем [36]: - отслеживание существующих ссылок; - анализ страниц на наличие ссылок на другие страницы; - поиск информации по новым ссылкам, полученным при анализе текстов; - просмотр новых страниц, которые регистрирует хозяин нового-ресурса.
Если рассматривать поиск информации на основе работы метапоисковых систем, то здесь все проще: они работают с поисковыми системами и у них остаются только агенты, занятые опросом поисковиков, и, возможно, проверкой существования выдаваемых ссылок. Классические модели информационного поиска рассматривают документы как множества представляющих эти документы ключевых слов, в дальнейшем называемых термами (словоформами). Терм - это, обычно, просто слово, семантика которого помогает описать основное содержание документа.
Лексико-семантическая база данных типа WordNet для русского языка
Работа над словарем WordNet [71] английского языка начата в Принстонском университете (США) в начале 80-х годов и продолжается до настоящего момента. Сейчас доступна версия 2.0. этого словаря.
Существующая версия WordNet охватывает общеупотребительную лексику современного английского языка — более 120 тысяч слов. Широкое распространение этот словарь получил благодаря его свободной доступности для научных и исследовательских целей. В период с марта 1996 по сентябрь 1999 года при финансировании Европейской комиссии был создан многоязычный вариант WordNet — Euro WordNet [52].
Эта лексическая система объединила в себе WordNet словари английского, датского, испанского, итальянского, немецкого, французского, чешского и эстонского языков, за основу был взят Принстонский WordNet версии 1.5. В 2007 году завершается работа над проектом BalkaNet, объединяющем греческий, болгарский, турецкий, чешский, французский, румынский и сербский языки. Все национальные версии WordNet связаны как с исходным WordNet, так и между собой через специальный ПЛ-индекс. Традиционный подход предполагает использование при построении WordNet словаря специализированных систем разработки, например VisDic (проект BalkaNet) [58].
Следует отметить, что словари Euro WordNet являются коммерческими продуктами.
В настоящее время словари WordNet могут применяться в системах информационного поиска (information retrieval), вопросно-ответных системах (Q&A systems), в системах машинного перевода (machine translation) и при решении задачи определения значения слов (WSD - word-sensedisambiguation).
Касаясь проектов словарей WordNet для русского языка, отметим следующее.
В настоящее время известно о нескольких реализациях WordNet и подобных лексических баз данных для русского языка. 1. Проект RussNet, разрабатывается с 1999 года на филологическом факультете СПбГУ [4]. 2. Проект тезауруса RuThes, используемого в УИС РОССИЯ [25]. Это закрытый коммерческий ресурс. 3. Проект русского WordNet компании «Новософт» [46]. Это также закрытый коммерческий ресурс.
Методика и принципы построения словаря проекта RussNet [7] ориентированы на длительный процесс разработки ресурса группой лингвистов без какой-либо автоматизации процесса построения и связи с исходным WordNet. Два других проекта невозможно оценить из-за их. закрытости, хотя в последнем используется небольшой англо-русский словарь Миллера для автоматизации построения ресурса.
Рассматриваемая в данной работе реализация русской версии WordNet, позволяет получить ядро словаря за меньший срок за счет использования доступных словарей и автоматизации процедур построения и редактирования словаря. Ставится задача получения русской версии WordNet, сопоставимой по числу лексических единиц с английской версией.
Для этих целей разработана методика, включающая набор алгоритмов и процедур их проверки. Разработанные методы позволяют значительно сократить время разработки за счет более эффективного использования существующих ресурсов и автоматизации процесса построения словаря WordNet на их основе. Большое внимание уделено вопросу интеграции с другими лексическими ресурсами. Однако для повышения качества получаемого таким образом словаря его ручная доработка на каждом этапе построения неизбежна.
Для построения русского WordNet используются лингвистические ресурсы компании «Руссикон» [49,60] и словари, свободно распространяемые в Internet, например, [81]. Научный коллектив сотрудников ПГУПС (каф. ИВС) и компании Руссикон под руководством Яблонского С.А. выиграл в 2003 году конкурс издательства Oxford Press на лучший исследовательский проект по использованию словарей Oxford Press. В настоящее время издательства Oxford Press предоставило для создания русской версии WordNet XML версии следующих словарей. 1. Oxford Russian Dictionary. 2. New Oxford Dictionary of English, 2nd Edition. 3. New Oxford Thesaurus of English.
Эти ресурсы используются при автоматизированном построении межъязыкового индекса (ILI-Inter-lingual-index) русско-английского WordNet.
Основной целью рассматриваемого проекта является построение русско-английского WordNet, включающего лексику русского и английского языков. Разработка такого варианта словаря включает два этапа — построение русского WordNet, описывающего лексику русского языка и объединение полученного WordNet с последней реализацией Princeton WordNet с помощью ILL
Для просмотра и редактирования словаря разработан редактор — TenDrow, позволяющий просматривать и редактировать словарные статьи WordNet и иерархии их отношений (строятся деревья гипонимии (родовидовые отношения) и меронимии (отношения часть-целое)). Редактор используется для «чистовой» обработки словаря.
Как показала практика разработки и построения словаря, наиболее эффективным является редактирование специально подготовленных текстовых файлов и набор утилит для внесения изменений в базу данных. Для каждого этапа построения словаря формируется набор таких файлов и средств их обработки.
Базовой структурной единицей, формирующей словарную статью WordNet, является синонимичный ряд - «синеет», объединяющий лексемы со схожим значением. Каждый синеет представляет некоторое значение, понятие языка.
Функциональная структура систем
В предыдущих разделах диссертации были разработаны модели формирования информационного обеспечения для распределенной СППР, имеющей тезаурус с весами и без весов, а также разработана модель синтеза структуры информационного обеспечения распределенной системы поддержки принятия решений. Для апробации предложенных моделей и алгоритмов, учитывая цели данной диссертационной работы, было решено реализовать две логически связанные программные подсистемы, показанныена рис. 10.
Первая подсистема отвечает за поиск качественной информации в корпоративной информационной сети (с возможностью подключения глобальной сети Internet). Так же данная подсистема выполняет определение релевантности документов, полученных в процессе проведения поисковой процедуры, и производит ранжирование полученных документов. Кроме, того, необходимо указать, что в результате проведения анализа предметных областей был сделан следующий вывод. В классическом понимании
характеристика релевантности является булевой (документ принадлежит запросу или нет). Однако после анализа текстов можно прийти к выводу, что это не совсем так, а именно, применяя алгоритмы определения релевантности можно доказать, что некоторые документы являются «как бы более релевантными запросу», а некоторые «менее». Именно этим и занимаются алгоритмы определения релевантности и ранжирования. Так же выявлены условно релевантные документы; это документы из смежных предметных областей. Следовательно, при поиске необходимо учитывать возможность попадания в результирующую выборку данных предметных областей. Зная о близости данных областей, необходимо учитывать выбор пользователя системы на их включение или исключение в результирующую выборку. Кроме того, в выбранном тексте релевантным предметной области может быть не весь документ, а только часть его, например учебники общего назначения, сборники статей и т.д.
Вторая подсистема отвечает за формирование синтеза структуры информационного обеспечения распределенной системы поддержки принятия решений. Данная подсистема необходима при формировании или модификации структуры распределенной системы. Это связано с тем, что необходимо учитывать возможности узлов хранения и обработки информации, а также затраты на трафик как внутренний, так и внешний.
Перейдем к рассмотрению решения поставленных задач.
Обобщенный алгоритм работы поисковой системы можно представить в соответствии с рис. 11. Необходимо отметить, что система работает в четырех режимах: Произвести поиск без использования тезаурусов. Произвести поиск с использованием тезауруса. Произвести поиск с использованием частотного тезауруса. Произвести поиск по уже анализируемому ранее запросу. Каждый из возможных режимов работ будет рассмотрен более подробно ниже.
Как видно из рисунка, первый процесс при выполнении поисковой процедуры — это процесс первичного анализа проблемы (более подробно он будет описан далее). На данном этапе происходит задание начальных параметров поиска и инициализация поисковой процедуры. Также на данном этапе производится выбор одного из четырех возможных путей выполнения процедуры поиска.
После того как будет произведена поисковая процедура по одному из возможных вариантов, необходимо обработать полученные данные на предмет определения релевантности и их ранжирования. Следующим шагом предлагаемого алгоритма является просмотр полученных и обработанных данных лицом, принимающим решение, для выработки окончательной стратегии решения возникшей проблемы.