Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Представление знаний и семантическое программирование Малых Антон Александрович

Представление знаний и семантическое программирование
<
Представление знаний и семантическое программирование Представление знаний и семантическое программирование Представление знаний и семантическое программирование Представление знаний и семантическое программирование Представление знаний и семантическое программирование Представление знаний и семантическое программирование Представление знаний и семантическое программирование Представление знаний и семантическое программирование Представление знаний и семантическое программирование Представление знаний и семантическое программирование Представление знаний и семантическое программирование Представление знаний и семантическое программирование
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Малых Антон Александрович. Представление знаний и семантическое программирование : диссертация ... кандидата физико-математических наук : 01.01.09.- Иркутск, 2005.- 144 с.: ил. РГБ ОД, 61 06-1/188

Содержание к диссертации

Введение

1 Концептуальные основы теории информационных ресурсов 12

1.1 Семантический Интернет 12

1.2 Ресурсы и их идентификация 29

1.3 Мстаописания ресурсов 33

1.4 Представление знаний в Интернете 34

1.5 Интернет и логический вывод 37

1.6 Онтологии 41

2 Теория информационных ресурсов 53

2.1 Онтологии и семантическое программирование 53

2.2 Термальная надстройка над моделью: описание объектов . 59

2.3 Иерархия и наследование информации 63

2.4 Аппроксимация и объединение информации 70

2.5 Классы 81

2.6 Ресурсы 84

2.7 Онтологии 85

2.8 Пример языка описания классов 89

3 Апробация методов 97

3.1 Приложения теории информационных ресурсов 97

3.2 Система «Мета» 118

3.3 Система «Мета-2» 123

3.4 Приложения системы «Мета-2» 126

Заключение 132

Литература 135

Введение к работе

Цели и задачи исследования

Диссертационная работа посвящена развитию автоматизированных методов работы со знаниями в глобальном информационном пространстве. Цель работы — создание на основе диалекта семантического программирования [68] [69] логической системы представления и обработки знаний, ориентированной на работу в распределенных информационных средах. Данная система должна совмещать использование продвинутых логических методов с возможностью эффективной реализации и устойчивостью к агрессивным условиям глобальной сети. С содержательной точки зрения система должна быть ориентирована на решение ключевых задач, накопившихся на сегодняшний день в Интернете, включая моделирование понятия информационного ресурса, имени ресурса, механизмов мстаописаний ресурсов.

Для достижении этой цели решались задачи:

разработка концептуальных основ системы обработки знаний в распределенных информационных средах на базе семантического программирования;

разработка логического формализма (теории информационных ресурсов, ТИР), удовлетворяющего концептуальным положениям и условиям работы в глобальной информационной среде;

исследование применимости ТИР к представлению и автоматизированной обработке иерархических систем данных и знаний;

апробация ТИР в приложении к практическим задачам реальной сложности.

Научная новизна

В работе впервые исследованы возможности применения концептуальных положений семантического программирования к обработке больших массивов знаний и данных в распределенных информационных системах и Интернете [19]. Разработан логический формализм, реализующий данный подход. Построены логические модели базовых понятий, включая понятие информационного ресурса, имени информационного ресурса, онтологии как системы описания предметных областей, в терминологических рамках семантического программирования. Исследованы возможности практического использования разработанной логической системы.

Научная и практическая значимость работы

Работа ориентирована на решение актуальных проблем, возникающих сегодня в Интернете. В связи с бурным и неконтролируемым наполнением разнообразными информационными ресурсами мировая информационная среда постепенно превращается в необозримое собрание разрозненной и неупорядоченной информации. Данная ситуация, которая с течением времени только усугубляется, не позволяет эффективно использовать информационные богатства глобальной сети. Подход, на котором

основана диссертационная работа, состоит в том, чтобы интеллектуализи-ровать работу компьютера в Интернете, передать ему ряд задач, которые сегодня приходится решать человеку, включая поиск информации, анализ найденной информации, выполнение ряда практических задач по взаимодействию с Интернет-сервисами и т.д. Существенную роль в нагпей работе играет использование гибкого и логически чистого подхода семантического программирования. На его основе построена теория информационных ресурсов, служащая базовым формализмом для разработки различных проектов, ориентированных на интеллектуализацию работы компьютеров в Интернете. С другой стороны, теория информационных ресурсов является определенным вкладом в развитие самого семантического программирования. Подходы, развиваемые в данной работе, апробировались на большом количестве практически значимых задач в области дистанционного образования, разработки электронных библиотек, систем управления кадрами, продвинутыми задачами web-программирования. Полученные в рамках апробации результаты вселяют надежды на хорошие перспективы применения разработанных методов в самых разнообразных сферах представления данных и знаний в распределенных информационных системах.

На защиту выносятся

  1. Разработка концептуального подхода к представлению знаний в глобальной информационной среде на основе семантического программирования.

  2. Логическая теория информационных ресурсов.

3. «Мета-2» — программная система, реализующая базовые механизмы представления знаний в формате онтологии в соответствии с теорией информационных ресурсов.

Структура и объём диссертации

Диссертация состоит из введения, трех глав, заключения и списка использованной литературы.

В первой главе работы анализируются проблемы информационных систем, связанные с обработкой и представлением данных, а также вырабатываются концептуальные подходы к обработке знаний на основе семантического программирования. В параграфе 1.1 рассматривается понятие «семантического Интернета», причины появления такого понятия, внутренняя иерархия семантического Интернета. В параграфе 1.2 представлено понятие ресурса, проанализирована его ключевая роль в рамках сложных систем. Параграф 1.3 посвящен понятию метаданных и той роли, которую метаданные могут сыграть в развитии Интернета. В параграфе 1.4 анализируются способы представления данных и проблемы, которые в связи с этим возникают. В параграфе 1.5 анализируется роль систем логического вывода в работе с метаданными. Параграф 1.6 представляет механизмы описания предметных областей, особое внимание уделяется онтологиями.

Во второй главе рассматривается диалект семантического программирования — теория информационных ресурсов — ориентированный на обработку данных и знаний в распределенных информационных сетях. Параграф 2.1 показывает связь отнологий и семантического программирования. В параграфе 2.2 определяется понятие термальной настройки над базовой

моделью типов данных. В параграфе 2.3 рассматриваются механизмы наследования в рамках теории информационных ресурсов. В параграфе 2.4 определяются понятия аппроксимации и объединения информации. Параграф 2.5 посвящен определению классов, а параграф 2.6 - определению понятия ресурса. В параграфе 2.7 рассматривается понятие онтологии в рамках ТИР, а параграф 2.8 содержит вариант языка описания классов.

В третьей главе анализируется практический потенциал разработанных методов, рассматриваются возможности их применения в различных областях. Также описываются программные системы, реализующие базовые механизмы ТИР. В параграфе 3.1 предлагаются возможные варианты использование ТИР. В параграфе 3.2 делается обзор системы «Мета». В параграфе 3.3 рассматривается развитие этой системы — система «Мета-2». В параграфе 3.4 описано использование системы «Мета-2» для реальных практических задач.

Основные результаты диссертации опубликованы в следующих работах

  1. Манцивода А.В., Малых А.А. Представление и обработка знаний в Интернете // Серия: Информационные системы и логика. Вып. 2. -Иркутск: Изд-во Иркутского ун-та, 2005. - 111 с.

  2. Малых А.А., Манцивода А.В. Универсальная модель описания образовательных ресурсов // В кн.: «Открытое образование: стандартизация описания информационных ресурсов» / С.Л. Лобачев, А.А. Малых, А.В. Манцивода и др. - М.: РИЦ «Альфа» МГОПУ им.

М.А.Шолохова, 2003. - С. 103-159.

  1. Малых А.А., Манцивода А.В. МЕТА: разработка мстаописапий образовательных ресурсов // Труды всероссийской конф. «Телемати-ка'2003». - С.-Пб., 2003. - С.169-170.

  2. Манцивода А.В., Малых А.А. Мстаописания и логическая структура электронных образовательных ресурсов // Труды межд. конф. «Новые инфокоммуникационные технологии: достижения, проблемы, перспективы». - Новосибирск, 2003. - С.73-77.

  3. Малых А.А., Манцивода А.В. МЕТА: мстаописания и образовательные пакеты // Труды всероссийской конф. «Телематика'2004». - С-Пб., 2004. - С.552-553.

  4. Малых А.А., Манцивода А.В. Система МЕТА и открытые модели знаний // Труды всероссийской конф. «Научный сервис в сети Ин-тсрнет-2004». - М.: Изд-во МГУ, 2004. - С.173-175.

  5. Малых А.А. МЕТА-2: система мстаописаний как основа построения информационных систем // Труды молодеж. научно-метод. конф. «Современные информационные технологии в науке и образовании». - Иркутск: Изд-во БГУЭП, 2004. - С.21.

  6. Малых А.А., Манцивода А.В. МЕТА-2: поддержка онтологии и образовательные системы // Труды всероссийской конф. «Телсмати-ка'2005». - С.-Пб., 2005. - С.232-233.

  7. Малых А.А. Дескриптивные термы и именующие ограничения // Материалы VII школы-семинара «Математическое моделирование и ин-

формационные технологии». - Иркутск; Изд-во ИДСТУ, 2005. - С.23-24.

Апробация результатов

Результаты работы представлялись на следующих конференциях:

  1. Всероссийская научно-практическая конференция «Телемати-ка'2003» (Санкт-Петербург, 2003) [10][20|;

  2. Международная конференция «Новые инфокоммуникационные технологии: достижения, проблемы, перспективы» (Новосибирск, 2003)

№71;

3. Молодежная научно-методическая конференция «Современные ин
формационные технологии в науке и образовании» (Иркутск, 2004)

[із];

  1. Всероссийская научно-практическая конференция «Телемати-ка'2004» (Санкт-Петербург, 2004) [11];

  2. Всероссийская научная конференция «Научный сервис в сети Интср-нет-2004» (Москва, 2004) [12];

  3. Всероссийский научно-практическая конференция «Телемати-ка'2005» (Санкт-Петербург, 2005) [14];

  4. VII школа-семинар «Математическое-моделирование и информационные технологии» (Иркутск, 2005) [15].

11 Личный вклад автора:

совместная с научным руководителем разработка концептуального подхода к представлению знаний на основе семантического программирования;

совместная с научным руководителем разработка логической теории информационных ресурсов;

самостоятельная разработка системы «Мета-2», апробирование подхода с помощью системы «Мета-2» на ряде практических задач.

Благодарности

Автор благодарит научного руководителя проф. А.В. Манциводу за неоценимую помощь при написании диссертации а также команду аспирантов и студентов Иркутского госуниверситета за ценную помощь при тестировании и апробации системы «Мета-2».

Ресурсы и их идентификация

Децентрализация. Как и сегодняшний Интернет, Интернет следующего поколения будет, очевидно, иметь принципиально децентрализованную структуру — настолько, насколько это позволит независимая и свободная деятельность людей. С одной стороны, такая система, как результат свободного развития, может стать благодатной почвой для создания новых и неожиданных вещей, причем в каждом ее сегменте — от больших корпораций до индивидуальных пользователей. Она способна принести пользу там, где невозможно предугадать заранее. С другой стороны, децентрализация требует больших компромиссов. В частности, невозможно ждать от такой среды полноценной совместимости и информационной корректности ее составных частей. Следует также учитывать разнообразие в интересах и мотивациях людей, участвующих в процессе. В процессе накопления знаний в Интернете, никто не застрахован от того, что будут опубликованы неверные и ложные данные — случайно или злонамеренно. Более того, этот сценарий следует считать весьма вероятным. Хорошо известен негативный опыт использования метаописаний в HTML-страницах (с помощью тега МЕТА). Ранее эти данные активно использовались поисковыми машинами при поиске нужной информации. Однако, в конце концов, от этого пришлось отказаться, поскольку слишком часто из коммерческих или хулиганских целей в HTML-страницах указывались заведомо ложные данные.

Если не учесть эти проблемы при построении новых средств обработки информации, то успех дела будет крайне сомнителен. Поэтому уделяется значительное внимание фактору доверия при построении виртуальных сообществ, системам аутентификации и авторизации. Второй важный момент должен касаться форматов представления знаний: эти форматы должны быть устойчивы к добавлению некорректной информации. Иначе обязательно появится новый вид «интеллектуальных» компьютерных вирусов: добавляем такие данные в онтологию, которые разрушают се логическую обоснованность и корректность.

Связность. Мало что может сравниться с Интернетом по неупорядоченности информации, разнообразию интересов его участников, уровню и качеству представления материала. Попытки жестко упорядочить весь этот конгломерат вряд ли приведут к цели в силу его гигантских масштабов (сотни миллионов пользователей, миллиарды только статичных ресурсов) и множества независимых «сил», участвующих в процессе. В такой ситуации важнейшей задачей становится построение общей платформы, общих правил игры, принимаемых большинством сообщества и позволяющих разным людям, силам и группам понимать друг друга. И здесь на первый план выходит понятие стандарта. В информационных системах стандарт - это в первую очередь единый, общий язык. Интернет в сегодняшем его виде появился, благодаря стандартному языку общения в Интернете — HTML — и стандартному способу передачи данных — протоколу HTTP. Признанный стандарт «притягивает» к себе, поскольку тот, кто не следует его регуляторам, а пользуется иными способами представления информации, рискует оказаться на обочине прогресса, попросту оказаться непонятым.

Это означает, что мало построить красивые и мощные средства обработки информации. Необходимо превратить их в стандарты на всех уровнях работы. Отметим еще один печальный фактор. Одной из самых существенных причин, из-за которых логические методы до сих пор не получили такого широкого распространения, как они этого заслуживают, заключается в несоответствии «интеллектуальных требований», которые предъявляются к пользователям таких систем, и уровнем среднего пользователя Интернета. Следует учитывать, что мы живем в мире «массовой» культуры. Это напрямую отражается и на информационной среде, объясняя в частности, грандиозные успехи такой компании, как Microsoft, возведшей информационную «массовую» культуру в один из базовых принципов своей работы.

Еще один момент связан с тем, что пользователь, как правило, склонен довольствоваться теми средствами, которыми он уже овладел, особенно если эти средства играют сервисную роль и не входят в сферу его профессиональных интересов. И это верно уже для пользователя любого уровня. Чтобы подвигнуть его к восприятию чего-то нового, как правило, должно сработать либо то, что пользователь в значительной степени не удовлетворен возможностями средств, которыми он располагает, либо то, что предлагаемые пользователю средства обладают такими качествами, которые принципиально улучшают среду его работы. Другими словами, новые средства, должны преодолеть достаточно высокий «порог невосприимчивости» (конечно, спрос можно сформировать и с помощью рекламы, но здесь мы не касаемся этой сферы).

Отсюда следует, что по-настоящему широкое применение продвинутых логических средств невозможно без придания им черт, позволяющих воспринимать их массовым пользователем, иначе деятельность разработчиков так и не выйдет за рамки узкого круга лиц. В наиболее радикальной форме это означает инкапсуляцию элементов, требующих хоть какого-нибудь умственного напряжения, и оставления «снаружи» лишь самых примитивных и легко доступных пониманию составляющих.

Таким образом, задача внедрения развитых средств математической логики в сегодняшнюю информационную среду — задача крайне нетривиальная и многокомпонентная. И не в последнюю очередь здесь следует думать об уровне понимания, мотиваций и интересов среднего пользователя, культура которого не очень высока. Что касается теоретической составляющей, то длительный путь развития логики и искусственного интеллекта предоставил нам разнообразные инструменты работы со знаниями.

Термальная надстройка над моделью: описание объектов

Обратим внимание, что если Ь\ - I2, то ti является непосредственным подтермом первого аргумента t\. Заметим также, что с неформальной точки зрения ti - І2 означает, что Ь\ и Ьі описывают один и тот же объект. Однако Ь\ описывает его как объект класса, являющегося наследником класса из t%. В частности, объект «Петров» как студент является наследником объекта «Петров» как человека.

Теперь определим рекурсивное отношение принадлежности атрибута элементу. Отношение p(t ) t действует следующим образом.

Определение 2.3.2 Пусть t\ = сп(с,а). Будем говорить, что атрибут р(г) прямо принадлежит элементу Ь\ (обозначается pfa) t\), если pfe) Є а. Будем говорить, что атрибут p{t-z) принадлеэ/сит элементу t\ = сп(с,а) (обозначается pfo) h), если либо pifa) b\, либо существует Ь% такой, что t\ - 3 и р(г) 3 Ьц.

Интуитивно, атрибут p(t ) принадлежит терму t = сп(...), описывающему объект d Є D, если он является характеристикой некоторого класса С Q D такого, что d Є С. Прямая принадлежность означает, что атрибут является характеристикой «внешнего» класса сп. Предложение 2.3.1 EcAup(L ) t, mop(t ) является непосредственным подтермом t.

Это предложение согласуется с тем, что p(t ) характеризует именно сам описываемый в t объект, а не какие-то другие объекты.

Основная содержательная информация об объектах предметной области как отдельных индивидуумах хранится в атрибутах. С этой точки зрения, распределение атрибутов по классам больше имеет роль для понимания того, как тот или иной элемент был построен, т.е. с интенсиональной точки зрения. С точки зрения экстенсиональной, важно, какие атрибуты в элементе имеются и какие значения они принимают. С экстенсиональной точки зрения атрибут принадлежит объекту не как представителю какого-то класса, а как некоторому отдельному индивидууму. Такое понимание служит основой для «экстенсиональной» интрспретации информации, заложенной в элементы множества термов Т , которое реализуется через следующее определение.

Определение 2.3.3 Пусть t G Т#. Обозначим через ext(t) мнооїсество всех атрибутов РІ(Ц) t, то есть ext(t) = {РІ{Ц)\РІ(Ц) О t}. Мнооїсество ext(t) назовем окстенсионалом элемента t.

Замечание. Атомарная формула p{t\) 2 понимается нами как высказывание «объект t 2 обладает свойством р со значением t\». Это немного отличается от стандартного для логики первого порядка подхода, когда свойство определяется в форме двуместного предиката, представляемого атомарной формулой p(t\, 2). Объясняется это тем, что стандартный под 68 ход методологически не очень нам подходит, поскольку тогда получается, что свойства строятся над множеством объектов «сверху» и как бы отдельно от них. Для нас же существенно; чтобы свойство объекта было явным образом к нему привязано и, если можно так сказать, содержалось «внутри него». Это отличает объектный подход, в котором объекты строятся явно, от аксиоматического подхода, когда объекты строятся опосредованно — как сущности, удовлетворяющие определенным законам. Явная привязка свойств к объектам позволяет довольно естественным образом определить важнейшие понятия наследования и аппроксимации. Это влияет и на практическую реализацию данной схемы, поскольку позволяет группировать информацию об объекте в одном месте, а не распределять по отдельным предикатам. Другими словами, данная схема позволяет естественным образом объединить логический подход с очень успешным на сегодняшний день объектно-ориентированным подходом, что может оказаться существенным для перспектив использования предлагаемых здесь конструкций. Поэтому мы и моделируем свойства объектов не с помощью предикатов, а в виде термов специального вида. Ч

Рассмотрим теперь вопрос эквивалентности элементов і є 7. Поскольку эти элементы описывают объекты предметной области, то существенным является тот объем информации, который заложен в каждый отдельный элемент, и неважно, в каком порядке эта информация в терме представлена. С другой стороны, поскольку элементы Т$ являются синтаксическими объектами, вполне допустимы термы вида {ti,li}, эквивалентные {t\}, графически отличными являются термы {І2,і} и {faity}-! содержащие равный объем информации и т.д.. Нам нет смысла вводить специальные аксиомы для множеств, поскольку с точки зрения отношений, работающих с информацией, например, - и 3 эти термы и так будут неотличимы друг от друга. Такие неотличимые термы будем называть эквивалентными (обозначается ty = )

Пример языка описания классов

Рассмотрим более подробно механизмы описания предметных областей. Предположим, что есть доступ к двум электронным библиотекам, работающим в разных стандартах библиографических описаний. И есть задача — найти в этих библиотеках статьи, опубликованные в Иркутском госуниверситете. В каждой системе библиографических описаний имеется поле, определяющее место публикации ресурса. Поскольку системы метаданных разные, в каждой из них это поле имеет собственное имя, а также собственное место в библиографическом описании. Для решения нашей задачи сервису необходимо скомбинировать информацию из двух электронных библиотек. Но для этого он должен знать, где ему брать информацию о месте публикации в каждой из библиотечных систем.

Такого рода задачи возникают повсеместно и, к сожалению, наиболее распространенным способом их решения является написание специализированных программ, внутри которых заложены данные о конкретной структуре обрабатываемых информационных источников. Такой способ ре-тения проблемы является весьма нетехнологичным. Изменилось что-то в одной из библиотечных систем, и программу надо переписывать.

Более правильно сделать сервис независимым от конкретной структуры метаописаний в библиотеках. Эта информация должна описываться отдельно от сервиса на специальном языке представления знаний о данной предметной области. И уже это описание, будучи загруженным в сервис в качестве параметра, «настраивает» сервис на конкретное состояние библиотечных систем. Преимущества такого подхода очевидны: изменения в предметной области не влекут изменение кода; появляется возможность множественного использования описания: одно и то же описание предметной области может использоваться несколькими системами и сервисами; интероперабсльность: если системы понимают один и тот же язык представления знаний, они могут взаимодействовать, используя для коммуникаций этот язык; облегчается процесс стандартизации предметной области. И этим преимущества не исчерпываются. Распространение такого подхода на глобальное пространство Интернета - путь, способный привести к качественному скачку в развитии мировой информационной среды. Идея состоит в формализации знаний о самых разнообразных предметных областях, причем в таком формате, чтобы этим могли воспользоваться автоматические сервисы-агенты, работающие в Интернете по указке человека. Очевидно, чтобы такая система заработала, се идеи должны легко восприниматься людьми, и давать непосредственный благотворный эффект. Ключевым понятием здесь является понятие онтологии. Как известно, онтология является одной из базовых философских отраслей, обозначающей теорию о сущем, о природе существования (в отличиє, например, от гносеологии). Онтология как отрасль философии изучает такие теории. Представители искусственного интеллекта и специалисты в области информатики адаптировали этот термин для своих нужд, превратив понятие онтологии во вполне практический инструмент для работы со знаниями. Для них онтология представляет собой документ или файл, который в формальном стиле описывает взаимосвязи между объектами и свойства объектов конкретной предметной области. При этом онтология получила вполне определенную структуру, состоящую, из двух блоков: таксономии; набора логических свойств предметной области и правил вывода.

Онтология — конструкция, довольно подходящая для представления знаний в Интернете. Действительно, она по большому счету представляет собой множество объектов, классифицированных в соответствии с некоторыми критериями, плюс описание свойств этих объектов. Онтология кодирует объекты и свойства в понятном для компьютера формате. Конечно, за описанием объектов и их свойств должна лежать простая и понятная логика. С другой стороны эта логика должна иметь строгое определение и корректную семантику, что позволяет делать автоматическую обработку знаний, заложенных в онтологию.

Таким образом, важнейшей задачей при построении глобальной системы формализованных знаний является правильный выбор логической схемы, которая, с одной стороны, должна быть достаточно выразительной, а с другой — понятной людям. Очень важно, чтобы логическая схема была легкой с алгоритмической точки зрения. Кроме того, нсобходимо стандартизовать сам язык представления знаний, чтобы его могли везде (одинаково!) понимать, как сегодня понимают HTML. В качестве базы для этого можно использовать RDF. Однако RDF со своими логическими проблемами совершенно не подходит для поставленных целей. Поэтому \3-консорциум сегодня развивает проект языка OWL (Web Ontology Lamguagc) [41], удовлетворяющего основным критериям.

Но более важно, что очень подходящим инструментарием для построения онтологии и описаний предметных областей является семантическое программирование. Действительно, вся терминология онтологии напрямую отображается в термины семантического программирования (не зря, видимо, разработчики концепции Интернета нового поколения назвали свой подход the Semantic Web). Например, базовая модель предоставляет элементарные типы данных для построения описаний объектов предметных областей. Наследственно-конечная надстройка содержит сами описания элементов, причем, если определить на элементах этой надстройки отношение аппроксимации, можно получить механизмы построения все более и более точных описаний предметной области. Разнообразные диалекты логических До и S-языков плюс соответствующие логические исчисления могут служить гибким инструментом для описания поведения объектов в рамках предметных областей. Отлаживая способы построения наследственно-конечных надстроек и До-диалсктов, можно найти оптимальные схемы, компромиссным образом удовлетворяющие столь противоречивым требованиям, предъявляемым к логическим системам в Интернете.

Приложения теории информационных ресурсов

Автоматизированная работа с предметными областями начинается с определения строгого формализованного языка, ориентированного на описание этих предметных областей. Именно формальные описания служат источником «знаний» для компьютера, когда он манипулирует ресурсами. В данной части работы будет построена формальная система (точнее, семейство формальных систем), ориентированная на обработку информации в распределенных информационных средах и основанная на парадигме семантического программирования.

Сегодня проблемы описания предметных областей в форматах, допускающих эффективную работу, находятся в фокусе внимания многих исследовательских групп, в частности \УЗ-консорциума. Об этом было сказано выше. Мы же хотим показать, что полезным формализмом для такой работы может оказаться некоторый диалект семантического программирования (который назовем для краткости теорией информационных ресурсов, ТИР). Для демонстрации этого построим эскиз данной теории. В рамки да-ной работы не входит глубокое исследование свойств ТИР и ее сравнение с другими формализмами — это работа на будущее. Большинство идей только обозначено и почти не развивается. Мы определим базовые конструкции формальной системы, сформулируем некоторые основные свойства.

Большее внимание будет уделено обоснованию естественности конструкций ТИР, их «близости к реальному миру» с одной стороны, и демонстрации универсальности - с другой. Через D будем обозначать предметную область, нуждающуюся в описании. Ядром ТИР является базовая модель типов данных 3 = (Л /і,..., А/я; О), на основе которой строятся все остальные конструкции. Чтобы иметь возможность работать с типами данных базовой модели 3 — (А/і,..., Л/,; Q), заведем для них специальные имена: DT — {dtj,..., dts}, символизирующие основные множества 2ft , определив их интерпретацию /D(dti) - МІ. ТИР базируется на положениях, обсужденных на концептуальном уровне в предыдущих пунктах. Если подытожить то, что было сказано выше, получается, что в системах метаописаний предметных областей в основном фигурируют три позиции: 1. Иерархия объектов предметной области (классы объектов и понятие наследования), которая реализуется через таксономии. 2. Набор атрибутов объекта предметной области, индивидуальным образом характеризующий его и выделяющий среди других объектов. 3. Взаимодействие классов реализуется через привязку к классу набора атрибутов, характеризующих объект как представителя данного класса. Например, если имеем иерархию классов профессор - ппс - человек (ппс расшифровывается как «профессорско-преподавательский состав»), то если объект принадлежит к классу «профессор», то этот объект как человек обладает фамилией, датой рождения и, возможно, супругой/супругом; как ППС он обладает атрибутом «вуз», в котором работает, и, наконец, как профессор он характеризуется атрибутом «кафедра», на которой получил звание профессора.

Пусть дана некоторая предметная область D. Предположим, анализ показывает, что данную предметную область удобно описывать, пользуясь иерархией классов с именами сп4-. Любой класс является подмножеством предметной области D, то есть /р(сп;) С D, где /о(спі) - множество объектов класса с именем сп;. Во всех практически значимых случаях нам достаточно иметь конечное множество классов, которое обозначим CN — {спі,..., crip}, р ш. Тогда наследование представляет собой частичный порядок, заданный на CN: то, что сщ наследует класс сп,- (является его подклассом) будет обозначаться как enj -# cnj. Если характеризовать классы с информационной точки зрения, то об элементах наследующего (под)класса мы имеем больше (точнее, не меньше) информации, чем об элементах наследуемого (над)класса. Это означает, что спг- -# отвлечет Іо(спі) С IQ(CIIJ), то есть, чем больше информации о классе, тем меньше сам класс. Например, поскольку профессор является человеком, то о профессоре имеем информацию как о человеке, плюс дополнительную информацию, характеризующую его как профессора.

В дальнейшем будем считать, что CN содержит константу object, которая интерпретируется как класс всех объектов. Это означает, что для любой предметной области D любая корректная интерпретация констант из CN должна сохранять свойство en D object для любого сп ф object. Изначальное присутствие наибольшего (а значит, наименее информативного) класса необходимо в качестве стартовой точки для построения иерархии наследования.

Очевидно, что атрибуты, имена которых будем обозначать через Pj, должны привязываться к классам. Например, атрибут «фамилия» присущ классу людей, но не имеет смысла для класса автомобилей. С другой стороны, аргумент (значение атрибута) также должен быть либо элементом некоторого класса, либо элементом базовой модели данных 9Ї = (Mi,..., MS;Q), то есть значения атрибутов также должны быть типизированы. Отсюда появляется еще одно отношение, привязывающее атрибуты к классам. Выражение р; \о (en, т), где сп є CN и т є CN U DT, означает, что в предметной области D атрибут с именем рг- характеризует элементы класса сп, а значениями атрибута, в зависимости от ситуации, могут быть элементы класса или основного множества т. Например, в предметной области общественных связей появляется отношение фамилия D (человек, строка). Здесь значением атрибута является строка, то есть элемент базовой модели. В случае супруг (человек, человек) значение атрибута выбирается уже не из базовой модели, а берется из класса «человек». В практически значимых случаях система описаний каждой конкретной предметной области использует, как правило, лишь конечное число атрибутов. Множества атрибутов будем обозначать через Attr — {р1}..., рк}.