Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Организация онтологических баз знаний и программное обеспечение для описания информационных ресурсов в молекулярной спектроскопии Привезенцев Алексей Иванович

Организация онтологических баз знаний и программное обеспечение для описания информационных ресурсов в молекулярной спектроскопии
<
Организация онтологических баз знаний и программное обеспечение для описания информационных ресурсов в молекулярной спектроскопии Организация онтологических баз знаний и программное обеспечение для описания информационных ресурсов в молекулярной спектроскопии Организация онтологических баз знаний и программное обеспечение для описания информационных ресурсов в молекулярной спектроскопии Организация онтологических баз знаний и программное обеспечение для описания информационных ресурсов в молекулярной спектроскопии Организация онтологических баз знаний и программное обеспечение для описания информационных ресурсов в молекулярной спектроскопии
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Привезенцев Алексей Иванович. Организация онтологических баз знаний и программное обеспечение для описания информационных ресурсов в молекулярной спектроскопии : диссертация ... кандидата технических наук : 05.13.11 / Привезенцев Алексей Иванович; [Место защиты: Том. гос. ун-т].- Томск, 2009.- 239 с.: ил. РГБ ОД, 61 10-5/799

Содержание к диссертации

Введение

Глава 1. Организация баз знаний в ИС 19

1.1 Представление знаний 19

1.1.1 Концептуализация 21

1.1.2 Инженерия онтологии 27

1.1.3 Представление данных, информации и знаний в Semantic Web 30

1.1.3.1 Extensible Markup Language (XML) 31

1.1.3.2 Resource Description Framework (RDF) 32

1.1.3.3 Ontology Web Language (OWL) 34

1.1.4 Дескриптивная логика и машины вывода 36

1.2 Информационные системы 42

1.2.1 Определение информационной системы 42

1.2.2 Слои информационной системы 43

1.3 Ресурсы информационной системы 44

1.3.1 Определение информационных ресурсов 44

1.3.2 Метаданные 45

1.4 Обзор информационных систем по молекулярной спектроскопии 48

1.4.1 Информационные ресурсы в предметной области молекулярной спектроскопии 52

Глава 2. Информационная модель предметной области с процедурными знаниями 58

2.1 Информационная модель предметной области с процедурными знаниями в виде цепей её прямых и обратных задач 58

2.2 Информационная модель молекулярной спектроскопии 63

2.2.1 Прямые задачи '.. 65

2.2.2 Обратные задачи 66

2.3 Модель данных молекулярной спектроскопии. XML-схемы результатов решений прямых и обратных задач молекулярной спектроскопии 68

2.3.1 Прямая задача определения физических характеристик изолированной молекулы 81

2.3.2 Прямая задача определения параметров спектральной линии изолированной молекулы 82

2.3.3 Прямая задача определения параметров контура спектральной линии 83

2.3.4 Обратная задача приписывают квантовых чисел спектральным линиям 84

2.3.5 Обратная задача определения коэффициентов Эйнштейна 84

2.3.6 Обратная задача определения уровней энергии изолированной молекулы 85

Глава 3. База знаний по спектроскопии молекул воды 87

3.1 Прикладная онтология спектроскопии молекулы воды 88

3.2 Свойства и классы прикладной онтологии спектроскопии воды 90

3.2.1 Классы 91

3.2.2 Свойства 94

3.3 Индивиды в прикладной онтологии по молекулярной спектроскопии воды 102

3.3.1 Представление источника информации в форме индивида прикладной онтологии для задач по определению, уровней энергии 104

3.3.2 Представление источника информации в форме индивида прикладной онтологии задач по определению переходов 107

3.3.3 Представление источника информации в форме индивида прикладной онтологии задач определения параметров контура спектральных линий 110

3.3.4 Представление информации о среднеквадратических отклонениях в форме индивида прикладной онтологии 113

3.4 Применение прикладной онтологии по молекулярной спектроскопии воды 116

3.4.1 Канонические источники информации и проблема достоверности 116

3.4.2 Организация поиска источников информации по запросам пользователя 122

3.4.3 Размещение прикладной онтологии в сети Интернет 123

3.5 Схемы метаданных прямых и обратных задач молекулярной спектроскопии 127

3.5.1 Представление метаданных результатов решений задач по определению уровней энергии 130

3.5.2 Представление метаданных результатов решений задач по определению переходов 135

3.5.3 Представление метаданных результатов решений задач по определению параметров контура спектральных линий 140

Глава 4. Программное обеспечение "Мета+" для организации базы знаний ... 147

4.1 Архитектура программного обеспечения "Мета+" 147

4.2 Алгоритмы организации базы знаний предметной области 149

4.2.1 Алгоритм фиксации схем метаданных 149

4.2.2 Алгоритм создания метаданных для решений задач 151

4.2.3 Алгоритм формирования индивидов (АВох) прикладной онтологии 156

4.3 Проектирование программного обеспечения "Мета+" 163

4.3.1 Функциональность для разработчика 165

4.3.2 Функциональность для пользователя 168

4.4 Реализация программного обеспечения "Мета+" 188

4.5 Характеристики программного обеспечения "Мета+" 191

Заключение 194

Список использованных источников 196

Введение к работе

Актуальность темы диссертационной работы.

Молекулярная спектроскопия является одним из широко используемых во многих прикладных исследованиях разделов физики. Предметом изучения молекулярной спектроскопии являются спектральные свойства молекул. Детальное изучение спектральных свойств молекул не закончено до сих пор. Связано это с тем обстоятельством, что в расчетах физических характеристик атмосферы используются сотни тысяч линий, каждая из которых описывается десятком параметров. В молекулярной спектроскопии постоянно публикуется огромное количество сложных результатов измерения или расчетов спектров - результаты решения предметных задач. Решаются предметные задачи для расчёта сотен миллионов линий, проводятся эксперименты с помощью современной техники для измерения спектров, которая позволяет получать данные с большей точностью и в тех диапазонах длин волн, в которых ранее измерения не проводились. Также растет число исследовательских групп. Кроме увеличения объёма спектральных данных постоянно меняется структура представления данных, как с предметной точки зрения так с технической реализации. Например, за почти сорокалетнюю историю одна из ведущих групп экспертов по спектроскопии, поддерживающая базу данных HITRAN, несколько раз модифицировала как набор физических сущностей, так и формат документов и файлов, в котором хранятся данные. Все это указывает на необходимость сбора, хранения, обработки и распространения информации с использованием современных подходов для коллективной работы на базе информационных систем в сети Internet.

На данный момент, для работы с этой информацией создаются специальные базы постоянно пополняющихся спектральных данных: HITRAN, GEISHA, VALD, CDMS, BASECOL, STSP. Работа с такими массивами данных требует, с одной стороны, предметной систематизации данных, с другой стороны, программных средств для их автоматизированной обработки, включающей программную интеграцию и структурирование разнородных ресурсов из различных предметных областей, а также возможность подготовки данных для решения прикладных задач в смежных предметных областях: астрономии, атмосферной радиации, оптики атмосферы. Поэтому, на основе этих баз данных создаются информационные системы. Несмотря на это, для молекулярной спектроскопии характерны следующие информационные проблемы, не решаемые в существующих информационных системах:

- для коллективной работы в информационной системе у пользо
вателя отсутствует возможность самостоятельного формирования
структуры массивов спектральных данных и их наполнение конкрет
ными значениями, проведения на их основе расчетов и сравнения с ре
зультатами экспериментов;

- базы спектральных данных могут содержать недостоверные
данные, что снижает их научную ценность;

имеется неопределенность в информации о собранных данных, об их способах получения;

существующие информационные системы не дают средств для автоматизированного программного анализа информации о данных и её последующей логической машинной обработки, необходимой для построения Semantic Web.

Идея Semantic Web состоит в машинной логической обработке семантики информационных ресурсов, имеющихся в сети Internet, для автономного решения интеллектуальных задач. Для решения таких задач должны использоваться специализированные интеллектуальные программы-агенты, которые предлагают решения, используя базу знаний, основанную на онтологии {онтологическую базу знаний). Для организации онтологии консорциум W3C, разрабатывающий Semantic Web, определил в качестве спецификации язык OWL DL.

Активные исследования по представлению знаний в виде онтологии начались в начале 1990-х и продолжаются до сих пор. Среди большого количества работ можно выделить M.R. Genesereth, T.R. Gruber, N. Guarino, R. Mizogushi, J.F. Sowa, R. Studer. Актуальные исследования онтологии в рамках Semantic Web представлены в работах LA. Horrocks, D.L. McGuinness, P.F. Patel-Schneider. Среди отечественных публикаций существует разнообразие подходов к представлению знаний в виде онтологии, и исследования в данной области активно ведутся И.Л. Артемьевой, Е.М. Бенеаминовым, В.И. Воробьевым, Б.В. Добровым, Т.А. Гавриловой, Н.Г. Загоруйко, Ю.А. Загорулько, Л.А. Калиниченко, А.С. Клещевым, Н.В. Лукашевич, Д.Е. Пальчуновым, А.Ф. Тузовским, В.Ф. Хорошевским. Большое количество публикаций в данной области указывает на решение разнообразных задач с помощью баз знаний, основанных на онтологиях.

Онтологические базы знаний позволяют осуществлять открытое представление машинно-обрабатываемых знаний, что позволяет повысить эффективность коллективной работы ученых в своих узкоспециализированных предметных областях. Так как они дают возможность учёным строить собственные концептуализации предметной области и проверять согласованность своих знаний с другими экспертными публикуемыми знаниями. Кроме этого ученые, анализируя получаемое

знание о результатах решения предметных задач, могут своевременно реагировать на важные сведения, например о некорректных данных. Кроме того, использование онтологических баз знаний для описания разнородных данных в рамках научных информационно-вычислительных систем позволяет решать задачи классификации, интеграции, поиска и сравнения информационных ресурсов.

В настоящее время в молекулярной спектроскопии в рамках научных информационно-вычислительных систем отсутствуют машин-но-обрабатываемые базы знаний.

На основе всего вышеперечисленного можно сделать вывод о том, что исследование подхода к организации онтологической базы знаний по молекулярной спектроскопии имеет научную и практическую актуальность.

Цель диссертационной работы: разработка и исследование подхода к построению в рамках научной информационно-вычислительной системы онтологических баз знаний для описания разнородных данных молекулярной спектроскопии, извлечённых из научных публикаций и проверяемых на достоверность.

Для достижения цели диссертационной работы решаются следующие задачи:

  1. Создание информационных моделей для представления данных и знаний в области молекулярной спектроскопии.

  2. Разработка структур данных для информации, извлеченной из научных публикаций по спектроскопии молекул, допускающих автоматическую проверку целостности данных и необходимых для обмена между интеллектуальными агентами.

  3. Создание терминологической компоненты (ТВ ох) онтологической базы знаний для представления знаний в области молекулярной спектроскопии.

  4. Разработка алгоритма формирования онтологического описания опубликованных данных с целью построения набора фактов в базе знаний по молекулярной спектроскопии, содержащих знания о их первоисточниках и достоверности.

  5. Реализация программного обеспечения, созданного на основе разработанного алгоритма онтологического описания информационных ресурсов и практического использования этого описания в НИВС по спектроскопии молекул воды.

  6. Реализация фактографической компоненты (АВох) онтологической базы знаний по описанию опубликованных данных спектроскопии молекул воды.

Объектом исследования являются структуры данных и модели представления знаний в информационных системах по молекулярной спектроскопии.

Предметом исследования являются подходы и алгоритмы создания баз знаний и систем управления ими в научных информационно-вычислительных системах по молекулярной спектроскопии.

Методы исследования. В ходе диссертационного исследования были использованы методы онтологического моделирования, теории множеств, дескриптивной логики, объектно-ориентированного проектирования и программирования.

Научная новизна диссертационной работы заключается в следующем:

  1. Впервые построена семантическая модель в виде терминологической компоненты (ТВох) базы знаний, являющаяся объединением информационных моделей объектов молекулярной спектроскопии, представляющая собой решения двух цепей прямых и обратных задач спектроскопии и свойств решений этих задач, позволившая решить задачу автоматической систематизации знаний о достоверности этих решений.

  2. Впервые создан алгоритм для автоматизации построения фактологической компоненты (АВох) базы знаний о решениях задач молекулярной спектроскопии и их свойствах, являющийся необходимым для машинной актуализации знаний о достоверности решений задач и применимый для всех спектральных молекул.

  3. Впервые создана онтологическая база знаний спектроскопии молекул воды, в которой фактологическая компонента (АВох) содержит наиболее полную информацию о значениях параметров спектральных линий молекул воды, опубликованную в мире.

Теоретическая значимость исследования состоит в разработке онтологии спектроскопии молекул как основы для построения и проверки научных гипотез, разнообразных систематизации знаний, интеграции знаний различных предметных областей, что открывает перспективы для постановки и решения новых предметных задач, как в молекулярной спектроскопии, так и смежных с ней областях науки, таких как астрономия, атмосферная радиация, оптика атмосферы.

Практическая ценность диссертационной работы заключается:

  1. В создании наиболее полной прикладной онтологии по опубликованным данным спектроскопии молекул воды.

  2. В возможности использования открытых результатов семантического описания решений задач, оформленных по стандарту OWL DL, во внешних специализированных системах по работе с онтоло-гиями, использующих машины вывода.

3. В разработке программного обеспечения в рамках научной информационно-вычислительной системы, имеющей трёхслойную архитектуру, на основе предложенного алгоритма онтологического описания информационных ресурсов и применении этого программного обеспечения рядом ведущих исследовательских групп спектроскопистов в России (Санкт-Петербургский государственный университет, Институт прикладной физики РАН, Институт оптики атмосферы РАН).

Основные защищаемые положения:

1. Семантическая модель в виде терминологической компоненты
(ТВ ох) базы знаний, являющаяся объединением информационных мо
делей объектов молекулярной спектроскопии, представляющая собой
решения двух цепей прямых и обратных задач спектроскопии и
свойств решений этих задач.

2. Алгоритм для автоматизации построения фактологической
компоненты (АВох) базы знаний о решениях задач молекулярной
спектроскопии и их свойствах.

3. Программное обеспечение в рамках научной информационно-
вычислительной системы, имеющей трёхслойную архитектуру, соз
данное на основе разработанного алгоритма онтологического описания
информационных ресурсов и полученная с его использованием онто
логическая база знаний спектроскопии молекул воды.

Апробация диссертационной работы. Все результаты работы докладывались и обсуждались на следующих научных конференциях: IX Рабочем совещании по электронным публикациям «El-Pub2004» -Новосибирск, 23-25 сентября 2004; V Всероссийской конференции молодых ученых по математическому моделированию и информационным технологиям - Новосибирск, 1-3 ноября 2004; Международной конференции по вычислительно-информационным технологиям для наук об окружающей среде «Cites-2005» - Новосибирск, 13-23 марта 2005; X Байкальской Всероссийской конференции «Информационные и математические технологии в науке, технике и образовании» - Севе-робайкальск, 12-19 июля 2005; 7-ой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL'2005) - Ярославль, 4-6 октября 2005; International conference on environment observations, modeling and informational systems (ENVIROMIS-2006) - Tomsk, 1-8 June 2006; XVth Symposium on High Resolution Molecular Spectroscopy «HighRus-2006» - Nizhny Novgorod, 18-21 July 2006; Рабочем семинаре «Проблемы и решения задач в области наук о Земле в распределенной ИНТЕРНЕТ среде» - Москва, 13-15 февраля 2007; European Geosciences Union General Assembly 2007 - Vienna, 15-20 April 2007; International conference

on Computational Information Technologies for Environmental Sciences «Cites-2007» - Томск, 14-25 июля 2007; Всероссийской конференции «Знания - Онтологии - Теория» - Новосибирск, 14-16 сентября 2007; 9-ой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL'2007) - Переславль-Залесский, 15-18 октября 2007; Всероссийской научно-практической конференции «Свободное программное обеспечение: разработка и внедрение» - Томск, 17-18 мая 2008; XIII Байкальской всероссийской конференции «Информационные и математические технологии в науке, технике и образовании» - Иркутск, 7-16 июля 2008; International conference on environment observations, modeling and informational systems (ENVIROMIS-2008) - Tomsk, 28-5 July 2008; European geosciences union general assembly 2009 - Vienna, 19-25 April 2009; XVI Международном симпозиуме «Оптика атмосферы и океана. Физика атмосферы» - Томск, 12-15 октября 2009; IV Всероссийской конференции молодых учёных «Материаловедение, технологии и экология в 3-м тысячелетии» - Томск, 19-21 октября 2009; Всероссийской конференции «Знания - Онтологии - Теория» - Новосибирск, 20-22 октября 2009.

По теме диссертационной работы опубликовано 17 научных работ.

из них шестнадцать печатных [1, 2, 3, 4, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17] и одна в электронном журнале [5];

из них четырнадцать работ на русском языке [4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17] и три на английском [1, 2, 3];

из них две в журналах из перечня ВАК по управлению, вычислительной технике и информатике [4, 9], две в журналах из перечня ВАК по физике [8, 11], две в журналах [5, 10], одиннадцать в трудах и материалах конференций [1, 2, 3, 6, 7, 12, 13, 14, 15, 16, 17].

Внедрение результатов диссертационной работы, было осуществлено в трех основных исследовательских группах спектроскопистов в России:

Институт оптики атмосферы СО РАН, где результаты доступны активно используется в рамках НИВ С ();

Институт прикладной физики РАН, где результаты доступны в рамках НИВС по адресу ;

- Санкт-Петербургский государственный университет, где ре
зультаты доступны в рамках НИВС по адресу
.

Работа выполнена при поддержке грантов. Российского Фонда Фундаментальных Исследований (РФФИ) «Распределенная информационная система «Молекулярная спектроскопия»« (05-07-90196, А.Д.

Быков, 2005-2007); РФФИ «Интернет доступная информационная система по молекулярной спектроскопии, основанная на знаниях» (08-07-00318-а, А.З. Фазлиев, 2008-2010); UIPAC task 2004-035-1-100 «A database of water transitions from experiment and theory».

Личный вклад автора.

Опубликованные работы написаны в соавторстве с экспертами предметной области спектроскопии молекулы воды и сотрудниками центра интегрированных информационных систем ИОА СО РАН. В совместных работах диссертант принимал участие в непосредственной разработке схем XML-данных, метаданных и их дальнейшем внедрении в модель НИВС, в разработке прикладной онтологии задач по спектроскопии молекул воды, во внедрении результатов работы. В разработке перечисленного программного обеспечения ему принадлежит определяющая роль.

Благодарности.

Автор выражает благодарность профессорам А.А. Мицелю и А.Ф. Тузовскому за внимание к работе, ценные замечания и помощь, способствующие окончательному варианту рукописи. Автор признателен с.н.с. А.З. Фазлиеву за ценные консультации, постановки задач и всестороннюю поддержку данной работы.

Автор благодарен чл.-корр. РАН С.Д. Творогову , а также благо

дарит д.ф.-м. н. А. Д. Быкова и к.ф.-м.н. Б.А. Воронина за консультации и помощь при определении структуры данных в молекулярной спектроскопии воды; Н.А. Лаврентьева за реализацию программ для расчета коэффициентов поглощения газов; А.Ю. Ахлёстина за реализацию ядра НИВС; А.В. Козодоева за реализацию системы ввода данных; д.ф.-м.н. О.Б. Родимову за помощь в составлении типовых вопросов для задачи нахождения уровней энергии молекулы.

Структура и объём диссертационной работы. Диссертация состоит из перечня условных обозначений, введения, четырёх глав, заключения, списка использованных источников и шести приложений. Общий объём работы составляет 239 страниц. Список использованных источников насчитывает 128 наименований. Работа содержит 42 рисунка и 25 таблиц.

Обзор информационных систем по молекулярной спектроскопии

Начиная с начала 80-х годов, в ИОА СО РАН начались работы по созданию информационных ресурсов в области молекулярной спектроскопии атмосферных молекул [95]. В начале 90-х был сделан качественный скачок в создании информационных систем. В 1993 году появилась система Airsentry, имеющая графический интерфейс.

С развитием Интернета начали появляться информационно-вычислительные системы коллективного использования по молекулярной спектроскопии. С созданием этих систем был выполнен переход от концепции банка данных к концепции информационной системы в области молекулярной спектроскопии. Приложения, соответствующие задачам молекулярной спектроскопии и существовавшие ранее отдельно от данных, были интегрированы в единую систему с доступом в сети Интернет. В дальнейшем развитие этих ИВС пошло экстенсивным путем.

Web-ориентированная информационная система "Спектроскопия атмосферных газов" [90]: предназначена для предоставления доступа через Интернет к информации о параметрах спектральных линий атмосферных газов и малых примесей, необходимой для решения задач оптики атмосферы, для моделирования и визуализации молекулярных спектров поглощения. Эта информационная система опирается на известные банки спектроскопических данных HITRAN [36] и GEISA [25] и оригинальные опубликованные данные лаборатории теоретической спектроскопии ИОА СО РАН. Структуры данных и относительная полнота значений физических величин в этой ИС определили перечень предметных приложений, доступный пользователю. Отметим, что эта ИВС ориентирована на вычисление спектральных функций. ИС позволяет получать все результаты работы в графическом или табличном виде, а также экспортировать в текстовом виде на компьютер пользователя для дальнейшей обработки другими программами. Полученные данные сохраняются в ИС по запросу пользователя и могут использоваться при последующей работе с ИС (http ://spectra.iao.ru).

Web-ориентированная информационная система "Спектроскопия и молекулярные свойства озона (S&MPO)" [47]: основана на результатах совместных экспериментальных и теоретических исследований, проводимых лабораториями GSMA (Реймс) и ЛТС Института Оптики Атмосферы СО РАН, а также на данных из более крупных исследовательских проектов, и информации, опубликованной в спектроскопической литературе. В этой ИС появились данные о фундаментальных характеристиках изолированной молекулы озона, а именно, уровни энергии, потенциальные и волновые функции и т.д. [125]. Возможности системы аналогичны ИС "Спектроскопия атмосферных газов" и свободно доступны (http://ozone.iao.ru).

Интернет-информационная система "Carbon Dioxide Spectroscopic Databank (CDSD)": Система CDSD основана на результатах совместных экспериментальных и теоретических исследований, проводимых лабораториями LPMA (Париж) и Институтом Оптики Атмосферы СО РАН (лаборатории ЛТС и ЛМС). ИС представляет собой интерактивную среду для доступа к банку данных CDSD, моделирования на его основе различных спектральных функций и сравнения результатов с результатами, полученными из других источников. (http://cdsd.iao.ru).

Перечисленные ИС реализуют только слой данных и вычислений. А дальнейшее интенсиональное развитие структур данных и метаданных, в частности, составление онтологии, происходило при создании ИВС «Атмосферная спектроскопия» [8]. Это развитие было основано на подходе семантического грида [15] к проектированию современных логических ИВС. В рамках этого подхода ИВС представляется в виде трех слоев: слоя данных и вычислений, информационного слоя и слоя знаний. Такое разделение позволяет явно очертить области моделирования. Моделирование в предметной области связано с уровнем данных и вычислений. Моделирование в двух других слоях относится к задачам информатики и связано с информационными объектами и процессами работы с ними.

Информационная модель молекулярной спектроскопии

Предметом изучения молекулярной спектроскопии являются спектры молекул. Исследования свойств молекул проводятся как экспериментально, так и теоретически. Теоретические работы по спектроскопии явным образом основаны на логиках (математической логике и модальной логике), поэтому формализация теоретических работ является при создании ИС относительно несложной задачей, но для решения задачи автоматической обработки информационных ресурсов необходимо дополнительно упрощать существующую в литературе информационную модель спектроскопии, в силу того факта, что в настоящее время отсутствуют машины логического вывода, основанные на указанных выше логиках. В, силу того факта, что созданные в последнее десятилетие машины логического вывода основаны на дескриптивных логиках, требуется такое упрощение проводить с учетом выше сказанного. .

Молекулярная спектроскопия, являясь частью- физики, имеет все ее характерные особенности, связанные с необходимостью уточнения условий идентичности, позволяющих выделять объекты этой предметной области. Оставляя в стороне теорию измерений, позволяющую определять правила формирования этих критериев, отметим тот формальный факт, что терминологически задачи, связанные с обработкой результатов измерений, принято называть обратными задачами. Ключевыми экспериментально определимыми характеристиками молекул в спектроскопии являются спектральные функции. Обратные задачи молекулярной спектроскопии связаны с обработкой данных измерений спектральных функций, что позволяет в дальнейшем при машинной обработке классифицировать их выходные данные как экспериментальные.

Прямые задачи молекулярной спектроскопии связаны с расчетами из первых принципов фундаментальных характеристик молекул, таких как уровни энергии молекул, частоты перехода, коэффициенты Эйнштейна и т.д. В цепи задач молекулярной спектроскопии существуют связи между прямыми и обратными задачами.

Входными данными для обратных задач являются либо непосредственно результаты измерений, либо выходные данные, как прямых, так и обратных задач. Результатами измерений являются спектральные функции, значения которых используются для нахождения параметров спектральных линий.

Прямые задачи в качестве входных данных используют универсальные константы, либо иные величины (потенциальные функции, мультипольные моменты и т.д.). Последовательность решения прямых задач начинается с задачи нахождения уровней энергии молекулы и заканчивается задачей вычисления спектральных функций. Последовательность решения обратных задач начинается с задачи определения параметров спектральных линий из экспериментальных измерений и заканчивается задачей нахождения уровней энергии молекулы. На практике расчетные данные помещаются в базы данных и используются для решения задач атмосферной радиации, оптики атмосферы, астрономии и т.д..

При решении задач обоих типов проводятся вычисления одних и тех же физических величин. Их сравнение позволяет делать выводы о корректности расчетов и идентифицировать переходы в соответствии с решениями модельных задач.

Проведенная нами идентификация классифицированных задач состоит из задач серии Т, серии ЕТ и серии Е. Задачи серии Т - это теоретико-расчётные задачи. Задачи серии ЕТ - это смешанные задачи, где присутствуют данные из физического эксперимента и проводятся расчёты. Задачи серии Е - это экспериментальные задачи, где присутствуют данные, полученные из физического эксперимента.

Свойства и классы прикладной онтологии спектроскопии воды

В этом разделе описаны все свойства прикладной онтологии, используемые для описания решения выбранных задач молекулярной спектроскопии, и классы, характеризующие множества индивидов на максимально возможном уровне обобщения. Более детальная структура классов представлена в 4 разделе главы при описании задач, решаемых с помощью прикладной онтологии. К числу этих задач относятся задача нахождения достоверных источников информации и систематизация источников информации по величине среднеквадратических отклонений в распределенной информационной системе. В ИВС используются несколько прикладных онтологии по молекулярной спектроскопии воды. Они отличаются наборами индивидов и таксономиями классов. Так, например, в онтологии задач индивиды размещены в хранилище данных, представляющим собой реляционную БД, в которой запрещены любые изменения (удаление и редактирование) данных, игнорируется требование уникальности идентифицированных уровней энергии и переходов в молекулах. Эта онтология ориентирована на профессионального спектроскописта, который может принять решение об истинности, ложности или степени применимости этих знаний. Для представления метаданных в формализованном виде используется язык OWL DL, позволяющий определять классы, индивиды (экземпляры классов) и свойства, которыми могут обладать индивиды классов. В рамках формализма этого языка построена таксономия классов, описывающих информационную модель предметной области. Большая часть классов прикладной онтологии задач построена с помощью ограничений на свойства. На рисунке 3.1 представлены базовые классы прикладной онтологии по молекулярной спектроскопии. В этой онтологии можно выделить три группы классов: Классы, содержащие объекты, относящиеся к спектроскопии молекул, в частности, молекулы воды и ее изотопомеров (Substance, PhysicalState, PhysicalQuantity, DimensionalQuantity, QuantumNumbersType, Unit, SpectralBand, BandQuantumNumbers, BandQuantumNumbers, CorrelationBand) Классы, содержащие математические модели объектов, используемые в молекулярной спектроскопии (SymmetryGroup, Task, Method). Классы, содержащие информационные объекты (Metadata, InformationSource, SubstanceRecord, PhysicalQuantityRecord, BroadeningSubstanceRecord). Приведем описание классов по группам. 1. Описание объектов молекулярной спектроскопии Класс Substance имеет подклассы: Aggregate, содержащий составные вещества, например air, класс Aggregate имеет подклассы, например, Gas, который задаётся ограничениями на свойство hasPhysicalState exactly 1, hasPhysicalState value gas; Atom, содержащий атомарные вещества, задаётся ограничениями на свойство hasPhysicalState exactly 1, hasPhysicalState value SingleAtom; BroadeningSubstance, содержащий уширяющие вещества; Molecule, содержащий молекулярные вещества, задаётся ограничениями на свойства hasPhysicalState exactly 1, hasPhysicalState value SingleMolecule, hasSymmetryGroup exactly 1. Класс PhysicalState состоит из перечисления физических состояний вещества в исследуемой среде (газ, жидкость, твердое состояние). Класс QuantumNumbersType состоит из перечисления типов квантовых чисел, используемых для идентификации уровней энергии для заданного вещества (нормальные моды, ВТ2, Швенке). Класс Unit состоит из перечисления единиц измерения физических величин, используемых при решении задач Т1-Т7.

Алгоритмы организации базы знаний предметной области

Алгоритм фиксации схем метаданных предлагает подход к подбору схем метаданных для наиболее полного описания информационных ресурсов. Исходя из того, что часть информации вычислительной научной системы (результаты) можно моделировать в виде информационных ресурсов, они будут описываться метаданными. Формирование форматов метаданных происходит для разных специалистов под разными углами зрения, так, для библиотекаря - общие характеристики, для филолога - части речи, для физика - физические законы. Из-за разного представления специалистов о метаданных возникает конфликт форматов. Кроме того, типовые форматы метаданных — жестко регулируемые стандарты. Жестко закрепляя схемы метаданных, мы, таким образом, снимаем проблему конфликта форматов, но создаем другую серьезную проблему — полноты данных о данных. Необходимо отметить, что ещё одним препятствием в стандартизации метаданных в научной среде является в большинстве своём отсутствие типовых стандартов по метаданным в предметной области, возможно, из-за подверженности научных данных не столько экстенсиональным, сколько интенсиональным зависимостям таких данных от времени. Для решения всех этих проблем мы расширяем понятие метаданных до понятия аннотаций.

Рассмотрим структуру аннотации информационного ресурса на рисунке 4.2. В ней есть два типа метаданных — форматные метаданные и предметные метаданные.

В свою очередь форматные метаданные делятся на универсальный формат Dublin Core [22] (так как с помощью этого формата можно описать любой документ) и форматы, предписываемые для описания тематических ресурсов, например музейный CIMI, библиотечный MARC.

Организация предметных метаданных состоит из произвольных метаданных в формате RDF и RDF-схемы к ним или онтологии на языке OWL. Такая организация аннотации отражает особенность изменяемой структуры метаданных.

Конечно, любые метаданные могут присутствовать или отсутствовать, опять же всё зависит от полноты описания данных, требуемой для решения информационных задач. Комбинация схем метаданных для описания информационного ресурса позволяет наиболее гибко подходить к составлению метаданных. С одной стороны, существующие стандартизованные схемы для метаданных позволяют описывать данные в общепринятой терминологии, с другой стороны, созданием метаданных не по стандартам можно решать любой спектр задач описания.

Например, в молекулярной спектроскопии на данный момент не существует программно реализованных схем метаданных. В диссертационной работе используются семантические метаданные, представляющие собой аннотацию, содержащую описание данных по схеме Dublin Core, плюс предметные метаданные, составленные в соответствии с разработанной прикладной онтологией задач молекулярной спектроскопии.

Похожие диссертации на Организация онтологических баз знаний и программное обеспечение для описания информационных ресурсов в молекулярной спектроскопии