Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Алгоритмы формирования знаний для экспертных систем в слабоструктурированных предметных областях Муратова Елена Анатольевна

Алгоритмы формирования знаний для экспертных систем в слабоструктурированных предметных областях
<
Алгоритмы формирования знаний для экспертных систем в слабоструктурированных предметных областях Алгоритмы формирования знаний для экспертных систем в слабоструктурированных предметных областях Алгоритмы формирования знаний для экспертных систем в слабоструктурированных предметных областях Алгоритмы формирования знаний для экспертных систем в слабоструктурированных предметных областях Алгоритмы формирования знаний для экспертных систем в слабоструктурированных предметных областях Алгоритмы формирования знаний для экспертных систем в слабоструктурированных предметных областях Алгоритмы формирования знаний для экспертных систем в слабоструктурированных предметных областях Алгоритмы формирования знаний для экспертных систем в слабоструктурированных предметных областях Алгоритмы формирования знаний для экспертных систем в слабоструктурированных предметных областях
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Муратова Елена Анатольевна. Алгоритмы формирования знаний для экспертных систем в слабоструктурированных предметных областях : Дис. ... канд. техн. наук : 05.13.01 : Томск, 2004 187 c. РГБ ОД, 61:04-5/3247

Содержание к диссертации

Введение

ГЛАВА 1. Анализ данных и формирование знаний в экспертных системах искусственного интеллекта 13

1.1. Экспертные системы и их место при анализе слабоструктурированных проблем 13

1.2. Основные понятия и определения, исходный материал 18

1.3. Постановка задачи при формировании знаний для экспертных систем в слабоструктурированных предметных областях 22

1.4. Модели представления данных и знаний 23

1.5. Методы анализа данных и формирования знаний 28

1.6. Интерактивный анализ данных и знаний 35

Выводы 36

ГЛАВА 2. Разработка алгоритма адаптивного кодирования разнотипной информации 38

2.1. Методы преобразования разнотипных данных 38

2.2. Разработка алгоритма адаптивного кодирования разнотипной информации 45

2.2.1. Метод адаптивного эвристического кодирования признаков 46

2.2.2. Построение аппроксимирующей функции методом наименьших квадратов 52

2.2.3. Выявление различий в распределениях значений признака в диагностируемых классах 54

2.2.4. Алгоритм адаптивного кодирования разнотипной информации 56

2.3. Оценка информативности признака 61

2.4. Алгоритм адаптивного кодирования в задачах конструирования локальных диагностических шкал 63

Выводы 68

ГЛАВА 3. Разработка информационной технологии формирования знаний в слабоструктурированных предметных областях 69

3.1. Информационная технология: основные принципы построения ... 69

3.2. Этап 1. Построение логических моделей методом локальной геометрии 73

3.3. Этап 2. Построение логических моделей методом ограниченного перебора 83

3.4. Этап 3. Построение логических моделей с использованием деревьев решений 91

3.5. Этап 4. Выявление устойчивых логических закономерностей в изучаемой предметной области 103

Выводы 106

ГЛАВА 4. Программная реализация и апробация результатов 108

4.1. Программная реализация алгоритма адаптивного кодирования разнотипной информации 108

4.2. Оценка эффективности алгоритма адаптивного кодирования разнотипной информации на примере решения задачи прогнозирования адаптации студентов к обучению в вузе. 115

4.3. Формирование информативных диагностических диапазонов в программе UniData при изучении влияния комплекса реабилитационных мероприятий на уровень здоровья беременных женщин 127

4 4.3. Применение информационной технологии формирования знаний при исследовании специфики когнитивного обеспечения интеллектуальной деятельности студентов 134

Выводы 157

Заключение 158

Список литературы 162

Приложение 173

Введение к работе

Актуальность работы.

В настоящее время исследования в области разработки интеллектуальных систем, выполняющих роль эксперта и консультанта, лежат на магистральном; направлении развития компьютерной информационной технологии [14, 30, 32, 38-40,! 44; 61, 80, 86, 102]. При этом, бесспорно, актуальными являются проблемы, связанные с формированием и представлением знаний, выявлением закономерностей в знаниях, формированием решающих правил, принятием и обоснованием решений [22].

Процесс извлечения знаний на начальных этапах проектирования интеллектуальных экспертных систем, - один; из наиболее сложных и трудоемких, и он не всегда; заканчивается успешно, поскольку базы данных в слабоструктурируемых предметных областях содержат неполную, нечеткую, разнотипную и противоречивую информацию; Поэтому одним из перспективных подходов к решению обозначенных проблем является использование интеллектуальных методов Data Mining - современным воплощением основных идей искусственного интеллекта [105], - основными задачами которых являются поиск функциональных зависимостей и логических закономерностей в накопленной информации, построение моделей и правил, объясняющих найденные закономерности.

На мировом1 рынке программных продуктов уже давно имеется ряд систем извлечения знаний, большинство из, которых предназначено для крупных корпоративных хранилищ информации и, соответственно, работает на мощных компьютерах. В то же время в России и ведущих зарубежных странах активно ведутся разработки; программных продуктов, относящихся к классу систем Data Mining, работающих на персональных компьютерах: ОТЭКС, ЭКСНА (Загоруйко Н.Г., Новосибирск); ЭКСАПРАС, ИМСЛОГ (Янковская А.Е., Томск); системы, реализующие ДСМ-метод логического вывода (Финн

B.K., Москва); обучающие системы Стефанюка В.Л. (Москва); система интеллектуального анализа данных, распознавания и прогноза (Журавлев Ю.И., Рязанов В.В. и др., Москва); технология для построения экспертных систем и баз знаний SIMER+MIR+KAD (Исследовательский Центр Искусственного Интеллекта, Переяславль-Залесский); PolyAnalyst (Megaputer Intelligence, Россия); инструментальный комплекс АТ-ТЕХНОЛОГИЯ (Рыбина Г.В., Москва); инструментальный пакет CAKEv2.0 (Воинов А., Россия); Универсальный Классификатор (Юдин В.Щ Россия); система Deep Data Diver (Дюк В.А., Асеев: М.Г., Санкт-Петербург); система; представлений знаний в процессе обучения INSPIRATION (Inspiration Corp, США); система поиска логических закономерностей в данных WIZWHY (WizSoft, США); система построения деревьев решений See5/C5.0 (RuleQuest, США); система построения классификационных и регрессионных деревьев CART (США); интерактивный дихотомайзер ID3 (США) и др.

Изучение существующего многообразия методов исследования данных и систем, реализующих данные методы, подтолкнуло нас к идее интеграции существующих средств в единую информационную технологию формирования знаний.

Направленность на слабоструктурируемые предметные области обусловлена тем, что они характеризуются сложностью и неопределенностью объектов исследования. Предложенный подход даст возможность исследователю получать информацию нового качества в виде логических закономерностей. Выявленные таким образом закономерности! позволят объяснить существующие факты и процессы в изучаемой предметной области, выявить и осмыслить новые знания, а также переосмыслить ранее известные факты, процессы и тенденции, характеризующие формирование, эволюцию и трансформацию сложных систем, сформировать процедуры работы со знаниями, в частности, процедуры рассуждения.

Главной особенностью разработанной информационной технологии является качественно новый метод организации взаимодействия исследователя и компьютера для решения слабоструктурированных задач.

При выборе методов исследования; предпочтение было отдано логическим методам, которые позволяют представить имеющиеся закономерности на языке, близком к естественному языку логических суждений, и: дают возможность специалисту в І прикладной области лучше понять внутренние причинно-следственные связи изучаемых сложных объектов [17, 29, 47, 53, 73, 77]. С их помощью решаются задачи і прогнозирования, классификации, распознавания образов, сегментации баз данных, извлечения из данных скрытых (невербализуемых) знаний, интерпретации данных, установления ассоциаций в базах данных и др. Логические методы работают в условиях разнородной информации, что особенно важно для слабоструктурируемых предметных областей. В качестве альтернативы логическим методам, в информационную технологию включен метод локальной геометрии [28], переводящий задачу формирования знаний на язык геометрических соотношений между эмпирическими фактами; выступающими целостными информационными единицами. При этом решается проблема: разнотипности исходных данных.

В то же время практика показывает целесообразность разработки такого рода технологий, сочетающих различные методы интеллектуального анализа данных.

Актуальность тематики:диссертационной работы и решаемых в ней задач подтверждается включением исследований по ним в гранты Российского фонда фундаментальных исследований и гранты Российского фонда гуманитарных исследований.

Цель работы.

Задача в общем виде формулируется как разработка информационной технологии формирования знаний для областей, формализация знаний в которых сопряжена с целым рядом проблем. Построение технологии • обеспечивается созданием математических моделей и применением адекватных задаче математико-статистических методов. Средством их реализации в данной работе являются разработанные алгоритмы извлечения и представления знаний, характерных для мультидисциплинарных исследований.

Для достижения поставленной цели необходимо было решить следующие задачи:

разработать алгоритмы формирования знаний в слабоструктурированных предметных областях;

- разработать и программно реализовать алгоритм адаптивного кодирования разнотипной информации;

- создать программное обеспечение для конструирования локальных диагностических шкал;

- исследовать разработанные алгоритмы и программное обеспечение на экспериментальных данных;

внедрить разработанные алгоритмы и программное обеспечение в практику.

Методы исследования.

Методы и модели интеллектуального анализа данных, в частности, методы многомерного линейного анализа, ограниченного перебора (логико-комбинаторные), деревья решений, линейной геометрии:

Обоснованность и достоверность выдвигаемых и использованных В: диссертации научных положений, выводов и рекомендаций подтверждается:

- теоретическим обоснованием;

- апробированием программных реализаций;

- опытом применения для решения конкретных задач;

- перспективой дальнейшего использования. Основные положения, выдвигаемые на защиту;

1. Модифицированный алгоритм адаптивного кодирования разнотипной информации, предназначенный для унификации признакового пространства.

2. Универсальная программа UniData, предназначенная для решения задач кодирования разнотипной информации и конструирования: локальных диагностических шкал..

3. Информационная технология формирования знаний,, позволяющая выявлять логические закономерности в слаботсруктурируемых предметных областях.

Научная новизна.

- Разработан алгоритм адаптивного кодирования разнотипной информации, являющийся развитием метода адаптивного эвристического кодирования признаков, предложенного Тарановой Н;Н.. Разработанный алгоритм, позволяет оперировать малыми выборками и эффективно адаптировать пространство признаков к особенностям решаемой задачи.

- Разработана информационная технология формирования знаний в слабоструктурированных предметных областях, объединяющая несколько методов интеллектуального анализа данных с последующей интеграцией выявленных логических закономерностей: метод локальной геометрии, метод ограниченного перебора; и построение деревьев решений. Отличительной особенностью данной технологии является представление исследователю возможности выбора в интерактивном режиме различных стратегий для решения прикладных задач.

- Разработана схема нахождения устойчивых логических закономерностей в структуре множества эмпирических фактов, представляющая собой новый подход для интеграции логических моделей.

- Разработана универсальная программа UniData, в состав которой входит алгоритм адаптивного кодирования- разнотипной информации, алгоритм равномерного разбиения, алгоритм, реализующий 2 варианта экспертного разбиения и алгоритм комбинированного выделения информативных интервалов. Отличительной особенностью разработанной программы является ее многовариантность (5 вариантов выделения интервалов),

востребованность (унификация признакового пространства является неотъемлемой частью подготовки разнотипной информации к дальнейшему анализу) и уникальность (нет подобных аналогов).

- Разработана схема выделения информативных диагностических интервалов, реализующая новый подход при конструировании локальных диагностических шкал: в медицине, психологии,, социологии, и других слабоструктурированных предметных областях.

- Для решения задач исследования специфики когнитивного обеспечения интеллектуальной деятельности студентов выявлены знания, доказывающие наличие эффекта крайних значений применительно к стилевым качествам интеллекта.

Связь работы с научными программами, темами, грантами.

Большая часть исследований диссертационной5 работы проводилась в соответствии с планом работ по грантам: РФФИ, 2003-2005, №03-06-80128, "Моделирование механизмов эффективной интеллектуальной самореализации субъекта"; РГНФ, 2001-2003, №01-06-00084а, "Выявление специфики когнитивного развития субъектов с; высоким и сверхвысоким уровнем интеллекта"; РГНФ, 2002-2004, №02-06-00086а, "Влияние типов социальных взаимодействий на интеллектуальную самореализацию- и социальную адаптацию одаренных студентов в технических вузах".

Работа также частично поддержана грантами: РФФИ, 2003; №03-01-06115мас; РФФИ; 2001-2003, №01-01-01050, "Развитие интеллектуальной системы логико-комбинаторного принятия решения, основанной на матричном представлении знаний"; РФФИ; 2000-2003, №01-01-00772, "Логические тесты, логико-вероятностный вывод и средства когнитивной графики в интеллектуальной системе"; РГНФ; 1998-2000, №98-06-150, "Коммуникативный стресс студента: феноменология, закономерности динамики, факторы трансформации"; РФФИ, 1998, №98-01-00295, "Логико-вероятностные выводы на основе оптимальных смешанных диагностических тестов, частичной импликации и средств когнитивной графики в интеллектуальных системах"; РФФИ, 1998-2000, №98-01-03019, "Разработка математических основ и создание междисциплинарных гибридных интеллектуальных систем выявления закономерностей и оперативной оценки состояния окружающей среды в экологически напряжённых районах Западной Сибири".

Практическая ценность.

Созданное программное обеспечение позволило получить качественно новые научные и практические выводы, существенно ускоряющие и облегчающие работу специалистов слабоструктурируемых предметных областей.

Апробация работы.

Основные положения диссертационной работы докладывались и обсуждались на: 5-ой Международной конференции «Распознавание образов и анализ изображений: новые информационные технологии», Самара, 2000; седьмой национальной конференции по искусственному интеллекту с международным участием КИИ 2000, Переяславль-Залесский, 2000; Международном конгрессе «Искусственный интеллект в XXI веке», Дивноморское, 2001; Международной научной конференции «Интеллектуализация обработки информации (ИОИ-2002)», Алушта, Украина, 2002; IV Всероссийской конференции с международным участием «Новые информационные технологии в исследовании сложных структур», Томск, 2002; Международной научно-технической конференции «Компьютерное моделированием — 2003», Санкт-Петербург, 2003; Международной научно-технической конференции «Интеллектуальные системы (IEEE AIS 03)», Дивноморское, 2003. Публикации.

По результатам выполненных исследований было опубликовано 20 работ, приведенных в основном списке литературы [6-Ю, 35, 51, 55-59, 84, 96-100, 103, 111], в том числе 7 статей в рецензируемых журналах, 13 научных публикаций в материалах и трудах международных и Всероссийских конференций.

Также диссертант является автором 2 учебных пособий. На учебное пособие «Компьютерный анализ данных» получен в 2002 году гриф «Рекомендовано к межвузовскому использованию» в Сибирском региональном учебно-методическом центре.

Внедрение результатов.

Результаты работы используются в учебном процессе, и внедрены в лаборатории психологии способностей Института психологии РАН, в отделе социально-психологических исследований информационно-аналитического центра Томского политехнического университета, Томском государственном педагогическом университете, Сибирском государственном медицинском университете.

Структура и объем работы.

Диссертация состоит из введения, четырех глав основного содержания, заключения, изложенных на 182 страницах, содержит 52 рисунка, 27 таблиц, список литературы из 117 наименований и приложения.

Автор считает своим долгом выразить глубокую благодарность и признательность д.т.н., профессору Томского государственного архитектурно-строительного университета Янковской Анне Ефимовне и к.т.н., доценту кафедры прикладной математики Томского политехнического университета Берестневой Ольге Григорьевне за плодотворное творческое сотрудничество и; помощь при работе над диссертацией, коллективу лаборатории интеллектуальных систем при ТГАСУ за оказанную всестороннюю поддержку, а также сотрудникам отдела социальных исследований ТПУ за помощь в интерпретации полученных результатов. 

Экспертные системы и их место при анализе слабоструктурированных проблем

Развитие информационных технологий расширяет возможности интеллектуальных систем, берущих на себя различные функции, традиционно считавшиеся прерогативой интеллектуальной деятельности.

Это особенно важно для слабоструктурированных предметных областей, к которым, в частности, относятся социальные, экономические, медицинские, психологические науки, поскольку на их основе становится? возможным получать целостную интерпретацию неформализованных данных в І контексте как научных знаний, так и личного опыта специалиста, выступающего в качестве эксперта.

Эффективность принимаемых решений интеллектуальными системами существенно зависит от подготовки и адаптации богатства знаний специалистов исследуемой предметной области в памяти компьютера. Поэтому, до сих пор остается актуальным вопрос разработки методов получения, представления и формализации знаний о предметной области для разработки систем искусственного интеллекта. При создании систем искусственного интеллекта (согласно, например, [16,27,29]) выделяют следующие основные направления их развития: 1) интеллектуальные информационно-поисковые системы; 2) обучающие системы; 3) экспертные системы.. Интеллектуальные информационно-поисковые системы располагают обширным справочно-информационным фондом, формируют адекватные ответы на запросы пользователя, а также обрабатывают огромные количества информации из разнообразных источников, осуществляя автоматическое реферирование и проводя анализ на противоречивость и неполноту тех или иных фрагментов знания. Обучающие системы применяются для профессионального обучения будущих специалистов, которые нередко называют тьюторами. Основной особенностью тьюторов является их способность давать обоснованные, методически эффективные для обучения объяснения с адаптивной степенью детализации по рассматриваемым диагностическим решениям [78]. Экспертные системы (ЭС) аккумулируют профессиональные знания опытных квалифицированных экспертов и предназначены для решения практических задач, возникающих у специалиста, работающего в слабоструктурированной и трудно формализуемой предметной области [16, 29]. Термин "слабоструктурируемые проблемы" (ill-structured) был введен Г.Саймоном [107]. Такой класс проблем охватывает широкий спектр реальных ситуаций. Для них характерно следующее: определения размыты; понятия меняются; ситуации зависят от множества контекстов; велика неопределенность, неоднозначность, неполнота, ошибочность, противоречивость, ненадежность и разнотипность исходных данных. На рис. 1.1 представлена общая структура интеллектуальных экспертных систем [12]. : # Основу любой экспертной системы составляют база данных (БД) и база знаний (БЗ). В БД накапливаются эмпирические факты из исследуемой предметной области: фактические данные, примеры экспертных заключений, элементарные высказывания с некоторой оценкой и т.п. (представленные в виде; троек объект, признак, значение признака ). В БЗ заносятся сведения, выражающие закономерности структуры множества эмпирических фактов и способы решения возникающих в этой области задач. Кроме того, в БЗ помещается «информация об их важности, а также сведения о том, каким образом эти связи и закономерности могут быть использованы» [65]. Закономерности в БЗ представляются в виде различных математических моделей. От качества представления данных и знаний зависит эффективность принимаемых решений экспертной системой, которые строятся в логическом блоке, или решателе. Блок общения, или интеллектуальный интерфейс - организует взаимодействие пользователя с системой в удобной для него форме, максимально приближенной к реальному общению людей. Функция блока объяснения заключается в выдаче информации, объясняющей или иллюстрирующей путь получения І того или иного вывода, если он интересует пользователя. Создание экспертных систем состоит из следующих основных этапов [4, 16,75]. 1 этап. Структуризация имеющихся данных и знаний об изучаемых объектах с привлечением квалифицированных экспертов в рассматриваемой предметной области. 2 этап. Выбор математического аппарата и формализация данных и знаний. этап. Разработка системы, предоставляющей пользователю эффективные средства для анализа данных на предмет выявления закономерностей, построения решающих правил и распознавания предъявляемых объектов, выработки и обоснования решений.. 4-.этап:. Создание, заполнение и управление БЗ системы. 5 этап.. Решение реальных задач по распознаванию произвольных объектов и принятию решений в рассматриваемой предметной области; 6 этап. Доработка экспертной системы по результатам эксплуатации. Базовым! понятием в- ЭС является «знание», хотя однозначного определения; оно не: имеет. Специалистами предложены десяткш различных толкований; Рассмотрим некоторые из них. Определение знаний вне контекста искусственного- интеллекта, приведенное в [16], звучит следующими образом: «Проверенный практикой результат познания; действительности, верное ее: отражение:в мышлении:человека». Это определение достаточно общее и не проясняет особенностей знаний, связанных с компьютерными системами. Другое определение термина «знание», уже в; рамках инженерии знаний; предлагается, в [78], где «знаниям определяются как формализованная информация, на которую ссылаются? или которую, используют в процессе1 решения. Соответственно, под базой знаний понимают совокупность знаний, относящихся к некоторой предметной области ш формально представленных таким образом, чтобы на их основе можно было осуществлять рассуждения».

Кроме того, в [16] знания определяются как «...основные закономерности предметной области; позволяющие человеку решать, конкретные производственные, научные w другие задачи , то есть факты, понятия,, взаимосвязи, оценки, правила, эвристики, а также стратегии принятия, решения в этой области».

Методы преобразования разнотипных данных

В системах для визуализации многомерных данных основное внимание уделяется дружелюбию пользовательского интерфейса, позволяющего ассоциировать с анализируемыми показателями различные параметры диаграмм рассеивания объектов базы данных. Данные системы имеют удобные средства для масштабирования и вращения изображений:

Подводя итог вышесказанному, необходимо отметить тот факт, что сегодня имеющийся рынок интеллектуальных экспертных систем успешно развивается; и предпочтение отдается системам, использующим логические алгоритмы поиска. С их помощью решаются задачи прогнозирования, классификации, распознавания образов, извлечения из данных «скрытых» знаний, интерпретации данных и др. Вместе с тем, главной проблемой методов обнаружения логических закономерностей является проблема перебора вариантов за приемлемое время. 1.6., Интерактивный анализ данных и знаний

Любые экспериментальные исследования ставят целью получение новых, ранее неизвестных знаний об. особенностях объектов исследования, поэтому эти знания не могут быть заранее использованы при обосновании выбираемых методов анализа- данных. В. этом? случае строится несколько; различных математических моделей, поясняющих связь «вход-выход», выбор которых не всегда достаточно обоснован, а выдаваемые рекомендации для» принятия решений противоречивы. Поэтому одним из- вариантов выхода из такого положения; является использование «гибких вычислительных процедур, для которых заранее не оговаривается вся структура этапов обработки, она формируется в процессе решения задачи, а последовательность этапов устанавливается; исследователем на основании уже достигнутых результатов анализа данных» [69]. Взаимодействие исследователя и компьютера на любом этапе анализа данных и принятия решения представляет собой интерактивный режим обработки экспериментальных данных.

При изучении структуры (экспериментальных данных в интерактивном режиме исследователь в ходе решения ; задачи по результатам промежуточных вычислений подтверждает или опровергает сформулированные ранее гипотезы и предположения; корректирует стратегию решения задачи через собственные и машинные рассуждения, учитывая все возможные варианты.

Согласно перспективам, обозначенным в [33], «дальнейшее развитие интеллектуальных систем, направлено на превращение, экспертных систем, в активных интеллектуальных партнеров, пользователя, т.е. в партнерские системы.. Наряду со знаниями экспертов, вводимыми «инженерами знаний», партнерские системы будут иметь средства самостоятельного извлечения знаний из данных, поступающих в систему в ходе ее создания и эксплуатации». Партнерские системы должны инициировать вопросы к исследователю, обращая его внимание на несовершенство базы данных и знаний или корректность полученных знаний: Тогда процесс непрерывного взаимодействия # исследователя со своим «интеллектуальным» помощником образует своеобразный «гибридный» интеллект [3], обеспечивающий эффективное использование достоинств объектов разной физической природы при взаимной компенсации их недостатков. 1. Рассмотрена классификация интеллектуальных систем по областям их применения. Определено место и значение экспертных систем в задачах анализа данных и получения новых знаний в слабоструктурируемых предметных областях. 2. Сформулированы отличительные особенности знаний от данных, и описаны стратегии получения знаний. Приведена обобщающая структура систем искусственного интеллекта и стандартизированная, схема, охватывающая выполнение основных этапов создания экспертных систем. Показано, что от того насколько полно будет изучена структура исходных экспериментальных данных на начальных этапах разработки экспертных систем, зависит эффективность принимаемых решений. 3: Определены основные особенности слабоструктурируемых предметных областей: большая размерность, разнотипность, неопределенность и индивидуальность, объектов исследования. Наличие этих особенностей затрудняет использование строгих математических методов, поэтому становится необходимым; использование методов анализа данных, опирающихся на конкретные факты, имеющиеся в экспериментальной выборке. 4: Введены описания задач, сопряженных с формированием новых знаний в исследуемых предметных областях. Проанализированы основные модели представления данных и знаний при разработке экспертных систем, а также на этапе структуризации данных и знаний. Недостатком систем этого класса считают требование к специальной подготовке пользователя. Также к недостаткам можно отнести то, что большинство методов опираются на статистическую парадигму, в которой главными фигурантами служат усредненные характеристики. Однако статистические системы более распространены и доступны пользователю, чем другие системы..

В системах для визуализации многомерных данных основное внимание уделяется дружелюбию пользовательского интерфейса, позволяющего ассоциировать с анализируемыми показателями различные параметры диаграмм рассеивания объектов базы данных. Данные системы имеют удобные средства для масштабирования и вращения изображений:

Подводя итог вышесказанному, необходимо отметить тот факт, что сегодня имеющийся рынок интеллектуальных экспертных систем успешно развивается; и предпочтение отдается системам, использующим логические алгоритмы поиска. С их помощью решаются задачи прогнозирования, классификации, распознавания образов, извлечения из данных «скрытых» знаний, интерпретации данных и др. Вместе с тем, главной проблемой методов обнаружения логических закономерностей является проблема перебора вариантов за приемлемое время. 1.6., Интерактивный анализ данных и знаний

Любые экспериментальные исследования ставят целью получение новых, ранее неизвестных знаний об. особенностях объектов исследования, поэтому эти знания не могут быть заранее использованы при обосновании выбираемых методов анализа- данных. В. этом? случае строится несколько; различных математических моделей, поясняющих связь «вход-выход», выбор которых не всегда достаточно обоснован, а выдаваемые рекомендации для» принятия решений противоречивы. Поэтому одним из- вариантов выхода из такого положения; является использование «гибких вычислительных процедур, для которых заранее не оговаривается вся структура этапов обработки, она формируется в процессе решения задачи, а последовательность этапов устанавливается; исследователем на основании уже достигнутых результатов анализа данных» [69]. Взаимодействие исследователя и компьютера на любом этапе анализа данных и принятия решения представляет собой интерактивный режим обработки экспериментальных данных.

При изучении структуры (экспериментальных данных в интерактивном режиме исследователь в ходе решения ; задачи по результатам промежуточных вычислений подтверждает или опровергает сформулированные ранее гипотезы и предположения; корректирует стратегию решения задачи через собственные и машинные рассуждения, учитывая все возможные варианты.

Информационная технология: основные принципы построения

Информационная технология - это совокупность четко определенных действий, целенаправленных на получение информации нового качества (т.н. информационного продукта). Под информацией в данном случае понимаются сведения1 об объектах, их параметрах, свойствах и состоянии, которые уменьшают имеющуюся о них степень неопределенности, неполноты знаний.

Основной целью любой информационной технологии является получение адекватной информации для ее анализа исследователем и принятия на его основе какого-либо решения. Адекватность должна;выражаться в трех формах: синтаксической, семантической, прагматической. На синтаксическом уровне учитывается способ представления информации. Семантический аспект предполагает учет смыслового содержания информации. Прагматическая адекватность отражает ценность (полезность) полученной информации при принятии того или иного решения.

Кроме того, со смысловым содержанием (семантикой) и прагматикой связано понятие полноты информации. Как неполная, т.е. недостаточная для принятия правильного решения, так и избыточная информация снижает эффективность принимаемых пользователем решений. Основные компоненты информационной технологии (ИТ) условно можно представить в виде схемы (рис. 3.1), состоящей из блоков: подготовка и ввод данных; анализ входной информации; вывод итоговой информации для пользователей; обратная связь - это информация, переработанная пользователем или специалистами для коррекции входной информации или осуществления действий в окружающей среде. Кроме этого, технологию обработки данных можно представить в виде иерархической структуры по уровням (рис. 3.2): 1-й уровень - этапы, где реализуются сравнительно длительные технологические процессы, состоящие из операций и действий последующих уровней. 2-й уровень - операции, в результате выполнения которых будет создан конкретный объект в выбранной на 1-м уровне программной среде. 3-й уровень - действия, совокупность стандартных для каждой программной среды приемов работы, приводящих к выполнению поставленной в соответствующей операции цели. Каждое действие изменяет содержание экрана. 4-й уровень - элементарные операции по управлению мышью и клавиатурой; Освоение информационной технологии и дальнейшее ее использование сводится к тому, что пользователь должен сначала хорошо овладеть набором элементарных операций, число которых ограничено. Из этого ограниченного числа элементарных операций в разных комбинациях составляется-действие, а из действий, также в разных комбинациях, составляются операции, которые определяют тот или иной технологический этап. Для реализации этапов технологического процесса используется инструментарий ИТ, представленный разными программными продуктами. Информационная технология, как и любая другая, должна отвечать следующим требованиям: обеспечивать высокую степень расчленения всего процесса обработки информации на этапы (фазы), операции, действия; включать весь набор элементов, необходимых для достижения поставленной цели; быть доступной для понимания специалиста некомпьютерной области. Предлагаемая в работе технология, основанная на построении логических моделей, предполагает на каждом этапе использование следующих методов: Этап 1 - метод локальной геометрии, Этап 2 - метод ограниченного перебора, Этап 3 — построение деревьев решений, На заключительном четвертом этапе осуществляется проверка полученной информации на семантическую и прагматическую адекватность, " выявление устойчивых логических закономерностей в изучаемой предметной области, на основе полученных решений на предыдущих этапах. Выбранные методы не являются обязательными. Кроме того, необязательно последовательное прохождение первых трех этапов. Это может быть любая комбинация из двух этапов, или к предложенным методам могут быть добавлены другие методы [41, 104], результатом которых являются логические модели (например, метод случайного поиска с адаптацией [44], метод ветвей, и границ [106] и др.), поскольку заключительный этап работает только с конъюнкциями элементарных событий. Каждый из г описанных ниже методов и алгоритмов имеет свою специфику и позволяет по-разному "взглянуть" на структуру исходных данных. Отличия в специфике применяемых методов будут тем заметнее, чем с более сложными и разнообразными объектами приходится иметь дело исследователю. Использование устойчивых закономерностей в базе знаний экспертной системы улучшит качество распознавания и прогнозирования при использовании ограниченного набора диагностических прецедентов. Таким образом, основной целью разработанной автором ИТ формирования знаний является структуризация качественных, порой интуитивных, знаний специалистов в различных областях естественных и гуманитарных наук.

Программная реализация алгоритма адаптивного кодирования разнотипной информации

На практике полное соблюдение предъявляемых требований не выполняется. Однако, мы попытались предоставить исследователю возможность на заключительном этапе ИТ из получаемой совокупности логических закономерностей извлечь только ту информацию, которая бы обеспечивала валидность, непротиворечивость и не была избыточной. Что касается полноты описания, то, едва ли, это условие будет выполнено, так как невозможно учесть все факторы, влияющие на изучаемые процессы и явления.

Но одним из достоинств разработанной технологии и является то, что на этапах построения логических закономерностей, происходит "погружение" в экспериментальный материал, рождаются новые гипотезы, выявляются новые факты, которые следует доказать или опровергнуть.

Проиллюстрируем определение устойчивой закономерности на формальных моделях состоящих, например, из разных букв, каждая из,которых будет обозначать одно элементарное событие. Возьмем реальный случай, предусматривающий наличие в модели не только разных, но и одинаковых элементов: АВСА.

Общее число элементов в этой системе равняется четырем (л=4), три из которых разные - А, В и С (т=3). Примем наиболее строгое определение устойчивости: п,,т = Const, то есть будем считать устойчивыми не только такие закономерности, в которых не происходит качественных изменений (полное исчезновение А, В или С, появление D), но и количественных - количество событий, входящих в модель должно быть постоянным.

К менее устойчивым закономерностям будем относить, такие модели, в которых происходят незначительные качественные изменения, а именно при п 2, т уменьшается или увеличивается на 1. Тогда в конечную совокупность правил, включается правило, обладающее большим процентом, доверительной вероятности.

Что касается, моделей, с количеством элементов 1 п 4, состав которых дублируется в моделях с п 3, качественный состав которых не отличается, например, ABG и DACB, то предпочтение отдается в соответствии; с семантической и прагматической адекватностью, а также во внимание принимается доверительная вероятность правила;

Выявленные таким образом закономерности позволяют объяснить существующие факты и процессы в изучаемой предметной области, выявить и осмыслить новые знания, а также переосмыслить ранее известные факты, процессы и тенденции, характеризующие формирование, эволюцию и: трансформацию сложных систем.

Разработанная информационная технология формирования знаний соответствует заявленной цели — формированию знаний. В главе 4" будет на практическом примере продемонстрированы ее возможности. Одной из отличительных особенностей разработанной технологии является то, что она рассчитана как на специалиста с гуманитарным образованием, так и с техническим, разница восприятия информации у которых неоднократно отмечалась в литературе, например, в [26, 42]. Кроме того, различные этапы технологии позволяют исследователю дать ответ на разные вопросы: на первых трех этапах - на вопрос "Что происходит?", а на первом этапе и, особенно на четвертом этапе - на вопрос "Почему?" и "Как?" это происходит. Выводы: 1. Разработаны основные принципы построения информационной технологии для формирования знаний в слабоструктурированных предметных областях, использующей сочетание когнитивной графики, методов-линейной алгебры и методов логического поиска закономерностей: 2. Разработана структурная схема информационной; технологии формирования знаний, обеспечивающая поэтапное выявление устойчивых логических закономерностей в изучаемой; предметной области. Суть информационной технологии формирования знаний составляет последовательный интеллектуальный анализ данных на первом этапе - метод локальной геометрии, на втором этапе - метод ограниченного перебора, на третьем этапе - построение деревьев решений, на четвертом этапе — выявление устойчивых логических закономерностей в изучаемой предметной области.

Похожие диссертации на Алгоритмы формирования знаний для экспертных систем в слабоструктурированных предметных областях