Введение к работе
Актуальность Значительные усилия исследователей в области искусственного интеллекта в настоящее время сконцентрированы в направлении разработки методов решения задач с так называемой плохой структурой, представляющих значительные трудности при решении их человеком. Наиболее важной и часто рассматриваемой задачей такого рода является задача классификации. Анализ литературных данных показал, что существует широкий спектр методов и подходов к ее решению. Выделяются несколько направлений таких исследований: методы, характерные для подходов теории распознавания образов (ТРО), методы так называемого машинного обучения и подходы и методы, характерные для систем, основанных на знаниях.
Традиционно задача классификации рассматривалась з ТРО. Особенностью .подходов ТРО является наличие множества обучающих примеров (объектов с известной классификацией), на основе которых строится та или иная система формальных решающих правил. Достоинством таких подходов является то, что система таких "правил позволяет получить решение для любой комбинаций признаков и поэтому может быть отнесена к полной системе решающих правил. Однако, в зависимости от объема обучающей выборки (ОВ), ее разнообразия меняется и система решающих правил.
Методы так называемого машинного обучения используют множество обучающих примеров для извлечения логических решающих правил. Однако, они не всегда гарантируют получение полных баз решающих правил, а также, как и для методов ТРО, система решающих правил зависит от параметров ОВ: ее объема, разнообразия и непротиворечивости данных.
В системах, основанных на знаниях (СОЗ) делается попытка моделирования содержательного процесса решения задачи, осуществляемого экспертом на основе личностных знаний. При этом они. как правило, не обеспечивают построения полных баз решающих правил. В этом направлении одной из"самых актуальных на данный момент является задача построения больших баз знаний, позволяющих наиболее точно имитировать суждения-эксперта.
Такая задача приводит к необходимости дополнительного изучения возможностей различных направлений исследований и наиболее полного использования всех имеющихся знаний при решении
- 2 -сложных практических задач.
Целью работы является исследование возможностей объединения, методов теории распознавания образов и систем, основанных на знаниях для построения больших, полных и непротиворечивых баз решающих правил; разработка интеллектуальных компьютерных систем, предназначенных для решения задачи классификации и основанных на экспертных знаниях и верифицированных данных; разработка и исследование программно-алгоритмического обеспечения, сочетающего в себе эти возможности.
Для достижения цели данной работы необходимо решить ряд следующих вопросов:
-
Исследовать поведение распознающих алгоритмов (РА) в зависимости от объема обучающей выборки и сложности задачи, для чего необходимо разработать критерии и методику оценки качества работы различных систем; провести исследование этой методики для конкретных задач и известных РА; г
-
Разработать логико-теоретическую модель взаимодействия фактографических данных (примеров) и базы знаний (БЗ). позволяющую объединить подходы различных направлений при построений полных и непротиворечивых баз решающих правил;
.-3. Разработать и исследовать новые алгоритмы и методы рационального опроса эксперта при построении больших баз знаний; :
4.. Разработать программное обеспечение, позволяющее эффек
тивно строить полные и непротиворечивые базы знаний большого
объема, с использованием.^фактографических-.денных и;:экспертных
знаний. На его основе осуществить решение ряда сложных практи
ческих задач. . , :
Научная новизна. Предложен новый критерий - точность аппроксимации разделяющих гиперплоскостей (ТАРГ) для сравнения качества функционирования РА. который позволяет получать надежные оценки в-полном пространстве признаков.
Разработана к исследована методика оценки качества функци-. онирования распознающих алгоритмов, основанная на принципах статистического моделирования. Получены новые данные о качестве работы распознающих алгоритмов на базе линейного дискриминант-ного анализа и метода Байеса для задач различного размера, отличающихся сложностью границ между классами решений и объемом обучающей выборки.
Предложена логико-теоретическая модель взаимодействия базы
фактографических данных (БФД) и базы знаний в рамках подходов создания полных и непротиворечивых БЗ. Разработан и исследован подход к их объединению.
Предложена и исследована методика рационального опроса эксперта при построении экспертных решающих правил, использующую эвристику средних объектов, под которыми понимаются объекты, содержащие одну половину признаков наиболее характерных для одного класса решений, а другую половину - наиболее характерных для другого класса.
Для подтверждения этой эвристики для самой сложной границы
при двух классах решений и N двоичных признаков доказано ут
верждение: ,
Классификация экспертом {2/(N+2)}-r (2N/(ltf-4)} части средних объектов позволяет косвенно классифицировать все доминирующие их по характерности объекты.
Предложена и исследована методика выявления эвристических правил эксперта на его повторяющихся решениях.
.і^етодьі исследований. Для решения перечисленных задач использовались методы математической статистики и теории вероятностей, теории распознавания образов, теории построения алгоритмов и систем..
Практическая ценность. Основной практический результат диссертационной работы заключается в следующем :
Разработанные методы построения классификационных решающих правил на основе фактографических данных и экспертных знаний могут быть использованы в таких областях как медицина, геология, техническая диагностика и др.
На основе предложенных методик и подходов разработано программное обеспечение, позволяющее создавать полные и непротиворечивые базы решающих правил. На его основе были созданы базы знаний для четырех задач медицинской диагностики.
Разработанный комплекс алгоритмов и программ позволяет создавать полные и непротиворечивые базы знаний достаточно большого объема (около 20000 возможных объектов) с высокой скоростью, а также проводить анализ БЗ, исследовать границы между классами решений и выявлять обобщенные решающие правила эксперта.
Предложенные способы проверки данных на непротиворечивость могут быть использованы для анализа ОБ в рамках ТРО и других
4 -подходов, так или иначе базирующихся на ряде примеров при построении решающих правил.
Реализаций результатов работы. На основе проведенных исследований разработано и внедрено программно-алгоритмическое обеспечение для построения полных и непротиворечивых баз знаний для ПЭВМ типа IBM PC, состояідее_из трех модулей:
основной системы;
утилит;
редактора базы знаний.
Общий объем программного обеспечения составляет приблизительно 20000 операторов языка "Си" и около 5000 операторов языка "Клиппер".
Завершенный программный продукт реализован и внедрен в 32 Центральном Военно-морском клиническом госпитале.
Апробация работы. Основные положения диссертации и материалы исследований докладывались и обсуждались на :
XXXII научной конференции преподавателей и студентов МИФИ в 1987 г.;
научно-практической конференции "Актуальные вопросы специализированной медицинской помощи" ЦВМУ и ЦВКГ им. Вишневского в 1988 г.; ..
научно-практической конференции "Состояние и перспектива применения ЭВМ в лечебных учреждениях СА и ВМФ" ЦВМУ и ГВКГ им. Бурденко в 1988 г.;
научно-практической конференции "Организация и пути совершенствования специализированной медицинской помощи на ВМФ" 32 ЦВМГ 20-21 декабря 1988 г.;
научно-практической конференции "Итоги научно-практической работы ЦВМГ в 1989 г. " 32 lIMfu декабря 1989 г. :
научно-практической конференции "Актуальные проблемы диагностики и лечения заболеваний на ВМФ" 32 ЦВМГ 13-14 декабря 1990 г.; *:
юбилейной научно-практической конференции "Проблемы клинической и воєнно - морской медицины" 32 ЦВМГ .17-18 декабря 1993 г.;
Всероссийской научной конференции "Кардиология: успехи, проблемы и задачи (актуальные вопросы ишемической болезни сердца и артериальных гипертензий)" 23-25 ноября 1993 г., Санкт-Петербург;
- научно-практической конференции "Актуальные проблемы военной и экстремальной медицины" НИИ Медицины Катастроф МО РФ, 23-24 мая 1994 г.
Публикации. По результатам диссертационной работы опубликовано 12 печатных работ.
Структура работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы (116 наименований), одного приложения. Объем работы - 127 страниц.