Содержание к диссертации
Введение
Глава 1. Методы обнаружения геофизических знаний в данных разведочного бурения 10
1.1. Задачи обработки и анализа геофизической информации при разведочном бурении скважин 10
1.2. Методы обнаружения и извлечения новых знаний из данных геофизических исследований 12
1.3. Задачи, решаемые с помощью методов KDD 19
1.4. Методы и алгоритмы обработки геофизической информации. 24
1.4.1. Методы кластеризации 24
1.4.2. Деревья решений 31
1.4.3. Статистические подходы анализа данных 35
1.4.4. Метод ближайших соседей 44
1.4.5. Нейронные сети 46
1.4.6. Методы нечеткого логического вывода 53
1.5. Постановка цели и задач исследований 56
Глава 2. Литологические свойства коллекторов нефти и газа 58
2.1. Коллекторские свойства пористых сред 58
2.2. Физическое состояние углеводородов в зависимости от условий залегания 62
2.3. Заполнение коллекторов горных пород нефтью, газом и водой 64
2.4. Геофизические методы исследования скважин 67
2.5. Полученные результаты и выводы 76
Глава 3. Решение задач классификации и аппроксимации с применением нечетких деревьев решений 78
3.1. Метод классификации, основанный на деревьях решений с вероятностным и возможностным критериями разбиения 78
3.2. Метод построения нечетких деревьев решений 87
3.3. Результаты численного эксперимента тестирования метода нечетких деревьев решений 97
3.4. Полученные результаты и выводы 107
Глава 4. Методика экспресс-оценки запасов углеводородов по результатам геофизических исследований скважин 109
4.1. Оценка начальных запасов нефти и газа на основе объемного метода 109
4.2. Применение дискретного вейвлет-преобразования для проведения геофизической интерпретации 111
4.3. Параметрическая настройка дерева решений для задачи ли-тологического разделения 120
4.4. Методика оценки продуктивности скважины 131
4.5. Полученные результаты и выводы 137
Заключение 138
Литература
- Методы обнаружения и извлечения новых знаний из данных геофизических исследований
- Статистические подходы анализа данных
- Физическое состояние углеводородов в зависимости от условий залегания
- Результаты численного эксперимента тестирования метода нечетких деревьев решений
Введение к работе
Актуальность темы. Развитие нефтегазодобывающего комплекса связано с разведкой, разработкой и освоением новых месторождений нефти и газа. В сложных условиях залегания углеводородов на больших глубинах в тонких пластах-коллекторах при многокомпонентном литологическом составе и сложной структуре порового пространства возрастают требования к качеству интерпретации результатов геофизических исследований скважин (ГИС). Геологоразведочные работы сводятся к прослеживанию минерализованных участков недр и оконтури-ванию месторождений полезных ископаемых путём их выборочного пересечения разведочными скважинами. По данным разведочного бурения (анализ керна, результаты геофизических исследований скважин) определяются запасы не опробованных продуктивных пластов. Продуктивные пласты нефтяных, газовых и газоконденсатных месторождений характеризуются пористостью, проницаемостью, насыщенностью нефтью, газом и водой.
При геологической разведке месторождений важной является предварительная экспресс-оценка продуктивности скважины. В настоящее время идет интенсивное развитие автоматизации методов изучения геологического разреза скважин в процессе бурения с применением комплекса геофизических методов без отбора керна. Традиционные неавтоматизированные приемы сбора, хранения, обработки и интерпретации большого объема получаемой геофизической информации с помощью палеточного инструмента требуют больших трудовых и временных затрат, не обладают необходимой оперативностью, не исключают субъективности в решении геологических задач по результатам ГИС и не обеспечивают полного извлечения геологической информации из геофизических данных.
Одним из направлений повышения геологической эффективности и оперативности использования материалов ГИС является автоматизация процессов сбора обработки и интерпретации информации с использованием ЭВМ. Широкое применение при решении задач ГИС находят методы классификации и рас-
5
познавания образов, позволяющие упростить и упорядочить полученную ин
формацию, учесть имеющиеся априорные данные, а также, по возможности,
устранить элементы субъективности. При наличии эмпирической базы данных
возможно использование методов извлечения знаний из данных и применение
обучающихся информационных систем. Так как задачи интерпретации ГИС име
ют в своей основе сложные функциональные зависимости, то для их решения
т нашли применение системы нейронных систем, нечеткой логики. При разработке
интеллектуальных компьютерных систем предпочтение отдается методам, допускающим представление знаний в виде набор некоторых понятных человеку правил. Применение математических методов теории интеллектуальных систем для интерпретации данных ГИС, позволяющее сократить временные затраты и повысить надежность результатов оценки продуктивности скважин, является актуальной задачей.
Объектом исследования являются данные геофизических исследований
газовых и нефтяных скважин, представленные в цифровом виде; модели нечет-
т ких деревьев для решения задач интерпретации ГИС.
Предметом исследования являются программное, информационное обеспечение интерпретации результатов ГИС; методы построения нечетких деревьев решений; математическое описание алгоритмов и методов интерпретации каротажных диаграмм; математическое описание алгоритмов преобразования сигналов; определение продуктивных коллекторов и их классификация методом нечетких деревьев решений.
Цель работы состоит в разработке и научном обосновании совместного
применения нечетких деревьев решений и вейвлет-преобразований для реше-
" ния задач оперативной интерпретации данных ГИС при оценке продуктивности
разбуренной скважины.
Для реализации поставленной цели необходимо решить следующие задачи:
- выработка научно-обоснованных решений для создания моделей нечетких деревьев решений при распознавании литологической структуры разреза
скважины;
разработка метода построения деревьев решений с возможностным критерием разбиения и нечетким логическим выводом;
выбор и обоснование методик преобразования сигналов, соответствующих оцифрованным каротажным данным;
формализация задачи интерпретации данных ГИС для ее решения с помощью аппарата нечетких деревьев решений и вейвлет - преобразований;
создание алгоритмов последующей обработки результатов работы нечетких деревьев решений для повышения качества и надежности интерпретации;
разработка программного обеспечения интеллектуальной подсистемы интерпретации ГИС.
Методы исследования. В работе применялись теоретические и экспериментальные методы исследования.
При решении задачи распознавания литологической структуры разреза скважины использовалась модель нечеткого дерева решений. В модели нечеткого дерева решений применяются нечеткие условия ветвления с сигмоидными функциями принадлежности. Настройка параметров нечетких деревьев осуществлялась на комбинациях методов каротажа, входящих в состав стандартного набора методов ГИС, снимаемых на скважине. Для получения дополнительной информации о границах коллекторов геофизические сигналы обрабатывались с применением дискретного вейвлет - преобразования. Результаты работы системы, основанной на нечетких деревьях решений, исследовались на предмет адекватности выделенных нефте-газонасыщенных, водонасыщенных и непродуктивных участков разреза скважины экспертным оценкам.
Информационная модель подсистемы интерпретации создана на основе принципов объектно-ориентированного программирования. Программное обеспечение подсистемы реализовано на алгоритмическом языке высокого уровня -Object Pascal, интерфейс пользователя разработан в интегрированной среде Borland Delphi 7.0
Достоверность и обоснованность полученных в работе результатов и выводов подтверждается сопоставительным анализом разработанных и существующих математических моделей и методов, а также итогами практического использования подсистемы интерпретации ГИС.
Математические модели, алгоритмы и прикладные программы, используемые в работе, основаны на положениях теории обычных и нечетких множеств, на теоретических основах функционального анализа, теории статистического анализа каротажных диаграмм как дискретной последовательности сигналов, а также теории информации и фундаментальных основ построения экспертных систем.
Достоверность экспериментальных результатов обеспечена использованием большого объема экспериментального материала по ГИС, статистическими методами обработки данных и хорошей согласованностью прогнозируемых и экспериментальных характеристик.
Научная новизна результатов диссертационного исследования, полученных лично автором, заключается в следующем:
развит алгоритм построения бинарного дерева решений с новым информационным критерием выбора атрибута и условием для ветвления, основанном на возможностной мере нечеткости;
разработан новый метод классификации и аппроксимации, использующего для генерации правил возможностное дерево решений и нечеткий логический вывод по Сугено;
обосновано применение дискретного вейвлет - преобразования для лито-логического разделения разреза нефтяных и газовых скважин;
создана новая методика определения нефтегазонасыщенности и продуктивности скважин по результатам интерпретации ГИС с совместным применением метода нечетких деревьев и вейвлет - преобразования;
разработано программное обеспечение, являющееся частью информационной интеллектуальной системы распознавания литологической структуры и
8 оценки продуктивности газовых и нефтяных скважин.
Практическая полезность исследования состоит в том, что применение системы интерпретации ГИС на основе метода нечетких деревьев позволяет существенно сократить временные затраты при решении задачи литологической классификации. Разработанные в работе методики и алгоритмы экспресс-интерпретации данных ГИС позволяют существенно автоматизировать труд геофизика-интерпретатора с одновременным повышением качества интерпретации. Применение системы повышает уровень достоверности и согласованности данных, используемых в качестве исходных при построении геологических, гидродинамических и других моделей месторождений. Система интерпретации может функционировать на вычислительных средствах с ограниченными возможностями.
Реализация работы в производственных условиях. При участии автора была разработана и реализована, описанная в данной работе, система интерпретации, построенная на принципах иерархической классификации и нечеткого логического вывода. Работа системы протестирована в ходе верификации геолого-геофизических и промысловых данных ряда газовых месторождений Западной Сибири. Работа может быть использована предприятиями нефтегазодобывающей отрасли, организациями, занимающимися построением ряда различных моделейна основе геолого-геофизической и промысловой информации.
Апробация работы.
Основные положения и результаты диссертации докладывались и обсуждались на российских и международных научно-технических конференциях и конгрессах: Международном симпозиуме «Надежность и качество» (Пенза, 2005-2006); 33 Международной конференции «Информационные технологии в науке, образовании, телекоммуникации и бизнесе» (Украина, Крым, Ялта-Гурзуф, 2006); Всероссийской НТК «Компьютерные и информационные технологии в науке, инженерии и управлении» (Таганрог, 2006).
Публикации. Основные научные результаты по теме диссертации опубликованы в 11 научных работах общим объемом 1,3 п.л., в том числе 7 публи-
каций единолично.
Структура диссертационной работы определяется общими замыслом и логикой проведения исследований.
Диссертация содержит введение, 4 главы и заключение, изложенные на 151 страницах машинописного текста. В работу включены 43 рисунка, 2 таблицы, список литературы из 121 наименований.
СОДЕРЖАНИЕ РАБОТЫ
Введение содержит обоснование актуальности темы, формулировку цели и задач работы, основные положения, выносимые на защиту, и определяет содержание и методы выполнения работы.
В первой главе рассмотрены коллекторские свойства пористых, кавернозных и трещиноватых пород. Рассмотрены известные методы подсчета углеводородных запасов и физические основы каротажных методов.
Вторая глава содержит анализ применимости существующих методов обнаружения знаний в базах данных (knowledge discovery in databases, KDD). Рассмотрены методы кластеризации, нейронные сети, системы нечеткого логического вывода, метод ассоциаций, метод ближайших соседей, деревья решений, регрессионные методы, эволюционное программирование.
В третьей главе приведены результаты разработки и тестирования метода нечетких деревьев решений.
Четвертая глава содержит результаты применения разработанных методов классификации и прогнозирования для решения задач интерпретации и оценки нефтяных и газовых запасов.
В заключении приведены основные выводы и предложения.
Методы обнаружения и извлечения новых знаний из данных геофизических исследований
Следует выделить два основных момента, на которые могут быть направлены эти исследования: научный и практический (управленческий). Использование методов обнаружения знаний в базах данных (knowledge discovery in databases 13
KDD) может выделить узкую группу показателей, от которых зависит интересующая исследователя характеристика, и представить обнаруженную закономерность в аналитической форме [101]. Даже если впоследствии выяснится, что обнаруженная закономерность не является универсальной и характеризуется ограниченной областью использования, безусловная ценность полученного нового знания заключается в выделении группы наиболее чувствительных показателей, в привлечении внимания исследователя к более детальному анализу именно этих показателей и взаимозависимостей между ними, в предоставленной возможности сконцентрировать внимание на более узкой области исследований.
С практической же точки зрения не всегда так уж важно, является ли установленная зависимость истинной, причинной, или только приближенной, аппроксимирующей истинную зависимость а, возможно, отражающей взаимосвязь только внешних проявлений некоторых глубинных причин. Главное, чтобы можно было прогнозировать поведение какого-либо параметра по имеющейся совокупности признаков. С этой точки зрения методы KDD, позволяющие выявлять скрытые закономерности в большой совокупности данных, представляют несомненный интерес как для выработки практических рекомендаций так и для принятия организационно-управленческих решений [101].
Организации, занимающиеся разработкой месторождений накапливают за время своей деятельности огромные объемы данных. Но единственное что люди могут, а в большинстве случаев и хотят получить от них - это быстрое извлечение требуемой информации. Фактически базы данных выполняют функцию памяти, или сложной записной книжки. Доступ пользователя к хранилищу данных обеспечивает только извлечение небольшой части из хранимой информации в ответ на четко задаваемые вопросы. Когда имеются огромные потоки и залежи накопленной информации, встает задача максимально целесообразно использовать эту информацию, чтобы извлечь спрятанное в данных знание с целью оптимизировать управление какими-либо процессами, улучшить деятельность организации, более точно узнать свойства и законы функционирования, присущие очень сложным объектам [105].
Экстенсивный путь использования интеллекта человека в принципе не позволяет решить эту задачу, и для ее решения требуется качественно иной подход. Не всегда получаемые аналитиками результаты являются объективными, поскольку обычно люди руководствуются, явно или неявно, теми или иными соображениями, некоторыми априорными представлениями об изучаемом предмете, что не может не отразиться на объективности получаемых ими результатов. Необходимо автоматизировать процесс анализа и сделать его более объективным, а именно: получить некоторую технологию, которая бы автоматически извлекала из данных новые нетривиальные знания в форме моделей, зависимостей, законов и т.д., гарантируя при этом их статистическую значимость. Технология, направленная на решение этих проблем - это технология KDD - «обнаружение знаний в базах данных». KDD - аналитический процесс исследования человеком большого объема информации с привлечением средств автоматизированного исследования данных с целью обнаружения скрытых в данных структур или зависимостей [112]. Предполагается полное или частичное отсутствие априорных представлений о характере скрытых структур и зависимостей. KDD включает предварительное осмысление и неполную формулировку задачи (в терминах целевых переменных), преобразование данных к доступному для автоматизированного анализа формату и их предварительную обработку, обнаружение средствами автоматического исследования данных (data mining) скрытых структур или зависимостей, апробация обнаруженных моделей на новых, не использовавшихся для построения моделей данных и интерпретация человеком обнаруженных моделей. Data mining («разработка данных») - исследование и обнаружение алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых структур или зависимостей, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком [33].
KDD - это синтетическая область, впитавшая в себя последние достижения искусственного интеллекта, численных математических методов, статистики и эвристических подходов. Цель технологии - нахождение моделей и отношений, скрытых в базе данных, таких моделей, которые не могут быть найдены обычными методами. Следует отметить, что на плечи ЭВМ перекладываются не только рутинные операции (проверка статистической значимости гипотезы), но и операции по выработке новой гипотезы. KDD позволяет увидеть такие взаимоотношения между данными, которые прежде не приходили в голову исследователю, а применение которых может способствовать увеличению эффективности процесса разведки и эксплуатации месторождений.
Статистические подходы анализа данных
Регрессионные методы.
Используемые в KDD регрессионные методы основаны на развитии различных традиционных статистических методик, в первую очередь традиционного регрессионного анализа. Регрессия (regression) в этом контексте означает просто зависимость, и эти методы применяются, главным образом, для обнаружения числовых зависимостей в данных.
Пусть целевая переменная Y и независимые переменные Х-, имеют действительный тип. Задача состоит в нахождении некоторой функции независимых переменных, значение которой было бы наиболее близко известному значению переменной Y для заданных значений переменных X,. Таким образом, представим значение переменной К для/ой записи в виде
Гу=ДХ,,А) + я где Xj - вектор значений независимых переменных для у -ой записи; А - совокупность некоторых констант, которую удобно объединить в одну векторную величину;/- искомая функция; Б, - ошибки, или невязки, даваемые регрессионной функцией/ Поставленная задача в общем случае разбивается на три подзадачи: нахождение вида функции/, определение значений регрессионных коэффициентов А и проверка статистических гипотез.
Нахождение вида функции/и значений А производится на основе минимизации некоторой функции С от величин є,-. В большинстве подходов является используется сумма квадратов ошибок: где М - количество записей. Выбор такого критерия определяется рядом причин. Строгое обоснование его оптимальности основывается на предположении о нормальном распределении ошибок Є/, что не всегда оправдано. Однако, если это предположение верно, то данный критерий позволяет получить несмещенные оценки Y с наименьшей дисперсией. Важную роль играет и тот факт, что для линейных относительно А функций/существуют эффективные алгоритмы прямого вычисления регрессионных коэффициентов, тогда как для других функций С(є/) нахождение регрессионных коэффициентов пришлось бы производить различными численными методами минимизации функций многих переменных. Главный из недостатков такого выбора - его сильная чувствительность к существенным отличиям распределения є,- от нормального, в частности к наличию даже небольшого количества записей с очень большими значениями Єу. По этой причине используются и другие критерии, более устойчивые к наличию таких больших отклонений. В частности, суммируются модули величин Є/, а не их квадраты. Этот критерий более устойчив по отношению к наличию далеких отскоков, но при его использовании, теряется преимущество эффективной вычислимости регрессионных коэффициентов. В некоторых случаях выбор критерия C(Sj) определяется особенностями задачи. Например, бывают ситуации, когда важно обеспечить, чтобы абсолютная величина ошибок у не превышала некоего заданного уровня. В этом случае используется критерий С(є) = тах\є . Линейная регрессия.
Наиболее простой подход, реализованный во множестве различных статистических пакетов и системах KDD, состоит в выборе линейных относительно X. функций дх,) = А+І ,Л Класс методов, характеризуемый таким выбором функций /, называется методами линейной регрессии. Выбор линейной регрессионной функции имеет много преимуществ. Линейная зависимость между переменными легко интерпретируется человеком. Фактически линейная регрессионная модель разбивает зависимость целевой переменной Y от независимых переменных Х-, на отдельные, не связанные между собой компоненты. Она позволяет оценить вклад каждой независимой переменной по отдельности, определив знак и силу этого влияния. Если используется критерий наименьших квадратов, то существует эффективный алгоритм вычисления значений регрессионных коэффициентов Л/. Результатом работы алгоритмов, решающих линейную регрессионную задачу является не только оценка точности полученной регрессионной модели, но также стандартные отклонения входящих в нее регрессионных коэффициентов. Поэтому можно судить о значимости (не случайности) вхождения отдельных переменных в регрессионную модель. Мерой этой значимости может служить значение F-статистики - квадрата отношения величины регрессионного коэффициента к величине его стандартного отклонения.
Реальные данные часто описываются довольно большим количеством параметров Xh среди которых встречаются сильно коррелирующие между собой или вовсе не относящиеся к делу параметры, так что нет никакого смысла включать в регрессионную модель все параметры. Более того, если число независимых переменных близко, равно или даже превышает, как это иногда бывает, число записей, то регрессионная модель, включающая все эти параметры, станет статистически незначимой ли вовсе не сможет быть построена. Для преодоления этой трудности применяются различные алгоритмы выбора независимых переменных, включаемых в регрессионную модель.
Физическое состояние углеводородов в зависимости от условий залегания
Известные промышленные скопления нефти и газа в недрах земной коры приурочены в основном к осадочному комплексу пород, сформировавшихся в морских или полу-континентальных условиях. Поэтому до появления в них нефти и газа они были полностью или частично заполнены водой. Вода могла сохраняться или многократно замещаться поверхностными или глубинными водами. Поэтому процесс формирования залежей нефти и газа сопровождался вытеснением воды и газопаровой фазы из пор, каверн и трещин. Эффективность замещения воды нефтью и газом была различной, так как зависела от степени преодоления капиллярных сил, возникающих на границах раздела соприкасающихся фаз, и от структуры пустотного пространства горной породы. В коллекторах горных пород вода вытеснялась нефтью и газом из проточной части пустот, в которых давление вытеснения превышало капиллярное давление. Вместе с водой или без нее в изолированных пустотах может находиться нефть, если появлению ее предшествовала изоляция пустот.
От соотношения нефти, газа и воды в коллекторе зависят запасы нефти и газа в залежах. Установлено, что количество воды в залежах нефти и газа может колебаться от нескольких процентов до 50-60% от объема пор, в зависимости от свойств пород, нефти, газа и воды и от условий формирования самих залежей. С увеличением неоднородности коллектора по пористости водонасы-щенность его увеличивается. При количественной оценке соотношения воды, нефти, газа в горных породах пользуются различными коэффициентами: коэффициентом водонасыщенности а, под которым понимается отношение объема воды к объему открытых пустот матрицы; коэффициентом влажности w, представляющим собой содержание воды в единице объема породы; коэффициентом нефтенасыщенности, характеризующим содержание нефти; коэффициентом газонасыщенности, характеризующим содержание газа в единице объема открытых пустот.
Между коэффициентами водонасыщенности и влажности существует следующая связь: w- т0а, где т0- коэффициент открытой емкости пустот матрицы, представленных порами или порами и кавернами вместе.
В природных условиях пустоты пород по своей форме могут быть пред ставлены одновременно порами, кавернами и трещинами. В общем случае нефтеносный или газоносный коллекторы можно рассматривать как пористо-кавернозно-трещиноватый, а пористый, кавернозный и трещиноватый коллекторы - как его частные случаи [60]. Нефтяной и газовые пласты в природных условиях рассматриваются состоящими из трещин и матрицы, включающей в себя поры и каверны или только поры. Капиллярно-связанная вода в таком коллекторе содержится преимущественно в порах, а в кавернах и трещинах отсутствует вследствие малости капиллярных сил.
Формула для подсчета запасов нефти объемным методом [61] имеет вид Z = — [(\-a)(\-m0T)mOp+(l-mOT)m0K+m0T ] где Z геологические или балансовые запасы; h - нефтенасыщенная или эффективная часть нефтенасыщенной мощности пород; S - площадь нефтеносных пород; р - плотность нефти; Ь - объемный коэффициент нефти; а - коэффициент водонасыщенности пор матрицы; тот,т0 ,ток - коэффициенты полной трещи новатости, открытой пористости и открытой кавервозности, соответственно.
Первое слагаемое представляют собой коэффициент нефтенасыщенности пор. Второе слагаемое является коэффициентом нефтенасыщенности каверн. Их сумма - коэффициент нефтенасыщенной матрицы. Коэффициент полной трещиноватости соответствует коэффициенту нефтенасыщенности трещин. При коэффициенте водонасыщенности а = \ поры матрицы полностью насыщены водой, первое слагаемое равно нулю, и содержание нефти или газа оценивается только в кавернах и трещинах. Если имеется вода в кавернах, то коэффициент нефтенасыщенности каверн равен (\-aK)(l-m0T)mQK, где ак - во донасыщенность каверн. В случае т0Т = 0,ток = 0 формула переходит в формулу объемного метода подсчета запасов нефти и газа в пористых породах.
Результаты численного эксперимента тестирования метода нечетких деревьев решений
Изложенные алгоритмы проверялись на рассматриваемой тестовой функ ции у/[хх,х2). На рис. 3.7 показана восстановленная поверхность функции i//(x{,x2).
Как и прежде, вся выборка делится на две примерно равные части. Построенное дерево соответствует рис. 3.2, т.е. 25 узлов, 13 правил, TV/""1 =10. Качество восстановления функции на проверочной выборке на рис. 3.7 гораздо лучше, чем на рис. 3.3. Среднеквадратичная ошибка на проверочной выборке составила 2.66%. (К = 3) Еще лучший результат достигается при увеличении числа классов до К = 10, как это видно на рис. 3.8.
Среднеквадратичная ошибка на проверочной выборке составляет 0.78%, а на тренировочной части 0.25%. Дерево содержит 93 правила при JV,mm =5.
На структуру дерева и, следовательно, на точность прогноза оказывают влияние различные факторы: параметр функций принадлежности р в формулах (3.5); минимальное количество элементов в разделяющемся множестве Nm; соотношение объемов тренировочной и тестовой выборок. На рис. 3.9 представлена величина среднеквадратичной ошибки восстановления от значения параметра /? для К = 3, Nn =3.
На рис. 3.9 тонкие линии соответствуют нечеткому выводу по Сугено (сплошная - тестовая выборка, светлые кружки - тренировочная). Увеличение Р приводит к снижению ошибки при выводе по Мамдани. Для нечеткого вывода Сугено имеется оптимальное значение параметра /?=10, которое и закладывалось в последующие расчеты. Для вывода по Мамдани значение параметра полагалось /?=50. Из рис. 3.9 также следует, что величина погрешности аппроксимации тестовой функции i//(xvx2) для нечеткого вывода по Мамдани существенно выше (10.8% при /?=50 для проверочной выборки), чем для вывода по Сугено (1.9% при /7=10 также на тестовой выборке).
На сложность дерева оказывает влияние минимальный размер разделяемого множества Nm. На рис. 3.10 показана зависимость количества правил, характеризующих дерево, от размера Nm.
Из рис. ЗЛО следует, что увеличение размера TV" приводит к упрощению структуры дерева и к уменьшению количества правил для любого количества классов от К = 3 до К = 10. Увеличение количества классов К также ус ложняет дерево и увеличивает число правил.
Так как увеличение размера разделяемого множества Nm влияет на структуру дерева, было проведено численное исследование зависимости ошибки прогнозирования от величины Nm. Результаты представлены на рис. 3.11 и 3.12.
На тестовой выборке с увеличением числа классов наблюдается появление некоторой оптимальной величины Nm. Именно результаты на тестовой выборке являются показателем качества обучения и обобщения закономерностей. При малых Nn структура дерева слишком сложна и способность к обобщению снижается. На тренировочной выборке этого не наблюдается, поскольку происходит запоминание данных. Здесь эффект тот же самый, что и при переобучении нейронных сетей. Если же допустимый размер разделяемого множества существенно увеличивается, то образование смешанных классов начинает увеличивать погрешность прогноза.
Представленные результаты получены при соотношении тренировочной и тестовой выборок 50:50. На рис. 3.13 показано влияние разбиения обучающего множества на погрешность прогнозирования. Ошибка прогнозирования определялась на проверочной выборке.
Р1еагп=0.& означает, что объем тренировочной выборки составляет 80% от всего объема данных, а на долю тестовой выборки приходится 20%. Значение Р1еагп=0.25 соответствует ситуации: 25% - тренировочная выборка, 75% - проверочная. Снижение объема данных доступных для обучения, увеличивает погрешность. Особенно сильно погрешность возрастает при больших значениях Nn. Данным на рис. 3.13 соответствует количество классов А" = 5.
Приемлемая величина ошибки прогноза 3.25% была получена при снижении объема тренировочной выборки до 10%. Снижение объема данных для обучения до 5% приводит к плохому качеству прогнозирования. Тем не менее, дискретная классификация дает 69% правильного разбиения по классам. В случае непрерывной выходной переменной требуется вычисление коэффициентов prJ,r = \,KR;j = 0,n в выражении (3.7), по имеющейся обучающей выборке с применением процедуры псевдоинверсии. При малом объеме выборки матрица G приближается к квадратной и способность нечеткого дерева к обобщению резко снижается.