Введение к работе
Актуальность работы. Существенная часть всего многообразия способов использования компьютеров в практической деятельности укладывается в ставшие общепринятыми формулировки «восстановление зависимостей по эмпирическим данным» или «обучение по прецедентам».
Наблюдаемый в настоящее время информационный взрыв вызывает постоянное расширение круга требующих решения задач обработки сложноорганизованных данных, выходящих за рамки возможностей существующей теории обучения машин. Наиболее яркими источниками таких задач являются разведка полезных ископаемых, молекулярная биология и генная инженерия, представление и анализ данных вычислительных экспериментов в научных исследованиях и инженерном проектировании (суррогатное моделирование), обработка изображений и видеопоследовательностей, идентификация личности, анализ динамики информационного наполнения и посещаемости веб-сайтов. Подобные задачи обладают следующими характерными особенностями.
Во-первых, практически всегда анализу подлежит ограниченная выборка из генеральной совокупности объектов заданного вида, представленных результатами измерения выбранных исследователем свойств объектов в соответствующих шкалах, которые лишь в относительно редких случаях оказываются числовыми. Стандартная методология анализа данных предполагает, что одно из свойств выделено как целевое, и анализ предъявленного массива данных ориентирован на построение решающего правила, которое позволило бы оценивать значение этого свойства в принятой для него шкале измерения от значений других свойств в их специальных шкалах. Следовательно, появляется актуальная проблема построения методологии селективного комбинирования признаковой информации, общей для всех возможных шкал измерения признаков.
Во-вторых, зачастую объекты представлены широким набором разнородных характеристик, многие из которых не могут быть сформированы априори в традиционном виде вектора признаков, но допускают попарное сравнение объектов путем измерения степени несходства с помощью метрик, способных образовывать нормы в некоторых гипотетических линейных пространствах. Как следствие, появляется задача комбинирования разнородной признаковой информации в результирующей зависимости.
В-третьих, как следствие объем признаковой информации в таких задачах обработки эмпирических данных настолько велик, что многократно превышает ограниченный объем обучающей эмпирической совокупности. Зависимости, построенные по таким данным, будут обладать низкой обобщающей способностью. Большой объем признаковой информации не только снижает качество построенных моделей, но и существенно увеличивает время обучения, что во многих задачах может оказаться неприемлемым. Поэтому актуальной задачей является создание процедур отбора признаковой информации, повышающих обобщающую способность оцененной зависимости. При этом процедура отбора признаковой информации должны быть применимы для различных задач анализа данных вне зависимости от природы целевой переменной и определяющих ее регрессоров. К сожалению, существующие на сегодняшний день беспереборные технологии отбора признаковой информации не обладают универсальностью, позволяющей применять их для широкого круга задач анализа данных.
В-четвертых, на сегодняшний момент в литературе известен ряд методов отбора признаковой информации, имеющих непереборную природу,: гребневая регрессия, предложенная А. Хоерлом и Р. Кеннардом в 1970 г., LASSO, разработанный Р. Тиб-
ширани в 1996, и являющиеся его последовательными улучшениями Elastic Net, SCAD и адаптивный LASSO, предложенные X. Зоу, Т. Хасти и Р. Ли в 2005, 2001 и 2006 гг. соответственно. Как правило, существующие методы принято характеризовать такими свойствами как несмещенность, селективность, состоятельность получаемых оценок, конечность верхней границы риска оценок, способность к отбору в модель коррелированных регрессоров. К сожалению, на сегодняшний момент не существует ни одного метода селекции признаков, удовлетворяющего сразу всем вышеперечисленным требованиям.
Цель работы. Создание единого математического аппарата, численных методов и алгоритмов построения зависимостей по эмпирическим данным с учетом многомодального представления объектов, позволяющих селективно комбинировать разнородную признаковую информацию и получать зависимости, обладающие высокой обобщающей способностью для различных классов задач анализа данных.
Задачи исследования. Для достижения поставленной цели в диссертации сформулированы и решены следующие задачи:
Задача 1. Создание класса математических моделей зависимостей между переменными, измеряемыми в разнородных шкалах и методов их оценивания.
Задача 2. Создание методов комбинирования модальностей существенно разной природы в единой системе.
Задача 4. Разработка семейства достаточно общего класса моделей представления искомой закономерности, позволяющих осуществлять селективное комбинирование признаковой информации.
Задача 5. Исследование свойств оценок параметров, получаемых с помощью предложенной селективной иерархической вероятностной модели: селективности, несмещенности, состоятельности (построение оракульных неравенств), способности к отбору коррелированных регрессоров, непрерывность исследование верхней границы риска оценок.
Задача 6. Создание алгоритмов оценивания разработанных моделей селективности, применимых для различных задач анализа данных вне зависимости от вида связи модальностей в искомой зависимости: задачи линейной регрессии, задачи порядковой регрессии, задачи анализа продолжительности жизни и многомодального восстановления регрессионной зависимости.
Задача 7. Экспериментальное исследование предложенной модели селективности для различных задач анализа данных.
Объект и предмет исследования. Объектом исследования является задача восстановления зависимостей по эмпирическим данным. Предметом исследования является повышение обобщающей способности алгоритмов восстановления зависимостей при обучении по малонаполненным выборкам.
Положения, составляющие научную новизну и выносимые на защиту.
Априорная иерархическая вероятностная модель параметров восстанавливаемой зависимости, позволяющая осуществлять селективное комбинирование признаковой информации.
Предложена модель, позволяющая получать оценки, удовлетворяющие требованиям селективности, состоятельности, несмещенности, непрерывности, обладающие способностью отбирать коррелированные регрессоры и имеющие конечную верхнюю оценку риска.
Дана общая процедура оценивания параметров полученной селективной модели.
Разработаны алгоритмы селективного комбинирования признаковой информации в задаче линейной регрессии, задаче порядковой регрессии, задаче анализа продолжительности жизни и задаче многомодального восстановления регрессионной зависимости.
Методы исследования. Теоретические исследования основаны на применении
метода максимального правдоподобия (принципа максимизации совместной апостериорной плотности), теории байесовских статистических решений, методов оптимизации, теории обучения машин.
Экспериментальные исследования осуществлены на модельных данных и известных реальных данных. Результаты экспериментов сравнивались с передовыми мировыми аналогами для оценки полученных результатов теоретических исследований.
Достоверность полученных результатов подтверждается доказанными математическими утверждениями и модельными экспериментами.
Практическая ценность работы. Результаты работы могут использоваться для создания новых методик отбора признаков в задаче восстановления зависимостей по эмпирическим данным и применяться для решения многих практических задач, например, для поиска полезных генов при постановке диагноза и лечении болезней, оценивания продолжительности жизни больных, определения характеристик сайта, влияющих на его положение в выдаче поисковых систем.
Апробация работы. Основные положения и результаты диссертации докладывались на XV Всероссийской конференции «Математические методы распознавания образов» (Республика Карелия, г. Петрозаводск, 2011 г.), XVI Всероссийской конференции «Математические методы распознавания образов» (Республика Татарстан, г. Казань, 2013 г.), Международной конференции «Интеллектуализация обработки информации» (Республика Черногория, г. Будва, 2012 г.).
Публикации. По материалам диссертации опубликованы 7 работ из них 3 в научных изданиях, рекомендованных ВАК при Минобрнауки РФ. В работах [1-3], выполненных в соавторстве, соискателем предложена математическая модель в задаче селективного комбинирования признаковой информации, разработан алгоритм оптимизации критерия максимального правдоподобия, описаны результаты экспериментальных исследований.
Структура и объем работы. Диссертация состоит из введения, четырех глав, основных выводов, списка литературы и приложений. Материал изложен на 137 страницах, содержит 26 рисунок, 29 таблиц, список литературы из 104 наименований.