Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Решение задач классификации и кластеризации данных по экспрессии генов на основе их функциональных взаимодействий Бессарабова, Марина Олеговна

Решение задач классификации и кластеризации данных по экспрессии генов на основе их функциональных взаимодействий
<
Решение задач классификации и кластеризации данных по экспрессии генов на основе их функциональных взаимодействий Решение задач классификации и кластеризации данных по экспрессии генов на основе их функциональных взаимодействий Решение задач классификации и кластеризации данных по экспрессии генов на основе их функциональных взаимодействий Решение задач классификации и кластеризации данных по экспрессии генов на основе их функциональных взаимодействий Решение задач классификации и кластеризации данных по экспрессии генов на основе их функциональных взаимодействий
>

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Бессарабова, Марина Олеговна. Решение задач классификации и кластеризации данных по экспрессии генов на основе их функциональных взаимодействий : диссертация ... кандидата биологических наук : 03.02.07, 03.01.09 / Бессарабова Марина Олеговна; [Место защиты: Ин-т общ. генетики им. Н.И. Вавилова РАН].- Москва, 2011.- 152 с.: ил. РГБ ОД, 61 11-3/633

Введение к работе

Актуальность проблемы. В последнее время активно развивается технология ДНК-микрочипов, позволяющих одновременно измерять значения экспрессии для многих тысяч генов. Такие данные по экспрессии генов широко используются для определения подтипов заболеваний, изучения механизмов заболеваний и диагностики заболеваний. В большинстве случаев для этого применяются методы классификации и кластеризации экспрессионных данных.

Так, результатом решения задачи классификации является классификатор. Экспрессионный классификатор представляет собой набор информативных генов, значения уровня экспрессии которых, могут быть использованы для того, чтобы по некоторому правилу с определенной точностью различать биологические признаки (классы). Классификаторы высокого качества имеют практическое применение в диагностике заболеваний, поэтому оценка качества классификаторов очень важна. В большинстве случаев к основным характеристикам качества классификатора относят такие статистические характеристики как точность предсказания и воспроизводимость этой точности на независимых данных. Одновременно с этим в последнее время активно обсуждается важность третьей характеристики экспрессионных классификаторов - функциональной основы классификатора, биологически обоснованной связи его набора информативных генов с описываемым признаком.

Изучение функциональной основы классификаторов ранее было ограничено двумя факторам. Первый из них - отсутствие полноценного ресурса для функционального анализа. С появлением продукта MetaCore (Thomson Reuters, ) такой всесторонний функциональный анализ стал возможен. Второй фактор, ранее ограничивающий анализ функциональной основы классификаторов - отсутствие достаточно обширной выборки классификаторов. Дизайн международного проекта MAQC II (The MicroArray Quality Control phase II, контроль качества микрочипов, фаза II) организованного Управлением по контролю качества продуктов и лекарств, США (U.S. Food and Drug Administration) предоставил уникальную возможность провести первый всесторонний функциональный анализ информативных генов экспрессионных классификаторов. Цель международного проекта MAQC состоит в оценке качества ДНК-микрочиповых данных, вторая его фаза была посвящена вопросу применимости экспрессионных данных для решения задачи классификации. Всего в рамках проекта было рассмотрено 13 патологических состояний человеческого

организма, и для каждого из них 36 независимых исследовательских групп разными методами создавали экспрессионные классификаторы и производили оценку их качества на основании статистических характеристик. В результате проекта было создано и проанализировано 262 экспрессионных классификатора. Представленная работа по функциональному анализу информативных генов экспрессионных классификаторов была сделана в рамках проекта MAQC II с целью решения актуальной задачи оценки качества классификаторов на функциональном уровне.

Задача кластеризации экспрессионных данных предполагает поиск классов биологических объектов на основании сходства их экспериментальных характеристик. Как и в случае задачи классификации, большинство современных методов решения задачи кластеризации экспрессионных данных основывается на профилях экспрессии индивидуальных генов без учета функциональных связей между ними или с рассматриваемым признаком. В подавляющем большинстве случаев этот подход не справляется с такими сложными задачами как, например, выделение подтипов гетерогенных заболеваний. Так, самая лучшая к настоящему моменту кластеризация пациентов больных раком молочной железы, основанная на профилях экспрессии индивидуальных генов, не относит ни к одному из результирующих кластеров более одной трети выборки пациентов. Таким образом, проблема определения всех подтипов рака молочной железы остается актуальной. В нашей работе мы исследовали новый подход к кластеризации, базирующийся на использовании не только информации об экспрессии индивидуальных генов, но и информации о функционально обусловленном бимодальном характере экспрессионного профиля гена - явлении, наблюденном и изученном нами так же в рамках данной работы. Данный подход дает основу для определения всех подтипов рака молочной железы. Цели исследования:

  1. Исследовать функциональную основу экспрессионных классификаторов.

  2. Изучить явление бимодальности экспрессионного профиля генов и исследовать его как возможную основу для метода кластеризации.

Исходя из целей исследования, были поставлены следующие задачи;

1. Произвести функциональный анализ информативных генов 262

экспрессионных классификаторов проекта MAQC II.

  1. Оценить корреляцию между связью наборов информативных генов экспрессионных классификаторов с функциональной основой описываемого признака и параметрами качества предсказания классификаторов.

  2. Создать метод определения степени бимодальности экспрессионного профиля гена.

  3. Определить гены с бимодальным экспрессионным профилем для выборки экспрессионных данных по раку молочной железы и изучить их свойства.

  4. Изучить возможность использования свойства бимодальности экспрессионного профиля гена для кластеризации экспрессионных профилей пациентов больных раком молочной железы, в результате которой все пациенты относились бы к одному из кластеров.

Научная новизна. 1) Впервые был проведен крупномасштабный функциональный анализ экспрессионных классификаторов, в результате которого, было показано наличие связи между функциональными характеристиками информативных генов классификаторов и соответствующим признаком. 2) Также в рамках данной работы впервые была показана положительная корреляция между согласованностью наборов информативных генов экспрессионных классификаторов на функциональном уровне и качеством предсказания классификаторов. 3) Впервые было показано, что вырожденность экспрессионных классификаторов - это явление функционально обусловленное. 4) Впервые было показано явление бимодальности экспрессионного профиля гена для рака молочной железы. 5) Был предложен новый подход к кластеризации, базирующийся на явлении бимодальности экспрессионного профиля гена, который может стать основой для определения всех подтипов рака молочной железы.

Практическое значение. Экспрессионные классификаторы используются в различных практических областях. Диагностика заболеваний - является одним из самых важных приложений экспрессионных классификаторов. Несмотря на это в последние годы доверие к экспрессионным классификаторам, как потенциальным диагностикумам, заметно снизилось. Проект MAQC II ставил перед собой цель оценить качество экспрессионных классификаторов. Результатом проекта является вывод о их высоком качестве, как с точки зрения статистических параметров, так и с точки зрений исследованных в представленной работе функциональных параметров экспрессионных классификаторов. Это дает

основание для более широкого по сравнению с настоящим применения экспрессионных классификаторов в диагностике.

Экспрессионные классификаторы решают задачу дифференцировки известных подтипов болезней, тем не менее, для целей диагностики задача поиска подтипов заболевания является еще более актуальной. Так, актуальной проблемой является определение всех подтипов такого гетерогенного заболевания, как рак молочной железы. Предполагают, что термин "рак молочной железы" объединяет несколько различных болезней, с различными причинами возникновения, ходом заболеваний и прогнозами, и для каждой болезни необходима специфическая терапия. Чтобы более эффективно лечить пациентов с раком молочной железы необходимо иметь возможность диагностировать разные подтипы рака молочной железы. В настоящий момент не существует полной классификации рака молочной железы. В данной работе разработан подход к кластеризации, способный стать основой для создания такой классификации.

Апробация результатов работы. Результаты данной диссертационной работы были опубликованы в (1-5), были представлены на международных конференциях: Moscow Conference on Computational Molecular Biology, Москва, 2009 и AMATA, Hobart, 2010. Помимо этого результаты работы докладывались на межлабораторном научном семинаре Отдела геномики Учреждения Российской академии наук Институт общей генетики им. Н. И. Вавилова РАН и на научном семинаре Учреждения Российской академии медицинских наук Научно-исследовательский институт биомедицинской химии имени В.Н.Ореховича РАМН.

Декларация личного участия автора. В диссертационной работе использованы материалы, полученные лично автором, а так же совместно с коллегами: Досымбековым Д.Н., Ши В., Дезсо 3. - функциональный анализ экспрессионных классификаторов, Кирилловым Е.В. - разработка метода определения генов с бимодальным экспрессионным профилем, Ковалевой (Дудоладовой) М.В. -функциональный анализ групп коэкспрессирующихся бимодальных генов. Суммарное личное участие автора составило 70%.

Структура и объем диссертации. Диссертационная работа состоит из списка основных понятий, введения, обзора литературы, материалов и методов, результатов и обсуждения, выводов и списка цитируемой литературы. Работа изложена на 152 страницах машинописного текста, включает 11 таблиц и 25

Похожие диссертации на Решение задач классификации и кластеризации данных по экспрессии генов на основе их функциональных взаимодействий