Введение к работе
Актуальность проблемы. Одной из ключевых проблем современной биологии — изучение взаимосвязи между генотипом и фенотипом у живых организмов, в том числе растений. Для определения взаимосвязей между генотипом и фенотипом при анализе комплексных признаков применяются компьютерно-экспериментальные подходы, основанные на методе картирования генов, контролирующих количественные признаки (quantitative trait loci, QTL). Эти подходы основаны на статистическом анализе комбинаций молекулярных маркеров и фенотипических данных (Shavrukov et al, 2010; Kearsey, 1998).
Одной из эффективных технологий, позволяющей получать массовым образом данные о последовательностях маркеров в геноме отдельно взятого организма, является секвенирование нового поколения. Эта технология ориентирована на прочитывание коротких фрагментов нуклеотидных последовательностей (30-200 п.н.), но в массовом порядке и с высокой степенью покрытия, что позволяет идентифицировать в геноме последовательности большого количества маркеров одновременно (Mardis, 2008). Таким образом, высокопроизводительное генотипирование (получение большого пула данных по ДНК-маркерам) в анализе взаимосвязи генотип-фенотип сейчас не является проблемой, как это было еще 10-20 лет назад. В этой связи становится актуальным массовое получение данных по фенотипам растений. Именно поэтому область исследований в биологии, связанная с получением данных о фенотипических признаках растений в массовом порядке (высокопроизводительное фенотипирование), сейчас получает все большее развитие (Eberius et al., 2009).
Совокупность фенотипических признаков организма в последнее время стали называть «феном» (по аналогии с геномом), а область науки, которая посвящена его анализу - феномика (Houle et al, 2010; Furbank et al., 2011). В основе технологий высокопроизводительного фенотипирования растений лежат методы оцифровки морфологических признаков. Разработка быстрых и относительно точных методов автоматического определения фенотипических признаков необходима для проведения экспериментов по исследованию взаимосвязи генотипа и фенотипа, основанных на анализе тысяч растений (Benfey et al., 2008, Ajjawi et al., 2010; Brachi et al., 2010). Если ранее для фенотипирования применялись механические средства (весы, рулетка, штангенциркуль), то в настоящие время появляются технологии, позволяющие получать фенотипические характеристики в автоматическом режиме на основе методов цифровой обработки изображений. Основное преимущество таких технологий - максимальное исключение человека из процесса оценки какого либо признака. Это позволяет: (а) существенно ускорить процесс получения данных за счет автоматизации; (б) увеличить точность оценки фенотипических параметров, устранив субъективизм и неточность измерений, присущих человеку; (в) получать оценки новых
характеристик фенотипа, наблюдение или оценка которых ранее были недоступны (например, параметры микроскопических органов растений).
Один из важных фенотипических признаков растений - опушение. Опушение формируется совокупностью эпидермальных образований, которые называются трихомами, и имеет большое физиологическое значение для растения. Оно может защищать растение от вредителей и агрессивного воздействия окружающей среды, влияя на микроклимат вблизи поверхности листа, регулируя такие параметры как влажность, температуру. Трихомы некоторых растений могут синтезировать, накапливать и секретировать различные метаболиты (Schilmiller et al, 2008). К числу метаболитов, секретируемых трихомами, относятся терпены, производные фенилпропаноидов, метилкетоны, флавоноиды и др., часть из них используются в фармацевтике, пищевой промышленности, парфюмерии. Таким образом, трихомы служат своеобразными «химическими фабриками» по производству ценных продуктов для биохимии и биотехнологии. Между тем в настоящие время в мире не существует технологии высокопроизводительного фенотипирования этого признака. Существующие методы оценки опушения растений или достаточно дороги и трудоемки или не дают необходимой точности.
Цель и задачи исследования. Целью работы является разработка метода автоматического определения количественных характеристик опушения листьев растений на основе анализа цифровых микроизображений их сгибов, и сравнительный анализ количественных характеристик опушения листа у растений яровой пшеницы и табака, как модельного растения.
Для достижения заявленной цели были поставлены следующие задачи:
-
Разработать алгоритм автоматической оценки количественных характеристик опушения листа на основе анализа цифровых микроизображений его сгибов у пшеницы и табака.
-
Создать компьютерную программу для анализа количественных характеристик опушения листа пшеницы и табака.
-
Провести массовый анализ количественных характеристик опушения листа сибирских и европейских сортов пшеницы.
-
Провести анализ взаимного расположения трихом на поверхности листа у различных сортов пшеницы.
-
Провести анализ количественных характеристик опушения листьев табака на примере линии SR1 и ее генетически-модифицированных вариантов.
-
Разработать интегрированную систему для хранения и анализа данных по взаимосвязи фенотипических признаков растения, генотипа и окружающей среды на примере пшеницы.
Научная новизна работы. В работе предложен метод автоматического определения количественных характеристик опушения листьев растений на основе анализа цифровых микроизображений их сгибов. Метод адаптирован для анализа опушения у пшеницы и табака. Данный метод реализован в программе LHDetect2, доступной в качестве web-сервиса, что впервые позволило обеспечить возможность фенотипирования растений с
использованием сети Интернет. Впервые проведен массовый анализ количественных характеристик опушения листьев пшеницы для нескольких десятков сортов и выявлены их различия у сибирских и европейских сортов. На основе анализа распределений расстояний между ближайшими трихомами выявлены различия в распределении коротких и длинных трихом на поверхности листа для 4 сортов мягкой пшеницы. Впервые проведено сравнение количественных характеристик опушения листьев растений табака Nicotiana tabacum L. линии SRI и ее генно-модифицированных линий, несущих трансгенную конструкцию, ингибирующую экспрессию гена пролиндегидрогеназы и характеризующихся повышенным содержанием пролина. Результаты показали, что генно-модифицированные растения обладают более плотным опушением листа. Для обеспечения информационной поддержки сбора и анализа данных в селекционно-генетическом эксперименте у пшеницы, разработана система WheatPGE, которая позволяет вводить и хранить фенотипические, генотипические и средовые характеристики для растений и устанавливать взаимосвязь между генотипическими и фенотипическими признаками растений и параметрами окружающей среды.
Теоретическая и практическая ценность работы. Предложенный метод позволяет оценивать такие характеристики опушения, как плотность трихом, их распределение по длинам, линейные размеры, расстояние между трихомами на поверхности листа. Это позволяет характеризовать опушение с высокой степенью детализации, недоступной прежде. Время обработки изображения программой LHDetect2 составляет менее секунды, что позволяет существенно ускорить процедуру фенотипирования растений и проводить широкомасштабные генетические эксперименты, включающие анализ десятков генотипов и сотен растений.
Массовый анализ опушения у растений 47 сортов пшеницы продемонстрировал, что предложенный метод позволяет количественно оценивать плотность опушения и среднюю длину трихом, четко выделять классы опушенных и неопушенных сортов и выявлять статистические зависимости между плотностью опушения и средней длиной трихом.
Система WheatPGE обеспечивает информационную поддержку (ввод, хранение, обработку) данных о фенотипе, генотипе и окружающей среде растений пшеницы в ходе селекционно-генетического эксперимента и доступна для работы как с персональных компьютеров, так и с мобильных устройств, что позволяет использовать ее в полевых условиях.
Основные положения, выносимые на защиту. 1) Разработанный алгоритм анализа изображений сгиба листа, реализованный в компьютерной программе LHDetect2, позволяет автоматически с высокой точностью оценивать количественные характеристики опушения листьев пшеницы и табака и обеспечивает эффективное проведение экспериментов по массовому фенотипированию этого признака.
-
Высокая точность предложенного метода при определении количественных характеристик опушения листа позволяет установить, что частичная супрессия гена пролиндегидрогеназы у трансгенных растений табака линии SRI (Nicotiana tabacum L.), приводящая к повышению уровня пролина, сопровождается увеличением плотности опушения листьев.
-
Созданная компьютерная система WheatPGE обеспечивает информационную поддержку экспериментов по анализу взаимосвязи генотип - фенотип - окружающая среда у пшеницы.
Публикации. По материалам диссертации опубликовано 18 работ, из них 4 статьи в рецензируемых научных журналах, входящих в перечень ВАК, 2 авторских свидетельства, 12 тезисов конференций.
Апробация работы. Работа представлена в виде устных и стендовых докладов на научных конференциях, среди которых: «Электронные библиотеки: перспективные методы и технологии, электронные коллекции. XII Всероссийская научная конференция RCDL'2010» (2010, Казань), «VIII Всероссийская научно-практическая конференция студентов, аспирантов и молодых ученых «Молодежь и современные информационные технологии»» (2010, Томск), «XLVIII Международная научная студенческая конференция» (2010, Новосибирск), «Молодежный научный форум "ЛОМОНОСОВ -2010"» (2010, Москва), «The 7th International Conference on Bioinformatics of Genome regulation and Structure» (Новосибирск, 2010), «XVI Biotechnology Summer School» (Гданьск, 2010), International Conference «Plant Genetics, Genomics and Biotechnology» (Иркутск, 2012).
Объём и структура работы. Работа состоит из введения, обзора литературы и трех глав. Работа изложена на 141 листах, содержит 53 рисунка и 10 таблиц. Список литературы содержит 101 источник.
Личный вклад автора. Основная часть работы выполнена автором самостоятельно, в частности, разработка метода автоматического получения количественных характеристик опушения листа по изображению его сгиба и реализация этого метода в компьютерной программе LHDetect2.