, , , , , ,

"Технология структурирования и обработки транскриптомных данных на основе гибридного использования RDBMS и NoSQL подходов". Михаил Александрович Генаев, ИЦиГ СО РАН, НГУ, 15.1.2021

bionet_magenaev_20210115.pdf

Состав коллектива

Аннотация

Изучение транскриптомов растений с помощью высокопроизводительного секвенирования (RNA-seq) широко используется в настоящее время для решения таких задач как оценка экспрессии генов для разных генотипов и в разных условиях среды, идентификация последовательностей РНК, поиск маркеров к функционально важным генам. Созданы базы данных, в которых результаты экспериментов RNA-seq обработаны стандартными биоинформатическими процедурами, систематизированы и доступны пользователям в интерактивном виде через Интернет. Такие ресурсы важны для генетиков и селекционеров при анализе экспрессии генов в условиях стресса, поиска маркеров новых полезных генов. Однако в задаче анализа транскриптомов сельскохозяйственных растений остаются белые пятна. Во-первых, большинство публикуемых в статьях и базах результатов опираются лишь на последовательности, представленные в референсных геномах и аннотированных в них генах. В результате часть транскриптов, которые не обнаруживают значимого сходства с последовательностью референсного генома, не всегда депонируются в публичные БД и остаются недоступными большей части исследователей в области генетики и селекции растений. В то же время, «скрытая» часть транскриптома может содержать последовательности таких важных генов, как гены устойчивости к биотическим и абиотическим стрессам и являться важным источником информации для генетиков и селекционеров. Другой важной и мало изученной проблемой в анализе транскриптома является недооценка кодирующего потенциала мРНК. Показано, что с многих мРНК могут одновременно считываться несколько полипептидов – как изоформ одного белка, так и отличающихся аминокислотных последовательностей (часто небольших по размеру). Существуют данные, что роль таких альтернативных вариантов кодирования в мРНК существенна при активации ответа растений на патогены (Meteignier et al., 2017). Таким образом, несмотря на большой поток результатов в области секвенирования и анализа транскриптомов сельскохозяйственных растений, актуальной остается более полное исследование (1) состава транскриптомов сельскохозяйственных растений с точки зрения идентификации новых генов устойчивости к абиотическому и биотическому стрессу, а также (2) кодирующего потенциала транскриптома растений, в особенности, при ответе на стресс. Настоящий проект направлен на систематическое изучение «скрытой» части транскриптомов для сельскохозяйственных растений (ячмень, картофель, томат, кукуруза, рис) на основе de novo сборок и аннотации последовательностей, не имеющих сходства с референсным геномом. В фокусе аннотации транкриптомов будут гены устойчивости к абиотическому и биотическому стрессам.

Для хранения результатов анализа и доступа к ним будет база данных. В ней содержиться информация о последовательностях транскриптов растений, не имеющих гомологии с референсным геномом, оценка уровня экспрессии мРНК, разметка последовательности открытых рамок считывания, соответствующие им аминокислотные последовательности, их структурно-функциональная аннотация. Данный ресурс позволит проводить поиск последовательностей РНК для культурных растений, которые не представлены ни в референсных геномах сельскохозяйственных растений, не в публичных БД нуклеотидных последовательностей (NCBI Genbank и др.). База данных OORT реализована для пяти сельскохозяйственных растений, она находится в свободном доступе по адресу: https://oort.cytogen.ru/.

Грантовая поддержка

Публикации