reports:magenaev:20210115

2021, magenaev, ammukhin, daafonnikov, ИЦИГ СО РАН, НГУ, грант

"Технология структурирования и обработки транскриптомных данных на основе гибридного использования RDBMS и NoSQL подходов". Михаил Александрович Генаев, ИЦиГ СО РАН, НГУ, 15.1.2021

bionet_magenaev_20210115.pdf

Состав коллектива

Генаев Михаил Александрович, н.с., к.б.н., ИЦиГ СО РАН, НГУ
Мухин Алексей Максимович, м.н.с., ИЦиГ СО РАН
Афонников Дмитрий Аркадьевич, в.н.с, к.б.н., ИЦиГ СО РАН, НГУ

Аннотация

Изучение транскриптомов растений с помощью высокопроизводительного секвенирования (RNA-seq) широко используется в настоящее время для решения таких задач как оценка экспрессии генов для разных генотипов и в разных условиях среды, идентификация последовательностей РНК, поиск маркеров к функционально важным генам. Созданы базы данных, в которых результаты экспериментов RNA-seq обработаны стандартными биоинформатическими процедурами, систематизированы и доступны пользователям в интерактивном виде через Интернет. Такие ресурсы важны для генетиков и селекционеров при анализе экспрессии генов в условиях стресса, поиска маркеров новых полезных генов. Однако в задаче анализа транскриптомов сельскохозяйственных растений остаются белые пятна. Во-первых, большинство публикуемых в статьях и базах результатов опираются лишь на последовательности, представленные в референсных геномах и аннотированных в них генах. В результате часть транскриптов, которые не обнаруживают значимого сходства с последовательностью референсного генома, не всегда депонируются в публичные БД и остаются недоступными большей части исследователей в области генетики и селекции растений. В то же время, «скрытая» часть транскриптома может содержать последовательности таких важных генов, как гены устойчивости к биотическим и абиотическим стрессам и являться важным источником информации для генетиков и селекционеров. Другой важной и мало изученной проблемой в анализе транскриптома является недооценка кодирующего потенциала мРНК. Показано, что с многих мРНК могут одновременно считываться несколько полипептидов – как изоформ одного белка, так и отличающихся аминокислотных последовательностей (часто небольших по размеру). Существуют данные, что роль таких альтернативных вариантов кодирования в мРНК существенна при активации ответа растений на патогены (Meteignier et al., 2017). Таким образом, несмотря на большой поток результатов в области секвенирования и анализа транскриптомов сельскохозяйственных растений, актуальной остается более полное исследование (1) состава транскриптомов сельскохозяйственных растений с точки зрения идентификации новых генов устойчивости к абиотическому и биотическому стрессу, а также (2) кодирующего потенциала транскриптома растений, в особенности, при ответе на стресс. Настоящий проект направлен на систематическое изучение «скрытой» части транскриптомов для сельскохозяйственных растений (ячмень, картофель, томат, кукуруза, рис) на основе de novo сборок и аннотации последовательностей, не имеющих сходства с референсным геномом. В фокусе аннотации транкриптомов будут гены устойчивости к абиотическому и биотическому стрессам.

Для хранения результатов анализа и доступа к ним будет база данных. В ней содержиться информация о последовательностях транскриптов растений, не имеющих гомологии с референсным геномом, оценка уровня экспрессии мРНК, разметка последовательности открытых рамок считывания, соответствующие им аминокислотные последовательности, их структурно-функциональная аннотация. Данный ресурс позволит проводить поиск последовательностей РНК для культурных растений, которые не представлены ни в референсных геномах сельскохозяйственных растений, не в публичных БД нуклеотидных последовательностей (NCBI Genbank и др.). База данных OORT реализована для пяти сельскохозяйственных растений, она находится в свободном доступе по адресу: https://oort.cytogen.ru/.

Грантовая поддержка

Грант РНФ №18-14-00293 «Широкомасштабный анализ транскриптомов сельскохозяйственных растений: идентификация новых генов устойчивости к биотическому и абиотическому стрессу и оценка потенциала альтернативной трансляции мРНК», руководитель - Афонников Дмитрий Аркадьевич.

Публикации

Мухин А. М. и др. Технология структурирования и обработки транскриптомных данных на основе гибридного использования RDBMS и NoSQL подходов Математическая биология и биоинформатика. 2020; 15 (2): 455-470. doi: 10.17537/2020.15.455