"Технология структурирования и обработки транскриптомных данных на основе гибридного использования RDBMS и NoSQL подходов". Михаил Александрович Генаев, ИЦиГ СО РАН, НГУ, 15.1.2021
Состав коллектива
- Генаев Михаил Александрович, н.с., к.б.н., ИЦиГ СО РАН, НГУ
- Мухин Алексей Максимович, м.н.с., ИЦиГ СО РАН
- Афонников Дмитрий Аркадьевич, в.н.с, к.б.н., ИЦиГ СО РАН, НГУ
Аннотация
Изучение транскриптомов растений с помощью высокопроизводительного секвенирования (RNA-seq) широко используется в настоящее время для решения таких задач как оценка экспрессии генов для разных генотипов и в разных условиях среды, идентификация последовательностей РНК, поиск маркеров к функционально важным генам. Созданы базы данных, в которых результаты экспериментов RNA-seq обработаны стандартными биоинформатическими процедурами, систематизированы и доступны пользователям в интерактивном виде через Интернет. Такие ресурсы важны для генетиков и селекционеров при анализе экспрессии генов в условиях стресса, поиска маркеров новых полезных генов. Однако в задаче анализа транскриптомов сельскохозяйственных растений остаются белые пятна. Во-первых, большинство публикуемых в статьях и базах результатов опираются лишь на последовательности, представленные в референсных геномах и аннотированных в них генах. В результате часть транскриптов, которые не обнаруживают значимого сходства с последовательностью референсного генома, не всегда депонируются в публичные БД и остаются недоступными большей части исследователей в области генетики и селекции растений. В то же время, «скрытая» часть транскриптома может содержать последовательности таких важных генов, как гены устойчивости к биотическим и абиотическим стрессам и являться важным источником информации для генетиков и селекционеров. Другой важной и мало изученной проблемой в анализе транскриптома является недооценка кодирующего потенциала мРНК. Показано, что с многих мРНК могут одновременно считываться несколько полипептидов – как изоформ одного белка, так и отличающихся аминокислотных последовательностей (часто небольших по размеру). Существуют данные, что роль таких альтернативных вариантов кодирования в мРНК существенна при активации ответа растений на патогены (Meteignier et al., 2017). Таким образом, несмотря на большой поток результатов в области секвенирования и анализа транскриптомов сельскохозяйственных растений, актуальной остается более полное исследование (1) состава транскриптомов сельскохозяйственных растений с точки зрения идентификации новых генов устойчивости к абиотическому и биотическому стрессу, а также (2) кодирующего потенциала транскриптома растений, в особенности, при ответе на стресс. Настоящий проект направлен на систематическое изучение «скрытой» части транскриптомов для сельскохозяйственных растений (ячмень, картофель, томат, кукуруза, рис) на основе de novo сборок и аннотации последовательностей, не имеющих сходства с референсным геномом. В фокусе аннотации транкриптомов будут гены устойчивости к абиотическому и биотическому стрессам.
Для хранения результатов анализа и доступа к ним будет база данных. В ней содержиться информация о последовательностях транскриптов растений, не имеющих гомологии с референсным геномом, оценка уровня экспрессии мРНК, разметка последовательности открытых рамок считывания, соответствующие им аминокислотные последовательности, их структурно-функциональная аннотация. Данный ресурс позволит проводить поиск последовательностей РНК для культурных растений, которые не представлены ни в референсных геномах сельскохозяйственных растений, не в публичных БД нуклеотидных последовательностей (NCBI Genbank и др.). База данных OORT реализована для пяти сельскохозяйственных растений, она находится в свободном доступе по адресу: https://oort.cytogen.ru/.
Грантовая поддержка
- Грант РНФ №18-14-00293 «Широкомасштабный анализ транскриптомов сельскохозяйственных растений: идентификация новых генов устойчивости к биотическому и абиотическому стрессу и оценка потенциала альтернативной трансляции мРНК», руководитель - Афонников Дмитрий Аркадьевич.
Публикации
- Мухин А. М. и др. Технология структурирования и обработки транскриптомных данных на основе гибридного использования RDBMS и NoSQL подходов Математическая биология и биоинформатика. 2020; 15 (2): 455-470. doi: 10.17537/2020.15.455