"Разработка алгоритма поиска инверсий в данных Hi-C данных с экзомным обогащением". Полина Станиславовна Белокопытова, НГУ, ИЦиГ СО РАН, 30.9.2025
Состав коллектива
- Белокопытова Полина Станиславовна, к.б.н. м.н.с. ФЕН НГУ, н.с. ИЦиГ СО РАН
- Нуриддинов Мирослав Абдурахимович, к.б.н. н.с. ИЦиГ СО РАН
- Лагунов Тимофей Аркадьевич, аспирант ФФ НГУ, инженер-исследователь ИЦиГ СО РАН
- Фишман Вениамин Семёнович, д.б.н., в.н.с. ИЦиГ СО РАН, доцент НГУ
Аннотация
Поиск хромосомных перестроек необходим для диагностики наследственных и онкологических заболеваний человека. Самые передовые методы анализа генома человека, такие как полногеномное секвенирование, являются дорогостоящими и, следовательно, не могут быть широко внедрены в клиническую практику. Обычные методы генетической диагностики ограничены по разрешающей способности и спектру обнаруживаемых типов вариантов.
Семейство методов определения конформации хромосом, включая широко используемый анализ Hi-C, позволяет искать хромосомные перестройки на картах пространственных контактов хроматина, на которых структурные варианты имеют визуально видные паттерны. Нашим коллективом был разработан метод Hi-C с экзомным обогащением, который может быть использован для одновременного выявления структурных вариантов и точечных мутаций в геноме человека. Однако текущие алгоритмы автоматического поиска хромосомных перестроек по картам Hi-C не работают на данных такого типа, что ставит задачу разработки автоматического пайплайна поиска хромосомных перестроек на картах Hi-C с экзомным обогащением.
Нами были разработаны инструменты для автоматического поиска хромосомных перестроек на данных такого типа. В частности, инструмент автоматического поиска инверсий. В основе его лежит поиск паттерна инверсии в виде бабочки и сравнение исследуемого образца с контрольным. Мы оценили производительность алгоритма в диапазоне размеров инверсий, от 100 килобаз до нескольких мегабаз, используя 240 инверсий, сгенерированных in silico. Этот сравнительный анализ, проведенный с использованием серии сгенерированных карт Hi-C, даёт f1-score равный 0,49, для всех длин инверсий. Анализ выявил положительную корреляцию между точностью работы алгоритма и размером инверсии, причем более крупные инверсии дают более высокий f1-score. Было отмечено, что алгоритм плохо работает для поиска инверсий размером более 90 Мб, в первую очередь из-за того, что их координаты расположены на концах хромосом, что затрудняет распознавание паттернов инверсий на картах Hi-C.
Публикации
- Nuriddinov M, Belokopytova P, Fishman V. Charm is a flexible pipeline to simulate chromosomal rearrangements on Hi-C-like data. NAR Genom Bioinform. 2025 Jun 19;7(2):lqaf081. doi: 10.1093/nargab/lqaf081. PMID: 40585301; PMCID: PMC12204402.
- Gridina, M., Lagunov, T., Belokopytova, P. et al. Combining chromosome conformation capture and exome sequencing for simultaneous detection of structural and single-nucleotide variants. Genome Med 17, 47 (2025). https://doi.org/10.1186/s13073-025-01471-3