Поиск хромосомных перестроек необходим для диагностики наследственных и онкологических заболеваний человека. Самые передовые методы анализа генома человека, такие как полногеномное секвенирование, являются дорогостоящими и, следовательно, не могут быть широко внедрены в клиническую практику. Обычные методы генетической диагностики ограничены по разрешающей способности и спектру обнаруживаемых типов вариантов.
Семейство методов определения конформации хромосом, включая широко используемый анализ Hi-C, позволяет искать хромосомные перестройки на картах пространственных контактов хроматина, на которых структурные варианты имеют визуально видные паттерны. Нашим коллективом был разработан метод Hi-C с экзомным обогащением, который может быть использован для одновременного выявления структурных вариантов и точечных мутаций в геноме человека. Однако текущие алгоритмы автоматического поиска хромосомных перестроек по картам Hi-C не работают на данных такого типа, что ставит задачу разработки автоматического пайплайна поиска хромосомных перестроек на картах Hi-C с экзомным обогащением.
Нами были разработаны инструменты для автоматического поиска хромосомных перестроек на данных такого типа. В частности, инструмент автоматического поиска инверсий. В основе его лежит поиск паттерна инверсии в виде бабочки и сравнение исследуемого образца с контрольным. Мы оценили производительность алгоритма в диапазоне размеров инверсий, от 100 килобаз до нескольких мегабаз, используя 240 инверсий, сгенерированных in silico. Этот сравнительный анализ, проведенный с использованием серии сгенерированных карт Hi-C, даёт f1-score равный 0,49, для всех длин инверсий. Анализ выявил положительную корреляцию между точностью работы алгоритма и размером инверсии, причем более крупные инверсии дают более высокий f1-score. Было отмечено, что алгоритм плохо работает для поиска инверсий размером более 90 Мб, в первую очередь из-за того, что их координаты расположены на концах хромосом, что затрудняет распознавание паттернов инверсий на картах Hi-C.