Биоинформатики Университета ИТМО разработали алгоритм, который позволяет оценить влияние генов на различные процессы в организме человека, в том числе на развитие заболеваний.
ДНК человека
© Marcus Brandt / EPA
Заболевания или предрасположенность к облысению, полноте, плохому зрению могут быть связаны с определенными генами. Чтобы повлиять на их работу и, соответственно, на состояние человека, нужно определить, какой именно участок генома из большого количества «подозреваемых» виновен в изменениях. Более того, чтобы увидеть, есть ли связь между конкретным геном и болезнью, важно знать, как взаимодействуют между собой сами гены.
«Всего у человека около 20 тысяч генов. Сравнивая гены пациентов с исследуемым заболеванием и гены здоровых людей, можно увидеть отличия образцов в их активности и выраженности. На основе этой информации создается общий граф, где видна связь между всеми генами, и каждому присвоен показатель важности. Обычно ученые продолжают работу только с самыми активными генами, выделяя их в отдельных подграф. Однако, вырывая гены из «общего контекста», мы теряем возможность оценивать корреляцию каждого входящего в него гена с другими генами и рассматриваемым диагнозом», – объясняет доцент Университета ИТМО Алексей Сергушичев.
Вместо того чтобы выделять только одну систему из генов с наибольшей важностью, биоинформатики ИТМО предложили способ, при котором генерируются сотни и тысячи подграфов с использованием данных всего генома. Разработанный алгоритм позволяет рассчитать вероятность связи каждого образца с интересующей болезнью и проанализировать их состав с учетом взаимодействия каждого гена. В его основе – метод Монте Карло по схеме марковских цепей (Markov chain Monte Carlo).
«Представьте, что вы хотите собрать корабль в бутылке. Можно попытаться сделать это пинцетом, а можно просто, грубо говоря, трясти бутылку. Когда детальки соберутся, как нужно, мы фиксируем систему в этом состоянии и продолжаем трясти дальше. Если же нас не устраивает новое положение деталей — начинаем сначала. Рано или поздно у нас получится что-то похожее на корабль. Аналогично и в нашей программе. В одном из наборов генов убирается один. Если число активных генов растет — мы сделали все правильно, сохраняем. Если нет — действуем дальше. Через несколько похожих шагов важность может резко возрастать. Так алгоритм формирует множество вариантов графов», – объяснил ведущий научный сотрудник Университета ИТМО, лауреат программы ITMO Fellowship and Professorship Никита Алексеев.
Получив такую выборку, можно увидеть, какие гены встречаются в ней чаще. Например, если какой-то из генов встречается в 90% таких подграфов, значит, ученые могут быть уверены в его связи с исследуемым состоянием на 90%.
Авторы проекта отмечают, что в будущем алгоритм может быть представлен в виде системы с ползунком, с помощью которой можно будет получать показания для разных целей и с разной точностью.
«Например, чем меньше мы поставим степень нашей уверенности, тем больше генов нам будет показано — и наоборот. При необходимости выявить только те гены, в которых мы уверены, мы должны поставить ползунок где-то на 99%», – заключает Никита Алексеев.
Статья опубликована в журнале BMC Bioinformatics