Центр искусственного интеллекта НИУ ВШЭ

Искусственный интеллект в биоинформатике

Проект включает в себя три глобальные задачи:

• предсказание кода функциональных геномных элементов методами глубинного обучения на основе омиксных данных молекулярной биологии;

• уточнение предсказания формы антител и определение эпитопов методами глубинного обучения;

• машинное обучение для решения задач популяционной генетики.

Предсказание кода функциональных геномных элементов методами глубинного обучения на основе омиксных данных молекулярной биологии

В основные задачи ИИ молекулярной биологии входят задачи понимания механизмов и принципов работы разных уровней организации жизненного цикла клетки, а также предсказание новых функциональных элементов, для которых эксперименты пока еще недостаточно производительны, либо отсутствуют. В настоящее время не существует эффективных и точных методов машинного обучения для нахождения вторичных структур ДНК и для выявления значимых ассоциаций с элементами эпигенетического кода, поэтому поставленные задачи разработки таких методов очень актуальны.

В рамках проекта разрабатываются модели, а также тестируется эффективность их работы, на основе других архитектур глубинного обучения - трансформеров, порождающих состязательных сетей, методов геометрического глубинного обучения, графовых нейронных сетей, методов переноса обучения и обучения с подкреплением, а также методов машинного обучения, позволяющих определять значимость признаков для определения ключевых факторов, ассоциированных с работой вторичных структур ДНК.

Уточнение предсказания формы антител и определение эпитопов методами глубинного обучения

Антитела — важные для иммунной системы белковые соединения, вырабатываемые организмом, которые позволяют бороться с различными заболеваниями. Существует большое количество молекул антител, способных связываться с различными антигенами. Антитела можно искусственно синтезировать и использовать в качестве препаратов. К сожалению, процесс синтезирования антител стоит очень дорого, поэтому предварительно нужно выбрать только те соединения, про которые известно, что они могут противостоять этому антигену. Это можно осуществить путем компьютерного моделирования взаимодействия антитела с антигеном. Для этого необходимо уметь получать трехмерную структуру антитела по его аминокислотной последовательности. Различных антител много, но большая часть антитела остается неизменной, меняются лишь небольшие петли, ответственные за прикрепление к антигену. Существующие алгоритмы могут хорошо предсказывать неизменяемые части антитела, но сильно ошибаются в вариабельных частях.

Машинное обучение для решения задач популяционной генетики

Изучение механизмов адаптации и естественного отбора – одна из важнейших фундаментальных задач геномики. Понимание этих механизмов важно как с чисто научной точки зрения, так и в прикладных задачах эпидемиологии, персонализированной медицины и других.

Один из важных примеров адаптации – адаптивная интрогрессия. При этом генетический вариант, дающий эволюционное преимущество, попадает в популяцию через примешивание к ней особей другой популяции. Предполагается, что после примешивания естественный отбор может начинать действовать не сразу, а спустя какое-то время из-за изменения факторов окружающей среды.

В рамках проекта разрабатывается метод глубинного обучения для определения параметров адаптивной интрогрессии. Обучение нейронной сети будет проходить на синтетических данных, полученных при помощи компьютерного моделирования. Проект направлен на разработку и развитие программного обеспечения, использующего искусственный интеллект, для определения параметров адаптивной интрогрессии. Эта задача важна с фундаментальной точки зрения для понимания механизмов эволюции. В силу сложности эволюционной модели использование методов глубинного обучения представляется предпочтительным, поскольку вычислительно решить задачу классическими вероятностными и численными методами не представляется возможным.