Центр искусственного интеллекта НИУ ВШЭ

Интервью с Марией Попцовой, руководителем проекта «Искусственный интеллект в биоинформатике»

В Центре искусственного интеллекта ВШЭ ведется работа по 25 направлениям. Группы ученых участвуют в конференциях и семинарах, пишут статьи, проводят воркшопы. Делать выводы и подводить итоги ещё рано, поэтому о промежуточных этапах и планах можно узнать из интервью с руководителями проектов.  

Интервью с Марией Попцовой, руководителем проекта «Искусственный интеллект в биоинформатике»



Почему вы выбрали именно такой проект? В чем актуальность данной темы?

Наш проект сфокусирован на построении систем ИИ для распознавания функциональных элементов генома. Мы представляем геном как генетический компьютер, работой которого можно управлять включением и выключением функциональных элементов. Кодирование функциональных элементов реализовано на разных уровнях организации генома – на уровне самой ДНК, эпигенетических маркеров, вторичных структур ДНК и упаковки хроматина.  Экспериментальные данные о расположении функциональных элементов в совокупности называют омиксными данными. Это большие данные молекулярной биологии, анализ которых возможен исключительно благодаря системам искусственного интеллекта. Управление функциональными элементами - очень важная задача, так как отрывает возможность перепрограммирования клеток.

 

Каковы приоритетные задачи проекта на данный момент?

В настоящее время мы активно разрабатываем модули различных архитектур машинного обучения для предсказания вторичных структур ДНК – модуль, основанный на архитектуре трансформер, модуль, основанный на генеративно-состязательных сетях и модуль доменной адаптации. Также мы разрабатываем систему интерпретации нейронных сетей, которые обучились на матрицах омиксных данных.

Параллельно идут разработки алгоритмов для предсказания формы белков, связывающихся со вторичными структурами ДНК, а также алгоритмов для предсказания адаптивной интрогрессии.

 

Какие технологии искусственного интеллекта первостепенны в данном исследовании?

На данный момент мы адаптируем самые современные алгоритмы нейросетевого глубинного обучения – свёрточные нейронные сети, трансформеры, генеративно-состязательные сети, графовые сети и модели доменной адаптации – для работы с геномными данными. Разрабатываем подходы обучения представлений для графовых нейронных сетей. Также используем методы подходы объяснимого искусственного интеллекта (XAI) – такие как методы послойного распространения релевантности и методы интегрированных градиентов.

 

С какими трудностями сталкиваются исследователи в ходе работы? Меняются ли задачи в ходе работы?

Основная трудность – это вычислительные мощности. Нам, конечно, не хватает собственного достаточно мощного лабораторного сервера для запуска нейросетевых моделей. В настоящее время мы пользуемся вычислительными ресурса факультета, но они перегружены, часто приходится стоять в очереди.

Хотя научный интерес лаборатории сфокусирован на роли вторичных структур ДНК, мы разрабатываем более общую систему распознавания любых функциональных элементов генома на основе любых входных омиксных данных. Это значит, что модули можно будет легко адаптировать под определения функциональной роли разных элементов генома и определения его многомерных связей с другими элементами.

 

 

Расскажите о дальнейших планах исследовательской группы в рамках проекта.

В течение первого года мы планируем разработать модули различных архитектур нейронных сетей для распознавания функциональных элементов генома на основе омиксных данных. Планируем протестировать, по крайней мере, два подхода по интерпретации нейронных сетей – метод послойного распространения релевантности  и метод интегрированных градиентов. После этого мы сфокусируемся на разработке модулей представления омиксных данных для более эффективной работы алгоритмов машинного обучения.

 Будем также тестировать различные подходы для задачи предсказания формы белков для распознавания определенных структурных элементов – целый год уйдет на разработку подхода обучения представлений в графовых нейронных сетях. Далее необходимо будет выбрать наиболее производительную архитектуру и произвести биологическую интерпретацию.

 

­

Какое прикладное применение возможно после завершения проекта?

Мы надеемся, что после того, как мы реализуем задуманную модульную систему, ее можно будет применять к широкому классу задач – нахождение функционально значимых элементов для включения или выключения того или иного клеточного режима. Тогда можно будет запускать программы дифференцировки клеток и превращать стволовые клетки (недифференцированные типы клеток) в клетки определенного типа тканей. При лечении болезней, связанных с изменением генома, таких как рак, разработанная нами система сможет распознавать функциональные элементы, которые оказались испорчены в результате заболевания.

Разные молекулы могут связываться и блокировать именно вторичные структуры ДНК, запускающие или выключающие разные генетические программы. Разработанная нами система нахождения формы белков, способных связываться со вторичными структурами ДНК, может быть использована для разработки такого нового класса лекарств.