Центр искусственного интеллекта НИУ ВШЭ

Технологии ИИ помогут ученым предсказывать заболевания

Мария Попцова рассказала о результатах работы в рамках проекта «ИИ в биоинформатике».

Photo by RF studio

Photo by RF studio

Центр ИИ НИУ ВШЭ совместно с Лабораторией по искусственному интеллекту Сбера провели исследование роли Z-флипонов[1] в геномных процессах и проанализировали связь данного функционального элемента с геномными мутациями, ассоциированными с заболеваниями.

Мария Попцова, руководитель проекта «ИИ в биоинформатике», рассказывает об исследованиях: «За основу взяли предобученную архитектуру DNABERT, затем  команда Лаборатории искусственного интеллекта Сбера дообучила ее на экспериментальных данных для конкретной задачи проекта. С помощью полученной модели Z-DNABERT сделали полногеномные предсказания расположения Z-флипонов. Данные проверили на пересечения с известными мутациями, ассоциированными с заболеваниями, включая наследственные заболевания менделевского типа. Оказалось, что точечные замены букв в Z-флипонах очень часто влияют на работу генетических программ. Мы продемонстрировали на конкретных примерах, как мутация, попадающая в Z-флипон, влияет на рост, уровень холестерина, антивирусную защиту и многие другие признаки. Поэтому мы пошли дальше и создали полномасштабный ресурс Z-флипонов, который может быть использован исследователями для проверки своих гипотез».

В настоящее время статья Z-Flipon Variants reveal the many roles of Z-DNA and Z-RNA in health and disease, в которой ученые представили свой опыт, опубликована и находится на рецензии в высокорейтинговом международном журнале. Над задачами работали аспиранты ФКН НИУ ВШЭ Назар Бекназаров, Александр Федоров, преподаватель ФКН, аспирант МГУ Дмитрий Коновалов и студентка магистерской программы АДБМ Анна Данилова. Z-DNABERT разработали в Лаборатории искусственного интеллекта Сбера Дмитрий Умеренков и Владимир Кох.

«Очень многие вещи в нашем геноме до сих пор слабо или совсем не изучены, в том числе различные формы ДНК. Модель, обученная в Лаборатории искусственного интеллекта Сбербанка, позволит исследователям в дальнейшем получать новые знания о функционировании нашего генома и взаимосвязи мутаций с различными клиническими состояниями.  Мы надеемся, что подобные модели смогут внести важный вклад в повышение качества и продолжительности жизни людей», – отметил директор Лаборатории по искусственному интеллекту Сбербанка Глеб Гусев.

Также ученые реализовали модели на основе графовых нейронных сетей для задачи предсказания Z-ДНК с использованием омиксных данных. Протестировали три типа архитерктур: графовые сверточные сети, графовые сети с механизмом внимания и графовые сети архитектуры SAGE. Работа выполнена студентом бакалавриата ПМИ ФКН Артемом Войтецким, который в настоящее время обучается магистратуре АДБМ. Статья  Graph Neural Networks for Z-DNA prediction in Genomes для предсказания Z-ДНК в геномах опубликована на воркшопе Machine Learning and Artificial Intelligence in Bioinformatics and Medical Informatics (MABM2022) в рамках международной конференции IEEE BIBM 2022 — International Conference  on Bioinformaticsand Biomedicine, которая прошла 6-8 декабря 2022 года в Лас-Вегасе, США. Мария Попцова сделала доклад на конференции в режиме онлайн.

Для многих геномов разных видов отсутствуют дорогостоящие эксперименты по полногеномному картированию различных функциональных элементов. «Мы поставили задачу разработать систему ИИ, которая бы могла воссоздать недостающие эксперименты для любого интересующего вида. Также мы разработали модели трансферного обучения на основе архитектур доменной адаптации для переноса экспериментальных аннотаций технологий ChIP-Seq с одного генома на другой, для которых нужные эксперименты отсутствуют», – поясняет Мария Попцова. Над проектом работали аспирант ФКН Павел Латышев и выпускник ПМИ ФКН Федор Павлов. Исследователи протестировали десятки гистоновых меток и транскрипционных факторов для 4 геномов: червя, дрозофилы, мыши и человека. Опробовали все 12 перекрёстных переносов для 8 архитектур доменной адаптации и пришли к выводу, что для одного геномного маркера необходимо 96 прогонов модели. Вычисления производились на суперкомпьютере НИУ ВШЭ. Эмпирически определи наиболее подходящие архитектуры для гистонов и для транскрипционных факторов. Публикация по результатам работы уже подана в журнал Frontiers in Big Data и находится на рецензировании.

В середине года к работам была привлечена компания Genotek, в сотрудничестве с ними ведутся исследования над двумя проектами: предсказание полигенного риска методами глубинного обучения и определение принадлежности человека к популяции и разработка алгоритма поиска дальних родственников. Над первым проектом работает Владислав Перелыгин, научный сотрудник лаборатории биоинформатики, получивший PhD в университете штата Северная Каролина.  Над вторым проектом работает группа под руководством Владимира Щура в международной лаборатории статистической и вычислительной геномики МИЭМ. Для совместной работы пригласили директора по продукту компании Genotek Александра Ракитько. Первоначально работа велась на искусственно симулированных данных, а в настоящее время модель тестируется на реальных данных внутри компании.

Подробнее о проекте в видеоролике по ссылке https://cs.hse.ru/aicenter/video

 


[1] Z-флипоны – это функциональные геномные элементы, закодированные вторичными структурами ДНК