Научный семинар «Большие языковые модели для анализа генома: от DNABERT до HyenaDNA»

18+

Мероприятие завершено

Институт искусственного интеллекта и цифровых наук объявляет о запуске регулярного научного семинара по различным направлениям искусственного интеллекта. Первый семинар состоится 2 апреля и будет посвящен применению больших языковых моделей для анализа генома.

В ДНК последовательности генома закодировано огромное количество информации, необходимой для работы генетического компьютера. Подобно моделям естественного языка, в геномике создаются базовые модели для изучения обобщаемых представлений на основе немаркированных данных генома, которые затем можно до-обучать до конкретных задач, например, для нахождения функциональных геномных элементов. Из-за квадратичного масштабирования внимания предыдущие геномные модели на основе архитектуры трансформериспользовали в качестве контекста от 512 до 4 000 токенов, что значительно ограничивало моделирование дальних взаимодействий в ДНК.

В ноябре 2023 года ученые из Стэнфордского, Гарвардского и Монреальского университетов опубликовали модель HyenaDNA, с длиной контекста до 1 миллиона токенов на уровне одного нуклеотида, что позволило получить увеличение до 500 раз по сравнению с предыдущими моделями, основанными на плотном внимании. HyenaDNA субквадратично масштабируется по длине последовательности (обучается в 160 раз быстрее, чем трансформер), использует однонуклеотидные токены и полный глобальный контекст на каждом слое.