Идентификация биологических взаимосвязей в геноме человека методами интерпретации языковых моделей
Выполнили: Либина Яна Максимовна и Скворцова Ирина Владиславовна
В данной работе рассматриваются различные языковые модели в рамках задачи предсказания Z-ДНК структуры. Мы взяли две модели, предобученные на нуклеотидных последовательностях, DNABERT-2 и Gena-LM, дообучили на датасете Kouzine et al и проинтерпретировали результаты, используя методы xAI. Обе дообученные модели получили лучшее качество, чем предыдущие нейросетевые подходы (DeepZ, Z-DNABERT) и подтвердили значимость известных последовательностей, связанных с образованием ДНК, таких как poly(dGC)2 и в общем последовательностей с чередующимися пуринами-пиримидинами.
Итоговый отчет (Либина, Скворцова)
Ссылка на репозиторий на GitHub
Руководитель проекта
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.

