Семинар по методам машинного обучения в биоинформатике

На факультете компьютерных наук проводится регулярный семинар, посвященный методам машинного обучения в биоинформатике. Руководит семинаром Мария Попцова, доцент департамента больших данных и информационного поиска.

Методы машинного обучения уже нашли широкое применение в областях генетики и геномики. Они оказались наиболее полезны для интерпретации больших наборов геномных данных и аннотации большого числа элементов генома. Методы машинного обучения были успешно применены для распознавания сайтов старта транскрипции, сплайс-сайтов, альтернативного сплайсинга, промотеров, энхансеров, расположения нуклеосом. После революции в технологиях секвенирования накопление экспериментальных данных происходит быстрее, чем построение моделей, объясняющих функционирование генома. Необходима как разработка новых подходов, методов и алгоритмов, так и освоение технологий работы с системами больших данных геномики. На семинаре у слушателей будет возможность познакомиться с современными исследованиями в области применения методов машинного обучения к анализу геномных данных ведущих университетов мира, таких как Harvard, MIT, Cambridge, Sorbonne, EMBL-EBI и др.

Для участия в семинаре необходима регистрация.

Регистрация

2022

18 марта

Предсказание иерархической функции белков с помощью графовых нейронных сетей TailGNN
Докладчик: Артем Войтецкий, стажер-исследователь МЛ биоинформатики

Работа ученых Белградского университета и компании DeepMind, (“Hierarchical Protein Function Prediction with Tail-GNNs”, Spalevic ́ et al.). Публикация на arXiv, 2020 г.

Protein function prediction may be framed as predicting subgraphs (with certain closure properties) of a directed acyclic graph describing the hierarchy of protein functions. Graph neural networks (GNNs), with their built-in inductive bias for relational data, are hence naturally suited for this task. However, in contrast with most GNN applications, the graph is not related to the input, but to the label space. Accordingly, we propose Tail-GNNs, neural networks which naturally compose with the output space of any neural network for multi-task prediction, to provide relationally-reinforced labels. For protein function prediction, we combine a Tail-GNN with a dilated convolutional network which learns representations of the protein sequence, making significant improvement in F_1 score and demonstrating the ability of Tail-GNNs to learn useful representations of labels and exploit them in real-world problem solving.

Время: 20:00-21:30

5 марта

Обучение представлений вторичных структур РНК в графовых нейросетях для предсказания РНК-белковых взаимодействий

Работа ученых Школы компьютерных наук Университета Макгилла, Канада (“Graph neural representational learning of RNA secondary structures for predicting RNA-protein interactions”, Yan et al.). Публикация в журнале Bioinformatics, 2020 г. RNA-protein interactions are key effectors of post-transcriptional regulation. Significant experimental and bioinformatics efforts have been expended on characterizing protein binding mechanisms on the molecular level, and on highlighting the sequence and structural traits of RNA that impact the binding specificity for different proteins. Yet our ability to predict these interactions in silico remains relatively poor. In this study, we introduce RPI-Net, a graph neural network approach for RNA-protein interaction prediction. RPI-Net learns and exploits a graph representation of RNA molecules, yielding significant performance gains over existing state-of-the-art approaches. We also introduce an approach to rectify an important type of sequence bias caused by the RNase T1 enzyme used in many CLIP-Seq experiments, and we show that correcting this bias is es- sential in order to learn meaningful predictors and properly evaluate their accuracy. Finally, we provide new approaches to interpret the trained models and extract simple, biologically interpretable representations of the learned sequence and structural motifs.

Время: 20:00 – 21:30

Присоединиться

2021

19 марта

Интегративное моделирование структуры и динамики биомакромолекулярных комплексов

Докладчик: Алексей Константинович Шайтан, к.ф.-м.н., научный сотрудник международной лаборатории биоинформатики факультета компьютерных наук, ведущий научный сотрудник, кафедра биоинженерии, биологический факультет, МГУ им. М.В. Ломоносова

Доклад будет сделан по материалам представленной к защите диссертации на соискание степени доктора физико-математических наук по специальности 03.01.09 Математическая биология, биоинформатика.

В докладе будет рассказано о применении методов компьютерного моделирования для установления структуры и изучения больших комплексов биомолекул. В частности будет рассказано об использовании суперкомпьютерных расчетов методом молекулярной динамики для изучения нуклеосом - элементарных единиц упаковки ДНК в геномах эукариот. Будет рассказано о том, каким образом, комбинируя методы молекулярного моделирования с различными косвенными экспериментальными данными, можно изучать упаковку ДНК в ядре клетки и структуру амилоидных фибрилл.

Время: 17:00 – 18:30

Присоединиться

26 января

DNABERT: предварительно обученные представления двунаправленного кодировщика архитектуры трансформер для языка ДНК в геноме

Работа ученых Северо-Западного университета, Чикаго, и Университета штата Нью-Йорк в Стоуни-Брук, США (“DNABERT: pre-trained Bidirectional Encoder Representations from Transformers model for DNA-language in genome”, Ji etal.). Публикация в журнале Bioinformatics, 2021 г. Расшифровка языка некодирующей ДНК - одна из фундаментальных проблем в исследовании генома. Код регуляции генов очень сложен из-за многозначности и отдаленных семантических отношений, которые предыдущие методы информатики часто не могли уловить, особенно в случае недостаточности данных. Для решения этой проблемы авторы разработали новое предварительно обученное представление двунаправленного кодировщика, DNABERT, для глобального и переносимого понимания последовательностей геномной ДНК на основе нуклеотидного контекста. Авторы сравнили DNABERT с наиболее широко используемыми программами для предсказания регуляторных элементов в масштабе всего генома и продемонстрировали простоту использования, точность и эффективность. Авторы утверждают, что модель предварительно обученной архитектуры трансформера может одновременно достичь высочайшего уровня производительности при прогнозировании промоторов, сайтов сплайсинга и сайтов связывания факторов транскрипции после легкой тонкой настройки с использованием небольших помеченных данных для конкретных задач. Кроме того, DNABERT обеспечивает прямую визуализацию важности на уровне нуклеотидов и семантических отношений внутри входных последовательностей, что позволяет лучшую интерпретируемость и точную идентификацию консервативных мотивов последовательностей и функциональных генетических вариантов. Авторы считают, что предварительно обученную модель DNABERT можно будет оптимизировать для решения многих других задач анализа последовательности. Исходный код и предобученная модель DNABERT находится в открытом доступе.

Время: 18:00 – 19:30

Присоединиться

22 января

Предсказание посттрансляционных гистоновых модификаций методами глубинного обучения

Работа ученых университета Калифорнии (“Prediction of Histone Post-translational Modifications using Deep Learning”, Dipankar Ranjan Baisya and Stefano Lonardi). Публикация в журнале Bioinformatics, 2021 г. Посттрансляционные модификации гистонов вовлечены во множество важных регуляторных процессов в клетке, включая регуляцию транскрипции. Недавние исследования показали, что посттрансляционные модификации гистонов можно точно предсказать на основании данных о связывании факторов транскрипции или данных о гиперчувствительности к ДНКазе. Точно так же было показано, что можно предсказать посттрансляционные модификации гистонов на основе первичной последовательности ДНК. В работе авторы предлагают архитектуру сетей глубинного обучения, DeepPTM, для прогнозирования посттрансляционных модификаций гистонов на основе данных о связывании факторов транскрипции и первичной последовательности ДНК. Авторы утверждают, что предложенная модель глубинного обучения превосходит точность прогнозирования модели, предложенной Benveniste et al. (PNAS 2014) и DeepHistone (BMC Genomics 2019). Конкурентное преимущество предлагаемой платформы заключается в синергетическом использовании глубинного обучения в сочетании с эффективным этапом предварительной обработки. Знание небольшого подмножества факторов транскрипции (которые являются специфическими для клеточного типа и посттрансляционных модификаций гистонов) может обеспечить почти такую же точность прогноза, которая может быть получена с использованием всех данных факторов транскрипции.

Время: 18:00 – 19:30

2020

27 ноября

Докладчик: Павел Латышев, стажер-исследователь НУЛ биоинформатики

Прогнозирование взаимодействий энхансер-промотор с использованием информации о межклеточных типах и доменной состязательной нейронной сети

Совместная работа ученых Cеверо-западного политехнического университета Шэньси, Китай и NCMIS, CEMS, RCSDS, Пекин, Китай (“Prediction of enhancer–promoter interactions using the cross‐cell type information and domain adversarialneural network”, Jing et al.). Публикация в журнале BMC Bioinformatics, 2020 г. В этой работе авторы представляют новый метод, основанный на последовательностях (называемый SEPT), для прогнозирования взаимодействий энхансер-промотор в новой клеточной линии с использованием межклеточной информации и трансферного обучения. SEPT сначала обучается признакам энхансеров и промоторов на основе последовательностей ДНК с помощью сверточной нейронной сети (CNN), а затем создает обратный градиентный слой трансферного обучения для уменьшения специфических особенностей клеточной линии, сохраняя при этом признаки, ассоциированные с взаимодействиями энхансер-промотор. Когда местоположения энхансеров и промоторов известны в новой клеточной линии, SEPT может успешно распознавать взаимодействия энхансер-промотор в этой новой клеточной линии на основе промаркированных данных других клеточных линий. Результаты эксперимента показывают, что SEPT может эффективно обучиться признакам, которые относятся к скрытому импорту взаимодействий энхансер-промотор между линиями клеток, и обеспечивает наилучшие характеристики предсказательной модели.

Время: 18:00 – 19:30

13 ноября

Генеративно-состязательная сеть с обратной связью для ДНК оптимизирует белковые функции

Работа ученых факультета компьютерных наук Стэнфордского университета США (“Feedback GAN for DNA optimizes protein functions”, Anvita Gupta and James Zou). Публикация в журнале Nature Machine Intelligence, 2019. Генеративно-состязательные сети (GAN) представляют собой привлекательный и новый подход к созданию реалистичных данных, таких как гены, белки или лекарства в синтетической биологии. В данной работе авторы применяют GAN для создания синтетических последовательностей ДНК, кодирующих белки различной длины. Авторы предлагают новую архитектуру петли обратной связи, GAN с обратной связью (FBGAN), для оптимизации последовательностей синтетических генов для получения нужных свойств с помощью внешнего анализатора функций. Преимущество предлагаемой архитектуры состоит в том, что анализатор не требует дифференциации. Авторы применяют механизм обратной связи к двум задачам: создание синтетических генов, кодирующих антимикробные пептиды, и оптимизации синтетических генов для вторичной структуры кодирующих ими пептидов. Набор показателей, рассчитанных in silico, демонстрирует, что белки, генерируемые GAN, обладают желаемыми биофизическими свойствами. Архитектура FBGAN также может использоваться для оптимизации точек данных, генерируемых GAN, для получения полезных свойств объектов в областях вне геномики.

Время: 18:00 – 19:30

30 октября

Представление мутационных сигнатур рака с помощью эмбеддинга крупно-масштабного контекста

Совместная работа ученых факультета вычислительной биологии Университета Карнеги в Питтсбурге, США и Шанхайского университета, Китай (“Cancer mutational signatures representation by large-scale context embedding”, Zhang etal.). Публикация в журнале Bioinformatics, 2020 г. Накопление соматических мутаций играет решающую роль в развитии и прогрессировании рака. Однако глобальные паттерны соматических мутаций, особенно некодирующих мутаций, и их роль в определении молекулярных подтипов рака не были хорошо охарактеризованы из-за вычислительных проблем при анализе сложных мутационных паттернов. Авторы предложили новый алгоритм, называемый MutSpace, который определяет специфические для пациента мутационные паттерны, используя эмбеддинг более широкого контекста последовательности. Метод основан на наблюдении, что частота мутаций на масштабе 1Мб и локальные мутационные паттерны совместно способствуют распознаванию подтипов рака. Оценки моделирования показывают, что MutSpace может эффективно охарактеризовать мутационные особенности у известных подгрупп пациентов и достичь более высоких показателей по сравнению с предыдущими методами. Метод MutSpace опробован на 560 образцах пациентов с раком груди. Кроме того, эмбеддинги из MutSpace отражают внутренние паттерны подтипов рака груди и другие особенности структуры и функции генома.

Время: 18:00 – 19:30
ONLINE

23 октября

Полностью интерпретируемая модель глубинного обучения для предсказания транскрипционного контроля

Работа ученых Чикагского Университета, США (“Fully interpretable deep learning model of transcriptional control”, Liu et al.). Публикация в журнале Bioinformatics, 2020 г. Глубинные нейронные сети (DNN) еще не применялись для детального моделирования транскрипционного контроля, при котором производство мРНК контролируется связыванием определенных факторов транскрипции с ДНК, отчасти потому, что такие модели отчасти сформулированы в терминах конкретных химических уравнений, которые по форме отличаются от тех, что используются в нейронных сетях. Авторы приводят пример DNN, которая может моделировать детальное управление процессом транскрипции точным и предсказуемым образом. Внутренняя структура глубинной сети полностью интерпретируема и соответствует химии, лежащей в основе связывания фактора транскрипции с ДНК. Авторы, выводя DNN из модели системной биологии, которая ранее не воспринималась, как имеющая структуру DNN. В качестве примера показано применение DNN к данным, полученным от ранних эмбрионов плодовой мушки Drosophila, однако предлагаемая система может быть применима для анализа гораздо больших наборов данных, полученных в результате исследований системной биологии в геномном масштабе.

Время: 18:00 – 19:30
ONLINE

30 апреля

Обнаружение взаимодействий между промоторами и энхансерами с помощью нейронных сетей, используя предобученные ДНК-вектора и механизм внимания

Cовместная работа ученых Сямыньского университета (Xiamen University), Хунаньского университета (Hunan University) и Университета Шаньдун (Shandong University), Китай (Identifying enhancer-promoter interactions with neural network based on pre-trained DNA vectors and attention mechanism.). Публикация в журнале Bioinformatics, 2020 г. Авторы предлагают метод на основе глубинного обучения, EPIVAN, который позволяет предсказывать взаимодействия между промоторами и энхансерами на основе только геномных последовательностей. Для исследования ключевых характеристик последовательностей авторы сначала использовали предобученные ДНК-вектора для кодировки энхансеров и промоторов. После этого с помощью однослойной свертки и управляемого рекуррентного блока были извлечены локальные и глобальные признаки, и в конце, с помощью механизма внимания был усилен вклад ключевых признаков. Исходный код модели находится в открытом доступе.

Время: 19:30 – 21:00
ONLINE

23 апреля

Глубинное обучение для открытия антибиотиков

Cовместная работа ученых Массачусетского технологиического института (Massachusetts Institute of Technology, MIT) и Гарвардского университета (Harvard University) США. Публикация в журнале Cell, 2020 г. Из-за быстрого возникновения бактерий, развивающих устойчивость к антибиотикам, существует насущная задача открытия новых антибиотиков. Авторы статьи представляют глубинную нейронную сеть, способную предсказывать молекулы, обладающие антибактериальной активностью. Авторы сделали предсказания для большого числа химических библиотек и обнаружили молекулу из базы данных Drug Repurposing Hub – халицин (halicin) – который структурно отличен от существующих антибиотиков и показывает бактерицидную активность против широкого спектра патогенов, включая Mycobacterium tuberculosis и других опасных бактерий. Кроме халицина, всего с помощью модели было протестировано >107 миллиона молекул и отобрано 23 молекулы, из которых 8 структурно отличаются от известных антибиотиков. Данная работа демонстрирует как подход глубинного обучения помогает расширить арсенал антибиотиков с помощью открытия структурно различных антибактериальных молекул.

Время: 19:30 – 21:00
ONLINE

28 февраля

Расшифровка отпечатков взаимодействий по молекулярным поверхностям белков методами геометрического глубинного обучения
Докладчик: Марк Гарницкий, студент 4 курса ПМИ ФКН ВШЭ, стажер-исследователь НУЛ биоинформатики

Cовместная работа Института биоинженерии, Федеральной политехнической школы Лозанны, Швейцарского института биоинформатики (Швейцария); Университета Сапиенца в Риме, Института технологий видения Фонда Бруно Кесслера в Тренто (Италия) и Университетского колледжа Лондона (Англия). (“Deciphering interaction fingerprints from protein molecular surfaces using geometric deep learning”, Gainza et al.). Публикация в журнале Nature, 2019 г. Предсказание взаимодействий между белками и другими биомолекулами исключительно на основе структуры представляет собой важную задачу. Высоко-уровневое представление структуры белка и его молекулярной поверхности выявляет паттерны химических и геометрических характеристик, которые несут в себе отпечатки белковых взаимодействий с другими биомолекулами. Подразумевается, что белки, участвующие в похожих взаимодействиях, могут иметь общие отпечатки, независимо от их эволюционной истории. Эти отпечатки может быть трудно обнаружить визуальным анализом, но возможно распознать из больших наборов данных. Авторы представляют программный метод MaSIF (molecular surface interaction fingerprinting), основанный на геометрическом глубинном обучении, который способен обнаружить отпечатки, важные для специфичных биомолекулярных взаимодействий. Производительность демонстрируется на трех задачах – предсказание взаимодействия белковый карман – лиганд, сайта связывания белок-белкового взаимодействия, предсказания белок-белковых комплексов при быстром сканировании белковых поверхностей.

Время: 19:30 – 21:00
Место: Покровский бульвар 11, D509

13 февраля

Улучшение предсказание структуры белков на основе потенциалов методами глубинного обучения

Докладчик: Дарья Афентьева, Cтудентка физическго факультета МГУ, стажер-исселдователь НУЛ биоинформатики

Cовместная работа компании DeepMind, Университетского колледжа Лондона и Института Фрэнсиса Крика, Лондон, Англия (“Improved protein structure prediction using potentials from deep learning”, Senior et al.). Публикация в журнале Nature, 2020 г. Проблема предсказания трехмерной структуры белка по последовательности представляет собой сложную задачу. Авторы предлагают метод AlphaFold, который представляет собой нейронную сеть, предсказывающую расстояния между парами оснований. Используя эту информацию, авторы восстанавливают потенциал средней силы, которая может аккуратно предсказать форму белка. Авторы обнаружили, что результирующий потенциал может быть оптимизирован простым алгоритмом градиентного спуска для генерации структуры без сложного сэмплирования. Метод AlphaFold достиг высокой точности для 24 из 43 структурных доменов, в то время как лучший до этого метод, основанный на информации о контактных взаимодействиях и сэмплировании, имел точность 14 из 43.

Время: 19:30-21:00

Место: Покровский бульвар 11, R506

2019

19 декабря

Условная генеративно-состязательная сеть для предсказания экспрессии генов

Докладчик: Никита Константиновский, cтудент программы «Big Data Systems»

Работа ученых Питтсбургского университета, США (“Conditional generative adversarial network for gene expression inference”, Wang et al.). Публикация в журнале Bioinformatics, 2018 г. Несмотря на прогресс в профайлинге экспрессии генов, полногеномное секвенирование все еще остается дорогостоящим. Предыдущие исследования показали высокую корреляцию между паттернами экспрессии отдельных генов, так что небольшой набор генов может быть информативен для описания целого транскриптома. Для данных репозитория the Library of Integrated Network-based Cell-Signature было показано, что набор из 1000 отобранных генов содержит 80% информации о полном геноме и может быть использован для предсказания уровня экспрессии оставшихся генов. Модели глубинного обучения являются теми самыми моделями, которые способны выучить сложные взаимосвязи между генами. Авторы предлагают условную генеративно-состязательную сеть (GAN), которая включает в себя как состязание, так и L1- регуляризацию, что позволяет сделать более точные предсказания.

Время: 19:00-20:30

Место: Покровский бульвар 11, M302

5 декабря

Глубинная рекуррентная нейронная сеть обнаруживает сложные биологические правила расшифровки белок-кодирующего потенциала РНК

Докладчик: Роман Вашурин

Работа ученых Орегонского университета, США (“A deep recurrent neural network discovers complex biological rules to decipher RNA protein-coding potential”, Hill et al.). Публикация в журнале Nucleic Acids Research, 2018 г. Авторы натренировали рекуррентную нейронную сеть (RNN) с механизмом вентиля на матричной и регуляторной длинной некодирующей РНК. Модель RNN обошла современные методы определения кодирующей РНК, несмотря на то, что имела меньшее обучающее множество и не имела априорного знания о признаках, характерных для кодирующей РНК. Было обнаружено, что RNN выучила несколько контекстно-чувствительных кодонов, довольно точно предсказывающих кодирующий потенциал. Результаты предполагают, что рекуррентные сети с вентильным механизмом могут обучаться сложным и дальним зависимостям в транскриптах полной длины генома человека, что делает их идеальным методом для широкого круга сложных задач классификации, особенно при анализе огромного объема данных секвенирования.

Время: 19:40 – 21:00
Место: Покровский бульвар 11, ауд. М202

21 ноября

Глубинное обучение: новая вычислетельная техника моделирования для геномики

Докладчик: Дарья Афентьева, стажер-исследователь лаборатории биоинформатики

Обзорная статья ученых Технического университета и Центра им. Гельмгольца в Мюнхене, Германия (“Deep learning: new computational modelling techniques for genomics”, Eraslan et al.). Публикация в журнале Nature Reviews Genetics, 2019 г. Как наука, развитие которой происходит благодаря данным, геномика широко использует методы машинного обучения для нахождения зависимостей в данных и генерации новых биологических гипотез. Тем не менее, возможность получать новые идеи из экспоненциально растущего объема данных геномики требует все более производительных моделей машинного обучения. Благодаря эффективной обработке больших объемов данных, глубинное обучение уже трансформировало области компьютерного зрения и обработки естественных языков. Теперь глубинное обучение становится основным методом для большого числа задач моделирования в геномике.

Время: 19:40 – 21:00

Место: Покровский бульвар 11, G120

8 ноября

Деконволюция автоэнкодеров для выучивания биологических регуляторных модулей из данных секвенирования мРНК одиночных клеток

Работа ученых Копенгагенского университета, Дания и Базельского университета, Швейцария (“Deconvolution of autoencoders to learn biological regulatory modules from single cell mRNA sequencing data”, Kinalis et al.). Публикация в журнале BMCBioinformatics, 2019 г. Авторы показали, что благодаря специализированному обучению автоэнкодер может не только обобщать данные, но и выделять биологически значимые модули, которые закодированы на уровне промежуточного слоя сети. Представленная модель способна по данным scRNA-seq определить биологические значимые модули, а также предоставить информацию о том, какие модули активны в каждой отдельной клетке. В перспективе модель совместно с методами кластеризации сможет определить подтип каждой одиночной клетки, а также ее значимые биологические функции.

Время: 19:40 – 21:00
Место: Покровский бульвар 11, ауд. R307

17 октября
Нейронные сети с фильтрами, полученными в результате кругового перемешивания, улучшают распознавание мотивов в последовательности

Работа ученых Института математического моделирования биологических систем Дюссельдорфского университета имени Генриха Гейне, Германия (“Neural networks with circular filters enable data efficient inference of sequence motifs”, Christopher F. Blum and Markus Kollmann). Публикация в журнале Bioinformatics, 2019 г. Авторы предлагают новый тип архитектуры сверточных нейронных сетей (CNN) с фильтрами, полученными из исходных в результате кругового перемешивания. Обычно CNN выучивает фильтры, которые соответствуют сдвинутым или обрезанным вариантам исходного мотива. Круговое перемешивание позволяет выучить мотивы полной длины, а также облегчают интерпретацию выученных фильтров. Авторы показали, что CNN c круговым перемешиванием фильтров превосходят обычные CNN при анализе ДНК-связывающих сайтов из экспериментов ChIP-seq.

Время: 19:40 – 21:00
Место: Покровский бульвар 11, R207

11 октября
Deep Patient: Представление без учителя для прогнозирования клинического исхода пациентов по электронным медицинским картам

Работа ученых Школы медицины Икана Медицинского центра Маунт-Синай, Нью-Йорк (“Deep Patient: An Unsupervised Representation to Predict the Future of Patients from the Electronic Health Records”, Miotto et al.). Публикация в Scientific Reports, 2016 г. Авторы предлагают метод глубинного обучения без учителя для общего представления пациента по электронной медицинской карте. Были использованы три слоя шумоподавляющих автоэнкодеров для определения иерархических закономерностей и зависимостей в электронных медицинских картах 700 000 пациентов госпиталя Маунт-Синай, Нью-Йорк. Наилучшую предсказательную мощь система показала острых форм диабета, шизофринии и разных типов рака.

Время: 18:10 – 19:40
Место: Покровский бульвар 11, G406

23 мая

DeepGSR: оптимизированная структура глубинного обучения для распознавания геномных сигналов и участков

Работа ученых Научно-технологического университета имени короля Абдаллы, Саудовская Аравия (King Abdullah University of Science and Technology, Saudi Arabia), (“DeepGSR: an optimized deep-learning structure for the recognition of genomic signals and regions”, Kalkatawi et al.); публикация в Bioinformatics, 2019 г. Распознавание различных геномных сигналов и участков (genomic signals and regions- GSRs) ДНК критично для понимания организации генома, генной регуляции и генной функции, что помогает создавать более точные аннотации генов и геномов. Компьютерные методы для распознавания GSR требуют отбора свойств последовательностей, и их идентификация по-прежнему остается актуальной задачей. В данной работе авторы исследуют потенциал методов глубинного обучения для распознавания GSR. Авторы разработали программный пакет на основе сверточных сетей для распознавания сигналов полиадениляции и старта начала транскрипции для различных организмов: человека, мыши, быка и мухи. Результаты показали преимущество по сравнению с другими компьютерными методами, кроме того продемонстрировали консервативность сигналов среди разных видов. Программная реализация модели доступна на https://zenodo.org/record/1117159#.XOOoIqZS__Q.

Время: 19:40 – 21:00

Место: Кочновский пр-д., 3, ауд. 435

16 мая

DeepHint: изучение интеграции ВИЧ-1 с помощью глубинного обучения с вниманием

Работа ученых университета Цинхуа, Китай (Tsinghua University, Beijing, China) и Стэнфордского Университета, США (Stanford University, USA), (“Understanding HIV-1 integration via deep learning with attention”, J. Zuallaert et al.); публикация в Bioinformatics, 2019 г. Интеграция вируса иммунодефицита человека первого типа (ВИЧ-1) тесно связана с клинической латентностью и рецидивом. Было показано, что выбор сайтов интеграции ВИЧ зависит от гетерогенного геномного окружения в достаточно большой окрестности, что существенно затрудняет предсказания и механические исследования интеграции ВИЧ. Авторы предложили DeepHint, модель глубинного обучения с вниманием для предсказания сайтов интеграции ВИЧ и механистического объяснения обнаруженных участков. Модель позволяет автоматически обучиться на геномном содержании сайтов интеграции на основе только ДНК последовательности или с учетом эпигенетической информации. Что самое важное, детальный анализ значений внимания позволил обнаружить неожиданные механистические закономерности в выборе сайтов интеграции, включая потенциальную роль нескольких ДНК-связывающих белков. Программная реализация модели доступна на https://github.com/nonnerdling/DeepHINT.

Время: 19:40 – 21:00

Место: Кочновский пр-д., 3, ауд. 435

18 апреля

Splice-Rover: интерпретируемые сверточные нейронные сети для улучшенного предсказания сплайс-сайтов

Работа ученых Гентского университета, Бельгия (Ghent University, Belgium), («SpliceRover: interpretable convolutional neural networks for improved splice site prediction», J. Zuallaert et al.); публикация в Bioinformatics, 2018 г. Авторы предложили модель распознавания сплайс-сайтов, которая превышает по эффективности существующие методы. Кроме того, они предложили подход визуализации биологически значимой информации, полученной во время обучения. Такой подход позволяет восстановить известные признаки, важные для предсказания сайтов сплайсинга – мотивы связывания, наличие полипиримидиновых трактов и точек ветвления, а также обнаружить новые –паттерны исключения около сплайс-сайтов. Программная реализация модели доступна на http://bioit2.irc.ugent.be/splicerover/.

Время: 19:40 – 21:00