Семинар по методам машинного обучения в биоинформатике
На факультете компьютерных наук проводится регулярный семинар, посвященный методам машинного обучения в биоинформатике. Руководит семинаром Мария Попцова, доцент департамента больших данных и информационного поиска.
Методы машинного обучения уже нашли широкое применение в областях генетики и геномики. Они оказались наиболее полезны для интерпретации больших наборов геномных данных и аннотации большого числа элементов генома. Методы машинного обучения были успешно применены для распознавания сайтов старта транскрипции, сплайс-сайтов, альтернативного сплайсинга, промотеров, энхансеров, расположения нуклеосом. После революции в технологиях секвенирования накопление экспериментальных данных происходит быстрее, чем построение моделей, объясняющих функционирование генома. Необходима как разработка новых подходов, методов и алгоритмов, так и освоение технологий работы с системами больших данных геномики. На семинаре у слушателей будет возможность познакомиться с современными исследованиями в области применения методов машинного обучения к анализу геномных данных ведущих университетов мира, таких как Harvard, MIT, Cambridge, Sorbonne, EMBL-EBI и др.
2022
18 марта
Предсказание иерархической функции белков с помощью графовых нейронных сетей TailGNN
Докладчик: Артем Войтецкий, стажер-исследователь МЛ биоинформатики
Работа ученых Белградского университета и компании DeepMind, (“Hierarchical Protein Function Prediction with Tail-GNNs”, Spalevic ́ et al.). Публикация на arXiv, 2020 г.
Protein function prediction may be framed as predicting subgraphs (with certain closure properties) of a directed acyclic graph describing the hierarchy of protein functions. Graph neural networks (GNNs), with their built-in inductive bias for relational data, are hence naturally suited for this task. However, in contrast with most GNN applications, the graph is not related to the input, but to the label space. Accordingly, we propose Tail-GNNs, neural networks which naturally compose with the output space of any neural network for multi-task prediction, to provide relationally-reinforced labels. For protein function prediction, we combine a Tail-GNN with a dilated convolutional network which learns representations of the protein sequence, making significant improvement in F_1 score and demonstrating the ability of Tail-GNNs to learn useful representations of labels and exploit them in real-world problem solving.
Время: 20:00-21:30
5 марта
Обучение представлений вторичных структур РНК в графовых нейросетях для предсказания РНК-белковых взаимодействий
Работа ученых Школы компьютерных наук Университета Макгилла, Канада (“Graph neural representational learning of RNA secondary structures for predicting RNA-protein interactions”, Yan et al.). Публикация в журнале Bioinformatics, 2020 г. RNA-protein interactions are key effectors of post-transcriptional regulation. Significant experimental and bioinformatics efforts have been expended on characterizing protein binding mechanisms on the molecular level, and on highlighting the sequence and structural traits of RNA that impact the binding specificity for different proteins. Yet our ability to predict these interactions in silico remains relatively poor. In this study, we introduce RPI-Net, a graph neural network approach for RNA-protein interaction prediction. RPI-Net learns and exploits a graph representation of RNA molecules, yielding significant performance gains over existing state-of-the-art approaches. We also introduce an approach to rectify an important type of sequence bias caused by the RNase T1 enzyme used in many CLIP-Seq experiments, and we show that correcting this bias is es- sential in order to learn meaningful predictors and properly evaluate their accuracy. Finally, we provide new approaches to interpret the trained models and extract simple, biologically interpretable representations of the learned sequence and structural motifs.
Время: 20:00 – 21:30
Присоединиться
2021
19 марта
Интегративное моделирование структуры и динамики биомакромолекулярных комплексов
Докладчик: Алексей Константинович Шайтан, к.ф.-м.н., научный сотрудник международной лаборатории биоинформатики факультета компьютерных наук, ведущий научный сотрудник, кафедра биоинженерии, биологический факультет, МГУ им. М.В. Ломоносова
Доклад будет сделан по материалам представленной к защите диссертации на соискание степени доктора физико-математических наук по специальности 03.01.09 Математическая биология, биоинформатика.
В докладе будет рассказано о применении методов компьютерного моделирования для установления структуры и изучения больших комплексов биомолекул. В частности будет рассказано об использовании суперкомпьютерных расчетов методом молекулярной динамики для изучения нуклеосом - элементарных единиц упаковки ДНК в геномах эукариот. Будет рассказано о том, каким образом, комбинируя методы молекулярного моделирования с различными косвенными экспериментальными данными, можно изучать упаковку ДНК в ядре клетки и структуру амилоидных фибрилл.
Время: 17:00 – 18:30
Присоединиться
26 января
DNABERT: предварительно обученные представления двунаправленного кодировщика архитектуры трансформер для языка ДНК в геноме
Работа ученых Северо-Западного университета, Чикаго, и Университета штата Нью-Йорк в Стоуни-Брук, США (“DNABERT: pre-trained Bidirectional Encoder Representations from Transformers model for DNA-language in genome”, Ji etal.). Публикация в журнале Bioinformatics, 2021 г. Расшифровка языка некодирующей ДНК - одна из фундаментальных проблем в исследовании генома. Код регуляции генов очень сложен из-за многозначности и отдаленных семантических отношений, которые предыдущие методы информатики часто не могли уловить, особенно в случае недостаточности данных. Для решения этой проблемы авторы разработали новое предварительно обученное представление двунаправленного кодировщика, DNABERT, для глобального и переносимого понимания последовательностей геномной ДНК на основе нуклеотидного контекста. Авторы сравнили DNABERT с наиболее широко используемыми программами для предсказания регуляторных элементов в масштабе всего генома и продемонстрировали простоту использования, точность и эффективность. Авторы утверждают, что модель предварительно обученной архитектуры трансформера может одновременно достичь высочайшего уровня производительности при прогнозировании промоторов, сайтов сплайсинга и сайтов связывания факторов транскрипции после легкой тонкой настройки с использованием небольших помеченных данных для конкретных задач. Кроме того, DNABERT обеспечивает прямую визуализацию важности на уровне нуклеотидов и семантических отношений внутри входных последовательностей, что позволяет лучшую интерпретируемость и точную идентификацию консервативных мотивов последовательностей и функциональных генетических вариантов. Авторы считают, что предварительно обученную модель DNABERT можно будет оптимизировать для решения многих других задач анализа последовательности. Исходный код и предобученная модель DNABERT находится в открытом доступе.
Время: 18:00 – 19:30
Присоединиться
22 января
Предсказание посттрансляционных гистоновых модификаций методами глубинного обучения
Работа ученых университета Калифорнии (“Prediction of Histone Post-translational Modifications using Deep Learning”, Dipankar Ranjan Baisya and Stefano Lonardi). Публикация в журнале Bioinformatics, 2021 г. Посттрансляционные модификации гистонов вовлечены во множество важных регуляторных процессов в клетке, включая регуляцию транскрипции. Недавние исследования показали, что посттрансляционные модификации гистонов можно точно предсказать на основании данных о связывании факторов транскрипции или данных о гиперчувствительности к ДНКазе. Точно так же было показано, что можно предсказать посттрансляционные модификации гистонов на основе первичной последовательности ДНК. В работе авторы предлагают архитектуру сетей глубинного обучения, DeepPTM, для прогнозирования посттрансляционных модификаций гистонов на основе данных о связывании факторов транскрипции и первичной последовательности ДНК. Авторы утверждают, что предложенная модель глубинного обучения превосходит точность прогнозирования модели, предложенной Benveniste et al. (PNAS 2014) и DeepHistone (BMC Genomics 2019). Конкурентное преимущество предлагаемой платформы заключается в синергетическом использовании глубинного обучения в сочетании с эффективным этапом предварительной обработки. Знание небольшого подмножества факторов транскрипции (которые являются специфическими для клеточного типа и посттрансляционных модификаций гистонов) может обеспечить почти такую же точность прогноза, которая может быть получена с использованием всех данных факторов транскрипции.
Время: 18:00 – 19:30
2020
27 ноября
Докладчик: Павел Латышев, стажер-исследователь НУЛ биоинформатики
Прогнозирование взаимодействий энхансер-промотор с использованием информации о межклеточных типах и доменной состязательной нейронной сети
Совместная работа ученых Cеверо-западного политехнического университета Шэньси, Китай и NCMIS, CEMS, RCSDS, Пекин, Китай (“Prediction of enhancer–promoter interactions using the cross‐cell type information and domain adversarialneural network”, Jing et al.). Публикация в журнале BMC Bioinformatics, 2020 г. В этой работе авторы представляют новый метод, основанный на последовательностях (называемый SEPT), для прогнозирования взаимодействий энхансер-промотор в новой клеточной линии с использованием межклеточной информации и трансферного обучения. SEPT сначала обучается признакам энхансеров и промоторов на основе последовательностей ДНК с помощью сверточной нейронной сети (CNN), а затем создает обратный градиентный слой трансферного обучения для уменьшения специфических особенностей клеточной линии, сохраняя при этом признаки, ассоциированные с взаимодействиями энхансер-промотор. Когда местоположения энхансеров и промоторов известны в новой клеточной линии, SEPT может успешно распознавать взаимодействия энхансер-промотор в этой новой клеточной линии на основе промаркированных данных других клеточных линий. Результаты эксперимента показывают, что SEPT может эффективно обучиться признакам, которые относятся к скрытому импорту взаимодействий энхансер-промотор между линиями клеток, и обеспечивает наилучшие характеристики предсказательной модели.
Время: 18:00 – 19:30
13 ноября
Генеративно-состязательная сеть с обратной связью для ДНК оптимизирует белковые функции
Работа ученых факультета компьютерных наук Стэнфордского университета США (“Feedback GAN for DNA optimizes protein functions”, Anvita Gupta and James Zou). Публикация в журнале Nature Machine Intelligence, 2019. Генеративно-состязательные сети (GAN) представляют собой привлекательный и новый подход к созданию реалистичных данных, таких как гены, белки или лекарства в синтетической биологии. В данной работе авторы применяют GAN для создания синтетических последовательностей ДНК, кодирующих белки различной длины. Авторы предлагают новую архитектуру петли обратной связи, GAN с обратной связью (FBGAN), для оптимизации последовательностей синтетических генов для получения нужных свойств с помощью внешнего анализатора функций. Преимущество предлагаемой архитектуры состоит в том, что анализатор не требует дифференциации. Авторы применяют механизм обратной связи к двум задачам: создание синтетических генов, кодирующих антимикробные пептиды, и оптимизации синтетических генов для вторичной структуры кодирующих ими пептидов. Набор показателей, рассчитанных in silico, демонстрирует, что белки, генерируемые GAN, обладают желаемыми биофизическими свойствами. Архитектура FBGAN также может использоваться для оптимизации точек данных, генерируемых GAN, для получения полезных свойств объектов в областях вне геномики.
30 октября
Представление мутационных сигнатур рака с помощью эмбеддинга крупно-масштабного контекста
Совместная работа ученых факультета вычислительной биологии Университета Карнеги в Питтсбурге, США и Шанхайского университета, Китай (“Cancer mutational signatures representation by large-scale context embedding”, Zhang etal.). Публикация в журнале Bioinformatics, 2020 г. Накопление соматических мутаций играет решающую роль в развитии и прогрессировании рака. Однако глобальные паттерны соматических мутаций, особенно некодирующих мутаций, и их роль в определении молекулярных подтипов рака не были хорошо охарактеризованы из-за вычислительных проблем при анализе сложных мутационных паттернов. Авторы предложили новый алгоритм, называемый MutSpace, который определяет специфические для пациента мутационные паттерны, используя эмбеддинг более широкого контекста последовательности. Метод основан на наблюдении, что частота мутаций на масштабе 1Мб и локальные мутационные паттерны совместно способствуют распознаванию подтипов рака. Оценки моделирования показывают, что MutSpace может эффективно охарактеризовать мутационные особенности у известных подгрупп пациентов и достичь более высоких показателей по сравнению с предыдущими методами. Метод MutSpace опробован на 560 образцах пациентов с раком груди. Кроме того, эмбеддинги из MutSpace отражают внутренние паттерны подтипов рака груди и другие особенности структуры и функции генома.
Время: 18:00 – 19:30
ONLINE
23 октября
Полностью интерпретируемая модель глубинного обучения для предсказания транскрипционного контроля
Работа ученых Чикагского Университета, США (“Fully interpretable deep learning model of transcriptional control”, Liu et al.). Публикация в журнале Bioinformatics, 2020 г. Глубинные нейронные сети (DNN) еще не применялись для детального моделирования транскрипционного контроля, при котором производство мРНК контролируется связыванием определенных факторов транскрипции с ДНК, отчасти потому, что такие модели отчасти сформулированы в терминах конкретных химических уравнений, которые по форме отличаются от тех, что используются в нейронных сетях. Авторы приводят пример DNN, которая может моделировать детальное управление процессом транскрипции точным и предсказуемым образом. Внутренняя структура глубинной сети полностью интерпретируема и соответствует химии, лежащей в основе связывания фактора транскрипции с ДНК. Авторы, выводя DNN из модели системной биологии, которая ранее не воспринималась, как имеющая структуру DNN. В качестве примера показано применение DNN к данным, полученным от ранних эмбрионов плодовой мушки Drosophila, однако предлагаемая система может быть применима для анализа гораздо больших наборов данных, полученных в результате исследований системной биологии в геномном масштабе.
Время: 18:00 – 19:30
ONLINE
30 апреля
Обнаружение взаимодействий между промоторами и энхансерами с помощью нейронных сетей, используя предобученные ДНК-вектора и механизм внимания
Cовместная работа ученых Сямыньского университета (Xiamen University), Хунаньского университета (Hunan University) и Университета Шаньдун (Shandong University), Китай (Identifying enhancer-promoter interactions with neural network based on pre-trained DNA vectors and attention mechanism.). Публикация в журнале Bioinformatics, 2020 г. Авторы предлагают метод на основе глубинного обучения, EPIVAN, который позволяет предсказывать взаимодействия между промоторами и энхансерами на основе только геномных последовательностей. Для исследования ключевых характеристик последовательностей авторы сначала использовали предобученные ДНК-вектора для кодировки энхансеров и промоторов. После этого с помощью однослойной свертки и управляемого рекуррентного блока были извлечены локальные и глобальные признаки, и в конце, с помощью механизма внимания был усилен вклад ключевых признаков. Исходный код модели находится в открытом доступе.
Время: 19:30 – 21:00
ONLINE
23 апреля
Глубинное обучение для открытия антибиотиков
Cовместная работа ученых Массачусетского технологиического института (Massachusetts Institute of Technology, MIT) и Гарвардского университета (Harvard University) США. Публикация в журнале Cell, 2020 г. Из-за быстрого возникновения бактерий, развивающих устойчивость к антибиотикам, существует насущная задача открытия новых антибиотиков. Авторы статьи представляют глубинную нейронную сеть, способную предсказывать молекулы, обладающие антибактериальной активностью. Авторы сделали предсказания для большого числа химических библиотек и обнаружили молекулу из базы данных Drug Repurposing Hub – халицин (halicin) – который структурно отличен от существующих антибиотиков и показывает бактерицидную активность против широкого спектра патогенов, включая Mycobacterium tuberculosis и других опасных бактерий. Кроме халицина, всего с помощью модели было протестировано >107 миллиона молекул и отобрано 23 молекулы, из которых 8 структурно отличаются от известных антибиотиков. Данная работа демонстрирует как подход глубинного обучения помогает расширить арсенал антибиотиков с помощью открытия структурно различных антибактериальных молекул.
Время: 19:30 – 21:00
ONLINE
28 февраля
Расшифровка отпечатков взаимодействий по молекулярным поверхностям белков методами геометрического глубинного обучения
Докладчик: Марк Гарницкий, студент 4 курса ПМИ ФКН ВШЭ, стажер-исследователь НУЛ биоинформатики
Cовместная работа Института биоинженерии, Федеральной политехнической школы Лозанны, Швейцарского института биоинформатики (Швейцария); Университета Сапиенца в Риме, Института технологий видения Фонда Бруно Кесслера в Тренто (Италия) и Университетского колледжа Лондона (Англия). (“Deciphering interaction fingerprints from protein molecular surfaces using geometric deep learning”, Gainza et al.). Публикация в журнале Nature, 2019 г. Предсказание взаимодействий между белками и другими биомолекулами исключительно на основе структуры представляет собой важную задачу. Высоко-уровневое представление структуры белка и его молекулярной поверхности выявляет паттерны химических и геометрических характеристик, которые несут в себе отпечатки белковых взаимодействий с другими биомолекулами. Подразумевается, что белки, участвующие в похожих взаимодействиях, могут иметь общие отпечатки, независимо от их эволюционной истории. Эти отпечатки может быть трудно обнаружить визуальным анализом, но возможно распознать из больших наборов данных. Авторы представляют программный метод MaSIF (molecular surface interaction fingerprinting), основанный на геометрическом глубинном обучении, который способен обнаружить отпечатки, важные для специфичных биомолекулярных взаимодействий. Производительность демонстрируется на трех задачах – предсказание взаимодействия белковый карман – лиганд, сайта связывания белок-белкового взаимодействия, предсказания белок-белковых комплексов при быстром сканировании белковых поверхностей.
Время: 19:30 – 21:00
Место: Покровский бульвар 11, D509
13 февраля
Cовместная работа компании DeepMind, Университетского колледжа Лондона и Института Фрэнсиса Крика, Лондон, Англия (“Improved protein structure prediction using potentials from deep learning”, Senior et al.). Публикация в журнале Nature, 2020 г. Проблема предсказания трехмерной структуры белка по последовательности представляет собой сложную задачу. Авторы предлагают метод AlphaFold, который представляет собой нейронную сеть, предсказывающую расстояния между парами оснований. Используя эту информацию, авторы восстанавливают потенциал средней силы, которая может аккуратно предсказать форму белка. Авторы обнаружили, что результирующий потенциал может быть оптимизирован простым алгоритмом градиентного спуска для генерации структуры без сложного сэмплирования. Метод AlphaFold достиг высокой точности для 24 из 43 структурных доменов, в то время как лучший до этого метод, основанный на информации о контактных взаимодействиях и сэмплировании, имел точность 14 из 43.
2019
19 декабря
Условная генеративно-состязательная сеть для предсказания экспрессии генов
Докладчик: Никита Константиновский, cтудент программы «Big Data Systems»
Работа ученых Питтсбургского университета, США (“Conditional generative adversarial network for gene expression inference”, Wang et al.). Публикация в журнале Bioinformatics, 2018 г. Несмотря на прогресс в профайлинге экспрессии генов, полногеномное секвенирование все еще остается дорогостоящим. Предыдущие исследования показали высокую корреляцию между паттернами экспрессии отдельных генов, так что небольшой набор генов может быть информативен для описания целого транскриптома. Для данных репозитория the Library of Integrated Network-based Cell-Signature было показано, что набор из 1000 отобранных генов содержит 80% информации о полном геноме и может быть использован для предсказания уровня экспрессии оставшихся генов. Модели глубинного обучения являются теми самыми моделями, которые способны выучить сложные взаимосвязи между генами. Авторы предлагают условную генеративно-состязательную сеть (GAN), которая включает в себя как состязание, так и L1- регуляризацию, что позволяет сделать более точные предсказания.
Время: 19:00-20:30
Место: Покровский бульвар 11, M302
5 декабря
Глубинная рекуррентная нейронная сеть обнаруживает сложные биологические правила расшифровки белок-кодирующего потенциала РНК
Докладчик: Роман Вашурин
Работа ученых Орегонского университета, США (“A deep recurrent neural network discovers complex biological rules to decipher RNA protein-coding potential”, Hill et al.). Публикация в журнале Nucleic Acids Research, 2018 г. Авторы натренировали рекуррентную нейронную сеть (RNN) с механизмом вентиля на матричной и регуляторной длинной некодирующей РНК. Модель RNN обошла современные методы определения кодирующей РНК, несмотря на то, что имела меньшее обучающее множество и не имела априорного знания о признаках, характерных для кодирующей РНК. Было обнаружено, что RNN выучила несколько контекстно-чувствительных кодонов, довольно точно предсказывающих кодирующий потенциал. Результаты предполагают, что рекуррентные сети с вентильным механизмом могут обучаться сложным и дальним зависимостям в транскриптах полной длины генома человека, что делает их идеальным методом для широкого круга сложных задач классификации, особенно при анализе огромного объема данных секвенирования.
Время: 19:40 – 21:00
Место: Покровский бульвар 11, ауд. М202
21 ноября
Обзорная статья ученых Технического университета и Центра им. Гельмгольца в Мюнхене, Германия (“Deep learning: new computational modelling techniques for genomics”, Eraslan et al.). Публикация в журнале Nature Reviews Genetics, 2019 г. Как наука, развитие которой происходит благодаря данным, геномика широко использует методы машинного обучения для нахождения зависимостей в данных и генерации новых биологических гипотез. Тем не менее, возможность получать новые идеи из экспоненциально растущего объема данных геномики требует все более производительных моделей машинного обучения. Благодаря эффективной обработке больших объемов данных, глубинное обучение уже трансформировало области компьютерного зрения и обработки естественных языков. Теперь глубинное обучение становится основным методом для большого числа задач моделирования в геномике.
Время: 19:40 – 21:00
Место: Покровский бульвар 11, G120
8 ноября
Деконволюция автоэнкодеров для выучивания биологических регуляторных модулей из данных секвенирования мРНК одиночных клеток
Работа ученых Копенгагенского университета, Дания и Базельского университета, Швейцария (“Deconvolution of autoencoders to learn biological regulatory modules from single cell mRNA sequencing data”, Kinalis et al.). Публикация в журнале BMCBioinformatics, 2019 г. Авторы показали, что благодаря специализированному обучению автоэнкодер может не только обобщать данные, но и выделять биологически значимые модули, которые закодированы на уровне промежуточного слоя сети. Представленная модель способна по данным scRNA-seq определить биологические значимые модули, а также предоставить информацию о том, какие модули активны в каждой отдельной клетке. В перспективе модель совместно с методами кластеризации сможет определить подтип каждой одиночной клетки, а также ее значимые биологические функции.
Время: 19:40 – 21:00
Место: Покровский бульвар 11, ауд. R307
17 октября
Нейронные сети с фильтрами, полученными в результате кругового перемешивания, улучшают распознавание мотивов в последовательности
Работа ученых Института математического моделирования биологических систем Дюссельдорфского университета имени Генриха Гейне, Германия (“Neural networks with circular filters enable data efficient inference of sequence motifs”, Christopher F. Blum and Markus Kollmann). Публикация в журнале Bioinformatics, 2019 г. Авторы предлагают новый тип архитектуры сверточных нейронных сетей (CNN) с фильтрами, полученными из исходных в результате кругового перемешивания. Обычно CNN выучивает фильтры, которые соответствуют сдвинутым или обрезанным вариантам исходного мотива. Круговое перемешивание позволяет выучить мотивы полной длины, а также облегчают интерпретацию выученных фильтров. Авторы показали, что CNN c круговым перемешиванием фильтров превосходят обычные CNN при анализе ДНК-связывающих сайтов из экспериментов ChIP-seq.
Время: 19:40 – 21:00
Место: Покровский бульвар 11, R207
11 октября
Deep Patient: Представление без учителя для прогнозирования клинического исхода пациентов по электронным медицинским картам
Работа ученых Школы медицины Икана Медицинского центра Маунт-Синай, Нью-Йорк (“Deep Patient: An Unsupervised Representation to Predict the Future of Patients from the Electronic Health Records”, Miotto et al.). Публикация в Scientific Reports, 2016 г. Авторы предлагают метод глубинного обучения без учителя для общего представления пациента по электронной медицинской карте. Были использованы три слоя шумоподавляющих автоэнкодеров для определения иерархических закономерностей и зависимостей в электронных медицинских картах 700 000 пациентов госпиталя Маунт-Синай, Нью-Йорк. Наилучшую предсказательную мощь система показала острых форм диабета, шизофринии и разных типов рака.
Время: 18:10 – 19:40
Место: Покровский бульвар 11, G406
23 мая
DeepGSR: оптимизированная структура глубинного обучения для распознавания геномных сигналов и участков
Работа ученых Научно-технологического университета имени короля Абдаллы, Саудовская Аравия (King Abdullah University of Science and Technology, Saudi Arabia), (“DeepGSR: an optimized deep-learning structure for the recognition of genomic signals and regions”, Kalkatawi et al.); публикация в Bioinformatics, 2019 г. Распознавание различных геномных сигналов и участков (genomic signals and regions- GSRs) ДНК критично для понимания организации генома, генной регуляции и генной функции, что помогает создавать более точные аннотации генов и геномов. Компьютерные методы для распознавания GSR требуют отбора свойств последовательностей, и их идентификация по-прежнему остается актуальной задачей. В данной работе авторы исследуют потенциал методов глубинного обучения для распознавания GSR. Авторы разработали программный пакет на основе сверточных сетей для распознавания сигналов полиадениляции и старта начала транскрипции для различных организмов: человека, мыши, быка и мухи. Результаты показали преимущество по сравнению с другими компьютерными методами, кроме того продемонстрировали консервативность сигналов среди разных видов. Программная реализация модели доступна на https://zenodo.org/record/1117159#.XOOoIqZS__Q.
Время: 19:40 – 21:00
Место: Кочновский пр-д., 3, ауд. 435
16 мая
DeepHint: изучение интеграции ВИЧ-1 с помощью глубинного обучения с вниманием
Работа ученых университета Цинхуа, Китай (Tsinghua University, Beijing, China) и Стэнфордского Университета, США (Stanford University, USA), (“Understanding HIV-1 integration via deep learning with attention”, J. Zuallaert et al.); публикация в Bioinformatics, 2019 г. Интеграция вируса иммунодефицита человека первого типа (ВИЧ-1) тесно связана с клинической латентностью и рецидивом. Было показано, что выбор сайтов интеграции ВИЧ зависит от гетерогенного геномного окружения в достаточно большой окрестности, что существенно затрудняет предсказания и механические исследования интеграции ВИЧ. Авторы предложили DeepHint, модель глубинного обучения с вниманием для предсказания сайтов интеграции ВИЧ и механистического объяснения обнаруженных участков. Модель позволяет автоматически обучиться на геномном содержании сайтов интеграции на основе только ДНК последовательности или с учетом эпигенетической информации. Что самое важное, детальный анализ значений внимания позволил обнаружить неожиданные механистические закономерности в выборе сайтов интеграции, включая потенциальную роль нескольких ДНК-связывающих белков. Программная реализация модели доступна на https://github.com/nonnerdling/DeepHINT.
Время: 19:40 – 21:00
Место: Кочновский пр-д., 3, ауд. 435
18 апреля
Splice-Rover: интерпретируемые сверточные нейронные сети для улучшенного предсказания сплайс-сайтов
Работа ученых Гентского университета, Бельгия (Ghent University, Belgium), («SpliceRover: interpretable convolutional neural networks for improved splice site prediction», J. Zuallaert et al.); публикация в Bioinformatics, 2018 г. Авторы предложили модель распознавания сплайс-сайтов, которая превышает по эффективности существующие методы. Кроме того, они предложили подход визуализации биологически значимой информации, полученной во время обучения. Такой подход позволяет восстановить известные признаки, важные для предсказания сайтов сплайсинга – мотивы связывания, наличие полипиримидиновых трактов и точек ветвления, а также обнаружить новые –паттерны исключения около сплайс-сайтов. Программная реализация модели доступна на http://bioit2.irc.ugent.be/splicerover/.
Время: 19:40 – 21:00
Место: Кочновский пр-д., 3, ауд. 511
4 апреля
Глубинный нейросетевой подход для изучения свойств РНК-белкового связывания
Работа ученых Тель-Авивского университета и университета имени Давида Бен-Гуриона в Негеве, Израиль (Tel-Aviv University and Ben-Gurion University of the Negev, Israel), (“A deep neural network approach for learning intrinsic protein-RNA binding preferences”, Ilan Ben-Bassat, Benny Chor and Yaron Orenstein ); публикация в Bioinformatics, 2018 г. Авторы реализовали две модели машинного обучения, основанную на CNN и на RNN. В качестве входных данных использовалась информация как о последовательности, так и о структуре в виде вероятностного вектора различного структурного контекста РНК. Авторы сделали визуализацию специфических свойств связывания, что помогает сделать выводы о механизме РНК-белкового связывания. Реализация кода доступна на https://github.com/ilanbb/dlprb.
Время: 19:40 – 21:00
Место: Кочновский пр-д., 3, ауд. 511
14 марта
Сверточные нейронные сети для классификации выравниваний некодирующих РНК-последовательностей
Работа ученых факультета бионаук и информатики университета Кэйо, Йокогама, Япония (Department of Biosciences and Informatics, Keio University, Yokohama, Japan), (“Convolutional neural networks for classification of alignments of non-coding RNA sequences”, Genta Aoki and Yasubumi Sakakibara); публикация в Bioinformatics, 2018 г. Авторы применили CNN для кластеризации выравниваний некодирующей РНК (ncRNA) и поиска мотивов. На вход CNN подается не только репрезентация РНК, но и информация о структуре, характерной для некодирующих РНК. Реализация кода доступна на http://www.dna.bio.keio.ac.jp/cnn/.
Время: 18:10 – 19:30
Место: Кочновский пр-д., 3, ауд. 511
28 февраля
Нецелевое предсказание системы редактирования генов CRISPR-Cas9 методами глубинного обучения
Работа ученых факультета компьютерных наук Городского университета Гонконга, Гонконг (Department of Computer Science, City University of Hong Kong, Kowloon Tong, Hong Kong), (“Off-target predictions in CRISPR-Cas9 gene editing using deep learning”, Jiecong Lin and Ka-Chun Wong); публикация в Bioinformatics, 2018 г. Существующие методы предсказания систем CRISPR-Cas9 основаны на вычислении веса выравниваний последовательностей с шаблонной последовательностью CRISPR-Cas9. В данной работе авторы предложили два алгоритма: на основе сверточной сети и нейронной сети с прямой связью. Модели протестированы на базе данных CRISPOR. Реализация кода доступна на https://github.com/ MichaelLinn/off_target_prediction.
Время: 19:40 – 21:00
Место: Кочновский пр-д., 3, ауд. 511
14 февраля
Глубинное обучение для предсказания происхождения искусственно сгенерированной ДНК
Работа ученых Центра синтетической биологии, факультета биоинженерии Массачусетского технологического института, США (Synthetic Biology Center, Department of Biological Engineering, Massachusetts Institute of Technology,, USA), (“Deep learning to predict the lab-of-origin of engineered DNA”, Nielsen and Voigt); публикация в Nature Communications, 2018 г. В данной работе авторы предлагают модель для определения лаборатории синтетически сгенерированной ДНК. Сверточная нейронная сеть была натренирована на базе данных Addgene plasmid, которая в феврале 2016 года содержала 42,364 искусственных DNA последовательностей из 2230 лабораторий. Сеть смогла определить лабораторию в 48% случаях, и 70% из них оказались в топ-10 лабораторий по инжинирингу искусственной ДНК.
Время: 18:10 – 19:30
Место: Кочновский пр-д., 3, ауд. 511
31 января
DeepDiff: модель глубинного обучения для предсказания дифференциальной экспрессии генов по модификациям гистонов
Работа ученых факультета компьютерных наук университета Виргинии, США (Department of Computer Science, University of Virginia, USA), (“DeepDiff: DEEP-learning for predicting DIFFerential gene expression from histone modifications”, Sekhon et al.); публикация в Bioinformatics, 2018 г. В данной работе авторы представляют DeepDiff - модель машинного обучения с механизмом внимания, которая позволяет интерпретировать взаимосвязи между модификациями гистонов, контролирующих дифференциальные паттерны регуляции генов. DeepDiff использует иерархию множества модулей LSTM для кодирования пространственной структуры входных сигналов. Авторы ввели и обучили два уровня механизмов внимания, которые позволяют по-разному реагировать на модификации гистонов и определять важные геномные позиции для каждой модификации.
Время: 18:10 – 19:30
Место: Кочновский пр-д., 3, ауд. 511
2018
20 декабря
LeNup: распознавание положения нуклеосом по ДНК последовательности с помощью сетей с архитектурой Inception
Работа ученых Пекинского технологического института, Китай (Beijing Institute of Technology, Beijing), (“LeNup: learning nucleosome positioning from DNA sequences with improved convolutional neural networks”, Zhang et al.); публикация в Bioinformatics, 2018 г. Авторы использовали сеть архитектуры Inception (GoogLeNet) c воротным механизмом для обработки сигналов от множественных паттернов и учета долгосрочных связей в последовательности ДНК. Разработан пакет LeNup c открытым исходным кодом, который доступен по адресу https://github.com/biomedBit/LeNup.
Время: 18:10 – 19:30
Место: Кочновский пр-д., 3, ауд. 205
6 декабря
Архитектура глубинных сетей для предсказания расположения нуклеосом из данных секвенирования
Работа ученых факультета математики и информатики Университета Палермо, Италия (Dipartimento di Matematica e Informatica, Università degli studi di Palermo), (“Deep learning architectures for prediction of nucleosome positioning from sequences data”, Gangi et al.); публикация в BMC Bioinformatics, 2018 г. Рассматривается модель, основанная на сверточных слоях c элементом долгой краткосрочной памяти (LSTM) для предсказания положений нуклеосом по последовательности. Модель протестирована на геномах 3 видов: человека, дрозофилы и дрожжей.
Время: 18:10 – 19:30
Место: Кочновский пр-д., 3, ауд. 205
22 ноября
DanQ: гибридная сверточная и рекуррентная глубинная нейронная сеть для количественной оценки функции ДНК последовательностей
Работа ученых факультета компьютерных наук Университета штата Калифорнии (University of California, Irvine, CA), США (“DanQ: a hybrid convolutional and recurrent deep neural network for quantifying the function of DNA sequences”, Quang and Xie et al.). Публикация в Nucleic Acids Research, 2016 г. Авторы предложили модель, основанную на гибриде сверточной и двунаправленной рекуррентной сети с долгой краткосрочной памятью, для предсказания некодирующей функции в последовательностях. В модели DanQ сверточный слой распознает регуляторный мотив, в то время как рекуррентный слой находит долгосрочную связь между мотивами с целью обучиться регуляторной «грамматике» для улучшения предсказаний.
Время: 18:10 – 19:30
Место: Кочновский пр-д., 3, ауд. 205
8 ноября
Полногеномное предсказание цис-регуляторных участков c помощью методов глубинного обучения с учителем
Совместная работа ученых Университета Британской Колумбии (University of British Columbia), Канада (“Genome-wide prediction of cis-regulatory regions using supervised deep learning methods”, Li et al.). Публикация в BMC Bioinofrmatics, 2018 г. Авторы использовали данные проектов “Энциклопедия ДНК-элементов” (Ecyclopedia of DNA elements, or ENCODE) и «Функциональная аннотация генома млекопитающего» (Functional Annotation of the Mammalian Genome, or FANTOM) для построения нейронной сети, предсказывающей промотеры и энхансеры в геноме человека. Разработанный авторами пакет программ DECRES (DEep learning for identifying Cis-Regulatory ElementS and other applications) доступен на github https://github.com/yifeng-li/DECRES.
Время: 18:10 – 19:30
Место: Кочновский пр-д., 3, ауд. 205
18 октября
Предсказание взаимодействующих участков хроматина на основе геномных и эпигеномных признаков
Совместная работа ученых Университета Джорджа Вашингтона и Национального института здоровья (NIH) США (“Predicting CTCF-mediated chromatin interactions by integrating genomic and epigenomic features”, Kai et al.). Публикация в Nature Communications, 2018 г. Авторы построили модель машинного обучения на основе алгоритма Случайный лес, предсказывающую взаимодействующие участки хроматина. Для составления признаков была использована информация из геномных и эпигеномных функциональных аннотаций.
Время: 18:10 – 19:30
Место: Кочновский пр-д., 3, ауд. 301
4 октября
Неканонические вторичные структуры, возникающие из мотивов non-B ДНК – детерминанты мутагенеза
Совместная работа ученых Института Сангера, Имперского колледжа Лондона и Кембриджского университета (“Noncanonical secondary structures arising from non-B DNA motifs are determinants of mutagenesis”, Georgakopoulos-Soares et al.). Публикация в Genome Research, 2018 г. На основе данных о вторичных структурах ДНК и эпигенетических маркерах авторы построили модель машинного обучения, предсказывающие плотности раковых мутаций.
Время: 18:10 – 19:30
Место: Кочновский пр-д., 3, ауд. 301
31 мая
Глубинное обучение в фармакогеномике: от генной регуляции к стратификации пациентов
Работа ученых Мичиганского университета США (“Deep learning in pharmacogenomics: from gene regulation to patient stratification”, Kalinin et al.). Публикация в Pharmacogenomics, May 19, 2018. В данной статье дается обзор настоящего состояния и прогнозов на будущее приложений глубинного обучения в фармакогеномике, включая идентификацию новых регуляторных вариантов, расположенных в некодирующих областях генома и их функциональной роли с точки зрения фармакогеномики, стратификацию пациентов по истории болезни, и механистическое предсказание ответа на препарат и его мишеней. Ожидается, что в будущем глубинное обучение будет использоваться для предсказания индивидуального ответа на лекарства и определять курс персонализированного лечения, используя знания, извлеченные из больших и сложных молекулярных, эпидемиологических, клинических и демографических наборов данных.
Время: 18:10 – 19:30
Место: Кочновский пр-д., 3, ауд. 509
17 мая
Системный анализ и методы машинного обучения в применении к данным геномики рака c использованием CancerSysDB
Работа лаборатории биоинформатики Кельнского университета, Германия. (“Integrative analysis and machine learning on cancer genomics data using the Cancer Systems Biology Database (CancerSysDB, Krempel et al.). Публикация в BMC Bioinformatics 2018. Разработанный авторами ресурс CancerSysDB позволяет анализировать различные типы данных из множества исследований разных лабораторий. Также показано, как ресурс может использоваться для классификации типов рака на основе данных 9091 пациентов консорциумного проекта The Cancer Genome Atlas (TCGA).
Время: 18:10 – 19:30
Место: Кочновский пр-д., 3, ауд. 509
26 апреля
Докладчик: Иван Кулаковский
Институт молекулярной биологии им. В.А.Энгельгардта РАН, Москва
Институт математических проблем биологии РАН, Пущино
В 2016-2017 году прошло соревнование по машинному обучению в биологии DREAM-ENCODE. Алгоритм, предложенный российской командой под руководством Ивана Кулаковского, для предсказания мест связывания белков, регулирующих экспрессию генов, был признан лучшим.
Перед участниками была поставлена задача предсказания сайтов связывания факторов транскрипции в геноме человека. Для этого предлагалось использовать данные доступности хроматина (DNase-Seq), данные по экспрессии генов (RNA-Seq) и модели мотивов сайтов связывания на основе нуклеотидных последовательностей. Верификация предсказаний проводилась организаторами соревнования на неопубликованных данных по иммунопреципитации хроматина (ChIP-Seq). Доклад будет посвящен особенностям экспериментальных данных, переносимости информации между различными типами клеток, возможным стратегиям машинного обучения и реально достижимой точности предсказаний. Наконец, мы обсудим сопутствующую задачу компьютерной регуляторной геномики: предсказание влияния однонуклеотидных вариантов в регуляторных последовательностях на экспрессию генов.
Время: 18:10 – 19:30
Место: Кочновский пр-д., 3, ауд. 509
12 апреля
Методы разделения сигналов вслепую и биоинформатические задачи
Докладчик: Дмитрий Левандо — Факультет экономических наук ВШЭ
Blind Signal Separation (BSS), или разделение сигналов вслепую, это набор методов, предполагающих, что, есть набор независимых источников, которые создают индивидуальные сигналы, и имеется набор детекторов (регистраторов сигналов). Каждый детектор может регистрировать все сигналы от всех источников. Требуется идентифицировать, какой сигнал принадлежит какому источнику. Разделение зарегистрированных сигналов происходит через решение обратной задачи. Такие задачи с дискретным набором источников и дискретным набором приемников встречаются в томографии, кардиологии, а также применяется в биоинформатике. Например, для разделения неоднородных клеток культуры ткани.
Математическая сторона задачи представляет собой набор систем уравнений (тензорное уравнение), для решения которого вводятся различные предположения о структуре сигналов. Это позволяет решать задачу методами линейной алгебры. Методы будут обсуждаться. В 2017 году было предложено расширение задачи на случай не независимых источников с построением модели Blind Quantum Signal Separation, где зависимость источников и их сигналов становится аналогом квантовой запутанности. Будут обсуждаться потенциальные применения этого метода для биоинформатических исследований.
Время: 18:10 – 19:30
Место: Кочновский пр-д., 3, ауд. 509
15 марта
Методы моделирования трехмерной структуры вариабельных доменов антител
Докладчик: Павел Яковлев — директор Департамента вычислительной биологии BIOCAD.
В современной структурной биологии есть ряд вычислительных методов, позволяющих с высокой достоверностью характеризовать биологические молекулы, их схожесть и различия, способы взаимодействия и функции. Для построения подобных вычислений входным параметром всегда выступает пространственная структура белка, однако её получение не смотря на полувековой прогресс в области кристаллографии может быть затруднен. Лекция посвящена решению этой проблемы с помощью гомологичного моделирования структур белков — построения трехмерных структур на основании данных о структурах белков, схожих с целевым по последовательности. Для примера будут рассмотрены основные терапевтические агенты белковых лекарственных средств — вариабельные домены антител. Эти белки обладают уникальной структурой гипервариабельных петель, что делает их не только удобными для использования в терапии, но и интересным объектом для разработки новых методов предсказания фолдинга белков.
Время: 18:10 – 19:30
Место: Кочновский пр-д., 3, ауд. 509
1 марта
Предсказание сайтов связывания ДНК с белком с помощью сверточных нейронных сетей
Работа лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (MIT), США. (“Convolutional neural network architectures for predicting DNA–protein binding”, Zeng et al.). Публикация в Bioinformatics 2016. Были использованы данные связывания транскрипционных факторов из 690 различных ChiP-seq экспериментов консорциумного проекта ENCODE.
Время: 18:10 – 19:30
Место: Кочновский пр-д., 3, ауд. 509
8 февраля
Распознавание структуры транспозона методом опорных векторов
Работа группы М. Попцовой. Публикация BMC Genomics, 2016. Транспозоны – самостоятельно перемещающиеся фрагменты ДНК – составляют 45% генома человека и большую часть геномов других видов. Важную роль в транспозиции играет вторичная структура РНК на конце транспозона, по которой происходит узнавание транспозона. Используя структурные характеристики ДНК удалось методом опорных векторов построить модель, распознающую структуру транспозонов среди других структур генома.
Время: 18:10 – 19:30
Место: Кочновский пр-д., 3, ауд. 509
1 февраля
Расшифровка сплайсингового кода с помощью нейронных сетей
Cовместная работа Университета Торонто и Кембриджа. (“Deciphering the splicing code”, Barash et al.). Публикация в Nature 2010. «Сплайсинговый код» использует больше тысячи характеристик РНК для предсказания альтернативного сплайсинга в зависимости от типа ткани методом однослойной логистической байесовой сети. На основе этого кода было создано веб-приложение AVISPA для анализа и предсказания альтернативного сплайсинга (2013, Пенсильванcкий Университет).
Время: 18:10 – 19:30
Место: Кочновский пр-д., 3, ауд. 509
2017
11 декабря
Трехмерная структура хроматина: вчера и завтра
Доакладчик: профессор М.С. Гельфанд, руководитель магистерской программы «Анализ данных в биологии и медицине»
Как обычно в молекулярной биологии, прогресс в понимании следует за прогрессом в развитии экспериментальных методик. Одной из таких методик является HiC — способ определять контакты между фрагментами генома в масштабах целого ядра, и таким образом описывать трехмерную структуру хроматина. А дальше ее можно сопоставлять с данными об экспрессии генов и об эпигенетических метках, таких как модификации гистонов, то есть, о функциональном состоянии тех или иных участков генома. Я расскажу о некоторых недавних результатх в этой области — но она настолько быстро развивается, что, похоже, часть из того, что будет рассказано, уже устарела (я скажу, какая, и в чем может заключаться дальнейшее развитие).
Время: 18:10 – 19:30
Место: Кочновский пр-д., 3, ауд. 205
27 ноября
Первое прочтение эпигенетического кода человека
Результаты данной работы подтверждают ключевую роль эпигенетической информации для понимания регуляции генов, дифференциации клеток и заболеваний человека. Работа консорциума The Roadmap Epigenomics и 95 авторов из 57 институтов и университетов США, Канады, Австралии, Норвегии и Китая. Публикация в Nature 2015. Integrative analysis of 111 reference human epigenomes.
Последний автор — Manolis Kellis — руководитель лаборатории Вычислительной биологии в MIT http://compbio.mit.edu/. Выступление Манолиса Келиса на TEDxCambridge 2013: Decoding a Genomic Revolution.
Время: 18:10 – 19:30
Место: Кочновский пр-д., 3, ауд. 205
13 ноября
Расшифровка эпигенетического кода с помощью скрытых марковских моделей
Совместная работа Гарварда и Массачусетского технологического института (MIT). Публикация в Nature Biotechnology 2010. J. Ernst & M. Kellis. Discovery and characterization of chromatin states for systematic annotation of the human genome. Manolis Kellis — руководитель лаборатории Вычислительной биологии в MIT http://compbio.mit.edu/. Выступление Манолиса Келиса на TEDxCambridge 2013: Decoding a Genomic Revolution.
Время: 18:10 – 19:30
Место: Кочновский пр-д., 3, ауд. 205
30 октября
Предсказание частоты мутаций в раковых геномах по эпигенетическим факторам методом Случайный лес (Random Forest)
Совместная работа Гарварда, Массачусетского технологического института (MIT) и университета Вашингтона. Публикация в Nature 2015. Polak et al. Cell-of-origin chromatin organization shapes the mutational landscape of cancer. PMID: 2569356
Время: 18:10 – 19:30
Место: Кочновский пр-д., 3, ауд. 205