Семинары март - июнь 2020

13.07 [online] Studying RNA–DNA interactome by Red-C identifies noncoding RNAs associated with various chromatin types and reveals transcription dynamics

Докладчик: Анастасия Жарикова, аспирантка факультета биоинженерии и биоинформатики МГУ

Аннотация: Abstract: Non-coding RNAs (ncRNAs) participate in various biological processes, including regulating transcrip- tion and sustaining genome 3D organization. Here, we present a method termed Red-C that exploits proximity ligation to identify contacts with the genome for all RNA molecules present in the nucleus. Using Red-C, we uncovered the RNA–DNA interac- tome of human K562 cells and identified hundreds of ncRNAs enriched in active or repressed chromatin, including previously undescribed RNAs. Analysis of the RNA–DNA interactome also allowed us to trace the kinetics of messenger RNA production. Our data support the model of co-transcriptional intron splicing, but not the hypothesis of the circularization of actively transcribed genes

Время проведения: 20:00-21:00.

08.06 [online] Распознавание паттернов ассоциации вторичных структур ДНК и эпигенетического кода

Zoom

Кубаева Ассоль (студентка группы 163, 4 курса) «Распознавание паттернов ассоциации вторичных структур ДНК и энхансерной метки H3K27ac методами машинного обучения»

Целью этой работы является построение модели, выделяющей участки генома, содержащие паттерны ассоциации квадруплексов и гистоновой метки H3K27ac, традиционно ассоциированный с энхансером. В работе рассматриваются модели классического машинного обучения — случайный лес, градиентный бустинг — а также модели глубинного обучения: сверточная нейронная сеть и нейронные сети смешанной архитектуры. Было показано, что производимость моделей глубинного обучения выше моделей классического машинного обучения. Кроме того, продемонстрирована применимость подходов глубинного обучения к задачам распознавания паттернов ассоциации вторичных структур ДНК и эпигенетических меток.

Гарницкий Марк (студент 4 курса) "Распознавание паттернов ассоциации вторичных структур ДНК и эпигенетического кода в сердечно-сосудистой ткани методами машинного обучения"

Основной целью данной работы является разработка архитектуры нейронной сети для распознавания паттернов пересечения вторичной структуры ДНК и эпигенетического кода. Рассматриваемая вторичная структура представляет собой G-квадруплекс, являющийся одной из возможных конформаций ДНК, богатой гуанином, а эпигенетический код - гистоновые метки. В этом проекте предлагается решать задачу поиска биологических мотивов в последовательности ДНК человека на пересечении гистоновых меток в сердечно-сосудистой ткани и G-квадруплексов (паттернов ассоциации) путем визуализации фильтров свертки свёрточной нейронной сети и максимизации их вклада в ответ. В ходе исследования были получены результаты, показывающие перспективность применения методов машинного обучения к задачам генетики.

02.06 [online] Анализ фармакологических и медицинских факторов, предсказывающих безопасность лекарственных средств

Докладчик: Сергей Харис, магистр 2 года обучения факультета экономических наук

Аннотация: В данной работе был проведён анализ факторов, влияющих на свёртываемость крови и риск тромбоза у пациентов из России после принятия антитромбоцитарного препарата тикагрелора. Была построена линейная регрессионная модель с регуляризацией методом эластичной сети и отбором переменных включением на основании точности на кросс-валидации для проверки гипотез исследования и прогнозирования PRU на основании генетических и физиологических данных о пациенте. Была построена регрессионная модель случайного леса также с отбором переменных на основании точности на кросс-валидации, а также модель модель Пуассоновской регрессии. Последняя позволила проверить гипотезы исследования о значимости ряда факторов, а также сделать новые выводы о влиянии ряда переменных. В результате проведенного ислледования, было выделено несколько направлений для дальнейшего исследования факторов, влияющих на склонность тромбоцитов к агрегации после принятия тикагрелора.

28.05 [online] Применение генеративных нейронных сетей и трансформеров к задаче распознавания квадруплексов

Zoom

Бурданова Софья (студентка группы 163, 4 курса) “Применение генеративных нейронных сетей к задаче распознавания квадруплексов”

Будет показано применение генеративно-состязательной сети для генерации квадруплексов в геноме мыши с целью дальнейшего использования сгенерированных данных в качестве тренировочного набора для улучшения качества различных моделей. В работе были продемонстрированы результаты четырех вариаций генеративно-состязательных сетей (простой GAN, WGAN, WGAN-GP и LSGAN) на шести комбинациях сверточных сетей из генератора и дискриминатора. В результате удалось построить такую сеть, которая генерирует квадруплексы, которые потом распознаются моделью CNN c максимальным ACCURACY 0.96. Наилучший и наиболее стабильный результат из всех реализованных архитектур для данной задачи показала GEN2+DISC1 с WGAN-GP. Данная работа представляет собой одно из пионерских исследований в области применения генеративно-состязательных сетей в задачах геномики и, в частности, в задачах распознавания квадруплексов.

Балабан Ирина (студентка группы 163, 4 курса) “Применение архитектуры трансформер к задаче распознавания квадруплексов”

В настоящей работе были просетстированы архитектуры, рассчитанные на решение задач NLP, в применимости к проблеме распознавания G-квадруплексов, так как последовательности нуклеотидов можно представить в виде предложений естественного языка. Были выбраны модели типа “трансформеры”, которые на данный момент являются превалирующими в решении задач NLP. Удалось обучить четыре типа моделей: “FlauBERT”, “CamemBERT”, “RoBERTa” и “XLNet”, из которых наилучшую производительность показала “CamemBERT”. В работе была показана возможность применение моделей глубинного обучения на основе архитектур “трансформер” для задач распознавания квадруплексов. “Трасформеры” при решении поставленной задачи показали результаты, сравнимые с CNN и RNN.

22.05 [online] Generative Adversarial network for DNA Secondary structures prediction

Zoom

Докладчик: Никита Константиновский, студент 2 курса магистерской программы "Системы больших данных" факультета бизнеса и менеджмента

Аннотация: In addition to the primary structure, DNA molecule can form various secondary structures, such as G-quadruplexes, Z-DNA and others. One of the main problems in annotating genomes with DNA secondary structures is the lack of genome-wide experimental data. On the other hand, the existing computer methods for predicting the formation of DNA secondary structures are not accurate enough, and their improvement is an actual task.

Recently, generative-adversarial neural networks (GAN) are increasingly used for research purposes, including in solving genomics problems. Their goal is to generate new data from distribution of real data. Therefore, such neural networks make it possible to expand experimentally obtained data with artificially generated data, which can be used to increase the accuracy of models predicting locations of secondary structures.

Here I demonstrate the possibility of using GAN to generate new data on DNA secondary structures and increase the accuracy of prediction of machine-learning models using these generated data.

Meeting ID: 823 5852 5898

Время проведения: 20:00-21:00.

16.05 [online] “Моделирование предрасположенности кардиологических заболеваний у различных этнических групп России по генетическому портрету”

Zoom

Сайфутдинова Дина (студентка группы 164, 4 курса)

Патологии сердечно-сосудистой системы являются наиболее частой причиной смертности. Одним из подходов в лечении подобных заболеваний является фармакогенетика. В настоящей работе к данным, содержащим результаты генотипирования пациентов из различных этнических групп России, были применены методы анализа данных с целью выявления значимых различий между этими группами. Также была спрогнозирована доза варфарина для каждой этнической группы с использованием International Warfarin Pharmacogenetics Consortium Algorithm. Результаты данного исследования могут расширить знания о схожести пациентов из различных этнических групп России по их генетическому портрету, а также об их реакции на варфарин.

15.05 [online] Подготовка к защите дипломов

Zoom

Федор Павлов (студент группы 164, 4 курса) “Распознавание вторичных структур ДНК как нуклеосомных барьеров методами машинного обучения”

В последние несколько лет все большую популярность приобретают исследования генома с использованием методов машинного и глубинного обучения, и исследователи получают в свое распоряжение всё более совершенные инструменты работы с данными. Распознавание паттернов расположения вторичных структур ДНК и функциональных элементов генома представляют собой малоисследованную область, несмотря на то что работы в этом направлении потенциально способны внести большой вклад в развитие медицины и фармакологии. Данное исследование направлено на исследование методов машинного и глубинного обучения, которые доказали свою успешность в процессах обработки естественного языка в отношении задач распознавания последовательностей ДНК. В рамках работы были построены две модели глубинного обучения на основе архитектур CNN и RNN. Каждая модель была протестирована на четырех задачах классификации участков ДНК, содержащих квадруплексы с потенциальной функцией нуклеосомных барьеров. Кроме того, была сделана интерпретация моделей в виде определения значимых фильтров CNN и перевод их в ДНК-мотивы.

Павел Юрлов (студент группы 161, 4 курса) "Распознавание участков, содержащих хромотрипсисные разрывы в раковых геномах, методами глубинного обучения"

В 2020 году в рамках консорциума по исследованию раковых геномов PCAWG были опубликованы результаты масштабных исследований многочисленных классов мутаций в раковых геномах, называемых структурными вариантами, среди которых большой интерес для исследования представляет менее хорошо изученный хромотрипсис, заключающийся в большом количестве структурных вариаций на одном участке, и связанные с ним раковые разрывы. Данная работа ставит целью изучить возможную связь между первичной структурой ДНК и образованием хромотрипсисных раковых разрывов, для чего используются методы классического и глубинного обучения. Было построено пять видов моделей: случайный лес, градиентный бустинг, свёрточная сеть, рекуррентная сеть и трансформер. Лучший результат показал случайный лес, однако ни одной модели не удалось достичь значения метрики ROC-AUC выше 0.6. Полученные результаты наталкивают на вывод об отсутствии какой-либо значительной связи между первичной структурой ДНК и возникновением хромотрипсисных разрывов.

09.04 [online] Приложение машинного обучения к проблеме гетерогенности ChIP-seq данных

Zoom

Докладчик: Федоров Александр, стажер-исследователь НУЛ Биоинформатики

Аннотация: Иммунопреципитация хроматина с последующим секвенированием (ChIP-seq) является устоявшейся экспериментальной технологией для изучения факторов транскрипции, модификаций гистонов и других ДНК-связывающих белков. Популярность ChIP-seq анализов растет, только в рамках проекта ENCODE представлено более 6000 экспериментов. Для типичных биологических образцов, например эмбриональных клеточных линий, в ENCODE опубликовано более одного опыта для одной и той же мишени. В подобно устроенной серии экспериментов для гистоновых меток можно отметить неожиданно низкое согласие и воспроизводимость результатов. Это серьезная проблема, так как дальнейшие выводы начинают зависеть от выбора базового ChIP-seq эксперимента.

Для генерации надежного консенсусного набора регионов мы предлагаем использовать следующий подход. Участки ДНК, обнаруженные в экспериментах обладают некоторыми общими свойствами, которые может распознать нейронная сеть. Следовательно, если натренировать модель машинного обучения на результатах каждого эксперимента, то их ансамбль сможет уверенно выделить консенсусные регионы и отвергнуть шумовые, мотивы которых представлены только в одном из опытов. Такой подход обладает своими недостатками, однако избавляет пользователей от проблемы выбора конкретных ChIP-seq данных и потенциально делает последующие выводы более надежными.

Meeting ID: 889 964 118
Password: 048473

Время проведения: 20:00-21:00.

03.04 [online] DeepZ: модели глубинного обучения для предсказания участков Z-DNA

Zoom

Докладчик: Бекназаров Назар, стажер-исследователь НУЛ Биоинформатики

Аннотация: Из-за недостатка экспериментальных данных актуальна разработка компьютерных методы для предсказания участков Z-ДНК. Единственный существующий метод ZHUNT основан на статистических механических и энергетических характеристиках перехода B- в Z-ДНК и рассчитывает вероятность перехода последовательности в Z-конформацию. Единственный на сегодняшний день экспериментальные данные CHiP-seq Z-ДНК имеют небольшое пересечение с предсказаниями ZHUNT. Модели глубинногообучения продемонстрировали эффективность в применения к задачам геномики, так способны анализировать и извлекатьинформацию из больших данных молекулярной биологии. Мы разработали DeepZ, метод глубинного обучения, который предсказывает не только области Z-ДНК, но также генерирует аннотации всего генома. DeepZ использует около 30 000 геномных карт эпигенетических маркеров, транскрипционного фактора и сайтов связывания РНК-полимеразы и карт доступности хроматина. Мы протестировали 151 модель с использованием 3 различных архитектур - CNN, RNN и гибридной CNN-RNN. Мы обнаружили, что RNN превосходит как CNN, так и гибридную CNN-RNN в этой конкретной задаче. С лучшей моделью RNN мы создали аннотацию всего генома человеческого генома с Z-ДНК.

Meeting ID: 445 071 034
Время проведения: 17:00-18:00.

13.03 Проблемы и подходы в области ДНК-вычислений. Часть 2

Докладчик: Харрамов Мердан, студент 4 курса бакалавриата математического факультета ВШЭ

Аннотация: ДНК-вычисления - это тип вычислений, который использует молекулу ДНК, биохимию и молекулярную биологию вместо традиционных силиконовых компьютерных технологий. ДНК-вычисления, по сути, являются параллельными вычислениями, и с их помощью, ожидается, можно будет решать NP-полные задачи за гораздо меньшее время, чем это могут делать современные силиконовые компьютеры. Пример ДНК-вычислений для решения задачи о нахождении Гамильтонова пути был предложен Леонардом Адельманом в 1994 году. С тех пор были предложены методы реализаций ДНК-вычислений для проблемы раскраски графов, задачи о ходе коня, взлома алгоритма симметричного шифрования, и других задач. В докладе будет дан обзор современных проблем и подходов в области ДНК-вычислений.

Покровский бульвар, 11, корпус S аудитория S 331.
Время проведения: 18:10-19:30.

06.03 Проблемы и подходы в области ДНК-вычислений. Часть 1

Докладчик: Харрамов Мердан, студент 4 курса бакалавриата математического факультета ВШЭ

Покровский бульвар, 11, корпус R, аудитория R 506.
Время проведения: 19:40-21:00.

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.

Международная лаборатория биоинформатики

Семинары март - июнь 2020

13.07 [online] Studying RNA–DNA interactome by Red-C identifies noncoding RNAs associated with various chromatin types and reveals transcription dynamics

08.06 [online] Распознавание паттернов ассоциации вторичных структур ДНК и эпигенетического кода

02.06 [online] Анализ фармакологических и медицинских факторов, предсказывающих безопасность лекарственных средств

28.05 [online] Применение генеративных нейронных сетей и трансформеров к задаче распознавания квадруплексов

22.05 [online] Generative Adversarial network for DNA Secondary structures prediction

16.05 [online] “Моделирование предрасположенности кардиологических заболеваний у различных этнических групп России по генетическому портрету”

15.05 [online] Подготовка к защите дипломов

09.04 [online] Приложение машинного обучения к проблеме гетерогенности ChIP-seq данных

03.04 [online] DeepZ: модели глубинного обучения для предсказания участков Z-DNA

13.03 Проблемы и подходы в области ДНК-вычислений. Часть 2

06.03 Проблемы и подходы в области ДНК-вычислений. Часть 1