Конференция IEEE BIBM 2020
Федор Павлов, стажер-исследователь международной лаборатории биоинформатики, выступил на международной конференции IEEE BIBM 2020, которая проводилась 16-19 декабря 2020 в режиме онлайн. На воркшопе Machine Learning and Artificial Intelligence in Bioinformatics and Medical Informatics (MABM) он представил доклад по статье «Recognition of DNA Secondary Structures as Nucleosome Barriers with Deep Learning Methods» («Распознавание вторичных структур ДНК как нуклеосомных барьеров методами глубинного обучения»), опубликованной в соавторстве с Марией Попцовой.
В работе была произведена разметка участков ДНК, на которых G-квадруплексы могут выступать в качестве барьеров для нуклеосом, была составлена задача классификации таких участков с помощью методов глубинного обучения на основе архитектур сверточных и рекуррентных нейросетей, а также была проведена интерпретация фильтров сверточного слоя нейронной сети с целью выявления мотивов, которые могут свидетельствовать о присутствии нуклеосомных барьеров.
В последние несколько лет все большую популярность приобретают исследования генома с использованием методов машинного и глубинного обучения. Распознавание паттернов расположения вторичных структур ДНК и функциональных элементов генома представляют собой малоисследованную область, несмотря на то что работы в этом направлении потенциально способны внести большой вклад в развитие медицины и фармакологии.
Вторичные структуры ДНК могут оказывать влияние на различные геномные процессы, такие как транскрипция, трансляция и репликация. Одним из механизмов транскрипционной регуляции является регуляция расположения нуклеосом. Некоторые структуры ДНК могут конкурировать с нуклеосомами за расположение в геноме и даже служить барьерами, разделяющими нуклеосомные последовательности. На сегодняшний день и проблема позиционирования нуклеосом, и проблема обнаружения вторичных структур ДНК решается как с помощью методов машинного обучения, так и с помощью нейросетевых моделей.
Данное исследование было направлено на применение методов глубинного обучения в отношении задач классификации последовательностей ДНК генома человека и последующей интерпретации результатов. В рамках работы по результатам тестирования были отобраны две модели глубинного обучения на основе архитектур CNN и сочетания сверточной и рекуррентной архитектур CNN и LSTM.
Для тестирования моделей было составлено четыре задачи бинарной и многоклассовой классификации. В каждом случае входными данными являлся набор отрезков последовательности нуклеотидов фиксированной длины. В рамках каждой задачи производилась классификация отрезков по заранее составленным классам. Основные классы для исследования разделялись на отрезки, на которых присутствуют нуклеосомы, G-квадруплексы, а также паттерны расположения вторичных структур относительно нуклеосом. Наилучшие результаты классификации по результатам тестирования были достигнуты на модели с архитектурой CNN и LSTM.
На завершающем этапе исследования была произведена интерпретация фильтров входного сверточного слоя нейросети. Для анализа были использованы данные каждого фильтра обученной модели глубинного обучения. В результате интерпретации был получен набор из 16 мотивов, которые впоследствии были проверены на совпадение с уже изученными мотивами.