• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

“Для человека он сам - первоочередный интерес”: беседа о биоинформатике

Как будет развиваться российская биоинформатика в ближайшие 5 лет, что нужно ученому для открытия и почему без машинного обучения невозможно развитие современной геномики - об этом и многом другом рассказала биоинформатик и биофизик Мария Попцова.

“Для человека он сам - первоочередный интерес”: беседа о биоинформатике



Мария Попцова

Доцент департамента больших данных и информационного поиска факультета компьютерных наук ВШЭ, кандидат физико-математических наук, старший научный сотрудник кафедры биофизики физического факультета МГУ. В 2005 - 2009 работала по гранту НАСА в рамках программы Applied Information Systems Research (AISR) в университете Коннектикута.
В 2010- 2011 была исследователем в лаборатории  Института вычислительной биомедицины Корнельского университета США, занимающейся исследованиями рака простаты. В 2012-2017 работала на кафедре биофизики физического факультета МГУ. На магистерской программе ВШЭ “Анализ данных в биологии медицине” Мария Попцова с сентября ведет курсы “Modern Methods of Data Analysis” и “Практическая биоинформатика”, а также руководит открытым семинаром ФКН “Методы машинного обучения в биоинформатике”. 


Можно ли точно сказать, когда появилась биоинформатика?
 

Биоинформатика неотъемлемо связана с молекулярной биологией. Молекулярная биология - это экспериментальная наука, а биоинформатика - ее теоретическая часть. Фактически зарождением биоинформатики можно назвать этап, когда стали получать последовательности чего-либо - кусочков ДНК, белков. Полноценный отсчет можно вести с момента, когда расшифровали генетический код - это 1968 год, Нобелевская премия американским биохимикам.

Следующий этап – 1977 год, открытие Сангером метода секвенирования, Нобелевская премия 1980 г. В результате в  1995 г году отсеквенировали (получили последовательность букв) полный геном бактерии. В 2000-ом – первый черновик генома человека, который подправляли вплоть до 2003 г, и до сих подправляют. Затем началась революция в технологиях секвенирования. В начале 2000-х появились технологии секвенирования нового поколения - NGS (next-generation sequencing). Начался настоящий бум. Сегодня отсеквенировать можно всё: таракана, мошку, слона, человека.

Как биоинформатика пришла в Россию?

Исторически, первыми были Институт молекулярной генетики, ГосНИИГенетика, ИВЦ в Пущино, Институт цитологии и генетики в Новосибирске, ИФХБ им. Белозерского МГУ.

Биологи, изначально занимавшиеся теоретической молекулярной биологией, стали получать новые возможности, новые инструменты для анализа.

А как вы сами начали заниматься этой областью?

Интерес появился раньше, но серьезно заниматься начала в 2005 году - после защиты. По специальности я - биофизик, закончила физический факультет МГУ. Помимо базовой физики получила  дополнительное образование по биологии. Факультет биоинформатики к тому времени существовал 3 года.

В чем основное отличие биофизика от биоинформатика?

Биофизик занимается изучением физических принципов и механизмов организации живого. Биоинформатик занимается изучением кибернетических принципов организации живого, если хотите, живого компьютера.   

По поводу статуса биоинформатики: определять ее как отдельную науку согласны не все. Что вы думаете по этому поводу?

Я думаю, как в русской пословице: “хоть горшком назови, только в печку не ставь”. Но все же биоинформатика, как мне кажется, заслужила статус отдельной науки и совсем скоро будет неотъемлемой частью всех факультетов компьютерных наук, потому как таких специалистов реально не хватает.

 Студентов на программе “Анализ данных в биологии и медицине” больше с техническим или с биологическим бэкграундом?

Пока больше с техническим. Но программа новая, всего 2 года, люди из среды программирования пришли в силу того, что знали о факультете. Кто-то из биологов мог испугаться как раз того, что это факультет компьютерных наук. Вообще говоря, для биоинформатика владение математическими методами необходимо - биологию можно подтянуть, главное желание. В идеале нужен тандем из биологов и специалистов по компьютерным наукам, поэтому будет здорово, если к нам на программу придут и люди с биологическим образованием - друг у друга они будут быстрее учиться. 

Как сочетаются в программе АДБМ теория и практика?

50 на 50, или практика даже перевешивает. Студенты получают базовые знания по биоинформатике, которую можно разделить на разделы: молекулярная эволюция, сравнительная геномика, разработка алгоритмов, освоение методов обработки данных технологий секвенирования NGS. В рамках программы АДБМ предоставляется возможность обучиться самым разным биоинформатическим подходам, а дальше уже человек выбирает, что ему ближе. У студентов также есть свои проекты - курсовая первого курса и выпускной диплом. Каждый из них работает с ученым, который направляет и дает практические задачи.

Занятие по практической биоинформатике у студентов 1 курса программы АДБМ

Чем для биоинформатики отличаются задачи непосредственно биологические и медицинские?

Медицинские задачи, которые сейчас очень актуальны, могут требовать особых подходов. Чисто биологические задачи - это задачи фундаментальной науки, которая, конечно, тоже необходима для развития медицины. Однако здесь нет таких “моментальных” результатов, очевидных приложений. Медицина занимает огромную часть всех исследований: как только появилась возможность секвенировать геном здоровых и больных людей, сразу на первый план вышла проблема излечения.

В первую очередь, конечно, рака - на это в мире тратится очень большое количество средств. Когда произошла революция NGS, казалось: мы возьмем геном здоровой клетки и опухолевой, сравним их, увидим, какие произошли изменения, и будем знать, как лечить. Но тогда пришло первое разочарование: оказалось, что мутации у всех разные, рак оказался очень гетерогенным, никто этого  не ожидал. Проблема все еще не решена, но данные для этого накапливаются. Практически такие же задачи стоят для любых заболеваний. Это, во-первых, поиск лекарства, во-вторых – предсказание по генетическим мутациям. Если вы знаете предрасположенность, то заболевание можно как-то предотвратить. При диагностике рака на 1-2 стадии шансы на выживание большие, при этом обнаруживают его обычно на 3-4 стадии, просто потому что не видят. Для этого необходимо найти некие генетические маркеры, которые бы говорили что идет процесс заболевания - тогда диагностировать рак можно будет обычным тестом, не сложнее чем рутинный анализ крови.

Какие варианты карьерного пути есть после образования в биоинформатике?

Во многих медицинских центрах, институтах и компаниях требуются биоинформатики. Им нужны люди, которые способны обрабатывать данные современных биотехнологий. В России это, как правило, частные центры, однако существуют и государственные с необходимым оборудованием и запросом на такой анализ. Если речь идет о работе за границей, то это также работа при университетах, где существуют позиции биоинформатиков - они не занимаются конкретно научными исследованиями, но помогают биологам с запуском программ. Можно пойти в лабораторию, либо продолжить свой научный путь в аспирантуре. В Вышке такая возможность тоже есть.

Какая ситуация в России в целом с финансированием биоинформатики?

У нас в принципе одинаковая ситуация с финансированием всей науки, в том числе фундаментальных исследований в биоинформатике, и пока оно недостаточное. Тем не менее, есть надежда, что ситуация будет меняться: революция в технологиях произошла, и мы уже в России накапливаем геномные данные, которые можно получить с помощью современных технологий. При этом данные копятся очень быстро, происходит задержка с их обработкой.

Весь прогресс в медицинской геномике происходит за счет консорциумных проектов, в которых Россия пока не участвует – это дорого. Например, существует проект секвенирования геномов раковых больных по всему миру с разными типами опухоли. Это в основном США, Европа, в меньшей степени - Япония. В настоящее время было отсеквенировано порядка семнадцати тысяч геномов. Чем хороша биоинформатика - любые результаты этих экспериментов доступны - каждый ученый их может получить и анализировать. Но все эти проекты в основном секвенируют население Европы и США, а мы уже понимаем, что какие-то мутации  специфичны для групп населения, для территории. Поэтому в России, конечно, будут такие проекты по секвенированию, генотипированию населения, выявления специфических мутаций. к тому же, у нас уже в какой-то степени ведется секвенирование геномов раковых больных, и когда это начнет накапливаться в больших количествах, нужны будут национальные центры, каталоги раковых мутаций и других заболеваний. Вот тогда специалисты по биоинформатике с программистским уклоном будут особенно сильно востребованы. Большие данные нужно будет уметь обрабатывать, перекачивать и хранить в тех центрах, которые будут созданы.

Через сколько лет этот этап наступит, на ваш взгляд?

У меня оптимистический прогноз - думаю, в ближайшие 5 лет. Уже создаются заявки на такие центры, а значит это дело времени. Понимание, что это нужно, есть, дело за финансированием.

Расскажите о своей работе в США: что дал вам этот опыт в профессиональном плане, что удивило в процессе работы?

Вообще обмен опытом и работа в разных научных группах  мира - очень важный опыт, как и опыт жизни в другом обществе в принципе. Ты понимаешь, как работают внутренние механизмы. Я сделала такой вывод: для развития науки необходимо создать некую питательную среду, затраты на создание которой не слишком большие, не выше средних потребностей. Ученый занимается наукой прежде всего потому что ему нравится, есть внутреннее любопытство. Таких людей в обществе всегда хватает. Если создан некоторый порог финансирования науки, при котором у исследователя есть доступ к информации, к участию в международных конференциях, есть лаборатории, в которых можно работать - дальше происходит все само. Благодаря внутренней конкуренции, желанию людей сделать больше, сделать открытие.

Результаты исследований при переходе через некоторую критическую черту финансирования уже не меняются, сколько бы дополнительно не вкладывать. Но если вы этот порог снижаете, остаются только те люди, которые бы этим занимались и без денег. Это интересный феномен: остаются действительно люди, любящие науку. Но их мало, к тому же бесплатно наукой заниматься в масштабе одного человека можно, в масштабе страны - уже нет. Такие “среды” должны быть распространены по всей стране, если брать Россию - то это должна быть и Сибирь, и Дальний Восток, и юг. Когда у нас этот порог повысится, сразу выровняется и уровень. И это обязательно будет, потому что наука сейчас - занятие не закрытое. Если математику раньше нужны были только бумага и карандаш, то биоинформатику сейчас нужен компьютер и доступ к  Интернету.

А студенты-биоинформатики в большинстве хотят уехать или остаться в России?

Сейчас стала замечать, что уезжать хотят меньше. Это говорит о том, что стали лучше трудоустраиваться в России, особенно с хорошим навыком программирования. Но те, кто хотят заниматься фундаментальной наукой, чаще хотят уехать - как раз потому что не создано пока этой питательной среды.

Произошли ли какие-то важные изменения в программе и поступлении на нее с момента запуска?

Есть некоторые нововведения. Когда программа только образовалась, поступление было почти такое же, как на другие программы - то есть довольно сложный технический экзамен. Теперь мы его убрали. Основной успех будущего студента определяет его желание учиться, стать кем-то - на уровне магистра это уже важнее, чем базовая подготовка. Теперь у нас будет собеседование, где поступающий должен будет продемонстрировать свое осознанное желание учиться, и анализ портфолио- для оценки научного интереса к направлению. Будет только несложный тест по английскому.

1 курс магистерской программы "Анализ данных в биологии и медицине"

За счет чего, как вам кажется, растет интерес к программе?

Мы много рассказываем про машинные методы, плюс уже есть два набора студентов, которые могут делиться своим опытом. Но мне же кажется изнутри, что биоинформатика и вовсе не нуждается в рекламе. Это же анализ себя, того, как мы созданы. Один геном фактически определяет, что получится из клетки - человек, мышь, растение - или она останется бактерией. А если человек - то каким он будет. Для человека он сам - первоочередный интерес, потому биоинформатика это так увлекательно.

Расскажите о научно-учебной группе, с который вы выиграли конкурс Научного фонда ВШЭ. Чем вы будете заниматься?

У нас образовалась научная группа из преподавателей (Михаил ГельфандПавел Мазин) и вокруг мы собрали группу из 7-8 студентов - не только с нашей программы. Среди них есть даже студенты 2-3 курса бакалавриата, многие выбирают курсовые именно по биоинформатике. Кодовое название научной группы - “ДНК пунктуация”.

Объясню: есть один уровень расшифровки генома - прямой, линейный, где есть последовательность букв - по сути, это текст, где повторяются 4 буквы - A, T, G, C. Но текст этот сложночитаемый. Первый уровень - этот текст разделили на “гены” и “не гены”. Далее - научились видеть короткие фрагменты, так называемые мотивы, которые участвуют в управлении. Потом, с появлением NGS, научились делать ряд экспериментов, которые позволяют увидеть другой уровень организации - уровень эпигенетики. Два одинаковых генома в разных клетках работают по-разному: за это и отвечает эпигенетика. А определенный эпигенетический код - это как бы маркировка над последовательностью. Можно сказать, что весь геном на следующем уровне как-то размечен - помечается, какие части работают, а какие нет - но как именно, пока большая тайна. Мы можем только экспериментально брать эти типы маркировок, они накапливаются в консорциумных проектах и в проектах отдельных лабораторий.

Типичные вторичные структуры ДНК

Мое основное фундаментальное исследование - “Роль вторичных структур ДНК/РНК в функционировании генома”. Обычно ДНК представляют как двойную спираль, здесь же мы исходим из того, что это не просто линия - на ниточке в качестве бусинок могут образовываться некоторые структуры, они формируют какую-то 3D структуру и могут выполнять разную роль: быть некоторым сигналом, механическим барьером - для отдельных структур их функция в разных местах генома уже показана. Но такой эксперимент как NGS для аннотации генома вторичными структурами пока отстает, задача группы - на основании сопоставления с известными экспериментальными данными получить и определить функцию, понять назначение и новые механизмы регуляции с помощью этих вторичных структур ДНК. Это проект, конечно, не на маленький коллектив и не на год- это глобальная задача. Но в ее рамках мы в течение года будем двигаться в направлении понимания организации хроматина, транскрипции, эпигенетических маркировок.

Трех- и четырехнитевые структуры ДНК

Смысл всех этих больших данных алгоритмически уже понять сложно, мозг человека с этим справиться не может, но есть многообещающие методы - машинное обучение - это снова к вопросу о том, почему ФКН. Мы, во-первых, тестируем методы машинного обучения на пригодность, а во-вторых изучаем, что сами алгоритмы способны предсказать.

Семинар, который вы ведете на ФКН с сентября, тоже как раз  связан с машинным обучением. Для кого он проводится и в каком формате?

Цель семинара- показать студентам, которые еще не на программе, или уже учатся, современные исследования: над чем работают ученые, какие идут публикации в крупных научных центрах за рубежом. А последний семинар был с Михаилом Гельфандом, который рассказывал о работе российских ученых, в частности в Сколково. Пока это проходит в формате лекции-презентации, студенты знакомятся с исследованиями Гарварда, MIT, позже будут европейские исследования. Презентации статей я делаю сама, пытаюсь сделать их понятными - неспециализированным языком. Главное здесь - объяснить, что было сделано, и заинтересовать. На семинары приходит достаточно много народу - до 30 человек, что свидетельствует об интересе к таким исследованиям. 

Насколько силен для биоинформатики этический вопрос? Замечаете ли вы какие-то общественные страхи перед развитием этой области?

Среда, в которой я нахожусь, не позволяет мне оценить, что реально происходит в обществе - это научная среда.  Но судя по тому, что эти темы возникают в прессе, я понимаю, что они востребованы: то же ГМО, например, а из последних острых тем - редактирование генома. По поводу последнего, кстати, возникает много вопросов и в научной среде: об этике, законодательстве. Ученый всегда ожидает прогресса - то есть пользы для человека, сообщества, государства с точки зрения быта, качества и продолжительности жизни. И мы действительно это наблюдаем. Но у прогресса всегда есть обратная сторона, когда он используется не по назначению.

Какие глобальные проблемы стоят перед современной биоинформатикой?

Сейчас есть некоторый “тупик” - на человека буквально “сыпятся” данные, и он не знает, что с ними делать. Секвенировать мы научились все, что угодно. Но экспериментальные данные копятся быстрее, чем мы в состоянии извлечь. Есть также эволюционные задачи: как из одного вида получается другой, из шимпанзе - человек? Мы сравнили их гены, но что дальше? Как понять, за счет чего произошла трансформация? Прорывов в понимании этого пока не было. И тут пяти лет, скорее всего, будет мало, но это непредсказуемо: искра может вспыхнуть внезапно, но для этого надо, чтобы ученые все время про это думали.

 

+ Главные достижения биоинформатики за последние годы (составлено Марией Попцовой): 
  • Редактирование генома – адаптация иммунной системы бактерий к замене испорченных генов на гены без мутаций в клетках эукариот. Много научных групп со всего мира внесли свой вклад в открытие, в том числе и группа биоинформатики под руководством Евгения Кунина, нашего соотечественника, который работает в Вашингтоне. Нобелевскую премию пока не дали, но в декабре 2017 года FDA разрешила генную терапию редкой формы слепоты лекарством Лукстурна. Терапия заключается в том, что вирусу вставляют правильный ген и с помощью инъекций микроскопической иглой внедряют вирус в клетки сетчатки. Будем следить за новостями, насколько успешно пойдет лечение.
  •  Совсем свежее практическое применение биоинформатики – разработан и протестирован тест на раннюю диагностику рака по пристутствующим в крови обрывкам ДНК и белкам. В результате анализа геномов опухолей всех типов рака было отобрано наиболее часто мутирующих 16 генов. При тестировании 8 типов рака на 1000 пациентов тест оказался положительным в 70% случаев. Это многообещающее начало. Совместная работа ученых США и Австралии, опубликована в журнале Science в январе 2018 г.
  • Не открытие, а процесс – процесс быстрого накопления больших и очень важных данных самих последовательностей геномов и их регуляторных разметок для разных заболеваний, разных групп людей, разных видов растений, животных и микроорганизмов земного шара
  • Превращение обычных клеток в стволовые - Нобелевская премия 2012 года (хотя первая работа Джона Гёрдона, основателя клонирования, вышла еще 40 лет назад). В 2006 году другая группа ученых под руководством Яманака нашла 4 гена, добавление которых во взрослые клетки, превращало их в стволовые. Таким образом было продемонстрировано, что геном содержит в себе все необходимые “программы превращений” одного типа клетки в другой, при этом превращения могут быть обратимы: из стволовой может получиться специализированная клетка, а из специализированной - стволовая. Это достижение не биоинформатиков, а для биоинформатиков, открывающее для них много интересных задач поиска алгоритмов таких преобразований.