• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Выпускники рассказывают: Аягоз Мусабаева

Аягоз Мусабаева закончила мехмат МГУ, потом поступила в магистратуру ФКН “Науки о данных”, а сейчас успешно совмещают карьеру в науке и индустрии. В своем интервью Аягоз расскажет о развитии и применении в современном мире технологии компьютерного зрения, о том, почему в науке так важна коммуникация, и о том, как все успевать.


Что тебе больше всего запомнилось за время учебы?

На мехмате – то, насколько увлекательно преподаватели рассказывали материал. А на “Науках о данных” мне больше всего запомнился курс Жофри Жерар Декруэ. Он, к сожалению, уже ушел из Вышки. На самом деле, это был лучший курс, который я когда-либо слышала. Он был максимально детальный, а Жофри не уходил слишком далеко в сторону от основного материала. Многие наши преподаватели любят начинать рассказывать что-то очень интересное и забавное, и уходить в сторону от основного материала. И ты бы послушал их на дополнительном курсе, но сейчас тебе нужно освоить именно эту дисциплину и сдать ее. При этом тратится и твое академическое время. В этом смысле я за более оптимальный подход. Сам курс назывался “Modern Methods in Decision Making”. Такой базовый вводный курс по машинному обучению. Нам давали совсем классические методы. Весь старший курс и весь наш курс очень сильно из-за него страдали, потому что нам давали много теоретических выкладок и т.д. А я наоборот была рада, что были теоретические выкладки с доказательствами и обоснованиями, почему машинное обучение вообще работает. 

В бакалавриате и магистратуре я практически не участвовала в студактивностях. На самом деле, студенческую активность я начала проявлять, когда пришла в ИППИ на кафедру. Здесь если ты хочешь что-то сделать, то тебе никто не запрещает. Если ты сделал – скажут спасибо и похвалят, если нет – ничего не скажут.  Я, например, буквально с первого года помогаю с конференцией ИТиС, которую ежегодно устраивает институт. В первый свой год я ездила просто посмотреть и чуть-чуть помогала с организацией. А уже на следующий год у нас образовалась компания активных молодых ребят из разных лабораторий, которые хотели сделать конференцию еще лучше. Мы активно взялись за дело и организовали мастер-класс по капоэйре, ирландским танцам. Было здорово, в мастер-классах могли принимать участие все. И даже директор института танцевал капойэру вместе с нами. Появились спортивные мероприятия, например, у нас был волейбольный турнир. Также в прошлом году мы написали бота в телеграме для расписания ИТиСа. Гораздо удобнее написать боту в чате “Что там дальше?”, чем листать в браузере вкладку с программой конференции.


О чем была твоя магистерская работа?

Первое, что хочется сказать – тему диплома я поменяла за месяц до сдачи. Это, конечно, был незабываемый опыт. Я просто поняла, что все, чем я до этого занималась, мне не нравится, и я не хочу защищаться по этой теме. И появилась другая очень интересная тема, куда я кинулась с головой. Я весь месяц 24 на 7 не покладая рук занималась только своей работой. Она была про то, как совместить регистрацию изображений с помощью диффеоморфизмов с машинным обучением и что из этого может получиться. Тема достаточно нетривиальная. На самом деле, меня привлекло то, что в работе была математика, которой мне очень не хватало на ФКН. Есть большая разница в том, как учат на прикладных и на фундаментальных специальностях. В первом случае тебе нужно делать что-то руками и пробовать пока не получится. В фундаментальных науках ты крутишься у себя в голове, пытаясь найти доказательство. Моим научным руководителем в магистратуре был Борис Гутман. Сейчас он профессор в Чикагском университете, но когда-то он был сотрудником нашей лаборатории по совместительству и мог взять к себе студентов писать ВКР. 


Чем ты сейчас занимаешься?

Сейчас я работаю в небольшой компании Constanta и занимаюсь computer vision. В институте у меня есть незаконченный проект, по которому нужно доделать эксперимент и написать статью. Плюс я помогаю с конференцией и другими активностями.

Помимо всего этого, я еще и преподаю на ФКН. Я веду небольшой курс на кафедре технологий моделирования сложных систем, который называется “Tips and Tricks”. Я веду его в этом семестре первый раз. Идея курса пришла мне из моей боли во время обучения: тебе дают учебные задачи, где все всегда легко и просто. То есть я могла совершенно не понять, что от меня хотят, запрогать что-то и оно сразу работало. Но при этом осознанности и понимания не возникало. Когда тебе дают учебную задачу, тебе не приходится сталкиваться со всеми теми трудностями, с которыми тебе потом приходится бороться во время работы и в академической среде, и в индустрии. Я много ходила по собеседованиям, и в компаниях менее востребованы люди, которые могут работать только с моделями, а не с реальными кейсами. Нужно уметь сидеть и лопатить данные. 

Ты от этого никуда не денешься, и с этим возникает много сложностей. Сам курс заточен на то, чтобы кинуть студентам в лицо эти сложности. Чтобы они сейчас помучились, а дальше им было легче. Потому что когда я от теории, которой меня учили в институте, пришла и стала делать что-то практическое – мне стало очень тяжело. Кажется, что все-таки нужны такие курсы, которые будут сложными, но при этом тебе в будущем за счет этого будет легче. Учеба должна что-то такое под собой подразумевать, чтобы тебя подготовили к жизни.


Справляются?

С переменным успехом. У кого-то сложно идет, но единственный способ что-то сделать – это сесть и начать делать. Главное себя посадить, а дальше работа пойдет. Ты можешь спрашивать и гуглить. У программистов большое коммьюнити, и существует много форумов, где ты можешь поспрашивать старших коллег, и тебе ответят. Например, для data scientist’ов есть ODS. А гуглить на самом деле очень важный навык, потому что наверняка много вещей уже сделали до тебя. Видела недавно в твиттере пост о том, что программисты счастливые люди. Какой-то парень из ядерной физики перешел в программирование и так радуется тому, что можно загуглить свою проблему, и она найдется. Дело в том, что в той области ядерной физики, которой он занимался, на его вопросы гуглится единственная статья – и это его статья.


Расскажи про свое исследование в институте.

Моя работа про то, как совместить задачу регистрации с тем, чтобы лучше распознавать образы на картинках. Если коротко, то до этого я занималась теоретической регистрацией и ее использованием в машинном обучении. Сейчас мы перешли от классической регистрации к регистрации с помощью нейронных сетей. Кажется, что применение регистрации может помочь лучше распознавать образы нейронным сетям.


В чем сложность научить машину распознавать изображение?

Когда вы смотрите любое видео, вы, например, видите там цифры и буквы и понимаете, что это значит. Компьютерное зрение – это когда то же самое делает машина. Она может посмотреть за вас картинку и сказать вам, что она там видит. Для того чтобы распознавать, что изображено, тебе нужно очень много априорного знания. Например, если дети видели только рыжих котов, когда они увидят кота другого окраса, они поймут, что это кот, но для них будет наверное удивлением, что он другого окраса. Для того чтобы иметь это априорное знание, нужно учить ребенка. Ребенок именно так и познает мир – он видит много сэмплов, ему говорят какой-то фидбэк на это, он обучается и понимает, что, например, на красный нельзя переходить дорогу, красный значит опасный. И тут нам нужно научить наш алгоритм, чтобы он тоже запомнил и у него тоже было это априорное знание.

В этом процессе есть две проблемы. Первая заключается в том, что ты упираешься в мощности – их просто физически не хватает. Другая проблема больше идейная, в духе того, что ты можешь как-то оптимизировать свой алгоритм. Обе проблемы достаточно сложные и решаются они по-разному. Про банальное машинное обучение говорили еще в каких-нибудь девяностых, но тогда у ученых не было мощностей. Сейчас у нас есть мощности, поэтому это все очень сильно развилось. Но на данный момент мы снова вышли на какое-то плато, и новый виток развития должна получить либо техника, либо технология. И тем, и тем сейчас активно занимаются. 


Над чем ты работаешь в Constanta?

Constanta это дочерняя букмекерская компания. Наш отдел занимается тем, что в некотором смысле лишает людей работы. Мне кажется все дата сайентисты занимаются именно тем, что лишают людей рутинной работы. То есть мы занимаемся оптимизацией процессов, которые заменяют людей, делающих рутинную работу. 

Наш отдел разрабатывает систему, которая заменяет скаута. Это человек, который смотрит какой-нибудь вид спорта – приходит на матч или смотрит его трансляцию, а затем передает данные букмекеру: счет, время, ключевые игровые события. Мы занимаемся тем, что создаем автоскаута. Чтобы ты мог просто поставить камеру или подхватить ссылку на трансляцию, а машина бы выдала тебе нужные данные. Кстати, на стороне букмекеров тоже идет автоматизация – наши коллеги делают роботов, чтобы правильно считать коэффициенты. 


Интересно, что ты совмещаешь карьеру и в науке, и в индустрии…

Это тяжело, ты чувствуешь, что то тут, то там ты что-то не успеваешь. Поэтому это не для всех. Хотя, например, в институте у нас есть достаточно большая лаборатория, которая одновременно является и наукой, и индустрией, это Visillect, которая делает свои продукты. Например, они создали систему, которая называется МАРИНА (по слухам, в честь жены заведующего лаборатории). Расшифровывается она красиво “Модуль автоматического распознавания идентификационных номеров автомобилей”. Также коллеги из этой лаборатории создали АКТС- систему классификации автомобилей по геометрическим характеристикам, которая сейчас стоит на многих платных дорогах. Сначала у нас ставили французскую систему, но она не могла работать в наших погодных условиях: грязь, дождь, снег. А эта лаборатория сделала систему, которая работает. Фактически, они тоже относятся к индустрии. 


Что тебе нравится в твоей научной части карьеры?

В моей научной жизни мне нравится то, что у меня есть свобода выбирать, что и как делать. При этом можно проводить много экспериментов, играться с разными вещами. И все это обычно происходит ненапряженно. У тебя есть хороший коллектив, с которыми ты можешь поделиться своей проблемой и болью. Обычно у нас бывают семинары, на которых это все обсуждается, а твои коллеги тебе помогают, и ты решаешь свою проблему.

У нас в лаборатории очень приятная атмосфера. Например, наш заведующий лаборатории каждый год устраивает нейроёлку. У нас нейросектор, поэтому и нейроёлка. В этот день мы подводим итоги. Заведующий лаборатории, как всегда, за двадцать минут до начала начинает делать презентацию, потому что в декабре сваливается много задач и он ее никогда не успевает сделать заранее. Каждый год приходят новые студенты, и для новеньких он рассказывает, как лаборатория жила раньше, а потом, о том как прошел этот год непосредственно для лаборатории: что изменилось, что стало лучше.  

ИППИ – один из немногих РАНовских институтов, где студентам довольно хорошо платят, даже относительно индустрии. У тебя очень много свободы – ты катаешься по конференциям. Послушать чужие доклады и результаты работы – это, конечно, очень интересно. Но в основном все ездят на конференции, чтобы потусить и пообщаться с коллегами. Например, на одном из ИТиСов обсуждалось, как понять что твоя работа хорошая. Михаил Гельфанд советовал говорить со всеми людьми, рассказывать чем ты занимаешься, и в какой-то момент кто-то может тебе сказать, что у тебя не актуальная работа и объяснить почему. Тебе нужно не упустить этот момент, потому что исследование может уйти не в ту сторону. В науке важно коммуницировать и получать отклик на свою работу, потому что многие проекты движутся гораздо лучше и гораздо быстрее, когда ты делаешь их с кем-то. 


Что тебя привлекло в работе в индустрии?

В индустрии меня научили очень хорошим хард скиллам. Тебе нужно написать систему, которая будет работать 24 на 7 на определенном уровне качества. В индустрии код может быть принципиально важной точкой, потому что скорость работы твоей системы зависит от того, насколько хорошо ты его пишешь. Я достаточно хорошо в этом прокачалась и даже учу студентов, как надо делать правильно. В науке обычно все очень сильно жалуются на качество кода, который выкладывают научные сотрудники. На самом деле, и в академической среде тоже важно писать хороший код. На многих конференциях сейчас уже требуют, чтобы код модели был выложен, чтобы другие исследователи могли воспроизвести твои эксперименты. Очень много плохих статей не распознали, потому что просто не попросили код. 


Как ты справляешься с такой нагрузкой?

Когда в какой-то момент я перестала вообще что-либо успевать, я стала спрашивать у своего заведующего лабораторией, что с этим можно сделать. Он мне сказал, что первое – это делегировать все, что можно делегировать. Второе – забивать на то, что не важно. Если ты будешь пытаться успеть все, ты наверняка ничего не успеешь. И третье – нужно понимать, что все допускают ошибки. Есть строгие дедлайны, их нельзя пропускать, а вот когда дедлайны не строгие и ты это понимаешь, то в принципе можешь чуть-чуть расслабиться и дать себе отдохнуть. И вообще хорошо отдыхать – это важно. 


Какие у тебя планы на будущее?

Сложный вопрос. Пока я тусуюсь и развиваюсь там, где мне нравится. Больших планов у меня нет. Я счастливый человек, который живет счастливую жизнь, и мне все нравится.