«Важно ценить свое время и свои усилия»
Студентка программы «Прикладная математика и информатика» Арина Рак приняла участие в двух зарубежных стажировках несмотря на пандемию. Она рассказала нам о том, какие трудности ей пришлось преодолеть и как удалось добиться своего.
Поступление и учеба
Мой брат — программист, поэтому рядом всегда был человек, который занимается компьютерными науками, но сама я заинтересовалась не из-за него. В восьмом классе мы с Аней (женой брата) вместе стали проходить онлайн-курс по Python, мне очень понравилось. Аня быстро бросила курс, а я загорелась, прошла этот курс, потом другие, перешла в математическую школу. Так что это все — счастливая случайность. Когда я познакомилась с Python и поняла, что мне интересно, я перешла из своей школы с углубленным изучением английского языка в лицей при Бауманке — там учился мой брат и мы знали, что там хорошая математическая подготовка.
В 11 классе я не очень хорошо понимала, куда пойду, я примерно представляла себе программы. Выбирала между МГУ, Вышкой и Физтехом. Конечно, дело было и в преподавателях, для которых это зачастую не основная работа, они — практикующие специалисты, которые при этом еще и преподают. Это влияет и на средний возраст, и на актуальность знаний. Наши преподаватели — живые люди, с ними можно после лекции поболтать и это будет просто разговор с программистом, специалистом в своей области, а не с профессором. ПМИ мне ближе, потому что мне интересна математика, и хотелось больше математики, чем программирования. Ну и, конечно, повлияло то, что Вышка не в Долгопрудном (смеется).
Опыт лицея помог мне на первом курсе ПМИ, когда выпускники обычных школ пугались длинных пар и сложных слов. Первые два курса у нас было много математики. Зачастую у программистов такое обилие математики вызывает вопросы. У нас на лабораторных по линейной алгебре были задачи, например, по разложению матриц, которые мы решали на Python. Такие прикладные примеры очень помогают понять зачем ты это учишь, мотивация появляется и интерес. Все курсы в целом построены так, что они необходимы в дальнейшем, то есть у нас не было изучения ради изучения.
EPFL
Я учусь на специализации «Машинное обучение и приложения», чуть больше опыта имею в обработке естественного языка. Когда я подавалась на стажировки, я не фокусировалась на конкретной области глубинного обучения, хотелось попробовать всего, понять как все устроено в каждой области и сделать выбор и карьеры, и магистратуры.
Процесс отбора был очень долгим. Сначала они принимали документы — резюме и мотивационное письмо. Каждые две-три недели они присылают пачки отказов. Мы подавали документы с группой людей, было несколько волн отказов, моим знакомым отказы присылали в третью-четвертую волну. После этого, если повезет, попадаешь в пул, где руководители рассматривают тебя.
Когда я проходила на первую стажировку в EPFL, первое мое собеседование было на тему компьютерного зрения, но общение не задалось, задача показалась мне неинтересной. Когда меня спрашивали про опыт, я вскользь упомянула, что у меня сейчас курсовая по обработке естественного языка, и человек мне просто сказал, что у него есть коллега, которому нужен стажер по этой теме, и порекомендовал меня ему. С этим коллегой мы поговорили, у него была отличная задача, он меня сразу пригласил. Так, случайно упомянув о теме, я нашла себе замечательного научного руководителя.
В начале марта я начала готовить документы, а в середине они полностью отменили мобильность. Но я уже заинтересовалась задачей, мне понравился руководитель, я им говорила, что хочу как угодно, дистанционно; они не перевели ее в дистанционный формат, я сама попросилась. Я с руководителем до сих пор не виделась, хотя мы уже год работаем. Теперь, когда я выехала на стажировку в Карлсруэ, я наконец смогу с ним встретиться.
В EPFL мы занимались multi-hop question answering (тип задачи ответов на вопросы), когда есть вопрос, и для того, чтобы на него ответить, нужно в тексте найти несколько релевантных кусочков. В классической постановке у тебя есть вопрос, есть текст, и где-то в этом тексте есть одно или два предложения, идущие подряд, которые на этот вопрос отвечают. А при multi-hop нужно сделать несколько прыжков, то есть ответ не локализован, а есть несколько областей текста, отвечающих за него.
Мы в основном концентрировались на том, что современные модели для обработки естественного языка не умеют работать с длинными последовательностями, а когда задача формулируется в таком виде, обычно даются очень длинные тексты, и их нужно сначала «почистить», чтобы только релевантную часть подавать этим умным моделям. Так что мы занимались фильтрацией нерелевантного в текстах. Практические применения этой задачи — поиск, диалоговые ассистенты, например, если есть ряд сообщений, и в них нужно найти какой-то ответ.
Карлсруэ
Тема моей второй стажировки в Технологическом институте Карлсруэ — компьютерное зрение для биологии. Наши данные — это трехмерные микротомографии брюшной полости. В этой области сложность в том, чтобы разметить данные — это времязатратно и требует специалистов-медиков. Разметка одного скана одного человека может занимать до четырех часов. Чтобы сделать полную сегментацию брюшной полости нужно иметь очень большое количество данных, это стоит очень дорого. Для двумерных данных, для других доменов эта задача вполне себе решается; именно в медицине сложно сделать разметку.
Мы хотели обучить модель, которая сможет размечать всю брюшную полость, на основе нескольких наборов данных с разной разметкой. Например, в одном месте собрались эксперты по почкам и разметили только почки, а все остальное отмечали как фон; для другой медицинской задачи также размечали печень, и так далее. Мы использовали contrastive loss, чтобы обучить представления для каждого пикселя из этих разнородных датасетов, а затем обучали небольшие классификаторы по этим представлениям. Результаты работы модели можно использовать для дальнейшего анализа данных: измерять средний размер, среднюю ширину органа; также у нас были данные про опухоли: обучившись на них, можно обнаруживать опухоли на новых данных, можно их использовать просто как медицинские атласы.
Здесь я все-таки смогла пару раз побывать в кампусе, видела вживую руководителя, но работаю все равно дистанционно из общежития.
За границу в пандемию
Попасть заграницу было на удивление несложно. Все сложности, которые возникали, были связаны с оформлением документов и подачей заявки на грант. Мне очень легко дали визу на три года, хотя другим очень сложно попасть даже на конференцию, думаю это было из-за того, что спонсировал меня немецкий государственный фонд.
Я знаю английский язык, немецкий у меня на супер-базовом уровне, достаточно только для похода в магазин. Мой рекорд — диалог в кофейне на восемь реплик с каждой стороны. Раньше я считала, что все нужно сказать идеально, сейчас для меня главное — донести то, что необходимо. Я не знаю насколько соблюдаю правила немецкого языка, но у меня и нет цели быть самым правильным немцем.
Мне очень повезло, что я вовремя уехала, если бы я уезжала на неделю позже, не знаю, впустили ли бы меня в Германию, потому что в России пошла новая волна. Я попала в момент, когда отменили карантин для России, и мне не нужно было сидеть, можно было просто приехать с тестом. Каждую неделю что-то начало открываться, кафе, музеи. Тестирование быстрое и бесплатное, тест делается за десять минут и действует один день. Я смогла съездить в другие города, даже выехала к брату в Цюрих.
Увлечения
Я очень люблю гулять, ходить на большие расстоянии по городу, еще занимаюсь indoor cycling. Смотрю сериалы как все, миллион раз смотрела «Друзей», еще мне очень понравился сериал «Мост».
Планы
Этот год я хочу поработать в индустрии. У меня уже сложилось какое-то представление об академии, об индустрии представления совсем нет. Я работала только в Яндексе на втором курсе. Через год я хочу поступать в магистратуру на основе того, что увижу в индустрии. Для магистратуры рассматриваю Европу — Швейцарию, Голландию, Германию, Шотландию. Идеально было бы поступить в EPFL после того позитивного опыта, который я получила на стажировке.
Совет будущим участникам
Важно ценить свое время и свои усилия. Если вы за что-то взялись, то постарайтесь довести это до конца и донести до других, что ваше время это ценная вещь. Нужно иметь своего рода наглость. В обычном состоянии я бы просто пожалела об отмене стажировки, тем более, что дистанционку никто не предлагал. Тут я потратила много времени и усилий, поэтому добилась того, чтобы меня взяли на стажировку, а потом и превратила ее в диплом.