• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

О магии, лимонах и компьютерном зрении

О магии, лимонах и компьютерном зрении

Canva

Студент магистерской онлайн-программы Master of Data Science Алексей Толкачев, ведущий специалист по анализу данных, рассказал о своей победе в хакатоне Agro Code, поделился впечатлениями от программы, а также объяснил, почему в дальнейшем планирует заниматься компьютерным зрением. 

Алексей Толкачев
студент программы Master of Data Science

— Алексей, поздравляем вас с победой в хакатоне! Расскажите немного о себе и о том, как Вы начали заниматься Data Science.

Спасибо! В данный момент я почти как год нахожусь в Сочи, занимаюсь компьютерным зрением в компании ОЦРВ, которая выполняет задачи для нужд РЖД. 
Мое знакомство с такой чудной дисциплиной, как машинное обучение, произошло в Иннополисе, где я проработал три с половиной года. Сейчас уже сложно вспомнить первоначальные обстоятельства, но вроде услышал я об этом на презентации лаборатории машинного обучения и представления данных. Тогда я не имел богатых знаний ни о разработке ПО (ибо само путешествие в Иннополис – это проект по смене деятельности с системного администрирования на сферу разработки), ни о том, что такое машинное обучение. Поэтому озвученные проекты казались некой магией, которую совершает компьютер. А кто не хотел бы обладать возможностью творить магию? 

— Почему Вы выбрали для себя магистерскую программу Master of Data Science Высшей школы экономики?

Ответ будет достаточно банальным. Я хотел получить профильную степень магистра от вуза первой величины без привязки к конкретному месту, а сделать это не в Москве или Петербурге проблематично.

— Почему Вы выбрали для себя трек Data Scientist, чем он Вас привлёк?

Это уже более сложный вопрос. Вообще мне интересна исследовательская деятельность, поэтому изначально я рассматривал для себя трек исследователя. Как правило, одним из результатов исследовательской деятельности является публикация статьи на основании проведенного исследования. Однако в процессе общения с руководителями программы стало ясно, что на исследовательском треке не удастся подготовить публикации, так как, на мой взгляд, времени на их написание может не хватить в рамках обучения на программе. Собственно поэтому я и выбрал трек, который закрепит у меня уже имеющиеся навыки. К тому же, как я понял со слов руководителей программы, прикладными исследованиями занимается именно data scientist.

— Теперь про Ваше участие в хакатоне: как Вам пришла идея участвовать в хакатоне Agro Code? Вы принимали участие в таких мероприятиях раньше?

Рекламу хакатона скинули в Slack мои коллеги, я посмотрел и подумал, почему бы и не поучаствовать, я же все-таки студент.

До этого участвовал в хакатоне лишь один раз в GISHack, где в одной из задач нужно было сегментировать здания по космоснимкам. Там удалось в команде из трех человек занять третье место. Также участвую в соревнованиях на Kaggle.

— А сейчас сколько человек участвовали в команде?

Сейчас было соло соревнование.

— Расскажите подробнее о Вашем проекте на этом хакатоне.

Был дан датасет (примерно 2 500 картинок) с изображениями лимонов 1056х1056 пикселей. Задача — определить недостатки лимона по изображению. Одному изображению лимона может соответствовать несколько типов недостатков одновременно. Необходимо было написать код, который и обучал модель, и делал полный цикл чтения данных, обучения модели и последующего предсказания за 20 минут на платформе организатора. Использовать внешние данные и интернет в момент решения задачи нельзя. На соревновании был лидерборд, который составлялся на основании Macro Milticlass ROC-AUC для подмножества тестовых данных. Опубликованный код с лучшим значением метрики на подмножестве тестовых данных считался финальным и прогонялся на всех тестовых данных. Полученный результат на полном наборе данных и считался финальным при определении победителя.

— Кстати, в плане полученных результатов и знаний — какой курс программы оказался для Вас наиболее интересным?

Относительно курсов, то однозначно лучшей реализацией оказался курс по Data Scraping. Это, пожалуй, образец того, как практические курсы должны выглядеть, здесь есть все, что нужно: необходимый набор теории, актуальные практические задания, объемный интересный проект, который нужно было реализовывать поэтапно на протяжении трех недель (от базового функционала к допиливанию всяких тонкостей, улучшающих работу), полезные вебинары с обсуждениями дополнительных материалов и отличное владение английским со стороны преподавателя. Все это в совокупности сделало курс очень крутым. Из остальных курсов я положительно отметил бы еще курсы Ильи Щурова по теории вероятности и статистике и курс по Advanced Python от Юрия Горишнего и Дмитрия Борисова.

— Чем Вы планируете заниматься после обучения на программе?

Хотелось бы найти PhD-программу, связанную с компьютерным зрением (в частности, анализом изображений в медицине), и поступить на нее.

Есть несколько причин, почему я выбрал именно это направление:
Во-первых, так исторически сложилось. В 2018 году я имел опыт учебных проектов в классическом машинном обучении, в компьютерном зрении и в обработке естественного языка. Я человек любопытный, и мне было интересно любое из этих направлений. Однако дальнейшие проекты, которые хотели реализовать мои будущие работодатели, относились к области компьютерного зрения.
Во-вторых, когда-то давно, когда я и умел программировать разве что на Паскале, у меня была идея создать одно приложение, которое, как потом выяснилось, использовало бы в себе технологии компьютерного зрения. Приложение я так и не создал (оно утратило актуальность), зато узнал, как работают те технологии, которые собирался использовать. Фактически, я удовлетворил потребность в создании той "магии", о которой говорил ранее, узнав секрет фокуса.
И, наконец, классическое компьютерное зрение, как выяснилось, использует много различной математики, которая была мне по душе в школьные и университетские годы. И лично мне очень нравится лицезреть наглядное воплощение каких-либо фундаментальных математических концепций в чем-нибудь наглядном и простом.