Аналитик данных и data scientist: в чем отличие?
На первый взгляд профессии аналитик данных и data scientist могут быть похожи, да и во многих компаниях обязанности этих двух специалистов часто пересекаются. Центр непрерывного образования ФКН поговорил с Сергеем Юдиным, руководителем группы качества discovery-сценария в поиске Яндекса, об особенностях работы в каждой из профессий. В интервью Сергей рассказал о необходимых навыках и перспективах профессий и о том, как сделать беспрецедентным преимуществом свой предыдущий опыт.
Чем ты занимаешься?
Я руковожу группой качества discovery-сценария в поиске Яндекса. Мы занимаемся разработкой поисковых рекомендаций. В этом проекте я уже около двух лет, а в самом Яндексе работаю больше четырёх с половиной. Все мои проекты так или иначе были связаны с аналитикой данных и машинным обучением.
Поисковые рекомендации — это запросы, которые в поисковой выдаче помогают пользователю с его задачей, в нужный момент подсказывая, что еще полезного и интересного можно спросить или как уточнить свой запрос.
Наша задача складывается из большого количества составляющих: машинного обучения, аналитики и анализа действий пользователей. Мы стараемся понять, как данные о том, что люди ищут в Яндексе, превратить в полезный продукт.
Есть две специальности: аналитик данных и data scientist. Расскажи, чем занимаются те и другие.
Во-первых, и те, и другие работают с данными и решают очень похожие задачи. Но если говорить про аналитика, то это определение намного шире, чем data scientist. При этом, если мы говорим именно про data-аналитиков, то стоит упомянуть, что они работают с определёнными типами продуктов. Например, когда у нас есть некоторые пользователи и действия в лог-файлах, которые можно агрегировать и изучать.
Data scientist’ы тоже встречаются там, где есть данные, но важное и необходимое условие появления в команде data scientist’а — это наукоёмкая задача вокруг данных. Необязательно должны быть пользователи, но данные — обязаны быть.
Возьмем, например, такое интересное место, как адронный коллайдер. Там очень много данных, которые нужно анализировать и обрабатывать наукоёмкими методами. Типичный data-аналитик в таком месте с его классическими скиллами скорее не нужен, а вот data scientist там пригодится.
Между этими двумя профессиями нет чёткой грани, это скорее спектр. В Яндексе аналитик-разработчик зачастую является тем же самым data scientist’ом, если он работает с методами математической статистики, машинного обучения или оптимизации. Но аналитик — это очень прикладная специальность. Основная задача любого аналитика данных — получить из этих данных пользу для бизнеса, продукта или людей.
А data scientist в первую очередь scientist, то есть ученый, который должен заниматься исследованиями. Зачастую в классическом понимании data science — это наука о данных, а раз это наука, то можно сказать, что KPI такого человека — это продвижение науки вперёд, например, через написание статей. Data-scientist’ы придумывают новые методы, их применение и рассказывают об этом миру.
Я использую не общепринятую терминологию, как на рынке труда, а некое словарное определение профессии, которое можно очень сильно расширять. Когда я говорю про то, что задача data scientist’а писать статьи — это, естественно, некоторая полярность. Интереснее рассмотреть именно полярности, потому что в реальности есть множество людей, которые одновременно занимаются и задачами аналитика, и тем, что можно назвать data science.
Что ты понимаешь под «наукоемкими методами»?
В практическом применении широкую известность имеют методы машинного обучения. Существует множество прикладных алгоритмов обработки данных. При работе с данными иногда появляются задачи, которые можно назвать научными: они формализованы, для них приняты некоторые допущения, и в таком виде задачу можно решить явно. К примеру, можно доказать, что некоторым алгоритмом задача решается оптимальным образом.
Наукоёмкие методы — это те методы, за которыми стоит некое нетривиальное доказательство, и они работают. Часть из них воспроизводимы на практике и имеют практическую пользу, а некоторые оказываются слишком модельными. В теории метод работает, но на практике он не применим, просто потому. что те допущения, вокруг которых доказывалась математическая или компьютерная задача, не воспроизводимы в реальности.
Можно сказать, что в одному углу стоят как раз исключительно теоретические задачи, не используемые на практике. А в другом — задачи обработки данных, за которыми не стоит особой науки: можно просто взять данные, сгруппировать, посчитать среднее, отсортировать и сделать аналитический вывод. Где-то на стыке и лежат те самые методы, которые называют «наукоёмкими».
Можешь на конкретных примерах рассказать, чем занимаются аналитики?
Аналитик — это тот человек, который может смотреть на данные шире, строить и проверять гипотезы. Задача аналитиков — нести практическую пользу и искать новые знания в данных. Люди анализировали данные еще до возникновения компьютеров.
Так, например, японский инженер и статистик Генити Тагути еще в 1940-х годах разработал концепцию «инжиниринг качества». В рамках этой идеи он статистическими методами анализировал данные производства, проводил эксперименты и значительно уменьшал издержки, повышая при этом качество продукции. Впоследствии его методы были реализованы в оптимизации производства Ford Motor Company.
Приведу один пример задачи аналитика из своей практики. В Яндексе провели эксперимент, добавив в поисковую выдачу новые элементы — картинки в сниппетах. При этом пользователи стали иногда реже кликать и решать свои задачи, метрики ухудшились. Можно было выдвинуть десяток гипотез, почему так произошло.
У нас были логи действия пользователей в этом эксперименте: история запросов, клики и другие взаимодействия. Задача аналитика в данном случае — разобраться в том, что произошло. Правда ли новый элемент ухудшает качество выдачи? В нашем случае выяснилось, что пользователи стали реже кликать именно в тот момент, когда на выдаче был всего лишь один элемент с картинкой. Мы предположили, что одна картинка отпугивает пользователей, потому что выглядит чужеродной. Когда в выдаче картинок несколько пользователям проще визуально её воспринимать.
Мы проверили эту гипотезу, и на данных она подтвердилась. В итоге удалось сделать понятный продуктовый вывод: если элемент один, то его лучше отключить, и показывать только в том случае, когда этих элементов несколько. Пользователи были довольны, так как страница выглядела гармонично.
Какими навыками должны обладать аналитик?
В первую очередь это «умение работать с данными». Любые инструменты, которые этому способствуют, начиная от обработки данных в таких программах как Excel, заканчивая любым языком программирования, который позволяет проводить более сложную обработку и автоматизировать процессы.
Кроме инструментария нужно ещё понимание. То, что в резюме подразумевается под «аналитическим складом ума». Во-первых, это присутствие логики, умение строить выводы. Во-вторых, это способность генерировать гипотезы и умение проверить свои выводы. И последнее, рациональное мышление – отсутствие когнитивных искажений или понимание того, как эти когнитивные искажения работают, и умение им противостоять.
Простой пример когнитивного искажения – эффект привязки. Когда-то два учёных Амос Тверски и Даниэль Канеман провели эксперимент: испытуемых в двух группах просили оценить долю африканских стран в ООН. Только в первой группе вопрос задавали следующим образом: «Доля африканских стран в ООН больше или меньше 65%?» И второй вопрос: «Сколько на самом деле процентов составляет доля африканских стран?». Второй группе задавали аналогичные вопросы, только в первом вместо 65% подставляли 10%. Несмотря на то что второй вопрос не отличался, а группы были случайными, результаты статистически очень сильно различались. Медианный ответ в первой группе составлял 45%, а у второй группы – 25%. Ответ на второй вопрос испытуемые давали под сильным влиянием от формулировки первого.
Это и есть когнитивное искажение. В работе с данными часто встречаются подобные проблемы, и аналитику всегда нужно проверять, не является ли вывод натянутым.
А какими навыками должен обладать хороший data scientist?
Любой data scientist – это аналитик, но не любой аналитик – data scientist, поэтому всё, что мы сейчас сказали, к data scientist’у точно относится. В дополнение, это, конечно же углублённые математическая подготовка и понимание статистических методов, а также всё, что связано с работой этих алгоритмов на практике. Методы компьютерного анализа данных построены на линейной алгебре, математической статистике и компьютерных науках. Должно присутствовать базовое понимание каждой из этих областей.
Данные всегда относятся к конкретной области. В зависимости от того, в какой индустрии человек работает, он должен разбираться в этой сфере. Это могут быть медицинские данные, данные адронного коллайдера или лог-файлы интернет-сервиса. В первом случае нужно всё-таки понимать в медицине, в случае адронного коллайдера – понимать в физике, а в случае интернет-сервисов речь идёт уже о некоторой пользовательской аналитике: нужно понимать, как люди могут себя вести, и какие паттерны поведения могут присутствовать.
В каких компаниях могут работать такие специалисты?
Аналитики могут работать в любой сфере, связанной с интернет-сервисами, приложениями или мобильной разработкой. Везде, где есть данные, пусть их совсем немного, нужны такие специалисты.
Data scientist’ов ищут для решения крупных задач связанных с данными. У таких задач обязательно должно быть одно из свойств: либо бизнес-смысл, либо научная ценность, а также место для применения сложных методов, например, алгоритмов оптимизации машинного обучения.
Также для того, чтобы применение сложных методов себя оправдало, должна быть дополнительная прибыль. Применение таких методов зачастую стоит дорого, но оно может окупиться.
К примеру, у маленького магазина действительно может быть много транзакций. Но в данном случае применять сложные методы нет необходимости. Достаточно просто посмотреть, какие товары хорошо покупают, и сделать базовую аналитику. А для сети с тысячью магазинов увеличение чека даже на 0,1% может окупиться и оправдать внедрение сложного метода обработки данных.
В случае научной ценности важна выгода не столько с точки зрения денег, а с точки зрения понимания устройства этого мира. Если мы говорим про исследование космоса или микро-частиц, то применение сложных методов может окупаться за счёт того, что мы узнаем об этом мире больше.
Насколько перспективны эти профессии?
Потребность как в data-аналитиках, так и в data scientist’ах, растет не арифметически, а геометрически. Впрочем, как и количество данных компаний, мощность и стоимость некоторых кластеров, в которых можно применять сложные методы и хранить данные. Пока что тенденция такова, что геометрический рост продолжится ближайшие несколько лет.
Другое дело, что есть перекос в сторону специалистов с некоторым опытом, чем с джуниор-уровнем. Компании в поисках тех специалистов, которые уже сталкивались с аналогичными задачами и умеют их решать.
Но и специалистам без опыта не стоит сильно переживать. Компании готовы учить работников, поэтому иногда бывает достаточно показать, что кандидат готов осваивать новые знания. Важно не просто прослушивать курсы, а показать, что ты можешь быстро освоиться в методах, и доказать, что ты научился их применять. Таким образом ты покажешь, что от тебя можно ждать больших результатов и через несколько лет.
Есть множество специалистов, которые могут быть новичками именно в профессии аналитика, но у них есть некоторый смежный опыт, и они готовы из этого смежного опыта извлекать выгоду. Например, человек, занимающийся медициной, идёт в аналитику данных в области медицины. Он новичок в анализе данных, но его бэкграунд может быть решающим в таком случае: он будет преуспевающим специалистом, вырастет через год и принесет столько пользы, сколько другой опытный data scientist никогда не принёс бы на этой позиции.
Специалистов, у которых есть опыт и в смежной области и в сложной аналитике, еще меньше, а потребность в них – все больше. Количество данных стремительно растет в узкоспециализированных областях. Поэтому всем начинающим специалистам будет полезно сразу определиться со смежной областью и начинать развивать в ней свои навыки.
Можно войти в профессию с нуля?
Да, про это и был в какой-то мере ответ на прошлый вопрос. Никто не рождается профессионалом. Вопрос можно сформулировать так: какой бэкграунд поможет войти в профессию и какова сложность этого входа?
Для аналитиков она меньше, чем для data scientist’ов. Аналитик может начать решать задачи уже с базовыми знаниями. Для некоторых сложностью может стать то, что до устройства на полный рабочий день возможно придётся пройти стажировку, позаниматься своими собственными pet project’ами и загореться этой индустрией. Настолько загореться, чтобы быть готовым даже самостоятельно, в качестве хобби искать данные и их исследовать. Вот в таком случае с нуля точно можно войти в профессию.
Надо набивать руку на написание кода до выхода на первое место работы, потому что программирование – это третий иностранный язык, который нужно знать. Те же самые pet project’ы или соревнования могут этому очень сильно поспособствовать.
С какими сложностями можно столкнуться в работе?
В этой профессии, даже если ты работаешь уже несколько лет, можно быстро отстать, если перестать учиться. Осваивать новое придется постоянно –– и подходы, и инструментарии, потому что мир вокруг нас быстро меняются. К этому нужно быть готовым.
Аналитик никогда не знает, с какой конкретно сложностью он столкнется в задаче, а непонимание в этой области усугубляет проблему. Например, если при исследовании поведения пользователей в эксперименте, у аналитика обнаруживаются провалы в знании математической статистики, то сделать выводы по данным может быть очень сложно, не говоря уж о построении гипотез.
Другая сложность – это коммуникация. Профессия аналитика и data scientist неотрывно связаны с общением с людьми. Data scientist может работать в вакууме с отдельной задачей, которую он будет решать полгода, а потом представить результат. Но зачастую и у людей, занимающихся, например, практическими применениями алгоритмов, возникает потребность общаться с той частью, у которой они будут брать данные. Сейчас есть тенденция разделения на тех, кто исследует что-то и проверяет гипотезы, и тех, кто это потом встраивает. И нужно объяснить, как это всё встроить и разработать.
Аналитику обязательно придется много общаться с другими сотрудниками: доказывать свою точку зрения, убеждать, качественно аргументировать своё мнение и слушать оппонента. Однако не менее важно уметь менять своё мнение, если оно оказалось неправильным. Проверяя гипотезы, нужно уметь смотреть на данные с холодной головой.
Подводя итог, какие ключевые различия между аналитиком данных и data scientist’ом?
Аналитик данных – человек, который из данных получает практическую пользу. Data scientist – это человек, который умеет применять сложные методы обработки данных и понимает, как они устроены. Во многих компаниях эти профессии очень сильно пересекаются.
Если задаться целью освоить конкретную профессию, то в зависимости от бэкграунда можно пойти или в аналитику, или в data science. Если у вас технико-математический бэкграунд, то попробуйте себя в практическом применении тех методов, которые вы уже знаете, и теорем, которые вы уже доказывали. Если ваш бэкграунд больше из конкретной отрасли, то стоит начать с аналитики данных, и постепенно, в зависимости от потребности и от вашего интереса, наметить вектор дальнейшего развития. Сложные методы могут быть и не нужны в той области, которая вам будет интересна.
Освоить обе профессии с нуля можно в Центре непрерывного образования факультета компьютерных наук.
Изучить базы данных и язык SQL, язык Python, его применения для сбора, визуализации и анализа данных, статистику и машинное обучение, а также аналитические и продуктовые подходы для работы над реальными задачами можно на программе профессиональной переподготовки «Аналитик данных».
На программе «Специалист по Data Science» вы погрузитесь в современный анализ данных и машинное обучение: от изучения программирования и базовых разделов математики до глубинного обучения, прикладной статистики и работы с большими данными.