От продаж бронирования к продаже «опыта»: как машинное обучение меняет индустрию туризма
Что общего между покупкой квартиры и авиабилетов, почему ваше мнение действительно важно отелю и как продать пользователю «опыт» — об этом и не только читайте в интервью с Павлом Велиховым, преподавателем Департамента анализа данных и искусственного интеллекта, который работал ранее на позициях Head of Data Science в Ostrovok.ru и Chief Science Officer в TopRater.com.
Как большие данные применяются в индустрии туризма?
Туризм — это очень обширная область, в ней есть гиганты типа tripadvisor, booking.com, airbnb, а есть очень много маленьких игроков. У больших компаний возникает огромное количество задач, которые машинное обучение помогает решать: от попыток предсказать конверсию, проранжировать поисковую выдачу до анализа отзывов и построения системы рекомендаций для пользователей.
Машинное обучение — это методы и технологии, которые позволяют автоматически находить закономерности в больших объёмах данных. Например, можно определить, какие именно характеристики отеля влияют на удовлетворённость пользователей, или научиться по истории поездок пользователя выбирать такие направления, на которые клиент купит путёвку с наибольшей вероятностью.
У больших компаний много данных: есть картинки, данные про гостиницы, отзывы. Эти данные часто бывают очень низкого качества: например, фотографии с плохим разрешением или не от той гостиницы, в описании гостиниц также встречается много ошибок — допустим, в описании перечисляются amenities типа стиральной машины, утюга, а на самом деле их нет. В связи с этим возникают задачи по верификации информации по данным, и сейчас все большие игроки активно внедряют системы компьютерного зрения. Они позволят распознавать, что представлено на картинках, проводить классификацию картинок — понимать, например, какая комната изображена на фотографии: ванная, спальня и прочее.
Также возникают задачи по определению стиля и качества фотографий, с которыми гостиницы продаются лучше. Появляются научные работы по детекции качества картинок, где нейросеть выбирает лучшие фотографии для продаж.
Ещё одна из больших задач в туристическом бизнесе, которая похожа на задачу кредитного скоринга, — понять, будет ли человек отменять бронирование. Дело в том, что с момента, когда человек совершает бронирование, до момента его заселения обычно проходит какое-то время. Это похоже на ситуацию, когда человек берёт ипотеку на покупку недвижимости и нужно предсказать вероятность, с которой он эти деньги вернёт банку. За время до путешествия у клиента могут измениться обстоятельства, и обычно у агрегатора или гостиницы уже есть какие-то данные про клиента. Также агрегатору известны данные про поставщика гостиницы, есть история того, как часто у этого поставщика отменяются бронирования. Важная задача для бизнеса, которая позволит заметно оптимизировать распределение номеров, — своевременно понять, какие действия совершит клиент и минимизировать свои потери, и вот на основании всех этих данных можно строить довольно мощные предсказательные модели.
Но это всё задачи больших игроков. В менее крупных компаниях есть проблема, что от внедрения машинного обучения конверсия пользователей не растет, поскольку поток клиентов маленький и значительного эффекта от машинного обучения тяжело добиться. Таких компаний очень много, для них пока продвинутое машинное обучение не очень полезно, но хорошо работают классические аналитические инструменты, методы оптимизации и так далее.
Это всё задачи про продажу бронирований. А что происходит в других направлениях туризма?
Возникают некоторые задачи в бронировании авиабилетов. Продажи авиабилетов — тяжелый, низкомаржинальный бизнес, и там тоже встречаются задачи, с которыми может помочь справиться машинное обучение. Например, также есть задача предсказывать, будет ли человек отменять бронирование на самолет, зашёл он на сайт, чтобы купить билет на самом деле или он просто интересуется данным направлением. Основной фокус в авиаперевозках, конечно, нацелен на то, чтобы оптимизировать маршруты для клиентов, но это скорее относится к алгоритмам и аналитике, чем к предсказательному моделированию.
Также появляются сторонние продукты для отельеров: например, сервисы по оптимизации почтовой рассылки, которые позволяют понять, кому из посетителей сайта не присылать рекламную рассылку, а также разные метапоисковики, которые пытаются предсказать конверсию клиента, приходящего на сайт.
Но всё-таки в настоящее время основное применение машинного обучения встречается в задачах букинга. И сейчас все статьи по машинному обучению в индустрии туризма публикуются крупными букинговыми компаниями, они же держат лидерство на профессиональных митапах и конференциях.
Какие тренды можно наметить?
В одном индийском стартапе команда в корне пересматривает подход к индустрии. В этом подходе клиент приходит на сайт и сообщает, что он хочет в свой отпуск получить: покататься на лыжах или съездить на море, или сходить на концерт и так далее. Затем система отбирает для клиента предложения, основываясь на анализе отзывов. Кроме того, в Индии много дешёвой рабочей силы: у них есть возможность отправить специальных сотрудников собирать данные про окрестности гостиниц и достопримечательностей, тем самым они формируют геобазы интересных мест. В итоге клиент может задать сервису свои пожелания и получить ранжированный список рекомендованных мест, который максимально удовлетворяет его запросу.
В этом же стартапе тратят много усилий на создание чат-ботов. В привычном интерфейсе клиент приходит на сайт, забивает направление и выбирает гостиницу из предложенного списка, а новая идея заключается в том, что клиент взаимодействует с интерактивной системой диалога, она задаёт ему уточняющие вопросы и формирует наиболее релевантную выдачу по его ответам. В туризме сейчас действительно наблюдается большой тренд на создание умных чат-ботов, здесь это направление имеет очень большие перспективы.
Airbnb недавно начали продавать experiences — это полный пакет возможностей, включающих и поездку в какую-то страну, гида, и экскурсию, посещение мероприятий. Когда человек планирует свой отдых, в нём очень много разных аспектов: кроме заселения в гостиницу, вы ходите по музеям, занимаетесь спортом, обедаете. И сейчас вам никто весь этот путь не выстраивает, всё фрагментарно — купить билеты можно в одном месте, гостиницу забронировать в другом, спланировать отдых самостоятельно или через друзей. А если сделать диалоговую систему, которая будет вести вас полностью через ваше путешествие, и с которой в любой момент можно связаться и спросить, где посмотреть что-то интересное через пару часов, это сильно меняет весь подход в индустрии в целом, меняет структуру рынка.
И вот к этой концепции идет Airbnb и многие другие игроки: от того, чтобы быть сайтом бронирования к тому, чтобы стать сайтом продажи «опыта», но это пока ещё только развивается.
А насколько вообще доступны данные в индустрии туризма?
На самом деле, с данными всё сложно. Открытых данных практически нет, получить качественные данные сложно, потому что многие даже крупные компании агрегируют информацию от других игроков бизнеса, то есть приобретают контент от третьих лиц.
Больше всего данных приходится на отзывы, у крупных игроков их сотни миллионов, и их анализ — это очень многообещающая тема. Например, на основе отзывов можно строить персональных ассистентов, тех самых чат-ботов. В отзывах пользователи пишут очень многое, часто описывают не только свой опыт пребывания в конкретной гостинице, а ещё рассказывают, что они делали рядом: взяли гида, посмотрели выставку в музее, через дорогу посетили ресторан и там было вкусно... Так появляются отзывы на какие-то активности вокруг гостиницы, о них тоже формируются отзывы, всё это создаёт новую систему, по которой можно строить рекомендации. В TopRater.com, например, пытались сделать поисковик отелей на основе данных из пользовательских отзывов, а не тех, которые предоставляет отельер.
Основная проблема с отзывами в том, что они часто используются для накрутки интереса, создаётся много фейковых отзывов — с этим всем нужно уметь бороться и это тоже можно делать с помощью методов машинного обучения, например, выявлять и игнорировать отзывы, в которых очень мало личных деталей, или они типовые («хорошая гостиница, приятный персонал»).
Помимо отзывов, есть много фотографий, с которыми можно работать с помощью методов искусственного зрения, распознавания образов. И также есть данные по бронированию, данные пользователей, и чем крупнее игрок, тем большими массивами он обладает.
Есть data scientist-ы, которые умеют работать с данными, а есть другие участники индустрии. Что им полезно понимать про данные, чему стоит учиться?
Ландшафт бизнеса меняется, появляется много всего нового в области IT-технологий, что применяется в этой индустрии. В ближайшем будущем будут активно использоваться диалоговые системы, появятся интерактивные бизнесы по планированию путешествий, разного рода агрегаторы будут двигаться в направлении машинного обучения. Если работать в этой индустрии, то про все это надо понимать, как это работает, какие технологии существуют, как их можно применять и к чему ведёт такое развитие.
Ещё хорошо бы понимать, как правильно выстроить инфраструктуру данных, как их хранить и собирать, но это больше задачи для дата-инженеров — особенно у крупных компаний, где идут миллионы бронирований в сутки, возникает потребность очень серьёзно подходить к дата инжинирингу. А для тимлидов, менеджеров, продакт оунеров будет очень полезно уметь обращаться самостоятельно к базе данных и смотреть на сырых данных, что происходит: для этого нужно уметь писать запросы на SQL, чтобы получить данные из базы, проверять простые гипотезы на данных, с помощью библиотек Python построить простые визуализации — графики и диаграммы, работать с геоданными.
С 2019/2020 года на образовательной программе магистратуры “Экономика впечатлений: менеджмент в индустрии гостеприимства и туризме” в рамках проекта Data Culture запускается обязательный курс «Введение в Data Science». Данный курс ставит перед собой цели познакомить студентов с основными понятиями и принципами работы искусственного интеллекта (большие данные, машинное обучение, нейронные сети), а также научить основам языка программирования Python и анализа данных в применении к задачам гостиничного бизнеса.
Беседовал Евгений Соколов, интервью записала Ольга Подольская.
Научно-учебная лаборатория анализа данных в финансовых технологиях: Заведующий лабораторией
Все новости автора
Велихов Павел Евгеньевич
Департамент анализа данных и искусственного интеллекта: Преподаватель