ШАД совместно с ПУЛ Робототехники ВШЭ создали в «Сириусе» робота, понимающего команды на естественном языке
Команда школьников под руководством преподавателей факультета компьютерных наук ВШЭ разработала на программе «Большие вызовы» автономную платформу семантической навигации с голосовым интерфейсом.
24 июля в Образовательном центре «Сириус» завершилась десятая научно-технологическая проектная программа «Большие вызовы». Более 400 одаренных старшеклассников из 69 регионов России представили важные для страны инновационные разработки. Команда и наставники проекта В рамках направления «Большие данные, искусственный интеллект, автоматизированные системы и безопасность» команда из пяти школьников работала над созданием автономной платформы семантической навигации.
Команда школьников под руководством преподавателей факультета компьютерных наук ВШЭ разработала на программе «Большие вызовы» автономную платформу семантической навигации с голосовым интерфейсом. Робот способен находить произвольные объекты по голосовым командам без предварительного обучения на конкретных категориях предметов. В состав команды вошли Максим Борсук, Алина Кушмухаметова, Тимур Очилов, Никита Убушаев и Богдан Черемисинов.
Руководителями проекта от ВШЭ выступили старший преподаватель Иван Копылов и заведующий ФКН ВШЭ Андрей Бондарев. Партнерами проекта стали НИУ ВШЭ и компания «Яндекс», предоставившие доступ к современным облачным технологиям и сервисам машинного обучения.
Техническое решение и инновации
Созданный командой робот оснащен RGB-D камерой Intel RealSense D455, лидаром RPLIDAR S2 и вычислительным модулем NVIDIA Jetson Xavier NX. Система использует ROS2, и Nav2 для построения карты и планирования маршрута.
«Основной идеей проекта было исследование современных технологий робототехники, позволяющих создавать универсальных роботов без привязки к конкретному домену, которые понимали бы команды на естественном языке», — рассказывает Иван Копылов.
Особенностью разработки стала интеграция нескольких передовых технологий: система распознаёт голосовые команды через Yandex SpeechKit, обрабатывает их с помощью языковой модели YandexGPT и осуществляет Zero-Shot детекцию объектов с помощью CLIP-подобной модели OWLv2, размещённой в Yandex Cloud DataSphere. Получив 3D-координаты объекта через анализ карты глубины, робот выполняет автономную навигацию в нужную позицию.
Практические результаты
Команда добилась впечатляющих технических показателей: точность детекции объектов составила 88%, время отклика системы — менее 3 секунд, а автономная работа — около 1,5 часов.
«Мы предложили участникам пройти полный путь от железа до машинного обучения, поэтому ребятам удалось попаять электронику, собрать робота из отдельных компонентов, написать свою прошивку для микроконтроллера и подружить все это в софте», — отмечает Андрей Бондарев.
Система включает механизмы активного восприятия для расширения области поиска и обеспечивает голосовую обратную связь с пользователем. Значение проекта для робототехники Разработанная система решает одну из ключевых проблем современной робототехники — создание роботов, способных понимать команды естественного языка и работать с произвольными объектами без предварительного обучения. Большинство существующих решений ограничены фиксированным набором заранее определённых классов объектов.
«Это был мой первый опыт участия в "Больших вызовах", и меня приятно поразил высокий уровень подготовки школьников, а также отличная организационная работа команды нашего направления», — подчеркивает Иван Копылов.
Проект получил научное оформление в виде статьи «Автономная платформа семантической навигации к произвольным объектам с использованием компьютерного зрения и голосового интерфейса», которая демонстрирует высокий академический уровень работы.

Департамент больших данных и информационного поиска: Старший преподаватель
Бондарев Андрей Олегович
Проектно-учебная лаборатория робототехники: Заведующий лабораторией
Копылов Иван Станиславович
Департамент больших данных и информационного поиска: Старший преподаватель