Про Вселенную, баны и поиск видео поговорили на четвертой лекции ФКН в «Ровеснике»
23 апреля состоялась четвертая встреча научно-популярного лектория факультета компьютерных наук и бара «Ровесник». В неформальной обстановке и на языке, понятном широкой аудитории, сотрудники ФКН говорили про Вселенную, баны и ИИ, а также про поиск видео.
Денис Деркач, директор по прикладным исследованиям и разработкам Института искусственного интеллекта и цифровых наук, заведующий научно-учебной лабораторией методов анализа больших данных и доцент ФКН, рассказал, как искусственный интеллект изучает Вселенную.
Давайте сперва поговорим про Большой адронный коллайдер: в нем происходят миллионы столкновений элементарных частиц в секунду, он позволяет отсеивать неподходящие физические теории происходящих процессов с помощью экспериментов. Именно благодаря нему открыли бозон Хиггса, что стало прорывом в исследованиях.
За процессами, происходящими в ускорителе частиц, человеку не уследить, поэтому чтобы понять, что произошло, используются «камеры» — детекторы. Они успешно улавливают и фиксируют детали столкновений частиц. Раньше фотографии были другого качества, и их анализ мог занимать длительное время. С появлением более совершенных детекторов качество изображений улучшилось в том числе благодаря увеличению точности и объема фиксируемой информации. А искусственный интеллект помогает работать с большими массивами данных, поступающих с детекторов.
Вообще машинное обучение — это способ найти правила по примерам, без прямого вмешательства человека. При работе с данными исследований искусственный интеллект производит онлайн-отбор событий, то есть триггеров, сортируя совсем неинтересное и потенциально интересное по определенным характеристикам события. Но для того, чтобы такая модель правильно обучалась, необходимо больше примеров как новых, так и хорошо известных событий. Такие данные также позволят максимально точно симулировать процессы, происходящие в Большом адронном коллайдере.
Следом преподаватель ФКН и ведущий разработчик MTS AI Иван Копылов поделился подробностями работы ИИ-модерации.
Число интернет-пользователей с каждым годом только растет, и фильтровать публикуемый контент вручную становится все менее реальной задачей. Среди проблем — угроза выгорания модераторов из-за большого объема работы и медленная реакция в силу наших физических возможностей. Кроме того, оценка контента человеком всегда субъективна.
Эти проблемы помогает решить ИИ-модерация — автоматическая проверка контента на нарушения: камера захватывает видеопоток и производит круглосуточный анализ видео, чата и аудио; модель анализирует контент и выдает автоматическую реакцию. Если говорить подробнее о компонентах системы, то это, во-первых, компьютерное зрение — анализ кадров, объектов, лиц; во-вторых, обработка текста — чатов, оверлеев — и проведение смыслового анализа; в-третьих, анализ аудио — речи, шумов, выявление ненормативной лексики.
Искусственный интеллект анализирует происходящее, классифицирует это как норму или нарушение, и во втором случае действует исходя из того, что именно нарушено: может автоматически отключить звук пользователя, прислать уведомление о нарушении, передать информацию модератору-человеку или заблокировать аккаунт.
Использование ИИ-модерации помогает соблюсти баланс между точностью оценки контента и скоростью реакции. При этом модели редко допускают ошибки при модерации, и даже в таком случае всегда есть возможность пересмотра того или иного решения.
В завершение Андрей Петров, преподаватель ФКН и ML-инженер видеопоиска в Яндексе, рассказал, почему поисковик показывает пользователям определенные видео.
Андрей Петров
Сейчас на просторах YouTube существует около 15 миллиардов видеороликов. А еще есть другие видеохостинги. И среди такого обилия контента алгоритмы поисковиков подбирают, что вам показать, на основе введенного запроса.
Один из способов поиска по документам, или видеороликам, — это построить по ним прямой и обратный индексы. В первом случае в базе у документа есть списки слов, так называемые термы, из которых видео состоит или которые его характеризуют. Во втором случае, наоборот, к каждому конкретному слову «привязывается» набор документов, в которых оно встречается. Но вот в чем загвоздка: при простом запросе, например, «приехать ночью», на первом этапе находится очень много документов. Задача — сделать так, чтобы поисковик из всего этого обилия показывал пользователю наиболее релевантные.
Из-за того, что поиск происходит по такому огромному массиву документов, которые невозможно уместить в одном месте, используется шардирование — проектирование базы с разбиением данных на части и их размещением на разных шардах. Шард — это узел кластера, который может состоять из одной или нескольких реплик, то есть серверов, на которых дублируются данные.
Следующая встреча барного лектория состоится летом — следите за анонсами в социальных сетях факультета.