Про Вселенную, баны и поиск видео поговорили на четвертой лекции ФКН в «Ровеснике»

23 апреля состоялась четвертая встреча научно-популярного лектория факультета компьютерных наук и бара «Ровесник». В неформальной обстановке и на языке, понятном широкой аудитории, сотрудники ФКН говорили про Вселенную, баны и ИИ, а также про поиск видео.

Денис Деркач, директор по прикладным исследованиям и разработкам Института искусственного интеллекта и цифровых наук, заведующий научно-учебной лабораторией методов анализа больших данных и доцент ФКН, рассказал, как искусственный интеллект изучает Вселенную.

Денис Деркач

Давайте сперва поговорим про Большой адронный коллайдер: в нем происходят миллионы столкновений элементарных частиц в секунду, он позволяет отсеивать неподходящие физические теории происходящих процессов с помощью экспериментов. Именно благодаря нему открыли бозон Хиггса, что стало прорывом в исследованиях.

За процессами, происходящими в ускорителе частиц, человеку не уследить, поэтому чтобы понять, что произошло, используются «камеры» — детекторы. Они успешно улавливают и фиксируют детали столкновений частиц. Раньше фотографии были другого качества, и их анализ мог занимать длительное время. С появлением более совершенных детекторов качество изображений улучшилось в том числе благодаря увеличению точности и объема фиксируемой информации. А искусственный интеллект помогает работать с большими массивами данных, поступающих с детекторов.

Вообще машинное обучение — это способ найти правила по примерам, без прямого вмешательства человека. При работе с данными исследований искусственный интеллект производит онлайн-отбор событий, то есть триггеров, сортируя совсем неинтересное и потенциально интересное по определенным характеристикам события. Но для того, чтобы такая модель правильно обучалась, необходимо больше примеров как новых, так и хорошо известных событий. Такие данные также позволят максимально точно симулировать процессы, происходящие в Большом адронном коллайдере.

Следом преподаватель ФКН и ведущий разработчик MTS AI Иван Копылов поделился подробностями работы ИИ-модерации.

Иван Копылов

Число интернет-пользователей с каждым годом только растет, и фильтровать публикуемый контент вручную становится все менее реальной задачей. Среди проблем — угроза выгорания модераторов из-за большого объема работы и медленная реакция в силу наших физических возможностей. Кроме того, оценка контента человеком всегда субъективна.

Эти проблемы помогает решить ИИ-модерация — автоматическая проверка контента на нарушения: камера захватывает видеопоток и производит круглосуточный анализ видео, чата и аудио; модель анализирует контент и выдает автоматическую реакцию. Если говорить подробнее о компонентах системы, то это, во-первых, компьютерное зрение — анализ кадров, объектов, лиц; во-вторых, обработка текста — чатов, оверлеев — и проведение смыслового анализа; в-третьих, анализ аудио — речи, шумов, выявление ненормативной лексики.

Искусственный интеллект анализирует происходящее, классифицирует это как норму или нарушение, и во втором случае действует исходя из того, что именно нарушено: может автоматически отключить звук пользователя, прислать уведомление о нарушении, передать информацию модератору-человеку или заблокировать аккаунт.

Использование ИИ-модерации помогает соблюсти баланс между точностью оценки контента и скоростью реакции. При этом модели редко допускают ошибки при модерации, и даже в таком случае всегда есть возможность пересмотра того или иного решения.

В завершение Андрей Петров, преподаватель ФКН и ML-инженер видеопоиска в Яндексе, рассказал, почему поисковик показывает пользователям определенные видео.

Андрей Петров

Сейчас на просторах YouTube существует около 15 миллиардов видеороликов. А еще есть другие видеохостинги. И среди такого обилия контента алгоритмы поисковиков подбирают, что вам показать, на основе введенного запроса.

Один из способов поиска по документам, или видеороликам, — это построить по ним прямой и обратный индексы. В первом случае в базе у документа есть списки слов, так называемые термы, из которых видео состоит или которые его характеризуют. Во втором случае, наоборот, к каждому конкретному слову «привязывается» набор документов, в которых оно встречается. Но вот в чем загвоздка: при простом запросе, например, «приехать ночью», на первом этапе находится очень много документов. Задача — сделать так, чтобы поисковик из всего этого обилия показывал пользователю наиболее релевантные.

Из-за того, что поиск происходит по такому огромному массиву документов, которые невозможно уместить в одном месте, используется шардирование — проектирование базы с разбиением данных на части и их размещением на разных шардах. Шард — это узел кластера, который может состоять из одной или нескольких реплик, то есть серверов, на которых дублируются данные.

Следующая встреча барного лектория состоится летом — следите за анонсами в социальных сетях факультета.

Дата

16 мая

Автор

Зяблова Наталья Андреевна
Все новости автора

Рубрики

Экспертиза

Темы

лектории репортаж о событии

В статье упомянуты

Факультет компьютерных наук

Персоны

Деркач Денис Александрович

Копылов Иван Станиславович