Анализ видео-фрагмента интервью с целью получения лучшего изображения лица
Выполнила: Мэн Сыфэй
Автоматическое извлечение лучшего изображения лица из видеозаписи является важной и сложной задачей, которая имеет большое практическое значение в жизни. В данном проекте рассматривается алгоритм, который позволяет решить поставленную задачу с помощью нейронной сети и встроенных методов библиотек Dlib и OpenCV.
Алгоритм включает три этапа: детектирование лица при помощи get_frontal_face_detector() из библиотеки Dlib, проверку кадра по таким критериям, как открытость глаз и рта, уровень размытия изображения, направление взгляда и привлекательность лица, определяемая нейронной сетью. Изображения, не проходящие предыдущие этапы, не рассматриваются в системе дальше. По каждому критерию была установлена метрика оценивания, которая вносит положительный или отрицательный вклад в итоговую оценку. Наилучшим изображением считается тот кадр, который набирает наибольший балл. Для оценивания красоты лиц была использована нейронная сеть EfficientNet V2, обученная на датасете SCUT-FBP5500 с функцией потери SmoothL1Loss. Качество работы алгоритма было протестировано с помощью 100 видео-фрагментов интервью длительностью в районе пяти минут от студентов Школы Востоковедения НИУ ВШЭ. Результаты показали, что выбранные критерии были эффективны в определении наилучшего изображения лица.
Архив с материалами (Мэн Сыфэй)
- В архиве содержатся отчет и презентация
Ссылка на репозиторий на GitHub
Руководитель проекта
Школа востоковедения: Приглашенный преподаватель
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.