Анализ локальных моделей распознавания русскоязычной речи и оценка влияния дообучения на качество их работы
Выполнил: Калинин Владислав Дмитриевич
Современные студенты часто сталкиваются с необходимостью конспектирования заранее записанных лекций. Существующие открытые решения распознавания речи (ASR) позволяют упростить этот процесс при полностью локальном использовании, но качество их работы на русском языке далеко не всегда приемлемое. В работе проведён сравнительный анализ локальных open-source моделей Speech-To-Text для определения наиболее эффективного подхода к автоматическому конспектированию лекций. Исследование фокусируется на изучении архитектурных особенностей и оценке качества распознавания речи более 20 моделей от 5 крупнейших вендоров, в том числе OpenAI Whisper и Sber GigaAM. Для количественной оценки был собран и размечен специализированный датасет русскоязычных лекций ФКН ВШЭ. Также был рассмотрен вопрос эффективности дообучения (fine-tuning) некоторых моделей в домашних условиях.
Итоговый отчет (Калинин)
Презентация (Калинин)
Ссылка на репозиторий на GitHub
Руководитель проекта
Базовая кафедра Т-Банка: Эксперт
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.
