Анализ локальных моделей распознавания русскоязычной речи и оценка влияния дообучения на качество их работы

Выполнил: Калинин Владислав Дмитриевич

Современные студенты часто сталкиваются с необходимостью конспектирования заранее записанных лекций. Существующие открытые решения распознавания речи (ASR) позволяют упростить этот процесс при полностью локальном использовании, но качество их работы на русском языке далеко не всегда приемлемое. В работе проведён сравнительный анализ локальных open-source моделей Speech-To-Text для определения наиболее эффективного подхода к автоматическому конспектированию лекций. Исследование фокусируется на изучении архитектурных особенностей и оценке качества распознавания речи более 20 моделей от 5 крупнейших вендоров, в том числе OpenAI Whisper и Sber GigaAM. Для количественной оценки был собран и размечен специализированный датасет русскоязычных лекций ФКН ВШЭ. Также был рассмотрен вопрос эффективности дообучения (fine-tuning) некоторых моделей в домашних условиях.

Запись защиты

Итоговый отчет (Калинин) (PDF, 2,37 Мб)

Презентация (Калинин) (PDF, 868 Кб)

Ссылка на репозиторий на GitHub

Руководитель проекта

Никулов Сергей Александрович

Базовая кафедра Т-Банка: Эксперт

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.

Центр практик, проектной работы и предпринимательства

Анализ локальных моделей распознавания русскоязычной речи и оценка влияния дообучения на качество их работы

Выполнил: Калинин Владислав Дмитриевич

Запись защиты

Руководитель проекта