• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Анализ локальных моделей распознавания русскоязычной речи и оценка влияния дообучения на качество их работы

Выполнил: Калинин Владислав Дмитриевич

Современные студенты часто сталкиваются с необходимостью конспектирования заранее записанных лекций. Существующие открытые решения распознавания речи (ASR) позволяют упростить этот процесс при полностью локальном использовании, но качество их работы на русском языке далеко не всегда приемлемое. В работе проведён сравнительный анализ локальных open-source моделей Speech-To-Text для определения наиболее эффективного подхода к автоматическому конспектированию лекций. Исследование фокусируется на изучении архитектурных особенностей и оценке качества распознавания речи более 20 моделей от 5 крупнейших вендоров, в том числе OpenAI Whisper и Sber GigaAM. Для количественной оценки был собран и размечен специализированный датасет русскоязычных лекций ФКН ВШЭ. Также был рассмотрен вопрос эффективности дообучения (fine-tuning) некоторых моделей в домашних условиях.

Запись защиты

Руководитель проекта

Никулов Сергей Александрович

Базовая кафедра Т-Банка: Эксперт


 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.