Онлайн-семинар НУЛ ММВП “RuSentEval: диагностическое тестирование языковых моделей на русском языке”
Приглашаем на очередной онлайн-семинар лаборатории, который состоится 27 мая в 19.00.
RuSentEval – это новый набор данных для диагностического тестирования (probing) векторных и языковых моделей для русского языка. Набор включает в себя 14 датасетов, которые покрывают различные лингвистические явления – от поверхностных (число слов в предложении) до синтаксических (глубина синтаксического дерева) и семантических (число и род подлежащего). Классический метод диагностического тестирования – обучить классификатор, который предсказывает наличие того или иного явления по вектору предложения. Поведение классификатора может показать, например, какие слои языковой модели более чувствительны к низкоуровневым признакам, а какие – к высокоуровневым.
В работе мы использовали данные RuSentEval и SentEval (английский язык), чтобы провести диагностическое тестирование пяти мультиязычных трансформеров – в том числе mBERT, mBART и LABSE – и узнали, что модели имеют похожее представление о некоторых признаках для обоих языков, несмотря на их типологические различия. А вот mBART и LABSE отличаются от остальных (как именно – читайте в статье).Репозиторий с кодом и данными доступен по ссылке (https://github.com/RussianNLP/rusenteval).
Докладчики : Владислав Михайлов (Сбер), Екатерина Такташева (ВШЭ), Элина Сигдал (ВШЭ)
Дата и время : четверг, 27 мая, 19-00. Мы отправим ссылку на мероприятие в Zoom зарегистрировавшимся участникам за два часа до начала семинара. Семинар пройдет в онлайн-формате. Презентация будет представлена на английском.