Семинар MTML Lab «Нормы Ки Фана, Фаниноны и F-Фанионы для оптимизации функции матричного аргумента»
В эту пятницу (10.10.2025) выступит:Кравацкий Алексей Юрьевич (МФТИ). Семинар начнется в 13:00 и пройдет очно в R507
Мы обсудим использование матричных норм в типовой для современного машинного обучения задачи минимизации функции матричного аргумента. Отходя от спектральной нормы, использовавшейся при выводе апдейта Мюона, мы воспользуемся нормами Ки Фана разных рангов, чтобы получить семейство Мюон-подобных алгоритмов, которые мы назовём Фанионами. Затем мы рассмотрим дуальные нормы к выпуклым комбинациям этих норм с нормой Фробениуса, чтобы получить семейство F-Фанионов, которые по сути являются в некотором смысле регуляризацией Фанионов. Одним из F-Фанионов является F-Мюон, который мы сравним со стандартным Мюоном на бенчмарках CIFAR airbench и NanoGPT speedrun. Также мы визуализируем перечисленные выше алгоритмы и обсудим имеющиеся в литературе гарантии их сходимости.