Научный семинар MTML Lab
Подписывайтесь на телеграм-канал семинара!
Уточняйте информацию о семинаре у Александра Моложавенко: amolojavenko@hse.ru
Если вам необходим пропуск в здание НИУ ВШЭ обратитесь к Карине Зеленовой: kzelenova@hse.ru (указывайте ваши Ф.И.О.)2026 год
- 05.02.2026, Моложавенко Александр, Юдин Николай (НИУ ВШЭ): Tensor Attention and Manifold-Constrained Hyper-Connections
Аннотация. На семенаре разобрано две статьи: 1. "Tensor Product Attention Is All You Need" (https://arxiv.org/pdf/2501.06425), NeurIPS 2025 (spotlight). TL;DR: Tensor Product Attention (TPA) is a novel mechanism that factorizes queries, keys, and values into compact, low-rank tensor components to drastically reduce the memory overhead of Key-Value caches during inference. 2. "mHC: Manifold-Constrained Hyper-Connections" (https://arxiv.org/pdf/2512.24880) от команды DeepSeek. TL;DR: Manifold-Constrained Hyper-Connections (mHC) is a general framework that projects the residual connection space of Hyper-Connections onto a specific manifold to restore the identity mapping property. By enforcing this constraint, mHC mitigates training instability and enables effective training at scale with superior scalability compared to unconstrained methods
2025 год
- 30.12.2025, Сергей Кудряшов, Паркина Ульяна, Цыганов Аскар (НИУ ВШЭ): Дифференцирование матричных разложений
Аннотация. В современных архитектурах (от генеративных моделей до рекомендательных систем) все чаще требуется накладывать ограничения или регуляризацию непосредственно на латентное пространство. Это естественным образом приводит к использованию функций от факторов матричных разложений — например, SVD, собственного разложения (Eigen) или полярного разложения.
Однако такая практика ставит сложную задачу: как корректно и эффективно вычислять градиенты (бэкпроп) через эти разложения, которые сами по себе не всегда дифференцируемы в наивной реализации?
На предстоящем семинаре мы обсудим:
1. С какими проблемами сталкивается наивная имплементация: численная нестабильность, недифференцируемость при совпадающих сингулярных/собственных значениях, высокая вычислительная стоимость.
2. Современные методы из последних статей, позволяющие обойти эти ограничения.
3. Конкретные разложения:
3.1. Singular Value Decomposition (SVD)
3.2. Eigendecomposition (EVD)
3.3. Polar Decomposition
- 19.12.2025, Моложавенко Александр (НИУ ВШЭ): Разбор статьи SUMO: Subspace-Aware Moment-Orthogonalization for Accelerating Memory-Efficient LLM Training (NeurIPS 2025)
Аннотация. Low-rank gradient-based optimization methods have significantly improved memory efficiency during the training of large language models (LLMs), enabling operations within constrained hardware without sacrificing performance. However, these methods primarily emphasize memory savings, often overlooking potential acceleration in convergence due to their reliance on standard isotropic steepest descent techniques, which can perform suboptimally in the highly anisotropic landscapes typical of deep networks, particularly LLMs. In this paper, we propose SUMO (Subspace-Aware Moment-Orthogonalization), an optimizer that employs exact singular value decomposition (SVD) for moment orthogonalization within a dynamically adapted low-dimensional subspace, enabling norm-inducing steepest descent optimization steps. By explicitly aligning optimization steps with the spectral characteristics of the loss landscape, SUMO effectively mitigates approximation errors associated with commonly used methods, such as the Newton-Schulz orthogonalization approximation. We theoretically establish an upper bound on these approximation errors, proving their dependence on the condition numbers of moments, conditions we analytically demonstrate are encountered during LLM training. Furthermore, we both theoretically and empirically illustrate that exact orthogonalization via SVD substantially improves convergence rates while reducing overall complexity. Empirical evaluations confirm that SUMO accelerates convergence, enhances stability, improves performance, and reduces memory requirements by up to 20% compared to state-of-the-art method.
- 05.12.2025, Моложавенко Александр: глава Embedded geometry: first order
Аннотация. Обсудим декартово произведение многообразий, а также введем важное понятие открытых подмногообразий. Посмотрим важные примеры: относительная внутренность вероятностного симплекса, негладкое многообразие в виде креста, докажем негладкость галки (cusp) и двойной параболы, чтобы закрепить все пройденные теоремы. Кратко повторим гладкие отображения многообразий, введем понятие касательного расслоения и добавим в багаж знаний строгое определение ретракции; Посмотрим на определение Римановой метрики через гладкие поля.
- 05.12.2025, Ряполов Денис и Цыганов Аскар (НИУ ВШЭ): Динамическая оценка следа матриц и приложения рандомизированных эмбеддингов
Аннотация. Мы расскажем про более продвинутый раздел оценки следа матриц, а также вернемся к теме рандомизированных эмбеддингов и сфокусируемся на их приложениях, а также вариациях алгоритмов
- 28.11.2025, Паркина Ульяна (НИУ ВШЭ): COALA: Численно устойчивый и эффективный фреймворк для контекстно-ориентированной низкоранговой аппроксимации
Аннотация. В докладе:
* Рассмотрим задачу взвешенной низкоранговой аппроксимации в общем виде и ее решения в некоторых частных случаях.
* Сравненим численную устойчивость предложенного нами метода и стандартных решений задачи
* А также рассмотрим задачу взвешенной низкоранговой аппроксимациии с регуляризацией и найдем оценки сходимости через теорему Дэвиса-Кэхана.
* Также, рассмотрим приложения этой задачи к сжатию и дообучения больших язковых моделей (LLM).
- 21.11.2025, Хрыльченко Кирилл (НИУ ВШЭ): Семантические идентификаторы в рекомендательных системах.
Аннотация. На семинаре:
* дам введение в задачу sequential recommendations — расскажу как применять трансформер над историей пользователя для задачи рекомендаций
* напомню про генеративные модели VAE и VQ-VAE / RQ-VAE, которые можно использовать для кодирования объектов
* дам введение в Generative Retrieval — подход в информационном поиске, альтернатива стандартному "двухбашенному" подходу поиска релевантных документов
* расскажу про Semantic IDs — совмещение RQ-VAE и Generative Retrieval в домене рекомендаций; и зачем это нужно
* расскажу про свой текущий ресерч в области
- 07.11.2025, Богачев Владимир Александрович (НИУ ВШЭ, МГУ): Завершение главы Embedded geometry: first order
Аннотация. Завершаем чтение 3ей главы книги An introduction to optimization on smooth manifolds от Nicolas Boumal.
- 07.11.2025, Ряполов Денис и Цыганов Аскар (НИУ ВШЭ): Оценка следа матриц
Аннотация. Мы расскажем про оценку следа матрицы (trace estimation) с помощью матвеков. Это довольно фундаментальный топик в RNLA, который развивается уже давно и имеет много вариаций и приложений. Начнем с базы, такой как Hutchinson и дойдем до динамической оценки, а также расширения на тензорный случай
- 31.10.2025, Богачев Владимир Александрович (НИУ ВШЭ, МГУ): LoRA meets Riemannion: Muon Optimizer for Parametrization-independent Low-Rank Adapters
Аннотация. В данной работе рассматривается LoRA: общепринятый подход к малопараметрическому дообучению глубоких нейронных сетей. Классическая LoRA подвержена проблеме неоднозначной параметризации: одно и то же приращение весов можно получить множеством пар (A, B) и выбор конкретного разложения влияет на качество обучения.
Мы предлагаем риманову формулировку задачи, устраняющую эту неоднозначность и включающую:* Locally Optimal Initialization (LOI) — геометрически обоснованную инициализацию начального приближения* Оптимизацию на многообразии матриц фиксированного ранга* Формулировку Muon на касательной плоскости через Linear Minimization Oracle (LMO)
В экспериментах показано, что предложенный метод обеспечивает устойчивый прирост качества на задачах дообучения языковых моделей (Llama 3-8B) и контролируемой генерации (Stable Diffusion 2) при минимальном вычислительном оверхеде. - 10.10.2025, Кравацкий Алексей Юрьевич (МФТИ): Нормы Ки Фана, Фаниноны и F-Фанионы для оптимизации функции матричного аргумента
Аннотация. Мы обсудим использование матричных норм в типовой для современного машинного обучения задачи минимизации функции матричного аргумента. Отходя от спектральной нормы, использовавшейся при выводе апдейта Мюона, мы воспользуемся нормами Ки Фана разных рангов, чтобы получить семейство Мюон-подобных алгоритмов, которые мы назовём Фанионами. Затем мы рассмотрим дуальные нормы к выпуклым комбинациям этих норм с нормой Фробениуса, чтобы получить семейство F-Фанионов, которые по сути являются в некотором смысле регуляризацией Фанионов. Одним из F-Фанионов является F-Мюон, который мы сравним со стандартным Мюоном на бенчмарках CIFAR airbench и NanoGPT speedrun. Также мы визуализируем перечисленные выше алгоритмы и обсудим имеющиеся в литературе гарантии их сходимости. - 19.09.2025, Матвей Смирнов (ИВМ РАН, НИУ ВШЭ): Оценки сингулярных чисел матриц, имеющих смещенную структуру
- 19.06.2025, Аскар Цыганов (НИУ ВШЭ): Рандомизированная оценка норм 2→∞ и 1→2
- 29.05.2025, Денис Ряполов (НИУ ВШЭ): Стохастические алгоритмы для операторной нормы матрицы
- 10.04.2025, Станислав Морозов (ИВМ РАН, НИУ ВШЭ): Построение чебышевских приближений для матриц и тензоров
- 06.03.2025, Даниил Меркулов (Skoltech, МФТИ, НИУ ВШЭ): Квантизация больших языковых моделей с использованием переопределенного базиса
- 27.02.2025, Щербакова Елена Михайловна (МГУ имени М. В. Ломоносова, факультет ВМК): Матричные и тензорные разложения с условием неотрицательности и их применение
В общем случае неотрицательная матричная факторизация считается NP-трудной проблемой даже при условии, что неотрицательный ранг матрицы известен. Известные методы для решения задачи неотрицательной матричной факторизации предполагают использование всех элементов исходной матрицы и сложность их не меньше O(mn), что при больших объемах данных делает их слишком ресурсоемкими. В литературе хорошо изучены алгоритмы для построения неотрицательных канонического разложения и разложения Таккера, в отличие от модели неотрицательного тензорного поезда. При этом известные алгоритмы неотрицательной факторизации тензоров включают на каждой итерации операцию с матрицей-разверткой исходного тензора, что делает их не подходящими для работы с большими данными.
Доклад посвящен методам для неотрицательной факторизации матриц и тензоров, основанным на малоранговых разложениях, приводятся теоретические результаты, доказывающие эффективность алгоритмов для ряда задач в части скорости работы и точности аппроксимаций, что подтверждается численными экспериментами. Методы уже успешно применяются для вычисления неотрицательного решения уравнения Смолуховского, сжатия видео и изображений с запуском на нескольких процессорах.
- 20.02.2025, Екатерина Гришина (НИУ ВШЭ): Новый метод сжатия больших языковых моделей с помощью структурированных матричных разложений без дообучения
- 31.01.2025 (Ридинг клаб), Сергей Кудряшов: Подходы к непрерывному обучению и стабилизация многозадачного обучения
Аннотация. Способность к непрерывному обучению (continual learning) является одной из важных когнитивных особенностей живых существ, позволяющих адаптироваться к меняющимся условиям окружающей среды. В то же время для современных нейронных сетей задача обучения при нестационарности распределения сэмплов представляет существенную проблему. В докладе будут рассмотрены постановки задачи непрерывного обучения, а также некоторые актуальные результаты, демонстрирующие равную значимость регуляризации и выбора траектории оптимизации для решения поставленной задачи.
2024 год
- 17.12.2024 (Ридинг клаб), Николай Юдин (НИУ ВШЭ): Разбор статей с NeurIPS 2024, использующих техники вычислительной линейной алгебры
- 06.12.2024, Максим Бекетов (HDI Lab): Безградиентная оптимизация на основе тензорных разложений – приложения в нейронауках
Аннотация. Я расскажу о нашей с коллегами работе [1], в которой различные методы безградиентной оптимизации, построенные на основе Tensor Train разложения, применялись к задаче максимизации активации нейронов в импульсных нейронных сетях (SNN). Мы работали с SNN как с биологически правдоподобной моделью живых сетей нейронов, с надеждой в перспективе применять эти методы для получения ответов на фундаментальные вопросы когнитивной нейробиологии – на чем специализируются нейроны в мозге разумных живых существ. Я расскажу об этом контексте, об устройстве опробованных нами алгоритмов, их успехах в данной задаче, обнаруженных закономерностях в специализациях нейронов SNN, и об открытых вопросах. [1] Fast gradient-free activation maximization for neurons in spiking neural networks Nikita Pospelov, Andrei Chertkov, Maxim Beketov, Ivan Oseledets, Konstantin Anokhin https://arxiv.org/abs/2401.10748
- 03.12.2024 (Ридинг клаб), Екатерина Гришина (НИУ ВШЭ): Разбор публикаций на тему сжатия больших языковых моделей с помощью матричных разложений
- 12.11.2024 (Ридинг клаб), Владимир Богачев (НИУ ВШЭ): Разбор публикаций на тему сравнения LoRA и full fine-tune
- 22.10.2024, Иван Новиков (Сколковский институт науки и технологий): Машинное обучение в атомистическом моделировании
Аннотация. За последние 15 лет машинное обучение стало широко применяться в атомистическом моделировании. В частности, были разработаны так называемые машинно-обучаемые потенциалы (МОПы) межатомного взаимодействия – модели, описывающие взаимодействие атомов (предсказывающие энергии и силы взаимодействия) в различных атомистических системах. МОПы, обученные на данных достаточно точных квантово-механических вычислений, позволяют эффективно предсказывать свойства материалов и проводить атомистическое моделирование при различных условиях.В докладе будет обсуждаться один из разработанных машинно-обучаемых потенциалов межатомного взаимодействия, а именно, Moment Tensor Potential (MTP) и алгоритмы его обучения. Кроме того, будет обсуждаться обобщение MTP на случай его применения к магнитным материалам. Также будут продемонстрированы результаты решения нескольких задач атомистического моделирования.
- 01.10.2024, Вячеслав Юсупов (НИУ ВШЭ): Гиперболические подходы для предсказания связей в графах знаний
- 25.09.2024 (Ридинг клаб), Александра Сендерович (НИУ ВШЭ): Разбор публикации на тему применения трансформера для нейросетевых рекомендаций
- 26.06.24, Иван Пешехонов (НИУ ВШЭ, Яндекс): Matrices in DL are dead. Long live KANs
- 19.06.24, Екатерина Гришина (НИУ ВШЭ): Точная и эффективная оценка спектральной нормы свёрточных слоев нейросетей
- 04.06.24, Михаил Горбунов, Николай Юдин (НИУ ВШЭ): Эффективная структурированная ортогональная параметризация на основе GS-матриц
- 17.04.24, Александр Моложавенко (НИУ ВШЭ, МФТИ): Riemannian Optimization on a Quotient Tensor Train manifold
- 03.04.24, Сергей Матвеев (МГУ, ИВМ РАН): Методы переменного проектирования для приближенно-малоранговых неотрицательных тензоров
- 06.03.24, Salman Ahmadi Asl (Skoltech): Randomized tensor algorithms for fast tensor completion.
The randomization framework has been proven to be an efficient technique for low-rank matrix computation and recently was generalized to the tensors. It is known that randomized algorithms reduce the computational complexity of the deterministic counterparts and also their communication costs.
The latter benefit is especially important when the data tensor is very large and stored on several machines. Here, the communication cost is the main concern and we need to access the data tensor as few times as possible. In this talk, we talk about these fast techniques and their computational aspects. In particular two applications namely image/video completion and image super-resolution are presented.
- 21.02.24, Екатерина Булатова (Цинхуа): Диффузионные модели в генерации естественных текстур для одежды, помогающей избегать детекции.
- 14.02.24, Данил Гусак (НИУ ВШЭ, Skoltech): Масштабируемая кросс-энтропия для последовательных рекомендаций с большими каталогами айтемов.
- 21.12.23 (Ридинг клаб), Екатерина Гришина (НИУ ВШЭ): разбор статьи "On the explainable properties of 1-Lipschitz Neural Networks: An Optimal Transport Perspective".
- 14.12.23, Ирина Голобородько (НИУ ВШЭ): Спектральные свойства матриц Якоби в нейронных сетях.
- 30.11.23, Александра Сендерович (НИУ ВШЭ): Методы обучения нейронных сетей с ограниченной константой Липшица.
- 16.11.23, Евгений Фролов (НИУ ВШЭ, Skoltech, AIRI): Гиперболические эмбеддинги в задаче предсказания следующих действий пользователя в рекомендательных системах.
- 02.11.23, Иван Пешехонов (НИУ ВШЭ): Exploring the benefits of Riemannian optimization for machine learning tasks on matrix/tensor manifolds.
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.