Научный семинар MTML Lab

Подписывайтесь на телеграм-канал семинара!

Уточняйте информацию о семинаре у Александра Моложавенко: amolojavenko@hse.ru

Если вам необходим пропуск в здание НИУ ВШЭ обратитесь к Елене Алямовской: ealyamovskaya@hse.ru (указывайте ваши Ф.И.О.)

Семинары и ридинг клабы:

2025 год

19.06.2025, Аскар Цыганов (НИУ ВШЭ): Рандомизированная оценка норм 2→∞ и 1→2

Аннотация. В докладе будут представлены новые рандомизированные алгоритмы для оценки норм 2→∞ и 1→2 без явного использования матрицы, то есть с использованием только операций умножения матрицы на вектор. Для обоих алгоритмов будут показаны теоретические оценки сходимости. Также будет продемонстрирована практическая полезность разработанных алгоритмов в задачах регуляризации якобиана при обучении глубоких нейронных сетей.

29.05.2025, Денис Ряполов (НИУ ВШЭ): Стохастические алгоритмы для операторной нормы матрицы

Аннотация. В докладе будет представлен новый стохастический метод оценки операторной нормы, обладающий повышенной точностью на матрицах малого ранга — классе, где традиционные алгоритмы часто дают значительные погрешности. Такие оценки важны для анализа чувствительности нейросетей, вычисления числа обусловленности и спектральных характеристик операторов. Метод сопровождается теоретическими обоснованиями и демонстрирует высокую эффективность на практике, что подтверждается результатами численных экспериментов.

10.03.2025, Станислав Морозов (ИВМ РАН, НИУ ВШЭ): Построение чебышевских приближений для матриц и тензоров

Аннотация. Доклад будет посвящен методам построения малоранговых приближений матриц и тензоров в чебышевской норме. Важным компонентом для решения этих задач является задача построения наилучшего равномерного приближения по системе векторов. В докладе будут рассказаны критерий оптимальности и эффективный алгоритм решения задачи наилучшего равномерного приближения. Кроме этого, будет предложен метод переменной минимизации для построения малоранговых приближений матриц и тензоров в чебышевской норме для произвольного ранга и изложены теоретические свойства метода. В частности, будет введено понятие многомерного альтернанса и показано, что наличие структуры альтернанса является необходимым условием оптимальности приближения, и все предельные точки метода переменной минимизации удовлетворяют этому условию. На основе проведенного анализа будет предложен метод гарантированного построения оптимальных чебышевских приближений ранга 1 для матриц. Все приведенные результаты будут сопровождаться численными экспериментами.

06.03.2025, Даниил Меркулов (Skoltech, МФТИ, НИУ ВШЭ): Квантизация больших языковых моделей с использованием переопределенного базиса

Аннотация. В докладе мы обсудим нашу прошлогоднюю статью про то, как использование факторизации матрицы в виде суммы двух матриц с маленькими(в некотором смысле) нормами факторов приводит к тому, что значения факторов очень хорошо концентрируются в кластеры, тем самым позволяя использовать этот подход для малобитного представления данных, т.е. квантизации. Мы применили алгоритм к некоторым большим моделям, это неплохо работает. Кроме того, мы предложили ускоренную матричную версию алгоритма.В докладе мы постараемся уделить больше внимания алгоритмической и геометрической составдяющей алгоритма, обсудим математические идеи за подходом и открытые вопросы, которые у нас ещё остались.

27.02.2025, Щербакова Елена Михайловна (МГУ имени М. В. Ломоносова, факультет ВМК): Матричные и тензорные разложения с условием неотрицательности и их применение

Аннотация. Матричные и тензорные разложения данных с малым числом параметров, во-первых, допускают более эффективные вычисления с ними и более компактное хранение, во-вторых, отдельные параметры разложения могут оказаться информативными признаками. При работе с неотрицательными данными естественным образом возникает требование сохранения данного свойства для декомпозиции, таким образом появляется необходимость решения задачи неотрицательной факторизации матриц и тензоров.

В общем случае неотрицательная матричная факторизация считается NP-трудной проблемой даже при условии, что неотрицательный ранг матрицы известен. Известные методы для решения задачи неотрицательной матричной факторизации предполагают использование всех элементов исходной матрицы и сложность их не меньше O(mn), что при больших объемах данных делает их слишком ресурсоемкими. В литературе хорошо изучены алгоритмы для построения неотрицательных канонического разложения и разложения Таккера, в отличие от модели неотрицательного тензорного поезда. При этом известные алгоритмы неотрицательной факторизации тензоров включают на каждой итерации операцию с матрицей-разверткой исходного тензора, что делает их не подходящими для работы с большими данными.

Доклад посвящен методам для неотрицательной факторизации матриц и тензоров, основанным на малоранговых разложениях, приводятся теоретические результаты, доказывающие эффективность алгоритмов для ряда задач в части скорости работы и точности аппроксимаций, что подтверждается численными экспериментами. Методы уже успешно применяются для вычисления неотрицательного решения уравнения Смолуховского, сжатия видео и изображений с запуском на нескольких процессорах.

20.02.2025, Екатерина Гришина (НИУ ВШЭ): Новый метод сжатия больших языковых моделей с помощью структурированных матричных разложений без дообучения

Аннотация. В докладе будет представлен метод для сжатия больших языковых моделей без использования файнтьюнинга и обратного распространения ошибки. Мы рассмотрим подход для эффективного сжатия линейных слоев с помощью структурированных матричных разложений, таких как кронекерово произведение и монархические (GS) матрицы.

31.01.2025 (Ридинг клаб), Сергей Кудряшов: Подходы к непрерывному обучению и стабилизация многозадачного обучения
Аннотация. Способность к непрерывному обучению (continual learning) является одной из важных когнитивных особенностей живых существ, позволяющих адаптироваться к меняющимся условиям окружающей среды. В то же время для современных нейронных сетей задача обучения при нестационарности распределения сэмплов представляет существенную проблему. В докладе будут рассмотрены постановки задачи непрерывного обучения, а также некоторые актуальные результаты, демонстрирующие равную значимость регуляризации и выбора траектории оптимизации для решения поставленной задачи.

2024 год

17.12.2024 (Ридинг клаб), Николай Юдин (НИУ ВШЭ): Разбор статей с NeurIPS 2024, использующих техники вычислительной линейной алгебры
06.12.2024, Максим Бекетов (HDI Lab): Безградиентная оптимизация на основе тензорных разложений – приложения в нейронауках

Аннотация. Я расскажу о нашей с коллегами работе [1], в которой различные методы безградиентной оптимизации, построенные на основе Tensor Train разложения, применялись к задаче максимизации активации нейронов в импульсных нейронных сетях (SNN). Мы работали с SNN как с биологически правдоподобной моделью живых сетей нейронов, с надеждой в перспективе применять эти методы для получения ответов на фундаментальные вопросы когнитивной нейробиологии – на чем специализируются нейроны в мозге разумных живых существ. Я расскажу об этом контексте, об устройстве опробованных нами алгоритмов, их успехах в данной задаче, обнаруженных закономерностях в специализациях нейронов SNN, и об открытых вопросах. [1] Fast gradient-free activation maximization for neurons in spiking neural networks Nikita Pospelov, Andrei Chertkov, Maxim Beketov, Ivan Oseledets, Konstantin Anokhin https://arxiv.org/abs/2401.10748

03.12.2024 (Ридинг клаб), Екатерина Гришина (НИУ ВШЭ): Разбор публикаций на тему сжатия больших языковых моделей с помощью матричных разложений
12.11.2024 (Ридинг клаб), Владимир Богачев (НИУ ВШЭ): Разбор публикаций на тему сравнения LoRA и full fine-tune

22.10.2024, Иван Новиков (Сколковский институт науки и технологий): Машинное обучение в атомистическом моделировании

Аннотация. За последние 15 лет машинное обучение стало широко применяться в атомистическом моделировании. В частности, были разработаны так называемые машинно-обучаемые потенциалы (МОПы) межатомного взаимодействия – модели, описывающие взаимодействие атомов (предсказывающие энергии и силы взаимодействия) в различных атомистических системах. МОПы, обученные на данных достаточно точных квантово-механических вычислений, позволяют эффективно предсказывать свойства материалов и проводить атомистическое моделирование при различных условиях.В докладе будет обсуждаться один из разработанных машинно-обучаемых потенциалов межатомного взаимодействия, а именно, Moment Tensor Potential (MTP) и алгоритмы его обучения. Кроме того, будет обсуждаться обобщение MTP на случай его применения к магнитным материалам. Также будут продемонстрированы результаты решения нескольких задач атомистического моделирования.

01.10.2024, Вячеслав Юсупов (НИУ ВШЭ): Гиперболические подходы для предсказания связей в графах знаний

Аннотация. Графы знаний - активно используемое представление структурированных данных со сложными взаимосвязями в них. В докладе будет рассказано о применении гиперболической геометрии в задаче предсказания связей в графах знаний. Будут рассмотрены существующие гиперболические методы и представлена наша модель Mixed Geometry Tensor Factorization совмещающая лучшее из Евклидовых и гиперболических подходов. Мы рассмотрим преимущества применения данной модели и способы её улучшения.

25.09.2024 (Ридинг клаб), Александра Сендерович (НИУ ВШЭ): Разбор публикации на тему применения трансформера для нейросетевых рекомендаций

26.06.24, Иван Пешехонов (НИУ ВШЭ, Яндекс): Matrices in DL are dead. Long live KANs

Аннотация. In this talk, we will discuss a recently hyped paper on Kolmogorov-Arnold networks. The authors state that the new architectural layer could replace MLP layers in neural networks while requiring significantly fewer parameters. Moreover, KANs have properties that MLPs don't, such as the ability to solve PDEs using a small KAN network or model math functions and operations.

19.06.24, Екатерина Гришина (НИУ ВШЭ): Точная и эффективная оценка спектральной нормы свёрточных слоев нейросетей

Аннотация. В докладе будет сделан обзор методов вычисления сингулярного числа свертки. Будет рассказано о нашей новой оценке сингулярного числа сверточного слоя с помощью спектральной нормы тензора ядра. Мы рассмотрим применение данной оценки к регуляризации сверточных нейросетей.

04.06.24, Михаил Горбунов, Николай Юдин (НИУ ВШЭ): Эффективная структурированная ортогональная параметризация на основе GS-матриц

Аннотация. В докладе мы расскажем про предложенный нами класс структурированных GS-матриц (Group-and-Shuffle matrices), который является обобщением монархических матриц, и его использование для построения структурированной ортогональной параметриазции. Мы рассмотрим применение этой параметризации в рамках парадигмы ортогонального файн-тьюнинга (Orthogonal Fine-Tuning), ее адаптацию к сверточным архитектурам и сделаем обзор предшествующих методов.

17.04.24, Александр Моложавенко (НИУ ВШЭ, МФТИ): Riemannian Optimization on a Quotient Tensor Train manifold

Аннотация. During this seminar, we will delve into the fascinating field of Riemannian optimization on various manifolds. I will overview TT, Stiefel and Grassmann manifolds. We will discuss their interplay, and how they can be used to construct already known and new efficient optimization algoirthms for multidimensional eigenvalue problems.

03.04.24, Сергей Матвеев (МГУ, ИВМ РАН): Методы переменного проектирования для приближенно-малоранговых неотрицательных тензоров

Аннотация. В докладе будет рассказано об алгоритмах переменного проектирования для получения неотрицательных малоранговых разложений тензоров в форматах Таккера и тензорного поезда. Для начала мы покажем, что методы переменного проектирования применимы для получения матричных разложений. В роли оператора проекции на множество матриц малого ранга будет использоваться сингулярное разложение, дающее оптимальное приближение фиксированного ранга для матриц в унитарно-инвариантных нормах. После этого мы убедимся, что на практике достаточно квазиоптимальных по точности, но более быстрых рандомизированных алгоритмов. Обобщение этих процедур естественным образом позволяет получить методы неотрицательной факторизации для данных большей размерности, возникающих в частности при обработке гиперспектральных снимков и видеоданных. В случае тензорного поезда мы покажем, что очистка тензора от артефактных отрицательных элементов может быть выполнена при помощи коррекции ранга 1, вычислить которую можно с помощью итераций степенного метода в ТТ-формате.

06.03.24, Salman Ahmadi Asl (Skoltech): Randomized tensor algorithms for fast tensor completion.

Аннотация. Tensors have been successfully applied in many machine learning and data analysis tasks such as data reconstruction, data compression, clustering, etc. One of the main challenges in this topic is developing fast algorithms for the computation of different types of tensor decomposition. For example, to solve the tensor completion problem, we often need to compute tensor decompositions multiple times. When the data tensors are huge or many iterations are necessary for the convergence, these calculations become prohibitively expensive. Therefore, in order to be employed in real-time applications such as traffic data prediction, we need to build fast methods for various types of tensor decompositions.
The randomization framework has been proven to be an efficient technique for low-rank matrix computation and recently was generalized to the tensors. It is known that randomized algorithms reduce the computational complexity of the deterministic counterparts and also their communication costs.
The latter benefit is especially important when the data tensor is very large and stored on several machines. Here, the communication cost is the main concern and we need to access the data tensor as few times as possible. In this talk, we talk about these fast techniques and their computational aspects. In particular two applications namely image/video completion and image super-resolution are presented.

21.02.24, Екатерина Булатова (Цинхуа): Диффузионные модели в генерации естественных текстур для одежды, помогающей избегать детекции.

Аннотация. Одно из самых сложных требований в генерации адверсариальных примеров – добиться того, чтобы они выглядели натурально на человеческий взгляд. В данном докладе будет представлен подход к быстрой генерации естественно выглядящих контролируемых адверсариальных узоров с помощью диффузионных моделей. Будут рассмотрены ближайшие подходы, опорные методы, использованные приемы и примеры генерации.

14.02.24, Данил Гусак (НИУ ВШЭ, Skoltech): Масштабируемая кросс-энтропия для последовательных рекомендаций с большими каталогами айтемов.

Аннотация. Применение традиционной кросс-энтропии в контексте рекомендательных систем с большим объемом товаров может сталкиваться с ограничениями, налагаемыми доступным объемом памяти GPU. В настоящем докладе представлен наш подход к модификации кросс-энтропии, который является экономичным с точки зрения затрат памяти, не приводя при этом к значительному снижению производительности по ключевым метрикам качества рекомендаций. Мы детально рассмотрим сам метод, который включает в себя создание случайной малоразмерной промежуточной матрицы и последующий поиск с помощью неё информации, оказывающей наибольший вклад в вычисление кросс-энтропии, а также некоторые его модификации.

2023 год

21.12.23 (Ридинг клаб), Екатерина Гришина (НИУ ВШЭ): разбор статьи "On the explainable properties of 1-Lipschitz Neural Networks: An Optimal Transport Perspective".

14.12.23, Ирина Голобородько (НИУ ВШЭ): Спектральные свойства матриц Якоби в нейронных сетях.

Аннотация. Регуляризация спектральных свойств матриц Якоби в нейронных сетях дает возможность влиять на устойчивость их обучения. Мы обсудим основные методы оценки и контроля спектральных свойств якобиана. Отдельный интерес представляет случай, когда тензоры весов сети представлены посредством тензорных разложений. Мы подробно остановимся на особенностях применения регуляризации матриц Якоби в данной постановке и поговорим о нескольких возможных сценариях ее применения.

30.11.23, Александра Сендерович (НИУ ВШЭ): Методы обучения нейронных сетей с ограниченной константой Липшица.

Аннотация. Так как константа Липшица нейронной сети влияет на её робастность (то есть устойчивость к атакам), возможность контроля над ней важна для получения хорошего качества в прикладных задачах машинного обучения. В докладе будут рассмотрены основные на текущий момент методы ограничения константы Липшица свёрточной сети, после чего мы перейдём к более общему методу регуляризации, подходящему не только для свёрток.

16.11.23, Евгений Фролов (НИУ ВШЭ, Skoltech, AIRI): Гиперболические эмбеддинги в задаче предсказания следующих действий пользователя в рекомендательных системах.

Аннотация. В докладе будет рассмотрен особый вариант обучения модели нейросетевого внимания (self-attention) на последовательностях пользовательских действий с использованием гиперболической геометрии. Мы разберем один из механизмов перевода весов модели в неевклидово пространство, связанные с этим изменения свойств результирующей модели, а также практичность применения в решении реальных задач для рекомендательных систем.

02.11.23, Иван Пешехонов (НИУ ВШЭ): Exploring the benefits of Riemannian optimization for machine learning tasks on matrix/tensor manifolds.

Аннотация. In this talk I will provide a gentle introduction into Riemannian optimization. We will discuss the fundamental concepts and components necessary for construction first order optimization algorithms. Additionally, we will examine how Riemannian optimization can be applied to the manifolds of fixed-rank matrices/tensors for a range of machine learning tasks, including knowledge graph link prediction, model compression and NN fine-tuning. Finally, I will provide results of our recent research as a motivation to further studies in this area.

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.

Контакты

Научно-учебная лаборатория матричных и тензорных методов в машинном обучении

Контакты

Научный семинар MTML Lab