Научный семинар MTML Lab
Подписывайтесь на телеграм-канал семинара!
Уточняйте информацию о семинаре у Александра Моложавенко: amolojavenko@hse.ru
Если вам необходим пропуск в здание НИУ ВШЭ обратитесь к Елене Алямовской: ealyamovskaya@hse.ru (указывайте ваши Ф.И.О.)2025 год
- 06.03.2025, Даниил Меркулов (Skoltech, МФТИ, НИУ ВШЭ): Квантизация больших языковых моделей с использованием переопределенного базиса
-
В докладе мы обсудим нашу прошлогоднюю статью про то, как использование факторизации матрицы в виде суммы двух матриц с маленькими(в некотором смысле) нормами факторов приводит к тому, что значения факторов очень хорошо концентрируются в кластеры, тем самым позволяя использовать этот подход для малобитного представления данных, т.е. квантизации. Мы применили алгоритм к некоторым большим моделям, это неплохо работает. Кроме того, мы предложили ускоренную матричную версию алгоритма.В докладе мы постараемся уделить больше внимания алгоритмической и геометрической составдяющей алгоритма, обсудим математические идеи за подходом и открытые вопросы, которые у нас ещё остались.
- 27.02.2025, Щербакова Елена Михайловна (МГУ имени М. В. Ломоносова, факультет ВМК): Матричные и тензорные разложения с условием неотрицательности и их применение
Матричные и тензорные разложения данных с малым числом параметров, во-первых, допускают более эффективные вычисления с ними и более компактное хранение, во-вторых, отдельные параметры разложения могут оказаться информативными признаками. При работе с неотрицательными данными естественным образом возникает требование сохранения данного свойства для декомпозиции, таким образом появляется необходимость решения задачи неотрицательной факторизации матриц и тензоров.
В общем случае неотрицательная матричная факторизация считается NP-трудной проблемой даже при условии, что неотрицательный ранг матрицы известен. Известные методы для решения задачи неотрицательной матричной факторизации предполагают использование всех элементов исходной матрицы и сложность их не меньше O(mn), что при больших объемах данных делает их слишком ресурсоемкими. В литературе хорошо изучены алгоритмы для построения неотрицательных канонического разложения и разложения Таккера, в отличие от модели неотрицательного тензорного поезда. При этом известные алгоритмы неотрицательной факторизации тензоров включают на каждой итерации операцию с матрицей-разверткой исходного тензора, что делает их не подходящими для работы с большими данными.
Доклад посвящен методам для неотрицательной факторизации матриц и тензоров, основанным на малоранговых разложениях, приводятся теоретические результаты, доказывающие эффективность алгоритмов для ряда задач в части скорости работы и точности аппроксимаций, что подтверждается численными экспериментами. Методы уже успешно применяются для вычисления неотрицательного решения уравнения Смолуховского, сжатия видео и изображений с запуском на нескольких процессорах.
- 20.02.2025, Екатерина Гришина (НИУ ВШЭ): Новый метод сжатия больших языковых моделей с помощью структурированных матричных разложений без дообучения
- 31.01.2025 (Ридинг клаб), Сергей Кудряшов: Подходы к непрерывному обучению и стабилизация многозадачного обучения
Аннотация. Способность к непрерывному обучению (continual learning) является одной из важных когнитивных особенностей живых существ, позволяющих адаптироваться к меняющимся условиям окружающей среды. В то же время для современных нейронных сетей задача обучения при нестационарности распределения сэмплов представляет существенную проблему. В докладе будут рассмотрены постановки задачи непрерывного обучения, а также некоторые актуальные результаты, демонстрирующие равную значимость регуляризации и выбора траектории оптимизации для решения поставленной задачи.
2024 год
- 17.12.2024 (Ридинг клаб), Николай Юдин (НИУ ВШЭ): Разбор статей с NeurIPS 2024, использующих техники вычислительной линейной алгебры
- 06.12.2024, Максим Бекетов (HDI Lab): Безградиентная оптимизация на основе тензорных разложений – приложения в нейронауках
Аннотация. Я расскажу о нашей с коллегами работе [1], в которой различные методы безградиентной оптимизации, построенные на основе Tensor Train разложения, применялись к задаче максимизации активации нейронов в импульсных нейронных сетях (SNN). Мы работали с SNN как с биологически правдоподобной моделью живых сетей нейронов, с надеждой в перспективе применять эти методы для получения ответов на фундаментальные вопросы когнитивной нейробиологии – на чем специализируются нейроны в мозге разумных живых существ. Я расскажу об этом контексте, об устройстве опробованных нами алгоритмов, их успехах в данной задаче, обнаруженных закономерностях в специализациях нейронов SNN, и об открытых вопросах. [1] Fast gradient-free activation maximization for neurons in spiking neural networks Nikita Pospelov, Andrei Chertkov, Maxim Beketov, Ivan Oseledets, Konstantin Anokhin https://arxiv.org/abs/2401.10748
- 03.12.2024 (Ридинг клаб), Екатерина Гришина (НИУ ВШЭ): Разбор публикаций на тему сжатия больших языковых моделей с помощью матричных разложений
- 12.11.2024 (Ридинг клаб), Владимир Богачев (НИУ ВШЭ): Разбор публикаций на тему сравнения LoRA и full fine-tune
- 22.10.2024, Иван Новиков (Сколковский институт науки и технологий): Машинное обучение в атомистическом моделировании
Аннотация. За последние 15 лет машинное обучение стало широко применяться в атомистическом моделировании. В частности, были разработаны так называемые машинно-обучаемые потенциалы (МОПы) межатомного взаимодействия – модели, описывающие взаимодействие атомов (предсказывающие энергии и силы взаимодействия) в различных атомистических системах. МОПы, обученные на данных достаточно точных квантово-механических вычислений, позволяют эффективно предсказывать свойства материалов и проводить атомистическое моделирование при различных условиях.В докладе будет обсуждаться один из разработанных машинно-обучаемых потенциалов межатомного взаимодействия, а именно, Moment Tensor Potential (MTP) и алгоритмы его обучения. Кроме того, будет обсуждаться обобщение MTP на случай его применения к магнитным материалам. Также будут продемонстрированы результаты решения нескольких задач атомистического моделирования.
- 01.10.2024, Вячеслав Юсупов (НИУ ВШЭ): Гиперболические подходы для предсказания связей в графах знаний
- 25.09.2024 (Ридинг клаб), Александра Сендерович (НИУ ВШЭ): Разбор публикации на тему применения трансформера для нейросетевых рекомендаций
- 26.06.24, Иван Пешехонов (НИУ ВШЭ, Яндекс): Matrices in DL are dead. Long live KANs
- 19.06.24, Екатерина Гришина (НИУ ВШЭ): Точная и эффективная оценка спектральной нормы свёрточных слоев нейросетей
- 04.06.24, Михаил Горбунов, Николай Юдин (НИУ ВШЭ): Эффективная структурированная ортогональная параметризация на основе GS-матриц
- 17.04.24, Александр Моложавенко (НИУ ВШЭ, МФТИ): Riemannian Optimization on a Quotient Tensor Train manifold
- 03.04.24, Сергей Матвеев (МГУ, ИВМ РАН): Методы переменного проектирования для приближенно-малоранговых неотрицательных тензоров
- 06.03.24, Salman Ahmadi Asl (Skoltech): Randomized tensor algorithms for fast tensor completion.
The randomization framework has been proven to be an efficient technique for low-rank matrix computation and recently was generalized to the tensors. It is known that randomized algorithms reduce the computational complexity of the deterministic counterparts and also their communication costs.
The latter benefit is especially important when the data tensor is very large and stored on several machines. Here, the communication cost is the main concern and we need to access the data tensor as few times as possible. In this talk, we talk about these fast techniques and their computational aspects. In particular two applications namely image/video completion and image super-resolution are presented.
- 21.02.24, Екатерина Булатова (Цинхуа): Диффузионные модели в генерации естественных текстур для одежды, помогающей избегать детекции.
- 14.02.24, Данил Гусак (НИУ ВШЭ, Skoltech): Масштабируемая кросс-энтропия для последовательных рекомендаций с большими каталогами айтемов.
- 21.12.23 (Ридинг клаб), Екатерина Гришина (НИУ ВШЭ): разбор статьи "On the explainable properties of 1-Lipschitz Neural Networks: An Optimal Transport Perspective".
- 14.12.23, Ирина Голобородько (НИУ ВШЭ): Спектральные свойства матриц Якоби в нейронных сетях.
- 30.11.23, Александра Сендерович (НИУ ВШЭ): Методы обучения нейронных сетей с ограниченной константой Липшица.
- 16.11.23, Евгений Фролов (НИУ ВШЭ, Skoltech, AIRI): Гиперболические эмбеддинги в задаче предсказания следующих действий пользователя в рекомендательных системах.
- 02.11.23, Иван Пешехонов (НИУ ВШЭ): Exploring the benefits of Riemannian optimization for machine learning tasks on matrix/tensor manifolds.
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.