Работы ученых Института искусственного интеллекта и цифровых наук ФКН будут представлены в программе 38-й ежегодной конференции по системам обработки нейронной информации (NeurIPS 2024), которая пройдет в Ванкувере, Канада, с 10 по 15 декабря 2024 года. NeurIPS охватывает широкий спектр тем, связанных с машинным обучением и нейронаукой, включая когнитивную науку, психологию, компьютерное зрение, статистическую лингвистику и теорию информации.
В этом году на NeurIPS было подано 15 671 полных статей, из которых программный комитет принял 25,8% для презентации на конференции. Среди них оказались работы исследователей Института ИИ и цифровых наук ФКН, в том числе от Центра искусственного интеллекта НИУ ВШЭ.
Список статей Института ИИ и цифровых наук на NeurIPS:
Исследование посвящено изучению влияния начальной скорости обучения (learning rate, LR) в нейронных сетях на качество их работы. Исследователи обнаружили, что использование больших начальных скоростей обучения улучшает способность модели обобщать данные, то есть находить общие закономерности, а не запоминать конкретные примеры. Это происходит за счёт того, что модель начинает с фокусировки на наиболее важных признаках данных, отбрасывая менее значимые.
В ходе эксперимента ученые выяснили, что если скорость обучения слишком мала, модель пытается учесть все признаки одновременно, что приводит к ухудшению способности к обобщению. С другой стороны, если скорость обучения слишком велика, модель может потерять способность выделять важные признаки. Оптимальным оказалось использование умеренно высоких начальных скоростей обучения. В этом случае модель становится более специализированной, сосредотачиваясь на самых важных признаках, что способствует лучшему обобщению и повышению качества работы модели. Исследование показывает, что правильный выбор начальной скорости обучения критически важен для достижения наилучших результатов в обучении нейронных сетей.
Исследование посвящено разработке метода переноса прически с одного изображения на другое с использованием нейронных сетей. Метод называется HairFastGAN и основан на использовании генеративных состязательных сетей (GAN) для быстрого и качественного преобразования изображений лиц с учетом различных поз и освещения. Исследование показывает, что разработанный метод является перспективным инструментом для приложений виртуальной реальности и компьютерной графики, где требуется быстрое и высококачественное редактирование изображений лиц.
В данной статье рассматривается новый класс структурированных матриц, называемых GS-матрицами (группа и перемешивание), которые обеспечивают эффективное представление плотных ортогональных матриц с меньшим количеством параметров по сравнению с существующими методами. Предложен метод параметризации этих матриц для использования в задачах глубокого обучения, таких как параметрически эффективная тонкая настройка нейронных сетей. Этот метод позволяет эффективно использовать ресурсы при обучении больших моделей, сохраняя при этом их точность.
В частности, исследователи предлагают использование GS-матриц для тонкой настройки предварительно обученных моделей, что помогает избежать проблем со стабильностью и переобучением, характерных для других методов, таких как LoRA. Эксперименты показывают, что предложенный метод превосходит аналогичные подходы, такие как BOFT, по эффективности и качеству результата при меньшем количестве параметров.
Кроме того, авторы статьи адаптировали свою методику для работы с сверточными нейронными сетями, демонстрируя ее применимость к различным типам архитектур. Результаты экспериментов подтверждают эффективность предложенного подхода в различных областях, включая обработку естественного языка и генерацию изображений.
Исследование посвящено разработке модели для генерации последовательностей аминокислот, представляющих белки, с использованием диффузионных моделей на основе языковых моделей (LM). Основная цель работы — создание модели DiMA (Diffusion on language model embeddings for protein sequence generation), которая использует непрерывную диффузию на представлениях, полученных от трансформерной белковой языковой модели ESM-2.
Исследование демонстрирует, что модель DiMA представляет собой значительный шаг вперед в области белкового дизайна и может служить основой для создания условных моделей, которые будут учитывать специфические условия или функции при генерации белковых последовательностей.
Представленные исследования демонстрируют вклад российских ученых в развитие современных технологий машинного обучения и искусственного интеллекта. Они открывают новые возможности для улучшения существующих методов и создания инновационных решений в различных областях, таких как обработка изображений, классификация данных и другие задачи машинного обучения.
NeurIPS, основанная в 1987 году, является ведущей междисциплинарной конференцией, посвященной машинному обучению и искусственному интеллекту. Ежегодное мероприятие включает в себя приглашенные доклады, рецензируемые статьи, семинары и учебные курсы, создавая пространство для обмена передовыми исследовательскими идеями.