Летняя практика

В ходе прохождения практики студенты смогут познакомиться с реальными научно-техническими задачами, требующими от студентов погружения в интересную предметную область и владение соответствующими навыками в областях анализа данных, машинного обучения и/или разработки программного обеспечения. Работа над проектами может проходить на взаимовыгодной основе. Подробности можно узнать по адресу ntalaikova@hse.ru


Проекты 2025:

 

Название проекта 
и контактное лицо

Описание проекта
Цель, задачи

Пререквизиты

Уровень студентов
(курс)

Количество мест

Гущин Михаил Иванович
mhushchyn@hse.ru

Изучение применимости языковых моделей (LM) для анализа табличных данных

Задачи практики
1) Научиться применять языковые модели на табличных данных.

2) Научиться дообучать языковые модели на табличных данных.

3) Сравнить языковые модели с другими моделями ML.

Результаты практики
1) Применить языковую модель на нескольких табличных датасетах.

2) Применить ряд специализированных моделей для табличных данных.

3) Провести анализ качества прогнозов.

Глубинное обучение, языковые модели

Бакалавриат (3+)

Магистратура

1

Гущин Михаил Иванович
mhushchyn@hse.ru

 

Детектирование аномалий во временных рядах с помощью фундаментальных моделей

Задачи
1) Научиться применять фундаментальные модели на временных рядах

2) Научиться дообучать фундаментальные модели.

3) Сравнить фунадментальные модели с другими моделями.

Результаты
1) Применить фундаментальную модель на нескольких датасетах.

2) Применить ряд ML моделей для детектирования аномалий в рядах.

3) Провести анализ качества прогнозов.

Глубинное обучение, языковые модели

Бакалавриат (3+)

Магистратура

1

Деркач Денис Александрович

dderkach@hse.ru

Разработка подхода мониторинга качества данных в экспериментах коллайдера NICA

Задачи
- Изучить подход эксперимента LHCB Большого адронного коллайдера

- Подготовить готовый код библиотеки Monet к запуску в standalone режиме

- Установить отлаженный проект в инфраструктуре экспериментов NICA

В рамках проекта предлагается осуществить перенос и адаптацию библиотеки и вебинтерфейса по мониторингу качества данных в Большом адронном коллайдере на проект NICA (Дубна)

django, javascript, С++

Бакалавриат (3+)

Магистратура

3

Кирова Валерия Орлановна 

 

vkirova@hse.ru

Создать искусственно увеличенный датасет МРТ-снимков, сохраняя диагностически значимые признаки

 

1. Подобрать модель увеличения очень маленького датасета МРТ-снимков (30 здоровых детей и 30 детей с парезом Эрба) 2. Увеличить выборку до оптимального для последующей классификации размера.

python, pytorch, ML, DL, GAN

Бакалавриат (3+)

Магистратура

4

Кирова Валерия Орлановна 

 

vkirova@hse.ru

Построить классификатор для автоматического различия структурных МРТ-снисков детей с парезом Эрба и здоровых
 

Прописать и обучить классификатор МРТ-снимков детей с патологией и без. Датасет будет состоять их оригинальных и синтезированных данных

classification task

Бакалавриат (3+)

Магистратура

4

Кирова Валерия Орлановна 

 

vkirova@hse.ru

Автоматизированная система классификации и подсчета рачков

Задача: Разработка модели, которая анализирует входное изображение с множеством рачков, а именно:
определяет их виды, подсчитывает количество каждого вида.

Обучение модели будет проводиться на размеченной базе данных изображений, организованной в виде папок, где название папки соответствует виду рачка.

Какая предстоит работа: подготовка данных (сбор,разметка, аугментация, test/train), разработка и обучение модели классификации (ResNet, EfficientNet, Vision Transformer или кастомная CNN), системы детекции объектов (YOLOv8). Объединение классификации и детекции.

classification task

Бакалавриат (3+)

Магистратура

 4

Кирова Валерия Орлановна 

 

vkirova@hse.ru

Разработка системы, которая генерирует текстовое описание рачка на основе его изображения:
✔️ Морфологическое описание – основные внешние признаки, позволяющие отличить один вид от другого.
✔️ Таксономическое описание – определение семейства, рода и других таксономических категорий, чтобы классифицировать новый вид.

Задача: Разработать модель, которая анализирует входное изображение с 1 рачком, и выдает его текстовое описание (таксономическое, морфологическое). Разработка пользовательского интерфейса (опционально)
Какая предстоит работа: развертывание модели (начнем с QWEN), построение промтов (совместно с наставниками и биологами)

 

Бакалавриат (3+)

Магистратура

 4

Кирова Валерия Орлановна 

 

vkirova@hse.ru

Разработка системы, которая генерирует текстовое описание рачка на основе его изображения:
✔️ Морфологическое описание – основные внешние признаки, позволяющие отличить один вид от другого.
✔️ Таксономическое описание – определение семейства, рода и других таксономических категорий, чтобы классифицировать новый вид.

Создать интерфейс (UI) для уже реализованной бэкенд-логики, которая обрабатывает изображения в заранее известном формате. Интерфейс должен позволять пользователю:
Загружать изображение,
Вызывать определённые функции обработки,
Получать и визуализировать результат.

 

Бакалавриат (3+)

Магистратура

3

Кирова Валерия Орлановна 

 

vkirova@hse.ru

Создать интерфейс (UI) для уже реализованной бэкенд-логики, которая обрабатывает Excel-таблицы в заранее известном формате. Интерфейс должен позволять пользователю:
Загружать Excel-файл,
Вызывать определённые функции обработки,
Получать и визуализировать результат.

1. Проектирование интерфейса
Определить структуру UI (например, одностраничное приложение или многостраничное).
Создать макет (wireframe) с основными элементами:
Кнопка загрузки файла.
Выбор функций обработки.
Область вывода результатов.

2. Реализация загрузки файла
Добавить поле для загрузки Excel-файла (поддержка .xlsx, .xls).

Валидация формата файла перед отправкой на бэкенд.

Отображение статуса загрузки (прогресс, успех/ошибка).

3. Выбор функций обработки
Реализовать UI-элементы (кнопки, выпадающие списки) для вызова функций бэкенда.

Возможность передавать параметры обработки (если требуется).

4. Визуализация результатов
Отображение обработанных данных (таблицы, графики, текстовые сводки).

 

Бакалавриат (3+)

Магистратура

3

Кирова Валерия Орлановна 

 

vkirova@hse.ru

Изучение и применение методов математического моделирования в клеточной биологии для анализа динамики клеточных процессов

проникнуться текущими исследованиями (совместно с научной группой), Формализация биологических данных (совместно с научной группой)

дискретная математика

Бакалавриат (3+)

Магистратура

3

Кирова Валерия Орлановна 

 

vkirova@hse.ru

сделать математическую постановку задачи эволюции генов

 

изучить задачу, совместно с руководителей и научной группой сформулировать постановкуц задачи в терминах математики

Проблема касается изменений в генетических последовательностях и восстановления кратчайшей последовательности преобразований, что в первую очередь требует точной математической формулировки.

 

дискретная математика

Бакалавриат (3+)

Магистратура

3

Кирова Валерия Орлановна 

 

vkirova@hse.ru

мат постановка задачи пересечения траекторий со случ блужданиями

 

исследовать задачу (изучить пару статей на эту тему), совместно с руководителей и научной группой сформулировать постановку задачи в разных терминах математики

постановка задачи о пересечении двух траекторий. рассмотреть постановку задачи в различных математических терминах и условия пересечения с точки зрения механики, теории графов, комбинаторики слов и теории информации. рассмотреть это с учетом случайных блужданий, развитие идеи

 

теория графов / теория инфомации / теория групп 

Бакалавриат (3+)

Магистратура

3

Кирова Валерия Орлановна 

 

vkirova@hse.ru

Разработка метода восстановления энергетического спектра нейтронов по данным детектора с использованием нейросетевых подходов.

Изучить формат и структуру исходных данных, Построить математическую модель детектора, связывающую спектр нейтронов с регистрируемыми сигналами. Выбрать архитектуру нейронной сети (например, свёрточная CNN, полносвязная DNN, рекуррентная RNN).
python, ML, DL

Бакалавриат (3+)

Магистратура

3

Трофимова Екатерина Алексеевна

etrofimova@hse.ru

Участие в проекте по созданию автономной генерации ML-кода и обогащению бенчмарка (развитие идей https://peerj.com/articles/cs-2328/)

1.Создание мультиагентной системы генерации ML кода по текстовому описнаию задачи; 2. Валидация промежуточных шагов генерации кода 3. Интерпретация прогнозов

python, основы NLP, основы LLM

Бакалавриат (3+)

Магистратура

4

Трофимова Екатерина Алексеевна

etrofimova@hse.ru

Анализ влияния семиантики входного текстового описания задачи по ML на разных языках на генерацию решения в виде программного кода

1. Создание или отбор корпуса мультиязычных описаний ML-задач; 2. Анализ семантических различий между языками; 3. Оценка влияния языка и формулировки задачи на результаты генерации; 4. Разработка метрик или методик анализа чувствительности моделей

python, основы NLP, основы LLM

Бакалавриат (3+)

Магистратура

4

Трофимова Екатерина Алексеевна

etrofimova@hse.ru

Синтез описания создания технической детали в формате JSON по 3D-модели

1. Применение VLLM к задаче обработки 3D модели детали; 2. Контроль генерации JSON на базе ГОСТ 3. Разработка методологии оценки качества генерации в контексте задачи

python, основы NLP, основы LLM

Бакалавриат (3+)

Магистратура

3

Трофимова Екатерина Алексеевна

etrofimova@hse.ru

Интуитивная визуализация вывода больших языковых моделей (LLM) с помощью интерактивных виджетов

 

Большие языковые модели (LLM) обладают мощными возможностями генерации и рассуждения, однако их выводы зачастую представлены в виде длинного текста, что затрудняет интерпретацию и взаимодействие для конечного пользователя. Этот проект направлен на создание визуальных и интерактивных компонентов (виджетов), которые переводят текстовый вывод LLM в наглядную, управляемую форму, облегчая понимание, навигацию, редактирование и контроль. Задачи проекта:

1. Анализ типов вывода LLM, пригодных для визуализации;

2. Разработка набора визуальных шаблонов (виджетов) для различных типов вывода;

3. Разработка парсера/преобразователя вывода LLM в формат визуализации;

4. Проведение пользовательских исследований по удобству восприятия визуальных представлений

5. Интеграция LLM в визуальную среду взаимодействия

 

python, основы NLP, основы LLM

Бакалавриат (3+)

Магистратура

4

Al-Maeeni Aziz

al-maeeni@hse.ru

To study and implement scalable, equivariant deep learning models for predicting interatomic potentials, focusing on the Allegro like architecture as an alternative to message-passing neural networks

 

- Study local descriptor-based and message-passing neural networks for molecular modeling
- Understand the theoretical foundations of equivariant tensor operations
- Reproduce or extend the Allegro model using open datasets (e.g. QM9, MD-17)
- Evaluate scalability and accuracy of the approach versus baseline models
- Explore generalization to out-of-distribution molecules or materials

The project centers on the implementation and evaluation of Allegro, a state-of-the-art local equivariant neural potential model for atomic-scale simulations. Students will investigate how to achieve message-passing-level accuracy using scalable local operations and how to leverage equivariance for enhanced generalization. The work may include model training, performance benchmarking, and application to molecular dynamics.

 

Strong background in deep learning, computational physics or chemistry, linear algebra, and proficiency in Python and PyTorch; familiarity with graph neural networks and tensor algebra is essential

Бакалавриат (3+)

Магистратура

3

Al-Maeeni Aziz

al-maeeni@hse.ru

To develop a symbolic regression method guided by large language models for generating interpretable scientific models

 

- Study existing symbolic regression techniques
- Explore the use of LLMs for mathematical expression generation
- Implement a prototype symbolic regression system
- Test and refine the method using example problems
- Document and present results

The project includes literature review, algorithm design, implementation of LLM-guided symbolic regression, integration of domain constraints for interpretability, and evaluation of the approach on scientific problems such as in material science.

 

Strong background in deep learning,  linear algebra, and proficiency in Python and PyTorch, search and optimization methods
Knowledge of Lisp is a big plus

Бакалавриат (3+)

Магистратура

3

Al-Maeeni Aziz

al-maeeni@hse.ru

To explore the use of large language models (LLMs) for generating and optimizing materials with tailored properties

- Review literature on AI-driven materials discovery
- Study LLM capabilities for structured text generation
- Design prompts and workflows for material property prediction and composition suggestion
- Validate generated materials using databases or simulation
- Document methodology and results

The project involves investigating how LLMs can be leveraged to generate novel materials with desired properties by interpreting and synthesizing scientific data, proposing material compositions, and integrating this process with computational validation tools.

Strong background in deep learning, computational physics or chemistry, linear algebra, and proficiency in Python and PyTorch; familiarity with graph neural networks

Бакалавриат (3+)

Магистратура

3

Al-Maeeni Aziz

al-maeeni@hse.ru

To develop and explore a general-purpose framework that combines large language models with evaluators to discover new algorithms and insights in science and mathematics

 

- Study related work (FunSearch, AlphaEvolve)
- Build or adapt a system pairing an LLM with an automated evaluator
- Apply the system to one or more algorithmic or scientific problems
- Analyze discovered solutions for novelty and interpretability
- Document findings and prepare a presentation

The project focuses on building a prototype implementation of a function-space search framework, where an LLM proposes candidate functions or algorithms and a systematic evaluator scores them. The project explores how this paradigm can yield interpretable, verifiable results across domains, such as combinatorics, optimization, or physics.

 

Strong background in deep learning, linear algebra, optimization, and proficiency in Python and PyTorch
Knowledge of Lisp is a big plus

Бакалавриат (3+)

Магистратура

3

Рамазян Тигран Арменович

tramazyan@hse.ru

Разработка методов и экспериментов для байесовской оптимизации устойчивой к (контекстному) распределению

 

- Изучить современные методы устойчивой байесковской оптимизацией
- Изучить популярные примеры численных экспериментов оптимизации черных ящиков
- Реализовать изученный материал

В рамках проекта предлагается добавить новые и улучшить существующие методы оптимизации черных ящиков. В особенности методов байесовской оптимизации устойчивой к распределению

 

Методы оптимизации, линейная алгебра, машинное обучение, Python (Numpy, PyTorch)

Бакалавриат (3+)

Магистратура

3

Али Сараа

thraaali@hse.ru

Изучение методов анализа сигналов от двигателей и разработка моделей для автоматического обнаружения неисправностей.

1. Обзор существующих методов и алгоритмов обнаружения неисправностей по сигналам двигателя.
2. Изучение структуры и особенностей доступных данных.
3.Реализация базовых моделей предсказания неисправностей.
4. Оценка чувствительности алгоритмов к изменениям параметров двигателя.
5. Анализ влияния частоты считывания данных на качество диагностики.
6.Формирование рекомендаций по оптимизации процесса мониторинга и диагностике состояния двигателя.

Глубинное обучение, PyTorch, ML; желательно — обработка сигналов и временные ряды

Бакалавриат (3+)

Магистратура

3
Лазарев Михаил Владимирович
mvlazarev@hse.ru

КАN :Разработать и применить алгоритм на основе КАN (на графе)
для оптических свойств, можно попробовать другие экзотические нейросетевые методы двумерного материала

Тут можно попробовать различные модели ВД для графов для оценки свойств кристаллов или молекул.

Все участники проекта будут работать в команде, но решать разные задачи. Участники смогут укрепить свои навыки в машинном обучении, разработке ПО и работе с открытым кодом. Научиться решать прикладные задачи в области физики.

python,  DL, pytorch

Бакалавриат (3+)

Магистратура

2
Лазарев Михаил Владимирович
mvlazarev@hse.ru

LLNs и Transformers: примение к задаче нахождения уравнения
или формулы для описания данных

 

Главной задачей является нахождения описания данных с учётом заданных ограничений. Оценить работоспособность на открытых датасетах. Так и на датасетах подразумевающих учёт физических законов.

Участники смогут укрепить свои навыки в машинном обучении, и NLP. Практика подойтет тем, кто хочет определиться, подойдет ли для ВКР открытая исследовательская тема.

 

python, DL,
основы NLP,
основы LLM

Бакалавриат (3+)

Магистратура

2
Лазарев Михаил Владимирович
mvlazarev@hse.ru

LLNs для предсказания структуры кристала по заданным свойствам,
или же пути его синтезировать (тут есть где разгуляться по формулировке задачи)

 

Дообучить LLM (типа LAMA 3.1) а большом корпусе кристаллов представленных в текстовом формате. Главной целью будет генерация кристалов с заданными оптическими и электронными свойствами.

Участники смогут укрепить свои навыки в машинном обучении, и анализе данных и LLM. Практика подойтет тем, кто хочет определиться, подойдет ли для ВКР открытая исследовательская тема.

 

python, DL,
основы NLP,
основы LLM

Бакалавриат (3+)

Магистратура

2
Лазарев Михаил Владимирович
mvlazarev@hse.ru

Определение свойств материалов и молекул, ускорение физических расчётов с помощью DFT.

 

Предполагается использование новых GNN моделей для задачи определения свойств вещества.

Все участники проекта будут работать в команде, но решать разные задачи. Участники смогут укрепить свои навыки в машинном обучении, разработке ПО и работе с открытым кодом. Научиться применять методы ИИ для работы с физическими объектами

 

python, DL, GNNs,
основы LLM

Бакалавриат (3+)

Магистратура

2
Лазарев Михаил Владимирович
mvlazarev@hse.ru

Современные методы компьютерного зрения в медицине.
Задача построения 3D изображения по проекциям

 

В проекте активно будут использоваться метода компьютерного зрения.
Требуется попробовать несколько подходов генерации 3д объекта по его проекциям.

Все участники проекта будут работать в команде, но решать разные задачи. Участники смогут укрепить свои навыки в машинном обучении, разработке ПО и работе с открытым кодом. Погрузиться в работу с реальными данными полученными опытными докторами. Изучить область задач 3д компьютерного зрения и применить новые мемтоды на практике.

 

python, DL,
основы CV

Бакалавриат (3+)

Магистратура

2
Лазарев Михаил Владимирович
mvlazarev@hse.ru

Разработка голосового ассистента для сбора информации пациента

 

Основой в этом проекте будет применение speech2text и text2speech моделей на реальных данных. Работа будет включать улучшение базовой LLM модели для ведения диалога.

Все участники проекта будут работать в команде. Участники смогут укрепить свои навыки в машинном обучении, разработке ПО и работе с открытым кодом. Исследовать различные модели text2speach и speach2text, а также подходы для клонирование голоса. Итогом будет проводиться реальное тестирование алгоритмов на пациентах клиник.

 

python, DL,
основы CV

Бакалавриат (3+)

Магистратура

2

Новиков Иван Сергеевич

isnovikov@hse.ru

Изучение машинно-обучаемого потенциала межатомного взаимодействия
(далее МОПа), основ построения баз данных для его обучения, а также влияния
явного учета дисперсионных поправок на точность и предсказательную способность потенциала при исследовании многослойных материалов.

 

1. Фитинг МОПов для исследования многослойных материалов.
2. Исследование влияния явного учета дисперсионного
взаимодействия в потенциале на точность обучения
и предсказательную способность потенциала.

4. Исследовать влияние явного включения дисперсионных поправок в потенциал на точность и предсказательную способность потенциала.
3. Обучить МОПы для многослойных материалов с явным учетом и без явного учета дисперсионных взаимодействий.
2. Научиться работать с пакетом квантово-механических вычислений для расчета базы данных.
1. Научиться работать с МОПами, реализованными в коде MLIP-4 (https://gitlab.com/ashapeev/mlip-4).

 

Python, основы Linux, 
основы машинного обучения 
(задача регрессии). 

Бакалавриат (3+)

Магистратура

2

Новиков Иван Сергеевич

isnovikov@hse.ru

Изучение машинно-обучаемых потенциалов межатомного взаимодействия (далее МОПов) и их применимости для исследования многокомпонентных сплавов. Изучение переносимости МОПов, обученных при одних концентрациях сплавов, на исследование других концентраций.

 

1. Фитинг МОПов для исследования многокомпонентных сплавов.
2. Сравнение точности, предсказательной способности и переносимости различных МОПов.

4. В случае плохой переносимости потенциалов на другие составы, дообучить потенциалы и рассчитать радиальные функции распределения, сравнить результаты на дообученных потенциалах.
3. Рассчитать радиальную функцию распределения (гистограмму попарных расстояний между разными типами атомов) с помощью обученных МОПов (MTP и DeePMD) как для состава, на котором проходило обучение потенциалов, так и для составов, которых не было в базе данных. Сравнить полученные радиальные функции распределения и переносимость потенциалов на другие составы.
содержании каждой из компонент Al, Cu и Ni.
2. Обучить МОПы (MTP, реализованный в MLIP-4 и DeePMD, реализованный в DeepMD-kit) для исследования многокомпонентного сплава Al-Cu-Ni при равном
1. Научиться работать с МОПами, реализованными в кодах MLIP-4 (https://gitlab.com/ashapeev/mlip-4) и DeepMD-kit (https://github.com/deepmodeling/deepmd-kit).

 

Python, основы Linux, 
основы машинного обучения 
(задача регрессии). 

Бакалавриат (3+)

Магистратура

2


_______________________________________

По вопросам прохождения практики писать на ntalaikova@hse.ru

Проекты прошлых лет:

Проекты 2024

Проекты 2023

Проекты 2022

Проекты 2021

Проекты 2020

Проекты 2018