Как мы выиграли соревнование CLEF 2024 по генерации медицинских снимков
Всем привет! Меня зовут Михаил Чайчук, я учусь в магистратуре Вышки на ФКН, где также являюсь исследователем в НУЛ моделей и методов вычислительной прагматики. А недавно я пришел работать в AIRI на должность инженера-исследователя в команду Прикладное NLP, которой руководит Елена Тутубалина. Вместе с ней мы приняли участие в соревновании ImageCLEFmed MEDVQA-GI 2024 по генерации медицинских картинок, которое проводилось в рамках конференции CLEF 2024. Наш результат оказался лучшим среди 27 зарегистрированных команд! Мы уже опубликовали статью в сборнике соревнования, здесь же я расскажу, как нам удалось добиться победы.
Для себя мы сделали следующие выводы.
Во‑первых, оба опробованных нами подхода вполне имеют место быть и хорошо решают нашу задачу. Модель с 460 миллионами параметров (MSDM) продемонстрировала не сильно худшие значения метрик по сравнению с моделью в 4.6 миллиарда параметров (Kandinsky 2.2). Однако даже несмотря на то, что данная модель в целом меньше, на ее обучение с нуля всё равно уходит больше времени и ресурсов, чем на дообучение больших моделей с LoRa, так что мы всё же считаем дообучение более эффективным и перспективным методом решения подобных задач. Во‑вторых, аугментации данных действительно помогают значительно улучшить результаты — можно и нужно искать разные способы разнообразить свои данные. Наш подход с перефразами текстов показал себя весьма эффективно.
В дальнейшем мы планируем протестировать наш подход на других датасетах и моделях, чтобы детальнее изучить влияние параметров LoRa на итоговый результат.