DanceOPD: дистилляция генеративных полей на основе онлайн-выборки для унифицированной генерации изображений
ByteDance Seed
DanceOPD рассматривает каждую возможность генерации изображений (text-to-image, локальное редактирование, глобальное редактирование) как поле скоростей и дистиллирует их в унифицированную студенческую модель flow-matching через онлайн-выборку. Для каждого обучающего примера студент направляется к одному замороженному полю возможностей, запрашивает его в состоянии малого шума при онлайн-выборке и согласовывает результирующую скорость с помощью локального MSE-лосса. Это позволяет избежать интерференции возможностей. Показатели редактирования улучшаются до 21.9% в отдельных категориях, а метрики text-to-image сохраняются или улучшаются до 2.0%. 64 голоса на HF Daily Papers.
Почему это важно
Объединение разнообразных генеративных возможностей без катастрофического забывания — устойчивая проблема в генерации изображений. Подход дистилляции на основе онлайн-выборки в DanceOPD архитектурно чист и демонстрирует сильные эмпирические результаты по всем трём измерениям возможностей.
Важность: 2/5
64 голоса на HF Daily; чистое решение задачи мультивозможностной дистилляции в генерации изображений от ByteDance Seed