Flow-OPD: on-policy дистилляция даёт +29 пунктов по GenEval на Stable Diffusion 3.5

исследования офиц. + СМИ 2 ист. ~1 мин

Flow-OPD — первый фреймворк для интеграции on-policy дистилляции в text-to-image-модели на основе flow matching. Двухэтапная стратегия — тонкая настройка специализированных teacher-моделей через single-reward GRPO, затем консолидация через плотный контроль векторных полей на уровне траекторий с Manifold Anchor Regularization — достигает +29 пунктов по GenEval (63→92) и +35 пунктов по точности OCR (59→94) на Stable Diffusion 3.5 Medium, превосходя отдельные teacher-модели.

Почему это важно

113 голосов в HF Daily; предлагает принципиальное решение задачи multi-objective RLHF выравнивания для диффузионных моделей — ключевая нерешённая проблема для производственных text-to-image систем, пытающихся одновременно удовлетворить конкурирующим целям.

Важность: 3/5

113 голосов в HF Daily; GenEval +29 на SD3.5 Medium через принципиальный multi-objective RLHF подход; первый on-policy дистилляционный фреймворк для flow matching моделей.

diffusion rl alignment image-generation

Источники

официальный Flow-OPD: On-Policy Distillation for Flow Matching Models — arXiv

СМИ Flow-OPD — Hugging Face Daily Papers