Flow-DPPO: принципиальное RL-выравнивание для моделей генерации изображений и видео на основе flow matching
Tencent Hunyuan
Flow-DPPO (arXiv:2606.11025) утверждает, что варианты PPO с отсечением отношений (Flow-GRPO, CPS) структурно не подходят для моделей flow matching, поскольку зашумлённые пошаговые соотношения политик приводят к непоследовательному применению области доверия по позициям траектории. Flow-DPPO заменяет отсечение отношений проксимальным ограничением на основе дивергенции и использует гауссовскую структуру пошаговых политик flow для эффективного вычисления точных KL-дивергенций. Демонстрирует превосходное вознаграждение, лучшую KL-эффективность, снижение катастрофического забывания и стабильное многоэпохальное обучение на задачах генерации изображений и видео.
Почему это важно
Применение RL-выравнивания к генеративным моделям изображений и видео — активное направление исследований. Flow-DPPO предлагает теоретически обоснованную альтернативу отсечению отношений, разработанную специально для парадигмы flow matching с непрерывным временем, используемой сегодня в большинстве SOTA диффузионных моделей.
Важность: 3/5
Заметная исследовательская статья от Tencent Hunyuan; принципиальный RL для моделей flow matching заполняет теоретический пробел; актуально для выравнивания в задачах генерации видео и изображений.