Flow-DPPO: принципиальное RL-выравнивание для моделей генерации изображений и видео на основе flow matching

Tencent Hunyuan

исследования официальный 1 ист. ~1 мин

Flow-DPPO (arXiv:2606.11025) утверждает, что варианты PPO с отсечением отношений (Flow-GRPO, CPS) структурно не подходят для моделей flow matching, поскольку зашумлённые пошаговые соотношения политик приводят к непоследовательному применению области доверия по позициям траектории. Flow-DPPO заменяет отсечение отношений проксимальным ограничением на основе дивергенции и использует гауссовскую структуру пошаговых политик flow для эффективного вычисления точных KL-дивергенций. Демонстрирует превосходное вознаграждение, лучшую KL-эффективность, снижение катастрофического забывания и стабильное многоэпохальное обучение на задачах генерации изображений и видео.

Почему это важно

Применение RL-выравнивания к генеративным моделям изображений и видео — активное направление исследований. Flow-DPPO предлагает теоретически обоснованную альтернативу отсечению отношений, разработанную специально для парадигмы flow matching с непрерывным временем, используемой сегодня в большинстве SOTA диффузионных моделей.

Важность: 3/5

Заметная исследовательская статья от Tencent Hunyuan; принципиальный RL для моделей flow matching заполняет теоретический пробел; актуально для выравнивания в задачах генерации видео и изображений.

Источники