World-R1: Reinforcing 3D Constraints for Text-to-Video Generation

Microsoft Research

исследования только СМИ 1 ист. ~1 мин

RL-fine-tuning text-to-video с reward-сигналом по 3D-геометрической согласованности; 3D-aware reward резко улучшает temporal coherence без потери визуального качества.