#policy-optimization
- DRPO: переосмысление дивергентной регуляризации в обучении с подкреплением для LLM Tencent Hunyuan research
- Flow-DPPO: принципиальное RL-выравнивание для моделей генерации изображений и видео на основе flow matching Tencent Hunyuan research
- ZPPO: дистилляция знаний через учителя-в-промптах превосходит градиентные методы для малых моделей рассуждений NVIDIA research