policy-optimization — AI Digest

10 июн DRPO: переосмысление дивергентной регуляризации в обучении с подкреплением для LLM Tencent Hunyuan research
10 июн Flow-DPPO: принципиальное RL-выравнивание для моделей генерации изображений и видео на основе flow matching Tencent Hunyuan research
17 июн ZPPO: дистилляция знаний через учителя-в-промптах превосходит градиентные методы для малых моделей рассуждений NVIDIA research