post-training — AI Digest

10 июн DRPO: Rethinking Divergence Regularization in LLM Reinforcement Learning Tencent Hunyuan research
11 июн Anatomy of Post-Training: Using Interpretability to Audit and Fix Preference Data research