post-training — AI Digest

10 июн DRPO: переосмысление дивергентной регуляризации в обучении с подкреплением для LLM Tencent Hunyuan research
11 июн Анатомия пост-обучения: использование интерпретируемости для аудита и исправления данных предпочтений research