#post-training 2 пункта 10 июн DRPO: переосмысление дивергентной регуляризации в обучении с подкреплением для LLM Tencent Hunyuan research 11 июн Анатомия пост-обучения: использование интерпретируемости для аудита и исправления данных предпочтений research