rlvr — AI Digest

17 июн VibeThinker-3B достигает показателей frontier-уровня на бенчмарках рассуждений через curriculum RL WeiboAI research
10 июн DRPO: переосмысление дивергентной регуляризации в обучении с подкреплением для LLM Tencent Hunyuan research