training-dynamics — AI Digest

9 июн О геометрии on-policy дистилляции: парадигма обучения, отличная от SFT и RLVR Hong Kong University of Science and Technology research