#training-dynamics 1 пункт 9 июн О геометрии on-policy дистилляции: парадигма обучения, отличная от SFT и RLVR Hong Kong University of Science and Technology research