О геометрии on-policy дистилляции: парадигма обучения, отличная от SFT и RLVR
Hong Kong University of Science and Technology
В этой статье (arXiv:2606.07082) on-policy дистилляция (OPD) характеризуется как самостоятельная парадигма обучения путём анализа геометрии в пространстве параметров. OPD оставляет 51,6% весов неизменными (между SFT с 8,1% и RLVR с 77,2%), сильнее избегает главных направлений, чем SFT, и проявляет «блокировку подпространства» — накопленные обновления быстро входят в стабильный низкоразмерный канал. Ограничение обучения этим рано сформировавшимся подпространством сохраняет производительность, а само подпространство устойчиво к разреживанию токенов и off-policy роллаутам, но меняется при смешивании целей.
Почему это важно
OPD стала популярным способом обучения моделей рассуждений (например, через GRPO-подобную дистилляцию), однако оставалось неясным, является ли она просто RL с другим вознаграждением или замаскированным SFT. Статья устанавливает её собственную идентичность с практическими импликациями: заблокированное подпространство может направлять разработку алгоритмов с учётом геометрии и потенциально снижать стоимость обучения за счёт прямой работы с активным подпространством. Третье место на HF Daily Papers (45 голосов).
Важность: 2/5
Третье место на HF Daily Papers 9 июня (45 голосов); устанавливает теоретическую идентичность OPD как самостоятельной парадигмы обучения.