О геометрии on-policy дистилляции: парадигма обучения, отличная от SFT и RLVR

Hong Kong University of Science and Technology

исследования официальный 2 ист. ~1 мин

В этой статье (arXiv:2606.07082) on-policy дистилляция (OPD) характеризуется как самостоятельная парадигма обучения путём анализа геометрии в пространстве параметров. OPD оставляет 51,6% весов неизменными (между SFT с 8,1% и RLVR с 77,2%), сильнее избегает главных направлений, чем SFT, и проявляет «блокировку подпространства» — накопленные обновления быстро входят в стабильный низкоразмерный канал. Ограничение обучения этим рано сформировавшимся подпространством сохраняет производительность, а само подпространство устойчиво к разреживанию токенов и off-policy роллаутам, но меняется при смешивании целей.

Почему это важно

OPD стала популярным способом обучения моделей рассуждений (например, через GRPO-подобную дистилляцию), однако оставалось неясным, является ли она просто RL с другим вознаграждением или замаскированным SFT. Статья устанавливает её собственную идентичность с практическими импликациями: заблокированное подпространство может направлять разработку алгоритмов с учётом геометрии и потенциально снижать стоимость обучения за счёт прямой работы с активным подпространством. Третье место на HF Daily Papers (45 голосов).

Важность: 2/5

Третье место на HF Daily Papers 9 июня (45 голосов); устанавливает теоретическую идентичность OPD как самостоятельной парадигмы обучения.

distillation rl training-dynamics efficiency

Источники

официальный arXiv:2606.07082 — On the Geometry of On-Policy Distillation

официальный HuggingFace Daily Papers