DOPD: двойная on-policy дистилляция с advantage-aware маршрутизацией токенов
DOPD решает проблему «иллюзии привилегии» в on-policy дистилляции знаний, вводя advantage-aware парадигму двойной дистилляции, которая маршрутизирует обучающий сигнал токен за токеном между учителем и учеником на основе их разрыва в advantage. Метод стабильно улучшает стандартную on-policy дистилляцию как для LLM, так и для VLM, с подтверждёнными улучшениями в непрерывном обучении и устойчивости к out-of-distribution данным.
Почему это важно
84 голоса в HuggingFace Daily Papers (1 июля). Предлагает принципиально обоснованное теоретически мотивированное исправление известной нестабильности on-policy дистилляции.
Важность: 3/5
84 голоса в HF Daily Papers; принципиальное исправление нестабильности on-policy дистилляции, применимое как к LLM, так и к VLM
Источники
официальный
DOPD: Dual On-policy Distillation — arxiv