DOPD: двойная on-policy дистилляция с advantage-aware маршрутизацией токенов

исследования офиц. + СМИ 2 ист. ~1 мин

DOPD решает проблему «иллюзии привилегии» в on-policy дистилляции знаний, вводя advantage-aware парадигму двойной дистилляции, которая маршрутизирует обучающий сигнал токен за токеном между учителем и учеником на основе их разрыва в advantage. Метод стабильно улучшает стандартную on-policy дистилляцию как для LLM, так и для VLM, с подтверждёнными улучшениями в непрерывном обучении и устойчивости к out-of-distribution данным.

Почему это важно

84 голоса в HuggingFace Daily Papers (1 июля). Предлагает принципиально обоснованное теоретически мотивированное исправление известной нестабильности on-policy дистилляции.

Важность: 3/5

84 голоса в HF Daily Papers; принципиальное исправление нестабильности on-policy дистилляции, применимое как к LLM, так и к VLM

distillation efficiency rl training

Источники

официальный DOPD: Dual On-policy Distillation — arxiv

СМИ HuggingFace Daily Papers — July 1, 2026