SDAR: агентное обучение с подкреплением через самодистилляцию для многоходовых агентов
Zhejiang University / Meituan
SDAR (arXiv 2605.15155, 69 голосов HF Daily) сочетает On-Policy Self-Distillation (OPSD) как стробируемую вспомогательную цель наряду с GRPO RL для многоходовых LLM-агентов. Сигмоидный шлюз избирательно усиливает одобренные учителем токены, ослабляя шум дистилляции от несовершенных отклонений. Оценён на Qwen2.5 и Qwen3 на бенчмарках ALFWorld, WebShop и Search-QA: улучшение на +9,4%, +10,2% и +7,0% над базовым GRPO соответственно.
Почему это важно
Совмещение RL с самодистилляцией для постобучения агентов — ключевое исследовательское направление, однако склонное к нестабильности обучения. Механизм стробирования SDAR прост, но эмпирически эффективен на двух семействах моделей и трёх бенчмарках, предоставляя практический шаблон для обучения многоходовых агентов.
Важность: 3/5
69 голосов HF Daily; прирост +9–10% над GRPO на трёх бенчмарках; практический метод для агентного постобучения с RL