SDAR: агентное обучение с подкреплением через самодистилляцию для многоходовых агентов

Zhejiang University / Meituan

исследования официальный 1 ист. ~1 мин

SDAR (arXiv 2605.15155, 69 голосов HF Daily) сочетает On-Policy Self-Distillation (OPSD) как стробируемую вспомогательную цель наряду с GRPO RL для многоходовых LLM-агентов. Сигмоидный шлюз избирательно усиливает одобренные учителем токены, ослабляя шум дистилляции от несовершенных отклонений. Оценён на Qwen2.5 и Qwen3 на бенчмарках ALFWorld, WebShop и Search-QA: улучшение на +9,4%, +10,2% и +7,0% над базовым GRPO соответственно.

Почему это важно

Совмещение RL с самодистилляцией для постобучения агентов — ключевое исследовательское направление, однако склонное к нестабильности обучения. Механизм стробирования SDAR прост, но эмпирически эффективен на двух семействах моделей и трёх бенчмарках, предоставляя практический шаблон для обучения многоходовых агентов.

Важность: 3/5

69 голосов HF Daily; прирост +9–10% над GRPO на трёх бенчмарках; практический метод для агентного постобучения с RL

rl agents agentic distillation qwen reasoning

Источники

официальный Self-Distilled Agentic Reinforcement Learning — arXiv