DRPO: переосмысление дивергентной регуляризации в обучении с подкреплением для LLM

Tencent Hunyuan

исследования официальный 1 ист. ~1 мин

DRPO (Divergence Regularized Policy Optimization, arXiv:2606.09821) заменяет жёсткое маскирование градиентов из PPO/DPPO плавным квадратичным регуляризатором с взвешиванием по преимуществу. Вместо того чтобы отбрасывать обновления при выходе токена за границы области доверия, DRPO применяет ограниченные непрерывные веса градиентов, которые одновременно ослабляют вредоносные расхождения и дают корректирующие сигналы. Подход валидирован на различных масштабах моделей, архитектурах и настройках точности, демонстрируя улучшенную стабильность и эффективность по сравнению с существующими методами RL-обучения для LLM.

Почему это важно

С 324 голосами на HuggingFace Daily Papers — лучший показатель за 10 июня — эта статья напрямую затрагивает фундаментальную нестабильность в конвейерах обучения RLVR, лежащих в основе моделей рассуждений, таких как DeepSeek-R1 и Qwen3. Более плавный механизм контроля области доверия может повысить надёжность пост-обучения в масштабах всей отрасли.

Важность: 4/5

Лидер HF Daily Papers 10 июня (324 голоса); устраняет базовую нестабильность RLVR; практическое влияние на конвейеры пост-обучения для моделей рассуждений. +1 за голоса ≥100.

rl rlvr post-training policy-optimization reasoning

Источники

официальный arXiv:2606.09821 — Rethinking the Divergence Regularization in LLM RL