NudgeRL: стратегические контекстные подсказки для эффективного исследования в RLVR
KAIST AI
NudgeRL решает проблему неэффективного исследования в обучении с подкреплением с верифицируемыми наградами (RLVR). Фреймворк вводит лёгкие стратегические контекстные подсказки, индуцирующие разнообразные траектории рассуждений без оракульного надзора или дорогостоящего масштабирования rollout. Единая целевая функция обучения декомпозирует награды на межконтекстные и внутриконтекстные компоненты с дистилляцией для переноса выученных паттернов обратно в базовую политику. NudgeRL превосходит стандартный GRPO при бюджете rollout до 8× больше на пяти бенчмарках математических рассуждений, оставаясь конкурентоспособным с оракульно-управляемыми методами.
Почему это важно
Обучение на основе RLVR (например, GRPO, применявшийся в DeepSeek-R1 и его преемниках) — ключевая техника пост-обучения для моделей рассуждений. NudgeRL показывает, что структурированные стратегические подсказки могут заменить 8-кратное увеличение вычислений — практически значимо для лабораторий, обучающих модели рассуждений при ограниченных вычислительных ресурсах.
Важность: 2/5
Весомое улучшение RLVR: стратегические подсказки соответствуют 8-кратному масштабированию rollout на 5 математических бенчмарках; применимо в конвейерах пост-обучения моделей рассуждений