NudgeRL: стратегические контекстные подсказки для эффективного исследования в RLVR

KAIST AI

исследования официальный 2 ист. ~1 мин

NudgeRL решает проблему неэффективного исследования в обучении с подкреплением с верифицируемыми наградами (RLVR). Фреймворк вводит лёгкие стратегические контекстные подсказки, индуцирующие разнообразные траектории рассуждений без оракульного надзора или дорогостоящего масштабирования rollout. Единая целевая функция обучения декомпозирует награды на межконтекстные и внутриконтекстные компоненты с дистилляцией для переноса выученных паттернов обратно в базовую политику. NudgeRL превосходит стандартный GRPO при бюджете rollout до 8× больше на пяти бенчмарках математических рассуждений, оставаясь конкурентоспособным с оракульно-управляемыми методами.

Почему это важно

Обучение на основе RLVR (например, GRPO, применявшийся в DeepSeek-R1 и его преемниках) — ключевая техника пост-обучения для моделей рассуждений. NudgeRL показывает, что структурированные стратегические подсказки могут заменить 8-кратное увеличение вычислений — практически значимо для лабораторий, обучающих модели рассуждений при ограниченных вычислительных ресурсах.

Важность: 2/5

Весомое улучшение RLVR: стратегические подсказки соответствуют 8-кратному масштабированию rollout на 5 математических бенчмарках; применимо в конвейерах пост-обучения моделей рассуждений

rl reasoning rlhf

Источники

официальный NudgeRL — arXiv:2605.15726

официальный HuggingFace Daily Papers — 29 upvotes