BetaPRM: process rewards с учётом неопределённости сокращают расход reasoning-токенов на 33%

исследования официальный 1 ист. ~1 мин

BetaPRM (arXiv:2605.15529) расширяет Process Reward Models (PRM), предсказывая как пошаговые оценки вознаграждения, так и их надёжность с помощью фреймворка Beta-Binomial likelihood, обученного на роллаутах методом Монте-Карло. Стратегия Adaptive Computation Allocation (ACA) прерывает рассуждение досрочно при высокой уверенности в вознаграждении и выделяет больше вычислений при неопределённости, достигая снижения расхода токенов до 33,57% при сохранении или улучшении точности на reasoning-бенчмарках.

Почему это важно

Масштабирование вычислений на этапе инференса лежит в основе сильных reasoning-моделей, однако наивная выборка обходится дорого. BetaPRM превращает PRM из пассивного оценщика в активный планировщик вычислений — практический вклад в удешевление reasoning-систем без потери производительности.

Важность: 2/5

Существенное улучшение PRM: снижение расхода токенов на 33% при сохранении точности за счёт адаптивного распределения вычислений с учётом неопределённости

reasoning rl research inference

Источники

официальный BetaPRM (arXiv:2605.15529)