BetaPRM: process rewards с учётом неопределённости сокращают расход reasoning-токенов на 33%
BetaPRM (arXiv:2605.15529) расширяет Process Reward Models (PRM), предсказывая как пошаговые оценки вознаграждения, так и их надёжность с помощью фреймворка Beta-Binomial likelihood, обученного на роллаутах методом Монте-Карло. Стратегия Adaptive Computation Allocation (ACA) прерывает рассуждение досрочно при высокой уверенности в вознаграждении и выделяет больше вычислений при неопределённости, достигая снижения расхода токенов до 33,57% при сохранении или улучшении точности на reasoning-бенчмарках.
Почему это важно
Масштабирование вычислений на этапе инференса лежит в основе сильных reasoning-моделей, однако наивная выборка обходится дорого. BetaPRM превращает PRM из пассивного оценщика в активный планировщик вычислений — практический вклад в удешевление reasoning-систем без потери производительности.
Важность: 2/5
Существенное улучшение PRM: снижение расхода токенов на 33% при сохранении точности за счёт адаптивного распределения вычислений с учётом неопределённости