reward-modeling — AI Digest

11 июн Z-Reward: распределения оценок вместо скалярных наград для RLHF в генерации изображений Alibaba research
3 июн QUBRIC: Co-Designing Queries and Rubrics Extends RLVR to Open-Ended Reasoning Domains research