#reward-modeling 2 пункта 11 июн Z-Reward: распределения оценок вместо скалярных наград для RLHF в генерации изображений Alibaba research 3 июн QUBRIC: Co-Designing Queries and Rubrics Extends RLVR to Open-Ended Reasoning Domains research