Z-Reward: распределения оценок вместо скалярных наград для RLHF в генерации изображений

Alibaba

исследования официальный 1 ист. ~1 мин

Z-Reward заменяет одиночные скалярные значения вознаграждения распределениями по рубриковым оценкам для RLHF в генерации изображений. Модель-учитель на 27B явно рассуждает и выдаёт распределения оценок; модель-ученик усваивает это рассуждение во время инференса через Reasoning-Internalized Score Distillation (RISD) без необходимости цепочки рассуждений во время работы. Group-wise Direct Score Optimization (GDSO) объединяет вознаграждения policy-gradient с прямым супервизором по распределениям. Учитель на 27B достигает 89.6% точности по предпочтениям людей; ученик на 9B — 88.6%; как дифференцируемый сигнал вознаграждения во время генерации — 41.3% чистого улучшения по человеческим предпочтениям.

Почему это важно

34 голоса на HuggingFace 11 июня. Подход с распределениями по рубрикам обобщается за пределы генерации изображений на любую RLHF-область, где скалярные вознаграждения теряют сигнал. Точность 89.6% по предпочтениям людей превосходит все известные базовые результаты на масштабе учителя.

Важность: 3/5

Заметное исследование от Alibaba; 89.6% точности по предпочтениям людей — SOTA; моделирование вознаграждений на основе распределений с широкой применимостью к другим RLHF-областям.

rl reward-modeling multimodal reasoning rlhf

Источники

официальный arXiv:2606.09076 — Beyond Scalar Rewards by Internalizing Reasoning into Score Distributions