AI
AI Digest
EN RU
Главная Архив О проекте RSS

#reward-modeling

2 пункта

  • 11 июн Z-Reward: распределения оценок вместо скалярных наград для RLHF в генерации изображений Alibaba research
  • 3 июн QUBRIC: Co-Designing Queries and Rubrics Extends RLVR to Open-Ended Reasoning Domains research

ai-digest.kerby.pro

© 2026 Алексей Лукин · CC BY 4.0

RSS · JSON Feed · О проекте