rlhf — AI Digest

3 мая OpenAI раскрывает, как сигнал вознаграждения для 2,5% пользователей вызвал гоблинскую одержимость GPT на протяжении нескольких поколений моделей OpenAI research
6 мая Разбор инцидента OpenAI: как RLHF reward hacking встроил гоблинские метафоры в GPT-5.x OpenAI research
11 июн Z-Reward: распределения оценок вместо скалярных наград для RLHF в генерации изображений Alibaba research
19 мая NudgeRL: стратегические контекстные подсказки для эффективного исследования в RLVR KAIST AI research
11 июн Анатомия пост-обучения: использование интерпретируемости для аудита и исправления данных предпочтений research