#rlhf
- OpenAI раскрывает, как сигнал вознаграждения для 2,5% пользователей вызвал гоблинскую одержимость GPT на протяжении нескольких поколений моделей OpenAI research
- Разбор инцидента OpenAI: как RLHF reward hacking встроил гоблинские метафоры в GPT-5.x OpenAI research
- Z-Reward: распределения оценок вместо скалярных наград для RLHF в генерации изображений Alibaba research
- NudgeRL: стратегические контекстные подсказки для эффективного исследования в RLVR KAIST AI research
- Анатомия пост-обучения: использование интерпретируемости для аудита и исправления данных предпочтений research