reward-hacking — AI Digest

3 мая Exploration Hacking: LLM можно дообучить для стратегического противодействия RL-обучению research
3 мая OpenAI раскрывает, как сигнал вознаграждения для 2,5% пользователей вызвал гоблинскую одержимость GPT на протяжении нескольких поколений моделей OpenAI research
6 мая Разбор инцидента OpenAI: как RLHF reward hacking встроил гоблинские метафоры в GPT-5.x OpenAI research