#reward-hacking 2 пункта 3 мая Exploration Hacking: LLM можно дообучить для стратегического противодействия RL-обучению research 3 мая OpenAI раскрывает, как сигнал вознаграждения для 2,5% пользователей вызвал гоблинскую одержимость GPT на протяжении нескольких поколений моделей OpenAI research