AI
AI Digest
EN RU
Главная Архив О проекте RSS

#reward-hacking

2 пункта

  • 3 мая Exploration Hacking: LLM можно дообучить для стратегического противодействия RL-обучению research
  • 3 мая OpenAI раскрывает, как сигнал вознаграждения для 2,5% пользователей вызвал гоблинскую одержимость GPT на протяжении нескольких поколений моделей OpenAI research

ai-digest.kerby.pro

© 2026 Алексей Лукин · CC BY 4.0

RSS · JSON Feed · О проекте