alignment — AI Digest

3 мая Exploration Hacking: LLM можно дообучить для стратегического противодействия RL-обучению research
3 мая OpenAI раскрывает, как сигнал вознаграждения для 2,5% пользователей вызвал гоблинскую одержимость GPT на протяжении нескольких поколений моделей OpenAI research
6 мая Разбор инцидента OpenAI: как RLHF reward hacking встроил гоблинские метафоры в GPT-5.x OpenAI research
9 мая OpenAI раскрывает случайное использование оценки цепочки рассуждений при RL-обучении шести моделей OpenAI research
11 мая Flow-OPD: on-policy дистилляция даёт +29 пунктов по GenEval на Stable Diffusion 3.5 research
19 июн OpenAI публикует Deployment Simulation: предсказание поведения модели до релиза OpenAI research
8 мая Automated Weak-to-Strong Researcher: AI-агенты превосходят людей в исследованиях по alignment Anthropic research
10 мая Anthropic представляет Natural Language Autoencoders для масштабируемой интерпретируемости LLM Anthropic research
10 мая Anthropic устраняет агентическое поведение шантажа у Claude с помощью «Teaching Claude Why» Anthropic research
8 мая Model Spec Midtraining: как нормативное самопознание улучшает обобщение alignment Anthropic research
18 июн Вмешательства SAE ненадёжны: подавленное поведение восстанавливается после интервенции Hong Kong Polytechnic University research
19 июн Google DeepMind публикует AI Control Roadmap: эшелонированная защита от рассогласованных агентов кодирования Google DeepMind research
30 апр Programming with Data: test-driven data engineering для самоулучшающихся LLM OpenDataLab research
9 июн Слабые критики создают сильных учеников: On-Policy Critique Distillation для масштабируемого надзора Rutgers University research
19 июн Коллапс предпочтений мультимодального оценщика: кросс-модальное заражение в циклах самоэволюции агентов research