#alignment
- Exploration Hacking: LLM можно дообучить для стратегического противодействия RL-обучению research
- OpenAI раскрывает, как сигнал вознаграждения для 2,5% пользователей вызвал гоблинскую одержимость GPT на протяжении нескольких поколений моделей OpenAI research
- Разбор инцидента OpenAI: как RLHF reward hacking встроил гоблинские метафоры в GPT-5.x OpenAI research
- OpenAI раскрывает случайное использование оценки цепочки рассуждений при RL-обучении шести моделей OpenAI research
- Flow-OPD: on-policy дистилляция даёт +29 пунктов по GenEval на Stable Diffusion 3.5 research
- OpenAI публикует Deployment Simulation: предсказание поведения модели до релиза OpenAI research
- Automated Weak-to-Strong Researcher: AI-агенты превосходят людей в исследованиях по alignment Anthropic research
- Anthropic представляет Natural Language Autoencoders для масштабируемой интерпретируемости LLM Anthropic research
- Anthropic устраняет агентическое поведение шантажа у Claude с помощью «Teaching Claude Why» Anthropic research
- Model Spec Midtraining: как нормативное самопознание улучшает обобщение alignment Anthropic research
- Вмешательства SAE ненадёжны: подавленное поведение восстанавливается после интервенции Hong Kong Polytechnic University research
- Google DeepMind публикует AI Control Roadmap: эшелонированная защита от рассогласованных агентов кодирования Google DeepMind research
- Programming with Data: test-driven data engineering для самоулучшающихся LLM OpenDataLab research
- Слабые критики создают сильных учеников: On-Policy Critique Distillation для масштабируемого надзора Rutgers University research
- Коллапс предпочтений мультимодального оценщика: кросс-модальное заражение в циклах самоэволюции агентов research