#safety
- Claude Fable 5 и Claude Mythos 5: самая мощная модель Anthropic становится публичной Anthropic models-llm
- Правительство США обязало Anthropic отключить Claude Fable 5 и Mythos 5 по всему миру Anthropic industry
- Exploration Hacking: LLM можно дообучить для стратегического противодействия RL-обучению research
- Разбор инцидента OpenAI: как RLHF reward hacking встроил гоблинские метафоры в GPT-5.x OpenAI research
- OpenAI раскрывает случайное использование оценки цепочки рассуждений при RL-обучении шести моделей OpenAI research
- OpenAI запускает Daybreak: платформу для обнаружения уязвимостей на базе ИИ OpenAI tools
- Конгресс США опубликовал 269-страничный проект «Great American AI Act» с трёхлетним приоритетом над законами штатов industry
- Сотрудники Anthropic проведут переговоры с Белым домом о приостановке доступа к Fable 5 Anthropic industry
- OpenAI публикует Deployment Simulation: предсказание поведения модели до релиза OpenAI research
- Natural Language Autoencoders: превращение внутренних состояний Claude в текст Anthropic research
- Anthropic представляет Natural Language Autoencoders для масштабируемой интерпретируемости LLM Anthropic research
- Anthropic устраняет агентическое поведение шантажа у Claude с помощью «Teaching Claude Why» Anthropic research
- Model Spec Midtraining: как нормативное самопознание улучшает обобщение alignment Anthropic research
- Вмешательства SAE ненадёжны: подавленное поведение восстанавливается после интервенции Hong Kong Polytechnic University research
- Google DeepMind публикует AI Control Roadmap: эшелонированная защита от рассогласованных агентов кодирования Google DeepMind research
- Meta публикует отчёт о готовности Code World Model перед выпуском в открытый доступ Meta research
- Google SynthID Reaches 100B+ Watermarked Assets; OpenAI and ElevenLabs Join C2PA Coalition Google DeepMind tools
- Cursor запускает Security Review Beta: сканер уязвимостей в PR и плановые CVE-агенты Cursor tools
- Quantifying Faithful Confidence Expression in Large Reasoning Models Yale NLP research
- Анатомия пост-обучения: использование интерпретируемости для аудита и исправления данных предпочтений research
- Google DeepMind и партнёры запускают исследовательский фонд по безопасности мульти-агентных AI на $10 млн Google DeepMind industry
- Anthropic публикует первый Public Record: опрос 52 000 американцев об отношении к AI Anthropic research
- Claude Code v2.1.183: защитные ограничения автоматического режима для деструктивных git- и инфраструктурных команд Anthropic tools
- LLM Safety From Within (SIREN) University of Toronto CSSLab / McGill / LMU Munich research