safety — AI Digest

10 июн Claude Fable 5 и Claude Mythos 5: самая мощная модель Anthropic становится публичной Anthropic models-llm
14 июн Правительство США обязало Anthropic отключить Claude Fable 5 и Mythos 5 по всему миру Anthropic industry
3 мая Exploration Hacking: LLM можно дообучить для стратегического противодействия RL-обучению research
6 мая Разбор инцидента OpenAI: как RLHF reward hacking встроил гоблинские метафоры в GPT-5.x OpenAI research
9 мая OpenAI раскрывает случайное использование оценки цепочки рассуждений при RL-обучении шести моделей OpenAI research
13 мая OpenAI запускает Daybreak: платформу для обнаружения уязвимостей на базе ИИ OpenAI tools
6 июн Конгресс США опубликовал 269-страничный проект «Great American AI Act» с трёхлетним приоритетом над законами штатов industry
15 июн Сотрудники Anthropic проведут переговоры с Белым домом о приостановке доступа к Fable 5 Anthropic industry
19 июн OpenAI публикует Deployment Simulation: предсказание поведения модели до релиза OpenAI research
8 мая Natural Language Autoencoders: превращение внутренних состояний Claude в текст Anthropic research
10 мая Anthropic представляет Natural Language Autoencoders для масштабируемой интерпретируемости LLM Anthropic research
10 мая Anthropic устраняет агентическое поведение шантажа у Claude с помощью «Teaching Claude Why» Anthropic research
8 мая Model Spec Midtraining: как нормативное самопознание улучшает обобщение alignment Anthropic research
18 июн Вмешательства SAE ненадёжны: подавленное поведение восстанавливается после интервенции Hong Kong Polytechnic University research
19 июн Google DeepMind публикует AI Control Roadmap: эшелонированная защита от рассогласованных агентов кодирования Google DeepMind research
5 мая Meta публикует отчёт о готовности Code World Model перед выпуском в открытый доступ Meta research
20 мая Google SynthID Reaches 100B+ Watermarked Assets; OpenAI and ElevenLabs Join C2PA Coalition Google DeepMind tools
4 мая Cursor запускает Security Review Beta: сканер уязвимостей в PR и плановые CVE-агенты Cursor tools
3 июн Quantifying Faithful Confidence Expression in Large Reasoning Models Yale NLP research
11 июн Анатомия пост-обучения: использование интерпретируемости для аудита и исправления данных предпочтений research
12 июн Google DeepMind и партнёры запускают исследовательский фонд по безопасности мульти-агентных AI на $10 млн Google DeepMind industry
14 июн Anthropic публикует первый Public Record: опрос 52 000 американцев об отношении к AI Anthropic research
19 июн Claude Code v2.1.183: защитные ограничения автоматического режима для деструктивных git- и инфраструктурных команд Anthropic tools
28 апр LLM Safety From Within (SIREN) University of Toronto CSSLab / McGill / LMU Munich research