ExploitBench: Claude Mythos Preview и GPT-5.5 автономно создают настоящие браузерные эксплойты

Anthropic

исследования офиц. + СМИ 2 ист. ~1 мин

Исследователи Университета Карнеги — Меллон опубликовали ExploitBench — бенчмарк, тестирующий AI-модели на реальных уязвимостях движка V8 в 16 уровнях сложности. Claude Mythos Preview от Anthropic возглавил рейтинг с результатом 9,90/16 (с подсказками) и 9,55/16 в автономном режиме, достигнув произвольного выполнения кода на 21 из 41 протестированной уязвимости. GPT-5.5 от OpenAI набрал 5,51. Исследователи констатировали: «достижение произвольного выполнения кода становится новой пограничной возможностью».

Почему это важно

Первый систематический бенчмарк, демонстрирующий способность фронтирных AI-моделей выступать в роли «достаточно компетентных» исследователей браузерной безопасности — автономно конструируя рабочие эксплойты против защищённых целей. Генеральный директор Mistral сослался на результаты в ходе слушаний во французском парламенте, предупредив об опасности предоставления AI-систем с такими возможностями доступа к военным кодовым базам.

Важность: 4/5

Фронтирный AI автономно эксплуатирует уязвимости браузеров — знаковый бенчмарк безопасности с прямыми политическими последствиями вплоть до парламентских слушаний

claude-mythos cybersecurity benchmark red-teaming security

Источники

официальный ExploitBench: Evaluating AI Models on Real-World Browser Vulnerability Exploitation (arXiv)

СМИ New benchmark shows Claude Mythos and GPT-5.5 can develop real browser exploits — The Decoder