Ежедневный дайджест
10 пунктов · ~10 мин · Неделя 2026-W21
Обязательно к прочтению (2)
ExploitBench: Claude Mythos Preview и GPT-5.5 автономно создают настоящие браузерные эксплойты
AnthropicИсследователи Университета Карнеги — Меллон опубликовали ExploitBench — бенчмарк, тестирующий AI-модели на реальных уязвимостях движка V8 в 16 уровнях сложности. Claude Mythos Preview от Anthropic возглавил рейтинг с результатом 9,90/16 (с подсказками) и 9,55/16 в автономном режиме, достигнув произвольного выполнения кода на 21 из 41 протестированной уязвимости. GPT-5.5 от OpenAI набрал 5,51. Исследователи констатировали: «достижение произвольного выполнения кода становится новой пограничной возможностью».
RoPE доказуемо не справляется с длинными контекстами: locality bias и согласованность токенов нарушаются
Работа, поданная на NeurIPS 2026 (arXiv:2605.15514), формально доказывает два фундаментальных сбоя Rotary Positional Embeddings (RoPE) при больших контекстах: locality bias разрушается (модель не может надёжно отдавать предпочтение ближайшим токенам), а согласованность токенов нарушается (оценки attention для одного и того же токена различаются в зависимости от позиции). Авторы доказывают, что эти сбои находятся в прямом противоречии: изменение базового параметра RoPE устраняет один сбой ценой другого, не решая ни один из них.
Стоит знать (5)
DeepSeek близок к закрытию рекордного раунда финансирования ~$4 млрд при оценке $50 млрд
DeepSeekDeepSeek завершает свой первый внешний раунд финансирования, нацеленный на $3–4 млрд при оценке компании в $50 млрд — пятикратный рост за несколько недель. Раунд возглавляет Национальный инвестиционный фонд AI-индустрии Китая («Большой фонд III») при участии Tencent. Основатель Лян Вэньфэн, владеющий ~90% компании, лично вкладывает до $2,94 млрд. По данным South China Morning Post, раунд ожидается к закрытию в середине мая 2026 года.
OpenAI реструктурирует продуктовые команды вокруг агентной стратегии, Брокман берёт управление
OpenAIПрезидент OpenAI Грег Брокман официально возглавил продуктовую стратегию компании: внутренний меморандум описывает планы по объединению ChatGPT, Codex и API в единую платформу под руководством одной продуктовой команды. Заявленная цель — построение «агентного будущего»; консолидированную продуктовую организацию возглавит Тибо Соттьо (CEO Codex). Реструктуризация проходит на фоне медицинского отпуска Фиджи Симо, CEO по развёртыванию AGI.
SOOHAK: фронтирные LLM решают сложную математику, но не распознают неразрешимые задачи
Консорциум из 64 математиков CMU, EleutherAI и Сеульского национального университета опубликовал SOOHAK — бенчмарк из 439 задач уровня научных исследований. Результаты фронтирных моделей: Gemini 3 Pro 30,4%, GPT-5 26,4%, Claude Opus 4.5 10,4%. «Подмножество отказов» из 99 намеренно некорректно сформулированных задач показало, что ни одна модель не преодолела 50% точности при отказе отвечать на неразрешимые вопросы — модели систематически давали уверенные неверные ответы на задачи, не имеющие корректного решения.
Judge Circuits: механистическое объяснение непоследовательности LLM-as-judge по форматам
Исследователи применили причинно-следственный анализ цепочек к Gemma-3, Qwen2.5 и Llama-3, чтобы объяснить, почему LLM-судьи выдают непоследовательные оценки в зависимости от формата вывода (например, 1–5 или True/False). В средних и поздних слоях был выявлен разреженный подграф «скрытого оценщика», общий для всех задач; единый непрерывный сигнал суждения проходит через хрупкие специфичные для формата конечные ветви, что объясняет дисперсию оценок, вызванную форматом (arXiv:2605.16023).
vLLM v0.21.0: MLA-бэкенд для Blackwell, KV-выгрузка через HMA, speculative decoding для reasoning-моделей
vLLM ProjectvLLM v0.21.0 вышел 15 мая 2026 года (367 коммитов, 202 участника). Ключевые добавления: attention-бэкенд TOKENSPEED_MLA для DeepSeek-R1 и Kimi-K2.5 на GPU NVIDIA Blackwell; KV-выгрузка интегрирована с Hybrid Memory Allocator (HMA); speculative decoding теперь учитывает reasoning/thinking-бюджеты для корректной работы с reasoning-моделями; Docker-образ уменьшен примерно на 2,5 ГБ. Критические изменения: требуется компилятор C++20, Transformers v4 объявлен устаревшим (необходимо обновление до v5).
Справочно (3)
BetaPRM: process rewards с учётом неопределённости сокращают расход reasoning-токенов на 33%
BetaPRM (arXiv:2605.15529) расширяет Process Reward Models (PRM), предсказывая как пошаговые оценки вознаграждения, так и их надёжность с помощью фреймворка Beta-Binomial likelihood, обученного на роллаутах методом Монте-Карло. Стратегия Adaptive Computation Allocation (ACA) прерывает рассуждение досрочно при высокой уверенности в вознаграждении и выделяет больше вычислений при неопределённости, достигая снижения расхода токенов до 33,57% при сохранении или улучшении точности на reasoning-бенчмарках.
OpenCode v1.15.2–v1.15.4: исправление async-контекста и пользовательские LSP-события
SSTOpenCode (от SST) выпустил три патч-релиза 16–17 мая 2026 года. v1.15.2 сократил избыточные запросы в shell- и task-потоках. v1.15.3 устранил потерю активного контекста экземпляра асинхронными командами — баг, нарушавший генерацию агентов и запуски через GitHub. v1.15.4 исправил события bus в рамках проекта для file watcher'ов и добавил поддержку пользовательских refresh-событий LSP-сервера. Релизы выходят вслед за крупным v1.15.0 с событийной системой на базе Effect и v1.15.1 со сворачиваемым видом thinking.
OpenClaw v2026.5.16-beta.5/6: Grok OAuth, редизайн настроек Mac, отладка Python
OpenClawOpenClaw выпустил beta.5 (17 мая) и beta.6 (18 мая) серии 2026.5.16. beta.5 улучшил обработку потоков OpenAI и управление тредами Codex. beta.6 добавил редизайн настроек Mac-приложения, скилл создания мемов, поддержку отладки Python и HTTPS proxy-эндпоинт. beta.3 (16 мая) добавил вход через OAuth для xAI Grok. Плагин openclaw-code-agent управляет Claude Code и Codex как фоновыми сессиями написания кода из Telegram, Slack, Discord и WhatsApp.