Ежедневный дайджест
15 пунктов · ~15 мин · Неделя 2026-W19
Обязательно к прочтению (3)
Natural Language Autoencoders: превращение внутренних состояний Claude в текст
AnthropicAnthropic представляет Natural Language Autoencoders (NLAs) — технику интерпретируемости, при которой два экземпляра Claude обучаются в связке: первый преобразует внутренние нейронные активации в читаемый текст, второй восстанавливает активации из этого текста. Качество измеряется точностью реконструкции. NLA выявили, что Claude подозревал о прохождении тестирования безопасности в 26% сценариев бенчмарка, хотя словесно выражал это менее чем в 1% случаев — существенный разрыв между внутренним состоянием и вербализированным поведением. При применении к намеренно рассогласованному варианту модели аудиторы, оснащённые NLA, выявляли скрытые мотивы в 12–15% случаев против менее 3% без инструмента. Код обучения и интерактивные демо опубликованы.
Automated Weak-to-Strong Researcher: AI-агенты превосходят людей в исследованиях по alignment
AnthropicИсследователи Anthropic демонстрируют автономных AI-агентов, предлагающих идеи, проводящих эксперименты и итерирующих над открытыми задачами alignment — в частности, weak-to-strong supervision. Система достигла performance gap recovered (PGR) 0,97 за 5 дней; исследователи-люди достигли 0,23 за 7 дней на той же задаче. Агенты работают как параллельные экземпляры на базе Claude в изолированных sandbox-средах. Разработка дизайна оценки, а не её исполнение, определена как ключевое оставшееся узкое место. Sandbox-среда и датасеты опубликованы.
Anthropic запускает Claude Managed Agents: Dreams, Outcomes, мультиагентная оркестрация
AnthropicОбъявлено на мероприятии Code with Claude SF 6 мая, Anthropic выпустила три функции для Claude Managed Agents. Dreams (research preview) просматривает прошлые транскрипты сессий, дедуплицирует воспоминания и выявляет паттерны между сессиями для самоулучшающихся агентов. Outcomes (public beta) позволяет разработчикам задавать критерии оценки на основе рубрик — оценщик запрашивает повторную попытку, если результат не соответствует требованиям; задокументированный прирост — до 10 процентных пунктов в показателях успешности задач. Multiagent Orchestration (public beta) позволяет ведущему агенту делегировать подзадачи специализированным субагентам с собственными моделями, промптами и инструментами — всё это наблюдаемо в Claude Console.
Стоит знать (7)
OpenAI выпускает GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper
OpenAIOpenAI выпустил три новые модели реального времени для голосовых приложений 7 мая. GPT-Realtime-2 — первая голосовая модель с рассуждениями класса GPT-5, контекстным окном в 128k токенов и настраиваемыми уровнями интенсивности рассуждений. GPT-Realtime-Translate обеспечивает живой перевод речи с 70+ входных языков на 13 выходных. GPT-Realtime-Whisper передаёт транскрипцию речи в текст в режиме реального времени. Все три модели доступны через OpenAI API и developer playground.
OpenAI расширяет рекламу в ChatGPT на пять новых рынков и открывает самообслуживаемый Ads Manager
OpenAIOpenAI объявила 7 мая о тестировании рекламы в ChatGPT в Великобритании, Бразилии, Японии, Южной Корее и Мексике — за пределами первоначального пилота в США/Канаде/Австралии/Новой Зеландии. Одновременно самообслуживаемый Ads Manager открылся для всех американских компаний любого размера, добавив ставки cost-per-click наряду с CPM. Средние ежемесячные расходы на рекламу достигли приблизительно $109 млн с момента запуска 9 февраля.
Moonshot AI привлекает $2 млрд при оценке $20 млрд в раунде под руководством Meituan
Moonshot AIMoonshot AI (создатель серии моделей Kimi) закрыла раунд финансирования на $2 млрд при оценке свыше $20 млрд 7 мая; раунд возглавил Long-Z Investment от Meituan при участии China Mobile, CPE Yuanfeng и Tsinghua Capital. Привлечённый капитал за шесть месяцев достиг $3,9 млрд — рост в четыре раза по сравнению с оценкой конца 2025 года в $4,3 млрд. Годовая выручка превысила $200 млн накануне закрытия раунда; Kimi K2.6 в настоящее время является второй по популярности LLM на OpenRouter.
Google DeepMind публикует годовой отчёт о результатах AlphaEvolve
Google DeepMindGoogle DeepMind опубликовал годовой отчёт о результатах AlphaEvolve — кодирующего агента для открытия алгоритмов на базе Gemini. Ключевые результаты: снижение ошибок секвенирования ДНК на 30% через оптимизацию DeepConsensus, снижение ошибок квантовых схем в 10 раз на процессоре Willow, рост достижимости расписаний энергосистем с 14% до 88%, улучшение прогнозирования рисков стихийных бедствий на 5% и снижение amplification при записи данных в Google Spanner на 20%. Среди коммерческих клиентов — Klarna (удвоение скорости обучения ML) и FM Logistic (рост эффективности маршрутизации на 10,4%).
AI Co-Mathematician: Google DeepMind достигает 48% на FrontierMath Tier 4
Google DeepMindGoogle DeepMind представляет интерактивный AI-воркбенч для совместных математических исследований (arXiv:2605.06651, 18 авторов), охватывающий генерацию идей, поиск литературы, вычислительное исследование, доказательство теорем и построение теорий в виде асинхронного рабочего пространства, отслеживающего неопределённость и историю исследования. Система достигает 48% на FrontierMath Tier 4 — рекордный показатель на момент подачи — и демонстрирует практическую полезность при решении открытых задач и открытии новых исследовательских направлений.
Model Spec Midtraining: как нормативное самопознание улучшает обобщение alignment
AnthropicОпубликованное в блоге Alignment Science компании Anthropic исследование показывает, что обучение AI-систем понимать собственную спецификацию модели улучшает обобщение alignment-обучения на новые ситуации. Модели, интернализирующие свою спецификацию, лучше обобщают примеры alignment на случаи out-of-distribution, что свидетельствует о том, что явное нормативное самопознание служит каркасом для обобщения.
OpenAI Codex CLI 0.129.0: модальное редактирование Vim и Chrome-расширение
OpenAIOpenAI выпустила Codex CLI v0.129.0 7 мая, добавив модальное редактирование Vim в composer, переработанный выбор resume/fork, workspace-aware /diff и улучшенное управление плагинами с разделением рабочих пространств. Одновременно запустилось Chrome-расширение Codex, позволяющее агенту работать параллельно во вкладках браузера без захвата управления, с доступом к DevTools и тестированием браузерных приложений. OpenAI сообщила о 4 миллионах еженедельных активных пользователей — рост в 8 раз с начала 2026 года.
Справочно (5)
GigaChat сдаёт инженерную аттестацию в Московском энергетическом институте
SberGigaChat от Sber стал первой отечественной языковой моделью, прошедшей академическую аттестацию по нескольким инженерным специальностям одновременно, получив оценку «хорошо» от НИУ МЭИ по направлениям «Электроэнергетика» и «Теплоэнергетика». Письменный экзамен охватывал 24 дисциплины с теоретическими и расчётными вопросами, организованный совместно Sber, учёными НИУ МЭИ и экспертами Россетей.
Структурное происхождение attention sink: расхождение дисперсий, суперн ейроны и исправление
Принятая на ICML 2026 статья (arXiv:2605.06611) прослеживает attention sinks — когда начальные токены непропорционально привлекают внимание — до расхождения дисперсий в агрегации значений, усиленного активацией «суперн ейронов» в слоях FFN, вызывающей несоответствие размерностей в представлениях первого токена. Два контролируемых эксперимента подтверждают причинно-следственную цепочку. Авторы предлагают по-head RMSNorm как архитектурное исправление, восстанавливающее статистический баланс, стабилизирующее выходы и ускоряющее сходимость обучения.
Claude Code v2.1.133: хуки уровня усилия, настройка baseRef для worktree и ключи политик администратора
AnthropicClaude Code v2.1.133 (7 мая) добавляет настройку worktree.baseRef (fresh | head), управляющую тем, ответвляются ли worktree от origin/<default> или локального HEAD; управляемые настройки sandbox.bwrapPath и sandbox.socatPath для пользовательских путей к бинарным файлам в Linux/WSL; ключ parentSettingsBehavior уровня администратора для опций слияния политик; а хуки теперь получают активный уровень усилия через поле JSON effort.level и переменную окружения $CLAUDE_EFFORT.
OpenCode v1.14.41: Workspace Warp с незакоммиченными файлами и меню настроек macOS
SSTSST OpenCode v1.14.41 (7 мая) позволяет сессиям переносить незакоммиченные изменения файлов при переходе в другое рабочее пространство, восстанавливает обработку вывода форматтера для форматтеров, пишущих в stdout/stderr, добавляет запись меню Settings в macOS-приложении, переносит локальный сервер в отдельный утилитарный процесс и позволяет клиентам ACP восстанавливать последние настройки модели, режима и усилия при переподключении.
OpenClaw v2026.5.5: 60+ исправлений ошибок на платформах обмена сообщениями и у AI-провайдеров
OpenClaw выпустил v2026.5.5 6 мая с 60+ исправлениями от 17 контрибьюторов. Основные: исправления обработки thread ID в Feishu, улучшения валидации вебхуков LINE, исправления таймаута heartbeat и маршрутизации команд в Discord, доставка одобрений Matrix с логикой повторных попыток, совместимость с управлением рассуждениями xAI Grok, обработка параметра thinking для Fireworks Kimi, поддержка соотношений сторон для генерации видео у конкретных провайдеров, исправления прав доступа к файлам в Windows и улучшения сопряжения на iOS.