Ежедневный дайджест

14 пунктов · ~14 мин · Неделя 2026-W19

Обязательно к прочтению (2)

xAI выпустила Grok 4.3 с контекстом 1M токенов, снижением цен на 40–60% и улучшенными результатами в агентных бенчмарках

xAI
модели/LLM офиц. + СМИ 3 ист. ~1 мин

xAI выпустила Grok 4.3 6 мая: контекстное окно на 1M токенов, улучшенный агентный вызов инструментов и снижение цен на 37,5% по входящим и на 58,3% по исходящим токенам относительно Grok 4.20. Модель набирает 1500 ELO на агентном бенчмарке GDPval-AA (+321 пункт к предшественнику) и 98% на tau2-Bench Telecom. Цена: $1,25/M входящих и $2,50/M исходящих токенов.

Почему это важно
Скачок в 321 пункт ELO на агентных бенчмарках в сочетании с ценой на исходящие токены ниже $2 делает Grok 4.3 прямым конкурентом GPT-5.5 и Gemini для корпоративных агентных рабочих процессов при значительно меньших затратах.

Anthropic заключила сделку с SpaceX по вычислительным мощностям Colossus и удвоила лимиты Claude Code

Anthropic
инструменты офиц. + СМИ 4 ист. ~1 мин

Anthropic подписала соглашение о партнёрстве с SpaceX, получив доступ к полному датацентру Colossus 1 — более 220 000 GPU NVIDIA и свыше 300 МВт. Анонс состоялся на конференции разработчиков «Code with Claude» в Сан-Франциско 6 мая. Сразу после этого пятичасовые лимиты Claude Code были удвоены для планов Pro, Max, Team и Enterprise, ограничение по пиковой нагрузке для Pro и Max отменено, а лимиты API для моделей Claude Opus существенно повышены (до 1500% по входящим токенам в минуту для Tier 1).

Почему это важно
Anthropic неоднократно называла нехватку вычислительных мощностей главным ограничением лимитов Claude Code; сделка со SpaceX снимает этот потолок для планов разработчиков и сигнализирует об агрессивном расширении инфраструктуры накануне ожидаемого в июне IPO.

Стоит знать (5)

RLDX-1: Multi-Stream Action Transformer достигает 86,8% на гуманоидных задачах ALLEX

RLWRLD
исследования официальный 1 ист. ~1 мин

RLWRLD опубликовала технический отчёт по RLDX-1 (arXiv:2605.03269, 68 авторов), представляющему роботизированную VLA-политику на основе Multi-Stream Action Transformer (MSAT), интегрирующего модальности через модально-специфичные потоки с совместным кросс-модальным самовниманием. Трёхэтапный пайплайн обучения (предобучение на интернет-данных, среднее обучение на воплощении, тонкая настройка на задачах) достигает 86,8% успеха на гуманоидных задачах ALLEX против ~40% у pi0.5 и GR00T N1.6. Аугментация синтетическими данными с фильтрацией согласованности движений решает редкие сценарии манипуляций.

Почему это важно
Более чем двукратное превышение показателей успеха по сравнению с фронтирными VLA-конкурентами на гуманоидных задачах — существенный результат; открытые амбиции RLWRLD (анонсированные на GTC 2026) могут сделать этот подход широко доступным для исследовательского сообщества в области робототехники.

GitHub Copilot в VS Code, апрельские релизы: BYOK-ключи моделей, шаринг вкладок браузера, запись в терминал

GitHub
инструменты официальный 1 ист. ~1 мин

GitHub опубликовал сводный журнал изменений Copilot в VS Code за версии v1.116–v1.119 (апрель — начало мая 2026). Ключевые возможности: bring-your-own-model-key (BYOK) для планов Business и Enterprise через OpenRouter, Anthropic, Google, OpenAI и Microsoft Foundry; агентный доступ на чтение/запись к активным терминалам; шаринг вкладок браузера для взаимодействия агента с живым веб-контентом; семантический поиск по рабочим пространствам в репозиториях GitHub-организаций; diff кода в чате; а также экспериментальная функция /chronicle для запросов к истории локальных чатов.

Почему это важно
BYOK открывает любого крупного AI-провайдера для корпоративных пользователей Copilot; шаринг вкладок браузера и запись в терминал представляют собой существенный шаг к полноценному агенту с доступом к компьютеру внутри VS Code.

AWS MCP Server достиг общей доступности с полным доступом к API и средствами аудита IAM

Amazon Web Services
инструменты официальный 1 ист. ~1 мин

AWS выпустила AWS MCP Server в статусе общей доступности (регионы US East N. Virginia и EU Frankfurt) 6 мая. Сервер предоставляет доступ ко всем 15 000+ операциям AWS API через единый инструмент MCP call_aws с использованием существующих IAM-учётных данных, а также инструменты динамической загрузки документации и изолированный инструмент run_script для Python при работе с сервисами AWS. CloudWatch и CloudTrail обеспечивают цепочки аудита; контекстные ключи IAM позволяют разграничивать права для операций человека и агента.

Почему это важно
Статус GA позволяет корпоративным командам развёртывать AI-агентов для автономного управления инфраструктурой AWS с корпоративным уровнем аудитируемости и детальным контролем IAM, снижая порог входа для агентных облачных операций.

GitHub MCP Server: сканирование секретов в GA и сканирование зависимостей в публичном превью

GitHub
инструменты официальный 2 ист. ~1 мин

GitHub представил две функции безопасности MCP Server 5 мая: сканирование секретов достигло GA (с соблюдением существующих настроек защиты при push), а сканирование зависимостей вошло в публичный превью — агенты могут сканировать изменения кода на наличие уязвимых зависимостей с использованием GitHub Advisory Database и Dependabot CLI. Обе функции требуют GitHub Advanced Security или GitHub Secret Protection.

Почему это важно
Интеграция сканирования секретов и зависимостей в инструментальную поверхность MCP означает, что AI-агенты программирования могут применять политики безопасности до того, как код попадает в PR — сдвигая проверку влево от post-commit CI к процессу работы агента.

MiniMax Hailuo 2.3 запущена с Media Agent и генерацией видео в пакетном режиме на 50% дешевле

MiniMax
видео офиц. + СМИ 3 ист. ~1 мин

MiniMax выпустила Hailuo 2.3 7 мая, снизив стоимость пакетной генерации видео до 50% при сохранении базовых цен. Новые возможности: улучшенный реализм микровыражений, лучшая обработка физически насыщенных движений, поддержка нескольких стилей (аниме, чернильная живопись, игровая CG) и улучшенный отклик на команды движения. Одновременно MiniMax развила Hailuo Video Agent в полноценный Media Agent для мультимодального создания контента с глобальным выпуском на веб, мобильных устройствах и через API.

Почему это важно
Снижение стоимости пакетной генерации на 50% напрямую подрывает позиции конкурентов и делает высокообъёмные видеорабочие процессы более доступными; переход к мультимодальному Media Agent сигнализирует об амбициях MiniMax занять весь стек создания контента, выходя за рамки видео.
Справочно (7)

Google DeepMind приобрела миноритарную долю в CCP Games для исследований мультиагентных систем в EVE Online

Google DeepMind
индустрия только СМИ 2 ист. ~1 мин

Google DeepMind объявила о партнёрстве с CCP Games (EVE Online) 6 мая, приобретя миноритарную долю с целью исследования систем, управляемых игроками, и обучения ИИ на сложной постоянно существующей мультиплеерной среде. Подробности исследовательской повестки ожидаются на EVE Fanfest 2026; сотрудничество сосредоточено на изучении эмерджентного поведения в долгосрочных мультиагентных симуляциях.

Почему это важно
Управляемая игроками экономика EVE Online и долгосрочная мультиагентная динамика уникально подходят для изучения эмерджентного поведения в масштабе — DeepMind получает высокоточную реальную симуляцию, которую невозможно воспроизвести в контролируемых лабораторных условиях.

LongSeeker: эластичная оркестрация контекста для агентов долгосрочного поиска

Shanghai Jiao Tong University
исследования официальный 1 ист. ~1 мин

Исследователи из SJTU представили LongSeeker (arXiv:2605.05191), решающий проблему взрыва контекста в агентах долгосрочного поиска с помощью Context-ReAct: пяти адаптивных операций (Skip, Compress, Rollback, Snippet, Delete), динамически перестраивающих рабочую память на основе релевантности. LongSeeker, дообученный из Qwen3-30B-A3B, достигает 61,5% на BrowseComp и 62,5% на BrowseComp-ZH.

Почему это важно
Активное формирование рабочей памяти превосходит накопление всех данных траектории для долгосрочных агентов, предоставляя проверенный на бенчмарках подход к ключевому узкому месту надёжности агентов.

Исполняемые мировые модели для ARC-AGI-3: подход агента программирования без игровой специфики

исследования официальный 1 ист. ~1 мин

Сергей Родионов представил статью (arXiv:2605.05138, 6 мая) с подходом агента программирования к ARC-AGI-3, в котором агент поддерживает исполняемую Python-модель мира, проверяет её на предыдущих наблюдениях и применяет склонность к простоте через рефакторинг. Протестировано на 25 публичных играх ARC-AGI-3 без игровой специфики: 7 игр решены полностью, 6 игр выше 75% RHAE, средний RHAE — 32,58%.

Почему это важно
ARC-AGI-3 — новый и значительно более сложный бенчмарк обобщения; работа устанавливает универсальный игровой базовый уровень и свидетельствует о том, что исполняемые мировые модели, управляемые верификатором, — жизнеспособный путь, вносящий вклад в продолжающиеся дискуссии о символьном vs. нейронном рассуждении.

Claude Code v2.1.132: исправление SIGINT, утечка памяти MCP, исправление кэширования запросов Bedrock/Vertex

Anthropic
инструменты официальный 1 ист. ~1 мин

Claude Code v2.1.132 (6 мая) добавляет переменную окружения CLAUDE_CODE_SESSION_ID для Bash-субпроцессов и флаг отключения CLAUDE_CODE_DISABLE_ALTERNATE_SCREEN. Критические исправления: обработка внешних SIGINT для кнопок остановки в IDE, пустой экран после сна ноутбука или Ctrl+Z/fg, неограниченный рост памяти из-за вывода MCP-серверов вне протокола, а также ошибки 400 на Bedrock/Vertex при кэшировании запросов. Версия v2.1.131 исправила активацию расширения VS Code в Windows и аутентификацию конечной точки Mantle.

Почему это важно
Исправление роста памяти MCP и ошибок кэширования запросов Bedrock/Vertex напрямую устраняет блокеры для корпоративных развёртываний; исправления SIGINT и полноэкранного режима решают давние проблемы в терминальных рабочих процессах.

OpenCode v1.14.40: удалённая конфигурация .well-known и исправления подписанных блоков рассуждений

SST
инструменты официальный 2 ист. ~1 мин

OpenCode v1.14.40 (7 мая) добавляет поддержку конфигураций .well-known/opencode, указывающих на удалённые файлы, исправляет подписанные блоки рассуждений и применяет заголовки CORS до аутентификации. Исправления ошибок охватывают ошибки сетевых параметров и санитизацию некорректных суррогатных символов. Вслед за версиями v1.14.37–39 (5 мая), добавившими перемотку сессий между рабочими пространствами, улучшенный рендеринг сессий v2, корректную отмену подзадач и поддержку переменных окружения прокси-сервера для десктопа.

Почему это важно
Удалённая конфигурация .well-known позволяет корпоративным командам централизованно распространять настройки OpenCode без ручного обновления клиентов — ключевое улучшение рабочего процесса для организаций, развёртывающих OpenCode в масштабе.

Cursor 3.3: разбивка использования контекста для диагностики агентов

Cursor
инструменты официальный 1 ист. ~1 мин

Cursor v3.3 (6 мая) представляет панель разбивки использования контекста: нажатие на кольцо контекста агента в окне Agents Window показывает пропорциональное распределение контекста, потреблённого правилами, навыками, MCP-серверами, субагентами и другими компонентами, помогая разработчикам выявлять неожиданно тяжёлых потребителей контекста.

Почему это важно
Исчерпание контекста — одна из главных причин сбоев в мульти-репозиторных, мульти-MCP агентных сессиях; детальная видимость помогает разработчикам избегать достижения лимитов и снижать затраты на токены.

ИИ-распознавание персонажей в VK Video увеличило время просмотра на 9% с помощью каскадного определения лиц

VK AI
инструменты официальный 2 ист. ~1 мин

VK опубликовала результаты работы системы ИИ-распознавания персонажей в рекомендациях VK Video (5 мая). Две ML-модели работают в каскаде: первая сканирует видео с частотой один кадр в секунду для обнаружения лиц, вторая идентифицирует популярных персонажей среди найденных. Распознанные персонажи передаются в рекомендательный движок VK Video, который предлагает контент с предпочитаемыми пользователем личностями. С момента запуска среднее время просмотра видео «Смотреть далее» с повторяющимися персонажами выросло на 9%.

Почему это важно
Понимание видео на уровне персонажей — значительный шаг вперёд по сравнению с тематическими рекомендациями; раскрытие VK как архитектуры системы, так и измеримого прироста просмотров на 9% даёт конкретный ориентир для прикладного ML на русскоязычных видеоплатформах.