Ежедневный дайджест
12 пунктов · ~12 мин · Неделя 2026-W21
Обязательно к прочтению (2)
Google I/O 2026: Gemini 4, Jules V2, Firebase Studio GA, Android XR и Aluminium OS
Google DeepMindGoogle I/O 2026 открылся 19 мая в Shoreline Amphitheatre. В ходе keynote были анонсированы Gemini 4 с контекстным окном в несколько миллионов токенов и нативной мультимодальной обработкой (аудио/видео), а также «Gemini Intelligence» — проактивный фоновый AI-слой, интегрированный в Android 17, Chrome и новые устройства. Для разработчиков: Jules V2 (кодовое имя Project Jitro) — агент для написания кода, ориентированный на результат: разработчики ставят цели (например, «поднять покрытие тестами до 80%»), а не отдельные задачи; Firebase Studio переведён в статус GA как облачная dev-среда, объединяющая Code OSS, no-code прототипирование и интеграцию с Figma. Среди анонсов железа: AR-очки Android XR с интеграцией Gemini, ноутбуки «Googlebook» и Aluminium OS — десктопная платформа на базе Android, призванная заменить ChromeOS. Также был показан Gemini Omni, способный нативно генерировать и редактировать видео в чате, и анонсированы обновления Veo.
LongLive-2.0: параллельная инфраструктура NVFP4 для генерации длинных видео (NVIDIA, 1220 апвоутов на HF)
NVIDIANVIDIA представляет LongLive-2.0 — параллельную инфраструктуру на базе NVFP4 (4-битная плавающая точка) для генерации длинных видео. Ключевые новшества: Balanced Sequence Parallelism для авторегрессионного обучения, устранение зависимостей от инициализации ODE, а также W4A4 NVFP4-инференс с квантованным KV-кешем и асинхронным потоковым декодированием VAE. Достигнуто ускорение обучения в 2,15× и инференса в 1,84×, модель 5B выдаёт 45,7 FPS. Код и модели опубликованы в открытом доступе.
Стоит знать (5)
Anthropic приобретает Stainless — стартап по SDK и MCP-инструментарию, которым пользовались OpenAI и Google
AnthropicAnthropic объявила о поглощении Stainless — стартапа из Нью-Йорка (основан в 2022 году), который разрабатывал и поддерживал официальные SDK Anthropic с первых дней существования API. Сумма сделки, по данным источников, превышает $300 млн. Stainless также создавала SDK для OpenAI, Google и Cloudflare. Anthropic планирует свернуть все размещённые продукты Stainless, включая сторонний генератор SDK, хотя существующие клиенты сохраняют полные права на уже сгенерированные SDK. Поглощение позиционируется как шаг по укреплению связности агентов Claude через экосистему Model Context Protocol (MCP).
CiteVQA: бенчмарк атрибуции доказательств для надёжной document intelligence (178 апвоутов на HF)
Peking University / Shanghai Artificial Intelligence LaboratoryCiteVQA оценивает мультимодальные LLM не только по правильности ответов, но и по тому, ссылаются ли они на корректный исходный фрагмент в документах. Вводится метрика Strict Attributed Accuracy (SAA), требующая одновременной правильности ответа и точности bounding-box-цитаты. Бенчмарк охватывает 1897 вопросов по 711 PDF-файлам в семи областях и на двух языках. Тестирование 20 MLLM выявило повсеместную «Attribution Hallucination»: модели часто дают правильные ответы, ссылаясь при этом на неверные фрагменты. Даже сильнейшая модель (Gemini-3.1-Pro-Preview) достигает лишь 76,0% SAA; лучшая open-source модель — 22,5%.
PhysBrain 1.0: эгоцентрическое видео людей как обучающие данные для VLA-моделей роботов (133 апвоута на HF)
DeepCyboPhysBrain 1.0 — это vision-language-action модель, которая приобретает физический здравый смысл из масштабного эгоцентрического видео людей (Ego4D и аналогичные датасеты) до адаптации к роботу, не полагаясь исключительно на дорогостоящие траекторные данные роботов. Движок обработки данных на основе схем извлекает структурированную мета-информацию о сценах и преобразует её в физически обоснованные QA-пары. Пулы мультимодельной аннотации (GPT-5, Gemini 3.1 Pro, варианты Qwen3) генерируют разнообразную разметку. Полученные приоры переносятся на управление роботом через VLA-адаптер с сохранением возможностей. PhysBrain 1.0 достигает state-of-the-art на бенчмарках ERQA, PhysBench, SimplerEnv, LIBERO и RoboCasa с особо высокой обобщаемостью на внедоменные задачи.
MMSkills: переиспользуемые мультимодальные скиллы для универсальных визуальных агентов (105 апвоутов на HF)
Shanghai Jiao Tong UniversityMMSkills представляет фреймворк для оснащения визуальных AI-агентов переиспользуемыми мультимодальными процедурными знаниями. Каждый пакет скилла объединяет текстовую процедуру с карточками состояния во время выполнения и многоракурсными ключевыми кадрами. Агентный генератор траектории-в-скилл преобразует публичные траектории взаимодействия в переиспользуемые скиллы через группировку рабочих процессов, индукцию процедур, визуальное заземление и аудит на основе мета-скиллов. Во время выполнения агент с ветвящейся загрузкой мультимодальных скиллов инспектирует визуальные карточки и ключевые кадры, согласует их с текущей средой и дистиллирует структурированные инструкции. Эксперименты на бенчмарках GUI и игровых задачах демонстрируют стабильные улучшения как для флагманских, так и для более мелких мультимодальных агентов.
OpenAI Codex v0.131.0: единый mention picker, диагностика codex doctor, переименование Python SDK
OpenAIOpenAI Codex v0.131.0 stable (18 мая) включает: единый picker по символу `@` для поиска файлов, директорий, плагинов и скиллов в одном месте; `codex doctor` — новая диагностическая подкоманда, охватывающая runtime, аутентификацию, терминал, сеть, конфигурацию и локальное состояние; переименование пакета Python SDK в `openai-codex` / `openai_codex` с прикреплёнными типами, генерируемыми в runtime, и параллельной маршрутизацией ходов; расширенное управление сессиями TUI, включая смешанный вывод использования токенов и режим разрешений/подтверждений; команды CLI маркетплейса плагинов и версионно-осведомленный шаринг; управление удалёнными демонами рабочих процессов. Исправления ошибок укрепляют поведение песочницы Windows и устраняют артефакты рендеринга TUI (перенос URL, контрастность в светлой теме, Shift+Enter в tmux).
Справочно (5)
NudgeRL: стратегические контекстные подсказки для эффективного исследования в RLVR
KAIST AINudgeRL решает проблему неэффективного исследования в обучении с подкреплением с верифицируемыми наградами (RLVR). Фреймворк вводит лёгкие стратегические контекстные подсказки, индуцирующие разнообразные траектории рассуждений без оракульного надзора или дорогостоящего масштабирования rollout. Единая целевая функция обучения декомпозирует награды на межконтекстные и внутриконтекстные компоненты с дистилляцией для переноса выученных паттернов обратно в базовую политику. NudgeRL превосходит стандартный GRPO при бюджете rollout до 8× больше на пяти бенчмарках математических рассуждений, оставаясь конкурентоспособным с оракульно-управляемыми методами.
Claude Code v2.1.144: /resume для фоновых сессий, более быстрый запуск MCP, исправление таймаута 75 с
AnthropicClaude Code v2.1.144 (19 мая) добавляет поддержку /resume, благодаря чему фоновые сессии, запущенные через `claude --bg` или agent view, отображаются наряду с интерактивными. В панели /plugin browse теперь показываются даты последнего обновления плагинов; /model меняет модель только для текущей сессии (нажмите `d`, чтобы задать модель по умолчанию для новых сессий); запуск SDK/headless MCP ускорен до 2 секунд для медленных MCP-серверов. Исправления ошибок: зависание при запуске до 75 с при недоступности api.anthropic.com (теперь таймаут 15 с), артефакты рендеринга терминала, а также сбой фоновых сессий macOS в папках, защищённых Full Disk Access.
SST OpenCode v1.15.5: экспериментальный путь OpenAI runtime, флаг --replay для истории сессий
SSTSST OpenCode v1.15.5 (18 мая) вводит экспериментальный нативный путь через OpenAI runtime (preview), добавляет флаги `--replay` и `--replay-limit` для просмотра истории последних сессий в интерактивных запусках, исправляет инструменты плагинов с функцией `ask` — вызовы инструментов теперь корректно завершаются, снижает гонки подписок, приводящие к пропуску обновлений /event, сортирует список сессий v2 по дате последнего обновления и обновляет разметку строки ввода TUI после вставки контента.
OpenClaw v2026.5.18: SDK defineToolPlugin, HTTPS forward proxy, скилл отладки Python
OpenClawOpenClaw v2026.5.18 stable (18 мая) добавляет: новый API `defineToolPlugin` и команды CLI `openclaw plugins build`, `validate` и `init` для типизированных простых плагинов-инструментов с автогенерируемыми метаданными манифеста; поддержку HTTPS управляемого forward-proxy-эндпоинта с областью действия `proxy.tls.caFile` CA trust; скилл отладки Python, охватывающий pdb, breakpoint(), post-mortem-инспекцию и удалённое подключение debugpy; отображение модальных диалогов в снимках браузера; а также более 100 исправлений ошибок. Стабильная версия v2026.5.12 оптимизировала установку, вынеся провайдеры WhatsApp, Slack и Bedrock из основного runtime.
GitHub Copilot CLI v1.0.49: команда /rubber-duck для критики, поиск /chronicle, поддержка Alpine Linux
GitHub (Microsoft)GitHub Copilot CLI v1.0.49 (18 мая) добавляет: `/rubber-duck` — команда для получения независимой критики текущей работы агента без риска самозащиты с его стороны; `/chronicle search` для поиска по всему содержимому сессий по ключевому слову или теме; слэш-команду `/memory on|off|show` для управления постоянной памятью; `copilot plugin update --all` для одновременного обновления всех плагинов; поддержку Alpine Linux (musl libc); улучшенный хук `postToolUse` с инжекцией additionalContext как системного сообщения; а также строку ввода, сворачивающуюся в одну строку при пустом поле.