Ежедневный дайджест

12 пунктов · ~12 мин · Неделя 2026-W21

Обязательно к прочтению (2)

Google I/O 2026: Gemini 4, Jules V2, Firebase Studio GA, Android XR и Aluminium OS

Google DeepMind
модели/LLM офиц. + СМИ 3 ист. ~1 мин

Google I/O 2026 открылся 19 мая в Shoreline Amphitheatre. В ходе keynote были анонсированы Gemini 4 с контекстным окном в несколько миллионов токенов и нативной мультимодальной обработкой (аудио/видео), а также «Gemini Intelligence» — проактивный фоновый AI-слой, интегрированный в Android 17, Chrome и новые устройства. Для разработчиков: Jules V2 (кодовое имя Project Jitro) — агент для написания кода, ориентированный на результат: разработчики ставят цели (например, «поднять покрытие тестами до 80%»), а не отдельные задачи; Firebase Studio переведён в статус GA как облачная dev-среда, объединяющая Code OSS, no-code прототипирование и интеграцию с Figma. Среди анонсов железа: AR-очки Android XR с интеграцией Gemini, ноутбуки «Googlebook» и Aluminium OS — десктопная платформа на базе Android, призванная заменить ChromeOS. Также был показан Gemini Omni, способный нативно генерировать и редактировать видео в чате, и анонсированы обновления Veo.

Почему это важно
Флагманская конференция Google для разработчиков 2026 года позиционирует Gemini как системного фонового агента на всех платформах Google. Переход Jules V2 к постановке целей вместо пошаговых инструкций — концептуальный шаг в развитии агентов для написания кода, напрямую конкурирующий с Anthropic Claude Code и OpenAI Codex. Firebase Studio, закрывающий разрыв между Figma и развёрнутым приложением, ускоряет адаптацию Google Cloud.

LongLive-2.0: параллельная инфраструктура NVFP4 для генерации длинных видео (NVIDIA, 1220 апвоутов на HF)

NVIDIA
исследования официальный 2 ист. ~1 мин

NVIDIA представляет LongLive-2.0 — параллельную инфраструктуру на базе NVFP4 (4-битная плавающая точка) для генерации длинных видео. Ключевые новшества: Balanced Sequence Parallelism для авторегрессионного обучения, устранение зависимостей от инициализации ODE, а также W4A4 NVFP4-инференс с квантованным KV-кешем и асинхронным потоковым декодированием VAE. Достигнуто ускорение обучения в 2,15× и инференса в 1,84×, модель 5B выдаёт 45,7 FPS. Код и модели опубликованы в открытом доступе.

Почему это важно
Получила 1220 апвоутов на HuggingFace — лидер дня среди статей. Производственная инфраструктура NVIDIA для генерации длинных видео напрямую решает проблему памяти и вычислительного потолка, сдерживающего масштабирование авторегрессионных видеомоделей. Путь через точность NVFP4 показывает, как будет выглядеть генерация видео эпохи Blackwell на больших масштабах.

Стоит знать (5)

Anthropic приобретает Stainless — стартап по SDK и MCP-инструментарию, которым пользовались OpenAI и Google

Anthropic
индустрия офиц. + СМИ 2 ист. ~1 мин

Anthropic объявила о поглощении Stainless — стартапа из Нью-Йорка (основан в 2022 году), который разрабатывал и поддерживал официальные SDK Anthropic с первых дней существования API. Сумма сделки, по данным источников, превышает $300 млн. Stainless также создавала SDK для OpenAI, Google и Cloudflare. Anthropic планирует свернуть все размещённые продукты Stainless, включая сторонний генератор SDK, хотя существующие клиенты сохраняют полные права на уже сгенерированные SDK. Поглощение позиционируется как шаг по укреплению связности агентов Claude через экосистему Model Context Protocol (MCP).

Почему это важно
Включив Stainless в свой состав, Anthropic получает контроль над частью AI-инфраструктуры, на которую опирались OpenAI и Google, ускоряет собственную дорожную карту MCP/SDK и убирает нейтрального стороннего поставщика инструментов с рынка — значимый конкурентный манёвр в условиях, когда связность агентов становится ключевым полем битвы.

CiteVQA: бенчмарк атрибуции доказательств для надёжной document intelligence (178 апвоутов на HF)

Peking University / Shanghai Artificial Intelligence Laboratory
исследования официальный 2 ист. ~1 мин

CiteVQA оценивает мультимодальные LLM не только по правильности ответов, но и по тому, ссылаются ли они на корректный исходный фрагмент в документах. Вводится метрика Strict Attributed Accuracy (SAA), требующая одновременной правильности ответа и точности bounding-box-цитаты. Бенчмарк охватывает 1897 вопросов по 711 PDF-файлам в семи областях и на двух языках. Тестирование 20 MLLM выявило повсеместную «Attribution Hallucination»: модели часто дают правильные ответы, ссылаясь при этом на неверные фрагменты. Даже сильнейшая модель (Gemini-3.1-Pro-Preview) достигает лишь 76,0% SAA; лучшая open-source модель — 22,5%.

Почему это важно
Получил 178 апвоутов на HuggingFace. CiteVQA вскрывает пробел надёжности, невидимый при оценке только по ответам: высокая точность может сочетаться с полностью неверными цитатами. В праве, финансах и медицине ответ, опирающийся на неверный фрагмент, опасен независимо от его фактической правильности.

PhysBrain 1.0: эгоцентрическое видео людей как обучающие данные для VLA-моделей роботов (133 апвоута на HF)

DeepCybo
исследования официальный 2 ист. ~1 мин

PhysBrain 1.0 — это vision-language-action модель, которая приобретает физический здравый смысл из масштабного эгоцентрического видео людей (Ego4D и аналогичные датасеты) до адаптации к роботу, не полагаясь исключительно на дорогостоящие траекторные данные роботов. Движок обработки данных на основе схем извлекает структурированную мета-информацию о сценах и преобразует её в физически обоснованные QA-пары. Пулы мультимодельной аннотации (GPT-5, Gemini 3.1 Pro, варианты Qwen3) генерируют разнообразную разметку. Полученные приоры переносятся на управление роботом через VLA-адаптер с сохранением возможностей. PhysBrain 1.0 достигает state-of-the-art на бенчмарках ERQA, PhysBench, SimplerEnv, LIBERO и RoboCasa с особо высокой обобщаемостью на внедоменные задачи.

Почему это важно
Получил 133 апвоута на HuggingFace. Демонстрирует жизнеспособный путь от массового дешёвого видео людей к воплощённому интеллекту роботов без дорогостоящей телеоперации роботов — масштабируемый маховик данных. SOTA-результаты на пяти роботизированных бенчмарках свидетельствуют о конкурентоспособности подхода с методами, основанными на траекториях.

MMSkills: переиспользуемые мультимодальные скиллы для универсальных визуальных агентов (105 апвоутов на HF)

Shanghai Jiao Tong University
исследования официальный 2 ист. ~1 мин

MMSkills представляет фреймворк для оснащения визуальных AI-агентов переиспользуемыми мультимодальными процедурными знаниями. Каждый пакет скилла объединяет текстовую процедуру с карточками состояния во время выполнения и многоракурсными ключевыми кадрами. Агентный генератор траектории-в-скилл преобразует публичные траектории взаимодействия в переиспользуемые скиллы через группировку рабочих процессов, индукцию процедур, визуальное заземление и аудит на основе мета-скиллов. Во время выполнения агент с ветвящейся загрузкой мультимодальных скиллов инспектирует визуальные карточки и ключевые кадры, согласует их с текущей средой и дистиллирует структурированные инструкции. Эксперименты на бенчмарках GUI и игровых задачах демонстрируют стабильные улучшения как для флагманских, так и для более мелких мультимодальных агентов.

Почему это важно
Получил 105 апвоутов на HuggingFace. Связывая текстовые процедуры с визуальными свидетельствами, а не ограничиваясь только текстовыми или кодовыми скиллами, MMSkills решает задачу повторного использования агентами прошлого опыта в визуально динамичных средах — строительный блок для более надёжных агентных систем в GUI-автоматизации и интерактивных задачах.

OpenAI Codex v0.131.0: единый mention picker, диагностика codex doctor, переименование Python SDK

OpenAI
инструменты официальный 1 ист. ~1 мин

OpenAI Codex v0.131.0 stable (18 мая) включает: единый picker по символу `@` для поиска файлов, директорий, плагинов и скиллов в одном месте; `codex doctor` — новая диагностическая подкоманда, охватывающая runtime, аутентификацию, терминал, сеть, конфигурацию и локальное состояние; переименование пакета Python SDK в `openai-codex` / `openai_codex` с прикреплёнными типами, генерируемыми в runtime, и параллельной маршрутизацией ходов; расширенное управление сессиями TUI, включая смешанный вывод использования токенов и режим разрешений/подтверждений; команды CLI маркетплейса плагинов и версионно-осведомленный шаринг; управление удалёнными демонами рабочих процессов. Исправления ошибок укрепляют поведение песочницы Windows и устраняют артефакты рендеринга TUI (перенос URL, контрастность в светлой теме, Shift+Enter в tmux).

Почему это важно
Первый крупный стабильный релиз после v0.130, консолидирующий недели работы в альфа-версиях. `codex doctor` закрывает давно наболевшую проблему отладки установок Codex. Единый mention picker и усиление песочницы Windows важны для корпоративного внедрения.
Справочно (5)

NudgeRL: стратегические контекстные подсказки для эффективного исследования в RLVR

KAIST AI
исследования официальный 2 ист. ~1 мин

NudgeRL решает проблему неэффективного исследования в обучении с подкреплением с верифицируемыми наградами (RLVR). Фреймворк вводит лёгкие стратегические контекстные подсказки, индуцирующие разнообразные траектории рассуждений без оракульного надзора или дорогостоящего масштабирования rollout. Единая целевая функция обучения декомпозирует награды на межконтекстные и внутриконтекстные компоненты с дистилляцией для переноса выученных паттернов обратно в базовую политику. NudgeRL превосходит стандартный GRPO при бюджете rollout до 8× больше на пяти бенчмарках математических рассуждений, оставаясь конкурентоспособным с оракульно-управляемыми методами.

Почему это важно
Обучение на основе RLVR (например, GRPO, применявшийся в DeepSeek-R1 и его преемниках) — ключевая техника пост-обучения для моделей рассуждений. NudgeRL показывает, что структурированные стратегические подсказки могут заменить 8-кратное увеличение вычислений — практически значимо для лабораторий, обучающих модели рассуждений при ограниченных вычислительных ресурсах.

Claude Code v2.1.144: /resume для фоновых сессий, более быстрый запуск MCP, исправление таймаута 75 с

Anthropic
инструменты официальный 1 ист. ~1 мин

Claude Code v2.1.144 (19 мая) добавляет поддержку /resume, благодаря чему фоновые сессии, запущенные через `claude --bg` или agent view, отображаются наряду с интерактивными. В панели /plugin browse теперь показываются даты последнего обновления плагинов; /model меняет модель только для текущей сессии (нажмите `d`, чтобы задать модель по умолчанию для новых сессий); запуск SDK/headless MCP ускорен до 2 секунд для медленных MCP-серверов. Исправления ошибок: зависание при запуске до 75 с при недоступности api.anthropic.com (теперь таймаут 15 с), артефакты рендеринга терминала, а также сбой фоновых сессий macOS в папках, защищённых Full Disk Access.

Почему это важно
Функция /resume закрывает пробел в рабочем процессе — ранее фоновые сессии были невидимы рядом с интерактивными. Ускорение запуска MCP на 2 с полезно для агентных рабочих процессов с медленными MCP-серверами, а исправление таймаута с 75 с до 15 с предотвращает видимое зависание агента при недоступности API.

SST OpenCode v1.15.5: экспериментальный путь OpenAI runtime, флаг --replay для истории сессий

SST
инструменты официальный 1 ист. ~1 мин

SST OpenCode v1.15.5 (18 мая) вводит экспериментальный нативный путь через OpenAI runtime (preview), добавляет флаги `--replay` и `--replay-limit` для просмотра истории последних сессий в интерактивных запусках, исправляет инструменты плагинов с функцией `ask` — вызовы инструментов теперь корректно завершаются, снижает гонки подписок, приводящие к пропуску обновлений /event, сортирует список сессий v2 по дате последнего обновления и обновляет разметку строки ввода TUI после вставки контента.

Почему это важно
Экспериментальный путь через OpenAI runtime — значимое архитектурное дополнение для пользователей, запускающих OpenCode на инфраструктуре OpenAI. Флаг --replay позволяет отлаживать и аудировать прошлые сессии агента, не покидая TUI.

OpenClaw v2026.5.18: SDK defineToolPlugin, HTTPS forward proxy, скилл отладки Python

OpenClaw
инструменты официальный 1 ист. ~1 мин

OpenClaw v2026.5.18 stable (18 мая) добавляет: новый API `defineToolPlugin` и команды CLI `openclaw plugins build`, `validate` и `init` для типизированных простых плагинов-инструментов с автогенерируемыми метаданными манифеста; поддержку HTTPS управляемого forward-proxy-эндпоинта с областью действия `proxy.tls.caFile` CA trust; скилл отладки Python, охватывающий pdb, breakpoint(), post-mortem-инспекцию и удалённое подключение debugpy; отображение модальных диалогов в снимках браузера; а также более 100 исправлений ошибок. Стабильная версия v2026.5.12 оптимизировала установку, вынеся провайдеры WhatsApp, Slack и Bedrock из основного runtime.

Почему это важно
SDK `defineToolPlugin` с командами CLI-скаффолдинга значительно снижает порог входа для создания кастомных плагинов — прежде для этого требовалось разбираться во внутренностях; теперь доступна типизация с генерируемыми манифестами. Поддержка HTTPS forward proxy закрывает ключевой пробел для корпоративного развёртывания.

GitHub Copilot CLI v1.0.49: команда /rubber-duck для критики, поиск /chronicle, поддержка Alpine Linux

GitHub (Microsoft)
инструменты официальный 1 ист. ~1 мин

GitHub Copilot CLI v1.0.49 (18 мая) добавляет: `/rubber-duck` — команда для получения независимой критики текущей работы агента без риска самозащиты с его стороны; `/chronicle search` для поиска по всему содержимому сессий по ключевому слову или теме; слэш-команду `/memory on|off|show` для управления постоянной памятью; `copilot plugin update --all` для одновременного обновления всех плагинов; поддержку Alpine Linux (musl libc); улучшенный хук `postToolUse` с инжекцией additionalContext как системного сообщения; а также строку ввода, сворачивающуюся в одну строку при пустом поле.

Почему это важно
Команда /rubber-duck — это новая возможность мета-агента: получение независимого второго мнения о работе агента помогает выявлять галлюцинации и ошибки. /chronicle search превращает все прошлые сессии Copilot в доступную для запросов базу знаний. Поддержка Alpine Linux расширяет возможности контейнерного CI-развёртывания.