Ежедневный дайджест
15 пунктов · ~15 мин · Неделя 2026-W20
Обязательно к прочтению (4)
MinT: управляемая инфраструктура для обучения и обслуживания миллионов LLM
Mind LabMinT — производственная инфраструктурная система для управления миллионами вариантов LoRA-политик поверх общих базовых моделей размером до 1T+ параметров. Система масштабируется в трёх направлениях: вверх — до моделей фронтирного масштаба; вниз — через передачу только LoRA-адаптеров (<1% размера базовой модели); вширь — поддерживая параллельное обучение множества политик и cold-loading для каталогов масштаба миллиона моделей. Прирост эффективности: 18.3x на dense-моделях, 2.85x на MoE-моделях.
MulTaBench: бенчмаркинг мультимодального табличного обучения с текстом и изображениями
TechnionMulTaBench включает 40 датасетов (20 image-tabular, 20 text-tabular) — крупнейший на сегодня бенчмаркинговый проект для табличных данных с изображениями. Бенчмарк выявляет, что современные табличные foundation-модели опираются на замороженные эмбеддинги, а task-specific fine-tuning существенно улучшает результаты на текстовых и изображений модальностях при разных масштабах энкодеров.
EVA-Bench: сквозной фреймворк для оценки голосовых агентов
ServiceNow AIEVA-Bench предоставляет сквозную оценку голосовых агентов через симуляцию аудиодиалогов между ботами. Вводятся составные метрики EVA-A (выполнение задачи + качество речи) и EVA-X (поток разговора + тайминг смены реплик), а также бенчмарк из 213 сценариев в трёх корпоративных доменах. Оценка 12 систем показывает, что ни одна не превосходит остальных по обеим метрикам, а медианный разрыв между пиковой и стабильной производительностью составляет 0.44.
xAI запускает Grok Build: агентный coding CLI в раннем бета-доступе
xAIxAI выпустила Grok Build — агентный инструмент для разработки из командной строки, доступный в раннем бета-доступе для подписчиков SuperGrok Heavy. Grok Build работает из терминала: читает репозитории, предлагает структурированные планы, редактирует файлы в кодовой базе, выполняет shell-команды, устанавливает зависимости и запускает параллельные субагенты в изолированных worktree. Plan Mode позволяет просматривать и корректировать предложенные шаги до начала выполнения.
Стоит знать (7)
SU-01: рассуждения на уровне золотой медали олимпиады через curriculum SFT и двухэтапный RL
SU-01 TeamSU-01 — модель 30B-A3B, обученная с помощью curriculum SFT с обратной перплексией и последующего двухэтапного RL (~340K SFT-траекторий + 200 шагов RL). Модель достигает производительности уровня золотой медали на бенчмарках IMO, USAMO и IPhO, стабильно обрабатывая траектории рассуждений длиной более 100K токенов.
OpenAI добавляет Codex в мобильное приложение ChatGPT и открывает Remote SSH
OpenAIOpenAI выпустила Codex в мобильном приложении ChatGPT для iOS и Android: пользователи могут удалённо отслеживать активные сессии Codex — просматривать диффы, вывод терминала, результаты тестов и скриншоты, — а также подтверждать или отклонять предлагаемые команды с телефона, пока агент работает на десктопе или devbox. В обновлении также выходит Remote SSH в статусе общедоступного, с новыми программными токенами доступа для автоматизации в планах Business и Enterprise. Codex еженедельно используют более 4 миллионов пользователей.
Cursor 3.4: облачные среды разработки для агентов с поддержкой нескольких Docker-репозиториев
CursorCursor 3.4 представляет среды разработки для облачных агентов — Docker-песочницы с клонированными репозиториями, установленными зависимостями, учётными данными и доступом к системе сборки. Команды могут настраивать многорепозиторные среды, переиспользуемые между сессиями, с кешированием сборок, ускоряющим попадания в кеш на 70%. Обновление от 11 мая добавило интеграцию с Microsoft Teams для делегирования задач разработки через @Cursor.
VS Code 1.120: панель Agents выходит в Stable с оценкой рисков команд терминала
MicrosoftVS Code 1.120 переводит панель Agents из Insiders в Stable, предоставляя единый интерфейс для управления несколькими агентами в нескольких проектах. Новые функции безопасности включают оценку рисков команд терминала с ИИ-генерируемыми метками Safe/Caution/Review и сжатие вывода терминала для сокращения использования контекстного окна. Также добавлена видимость BYOK-токенов и настраиваемое thinking effort для reasoning-моделей.
IBM Granite Embedding Multilingual R2: контекст 32K и лучший результат среди моделей до 100M параметров
IBMIBM выпустила две новые open embedding-модели: granite-embedding-311m-multilingual-r2 (MTEB Multilingual 65.2) и granite-embedding-97m-multilingual-r2 (60.3, лучший результат среди моделей до 100M параметров). Обе поддерживают контекстное окно в 32 768 токенов — в 64 раза больше, чем у R1, — более 200 языков и 9 языков программирования. Построены на ModernBERT с Flash Attention 2.0. Лицензия Apache 2.0; включены веса ONNX/OpenVINO.
Hugging Face Transformers: асинхронный continuous batching даёт прирост скорости инференса на 22%
Hugging FaceHugging Face опубликовала статью, описывающую асинхронный continuous batching в библиотеке Transformers. Благодаря CUDA streams для перекрытия подготовки батча на CPU с вычислениями на GPU утилизация GPU вырастает с 76% до 99.4%, а время генерации сокращается на 22% (300.6 с → 234.5 с) на модели 8B при размере батча 32. Метод не требует никаких изменений архитектуры модели.
Runway запускает Runway Agent: сквозное агентное видеопроизводство
RunwayRunway представила Runway Agent — агентного творческого партнёра, который проводит пользователя от текстового описания до готового, многосценного, публикуемого видео в рамках одного разговора. Агент предлагает концепции, разрабатывает структуру истории, генерирует несколько сцен с закадровым голосом, диалогами и музыкой и собирает финальное видео. Пользователи могут предоставлять референсные изображения и направлять процесс в режиме диалога.
Справочно (4)
xAI отключает 8 устаревших моделей; Grok 4.3 становится моделью API по умолчанию
xAIС 15 мая 2026 года xAI отключила восемь устаревших моделей из своего API — в том числе grok-4-fast-reasoning, grok-4-0709, grok-code-fast-1 и варианты grok-3, — перенаправив весь трафик на Grok 4.3. Grok 4.3 — текущий флагман xAI со встроенным рассуждением (четыре уровня усилий), контекстным окном в 1 миллион токенов, нативным видеовводом и ценообразованием $1.25/$2.50 за миллион входных/выходных токенов. Модель возглавляет Artificial Analysis Intelligence Index (53 балла против медианы 35).
Claude Code v2.1.142: Opus 4.7 как модель fast mode по умолчанию и расширенные флаги agents
AnthropicClaude Code v2.1.142 переводит модель fast mode по умолчанию с Opus 4.6 на Opus 4.7 и добавляет новые флаги для команды `claude agents`: --add-dir, --settings, --mcp-config, --plugin-dir, --permission-mode, --model, --effort и --dangerously-skip-permissions. Также исправлены: ограничение MCP_TOOL_TIMEOUT, распознавание worktree в фоновых сессиях и deadlock на сетевых дисках Windows.
OpenCode v1.15.0: событийная система на основе Effect и фоновые субагенты
SSTOpenCode v1.15.0 вводит событийную систему на основе Effect для более полной доставки событий между сессиями и интеграциями. В предыдущей версии v1.14.51 появились экспериментальные фоновые субагенты, позволяющие задачам продолжаться, пока пользователь работает в активной сессии, а также поддержка заголовков NVIDIA billing и требование LiteLLM v1.85+.
Ollama v0.24.0: интеграция с Codex App и улучшения MLX-семплера
OllamaOllama v0.24.0 вводит встроенную интеграцию с Codex App с режимами browser и review. MLX-семплер доработан для повышения качества генерации на Apple Silicon. В более ранних релизах v0.23.x появилась поддержка vision-моделей в `ollama launch opencode` и исправлено форматирование результатов инструментов Claude.