Ежедневный дайджест

15 пунктов · ~15 мин · Неделя 2026-W20

Обязательно к прочтению (4)

MinT: управляемая инфраструктура для обучения и обслуживания миллионов LLM

Mind Lab
исследования офиц. + СМИ 2 ист. ~1 мин

MinT — производственная инфраструктурная система для управления миллионами вариантов LoRA-политик поверх общих базовых моделей размером до 1T+ параметров. Система масштабируется в трёх направлениях: вверх — до моделей фронтирного масштаба; вниз — через передачу только LoRA-адаптеров (<1% размера базовой модели); вширь — поддерживая параллельное обучение множества политик и cold-loading для каталогов масштаба миллиона моделей. Прирост эффективности: 18.3x на dense-моделях, 2.85x на MoE-моделях.

Почему это важно
По мере того как персонализация и доменная адаптация формируют спрос на миллионы fine-tuned вариантов моделей, MinT предоставляет конкретный системный план для эффективной работы в таком масштабе. 147 upvotes на HF Daily (14 мая).

MulTaBench: бенчмаркинг мультимодального табличного обучения с текстом и изображениями

Technion
исследования офиц. + СМИ 2 ист. ~1 мин

MulTaBench включает 40 датасетов (20 image-tabular, 20 text-tabular) — крупнейший на сегодня бенчмаркинговый проект для табличных данных с изображениями. Бенчмарк выявляет, что современные табличные foundation-модели опираются на замороженные эмбеддинги, а task-specific fine-tuning существенно улучшает результаты на текстовых и изображений модальностях при разных масштабах энкодеров.

Почему это важно
Реальные табличные данные регулярно включают изображения и свободный текст наряду с числовыми столбцами, однако существующие бенчмарки игнорируют этот пробел. MulTaBench наглядно обнажает конкретную слабость современных foundation-моделей. 122 upvotes на HF Daily (14 мая).

EVA-Bench: сквозной фреймворк для оценки голосовых агентов

ServiceNow AI
исследования офиц. + СМИ 2 ист. ~1 мин

EVA-Bench предоставляет сквозную оценку голосовых агентов через симуляцию аудиодиалогов между ботами. Вводятся составные метрики EVA-A (выполнение задачи + качество речи) и EVA-X (поток разговора + тайминг смены реплик), а также бенчмарк из 213 сценариев в трёх корпоративных доменах. Оценка 12 систем показывает, что ни одна не превосходит остальных по обеим метрикам, а медианный разрыв между пиковой и стабильной производительностью составляет 0.44.

Почему это важно
Голосовые агенты переходят в корпоративное production, однако строгой сквозной оценки до сих пор не существовало. EVA-Bench устанавливает методологию и выявляет тревожные пробелы в надёжности. 116 upvotes на HF Daily (14 мая).

xAI запускает Grok Build: агентный coding CLI в раннем бета-доступе

xAI
инструменты офиц. + СМИ 3 ист. ~1 мин

xAI выпустила Grok Build — агентный инструмент для разработки из командной строки, доступный в раннем бета-доступе для подписчиков SuperGrok Heavy. Grok Build работает из терминала: читает репозитории, предлагает структурированные планы, редактирует файлы в кодовой базе, выполняет shell-команды, устанавливает зависимости и запускает параллельные субагенты в изолированных worktree. Plan Mode позволяет просматривать и корректировать предложенные шаги до начала выполнения.

Почему это важно
xAI получила прямой ответ на Claude Code и GitHub Copilot Workspace. Архитектура параллельных субагентов и механизм подтверждения плана вплотную повторяют то, что уже выпустили Anthropic и OpenAI, — агентные инструменты для разработки становятся стандартом для фронтирных лабораторий.

Стоит знать (7)

SU-01: рассуждения на уровне золотой медали олимпиады через curriculum SFT и двухэтапный RL

SU-01 Team
исследования офиц. + СМИ 2 ист. ~1 мин

SU-01 — модель 30B-A3B, обученная с помощью curriculum SFT с обратной перплексией и последующего двухэтапного RL (~340K SFT-траекторий + 200 шагов RL). Модель достигает производительности уровня золотой медали на бенчмарках IMO, USAMO и IPhO, стабильно обрабатывая траектории рассуждений длиной более 100K токенов.

Почему это важно
Результаты уровня золотой медали на нескольких международных олимпиадах по математике и физике — качественная веха для рассуждений ИИ. Результат достигнут благодаря тщательно выстроенному curriculum и двухэтапному RL, а не экзотическим архитектурным изменениям. 75 upvotes на HF Daily (15 мая).

OpenAI добавляет Codex в мобильное приложение ChatGPT и открывает Remote SSH

OpenAI
инструменты офиц. + СМИ 4 ист. ~1 мин

OpenAI выпустила Codex в мобильном приложении ChatGPT для iOS и Android: пользователи могут удалённо отслеживать активные сессии Codex — просматривать диффы, вывод терминала, результаты тестов и скриншоты, — а также подтверждать или отклонять предлагаемые команды с телефона, пока агент работает на десктопе или devbox. В обновлении также выходит Remote SSH в статусе общедоступного, с новыми программными токенами доступа для автоматизации в планах Business и Enterprise. Codex еженедельно используют более 4 миллионов пользователей.

Почему это важно
Асинхронная агентная разработка с доступом через телефон устраняет ключевую точку неудобства: разработчикам больше не нужно постоянно находиться за рабочим столом во время долгих задач. Программные токены для Enterprise открывают сценарии использования в CI/CD и автоматизированных пайплайнах.

Cursor 3.4: облачные среды разработки для агентов с поддержкой нескольких Docker-репозиториев

Cursor
инструменты официальный 1 ист. ~1 мин

Cursor 3.4 представляет среды разработки для облачных агентов — Docker-песочницы с клонированными репозиториями, установленными зависимостями, учётными данными и доступом к системе сборки. Команды могут настраивать многорепозиторные среды, переиспользуемые между сессиями, с кешированием сборок, ускоряющим попадания в кеш на 70%. Обновление от 11 мая добавило интеграцию с Microsoft Teams для делегирования задач разработки через @Cursor.

Почему это важно
Постоянные среды разработки под управлением команд сокращают разрыв между локальным прототипированием и корпоративным развёртыванием облачных агентов. Поддержка нескольких репозиториев закрывает реальные сценарии с monorepo и polyrepo, которые одиночные агенты не могли обработать.

VS Code 1.120: панель Agents выходит в Stable с оценкой рисков команд терминала

Microsoft
инструменты официальный 1 ист. ~1 мин

VS Code 1.120 переводит панель Agents из Insiders в Stable, предоставляя единый интерфейс для управления несколькими агентами в нескольких проектах. Новые функции безопасности включают оценку рисков команд терминала с ИИ-генерируемыми метками Safe/Caution/Review и сжатие вывода терминала для сокращения использования контекстного окна. Также добавлена видимость BYOK-токенов и настраиваемое thinking effort для reasoning-моделей.

Почему это важно
Стабильный релиз панели Agents открывает мульти-проектные агентные рабочие процессы всем пользователям VS Code. Оценка рисков команд терминала решает ключевую проблему безопасности при автономном выполнении shell-команд агентами.

IBM Granite Embedding Multilingual R2: контекст 32K и лучший результат среди моделей до 100M параметров

IBM
инструменты официальный 1 ист. ~1 мин

IBM выпустила две новые open embedding-модели: granite-embedding-311m-multilingual-r2 (MTEB Multilingual 65.2) и granite-embedding-97m-multilingual-r2 (60.3, лучший результат среди моделей до 100M параметров). Обе поддерживают контекстное окно в 32 768 токенов — в 64 раза больше, чем у R1, — более 200 языков и 9 языков программирования. Построены на ModernBERT с Flash Attention 2.0. Лицензия Apache 2.0; включены веса ONNX/OpenVINO.

Почему это важно
Контекст в 32K закрывает критический пробел для извлечения длинных документов в RAG-пайплайнах. Производительность модели до 100M параметров делает on-device embedding реальным без потери качества, а лицензия Apache 2.0 снимает барьеры для коммерческого использования.

Hugging Face Transformers: асинхронный continuous batching даёт прирост скорости инференса на 22%

Hugging Face
инструменты официальный 1 ист. ~1 мин

Hugging Face опубликовала статью, описывающую асинхронный continuous batching в библиотеке Transformers. Благодаря CUDA streams для перекрытия подготовки батча на CPU с вычислениями на GPU утилизация GPU вырастает с 76% до 99.4%, а время генерации сокращается на 22% (300.6 с → 234.5 с) на модели 8B при размере батча 32. Метод не требует никаких изменений архитектуры модели.

Почему это важно
Прирост пропускной способности на 22% без изменений модели готов к развёртыванию в production-стеках инференса и теперь является частью официальной библиотеки Transformers.

Runway запускает Runway Agent: сквозное агентное видеопроизводство

Runway
видео официальный 1 ист. ~1 мин

Runway представила Runway Agent — агентного творческого партнёра, который проводит пользователя от текстового описания до готового, многосценного, публикуемого видео в рамках одного разговора. Агент предлагает концепции, разрабатывает структуру истории, генерирует несколько сцен с закадровым голосом, диалогами и музыкой и собирает финальное видео. Пользователи могут предоставлять референсные изображения и направлять процесс в режиме диалога.

Почему это важно
Runway Agent знаменует переход от генерации отдельных клипов по промпту к полному сквозному агентному видеопроизводству, в котором ИИ берёт на себя препродакшн, генерацию и монтаж в едином пайплайне.
Справочно (4)

xAI отключает 8 устаревших моделей; Grok 4.3 становится моделью API по умолчанию

xAI
модели/LLM офиц. + СМИ 3 ист. ~1 мин

С 15 мая 2026 года xAI отключила восемь устаревших моделей из своего API — в том числе grok-4-fast-reasoning, grok-4-0709, grok-code-fast-1 и варианты grok-3, — перенаправив весь трафик на Grok 4.3. Grok 4.3 — текущий флагман xAI со встроенным рассуждением (четыре уровня усилий), контекстным окном в 1 миллион токенов, нативным видеовводом и ценообразованием $1.25/$2.50 за миллион входных/выходных токенов. Модель возглавляет Artificial Analysis Intelligence Index (53 балла против медианы 35).

Почему это важно
Принудительная миграция консолидирует модельный портфель xAI вокруг единого флагмана. Контекстное окно в 1M токенов и нативный видеоввод делают Grok 4.3 конкурентоспособным с Gemini 2.0 Pro в задачах с длинным контекстом и мультимодальных сценариях.

Claude Code v2.1.142: Opus 4.7 как модель fast mode по умолчанию и расширенные флаги agents

Anthropic
инструменты официальный 1 ист. ~1 мин

Claude Code v2.1.142 переводит модель fast mode по умолчанию с Opus 4.6 на Opus 4.7 и добавляет новые флаги для команды `claude agents`: --add-dir, --settings, --mcp-config, --plugin-dir, --permission-mode, --model, --effort и --dangerously-skip-permissions. Также исправлены: ограничение MCP_TOOL_TIMEOUT, распознавание worktree в фоновых сессиях и deadlock на сетевых дисках Windows.

Почему это важно
Расширенные флаги `claude agents` дают опытным пользователям детальный контроль над headless-сессиями в фоне, позволяя строить более надёжные мульти-агентные пайплайны. Opus 4.7 по умолчанию в fast mode означает более качественные ответы в сценариях с требованиями к latency.

OpenCode v1.15.0: событийная система на основе Effect и фоновые субагенты

SST
инструменты официальный 2 ист. ~1 мин

OpenCode v1.15.0 вводит событийную систему на основе Effect для более полной доставки событий между сессиями и интеграциями. В предыдущей версии v1.14.51 появились экспериментальные фоновые субагенты, позволяющие задачам продолжаться, пока пользователь работает в активной сессии, а также поддержка заголовков NVIDIA billing и требование LiteLLM v1.85+.

Почему это важно
Фоновые субагенты — значимый эргономический шаг для долгих задач разработки: выполнение агента отвязывается от активной сессии. Событийная система на основе Effect повышает надёжность интеграций, опирающихся на потоки событий сессии.

Ollama v0.24.0: интеграция с Codex App и улучшения MLX-семплера

Ollama
инструменты официальный 1 ист. ~1 мин

Ollama v0.24.0 вводит встроенную интеграцию с Codex App с режимами browser и review. MLX-семплер доработан для повышения качества генерации на Apple Silicon. В более ранних релизах v0.23.x появилась поддержка vision-моделей в `ollama launch opencode` и исправлено форматирование результатов инструментов Claude.

Почему это важно
Более тесная интеграция с Codex связывает стек локального инференса с экосистемой coding-агента OpenAI, открывая гибридные локально/удалённые рабочие процессы для пользователей Apple Silicon.