Ежедневный дайджест

11 пунктов · ~11 мин · Неделя 2026-W24

Обязательно к прочтению (2)

Google выпускает DiffusionGemma: открытая модель на 26B с генерацией текста в 4× быстрее

Google DeepMind
модели/LLM офиц. + СМИ 2 ист. ~1 мин

Google выпустил DiffusionGemma — экспериментальную открытую модель на 26B параметров в архитектуре Mixture-of-Experts (лицензия Apache 2.0), использующую текстовую диффузию вместо авторегрессионной генерации токенов. Вместо последовательного вывода одного токена модель генерирует и уточняет блок из 256 токенов параллельно, достигая до 4× более высокой пропускной способности: 1000+ токенов/с на H100 и 700+ на GeForce RTX 5090. Во время инференса активны лишь 3.8B параметров, а квантизованная модель умещается в 18 ГБ VRAM для запуска на потребительских GPU. Качество вывода уступает стандартной Gemma 4, поэтому модель ориентирована на интерактивные сценарии с приоритетом скорости, а не качества.

Почему это важно
Одна из первых практически применимых открытых текстовых диффузионных моделей с публичными весами. Архитектурный переход от последовательной к параллельной генерации блоков устраняет пропускную способность памяти как основное узкое место и открывает возможность двунаправленного внимания по генерируемым токенам — недостижимого в авторегрессионных моделях. Открытый релиз под Apache 2.0 для потребительского железа ускоряет исследования диффузионных LLM.

Kwai Keye-VL-2.0: открытая мультимодальная MoE-модель 30B с контекстом 256K для длинного видео

Kwai
исследования официальный 1 ист. ~1 мин

Kwai выпустил Keye-VL-2.0 — открытую мультимодальную модель 30B в архитектуре Mixture-of-Experts с 3B активных параметров. Ключевое достижение: адаптация sparse attention (на основе DeepSeek) для поддержки контекста 256K токенов без потерь при обработке видео длиной до часа. Новая техника обучения Cross-Modal Multi-Teacher On-Policy Distillation предотвращает катастрофическое забывание между задачами. Поддерживает мультимодальные агентские сценарии: выполнение кода, вызов инструментов и веб-поиск.

Почему это важно
785 голосов на HuggingFace — лучшая статья 10 июня. Обеспечивает state-of-the-art понимание длинного видео (Video-MME-v2, LongVideoBench, TimeLens) при конкурентном бюджете параметров, с полностью открытыми весами и встроенными агентскими возможностями. Повышает планку для открытых мультимодальных моделей.

Стоит знать (4)

Arbor: автономное ML-исследование через уточнение дерева гипотез

NLPIR Lab
исследования официальный 1 ист. ~1 мин

Arbor представляет фреймворк для полностью автономного ML-исследования. Координатор на основе LLM управляет персистентным Hypothesis Tree, связывающим гипотезы, экспериментальные артефакты и накопленные знания. Агенты-исполнители проверяют отдельные гипотезы в изолированных песочницах, что позволяет знаниям накапливаться на протяжении многих экспериментальных итераций вместо сброса после каждого запуска. На MLE-Bench Lite Arbor достигает 86.36% по Any Medal score — более чем 2.5× относительного прироста по сравнению с Codex и Claude Code при одинаковом вычислительном бюджете.

Почему это важно
30 голосов на HuggingFace 11 июня. Конкретный шаг к AI-системам, способным вести устойчивое, накопительное научное исследование. Преимущество в 2.5× над Codex и Claude Code на стандартизированном бенчмарке ML-инженерии — убедительный эмпирический сигнал для агентов автономного исследования.

DeNovoSWE: генерация полного репозитория с нуля — рост с 5.8% до 47.2% на синтетических обучающих данных

AweAI Team
исследования официальный 1 ист. ~1 мин

DeNovoSWE устраняет пробел в AI-агентах для кода: большинство обучающих данных охватывает исправление ошибок в существующих кодовых базах, а не построение полных репозиториев с нуля. Бенчмарк включает 4818 примеров, в каждом из которых требуется сгенерировать полный репозиторий по документации. Конвейер divide-and-conquer с critic-repair и фильтрацией по сложности формирует высококачественные обучающие траектории. Дообучение Qwen3-30B-A3B на этих данных поднимает метрику BeyondSWE-Doc2Repo с 5.8% до 47.2%.

Почему это важно
21 голос на HuggingFace 11 июня. Почти 10-кратный прирост на бенчмарке показывает, что качество обучающих данных для задач долгосрочного программирования — ключевое узкое место, которое можно устранить автоматизированным построением в песочницах. Приближает AI к роли полноценного архитектора ПО, а не только написателя патчей.

Z-Reward: распределения оценок вместо скалярных наград для RLHF в генерации изображений

Alibaba
исследования официальный 1 ист. ~1 мин

Z-Reward заменяет одиночные скалярные значения вознаграждения распределениями по рубриковым оценкам для RLHF в генерации изображений. Модель-учитель на 27B явно рассуждает и выдаёт распределения оценок; модель-ученик усваивает это рассуждение во время инференса через Reasoning-Internalized Score Distillation (RISD) без необходимости цепочки рассуждений во время работы. Group-wise Direct Score Optimization (GDSO) объединяет вознаграждения policy-gradient с прямым супервизором по распределениям. Учитель на 27B достигает 89.6% точности по предпочтениям людей; ученик на 9B — 88.6%; как дифференцируемый сигнал вознаграждения во время генерации — 41.3% чистого улучшения по человеческим предпочтениям.

Почему это важно
34 голоса на HuggingFace 11 июня. Подход с распределениями по рубрикам обобщается за пределы генерации изображений на любую RLHF-область, где скалярные вознаграждения теряют сигнал. Точность 89.6% по предпочтениям людей превосходит все известные базовые результаты на масштабе учителя.

Claude Code v2.1.172–v2.1.173: вложенные суб-агенты до 5 уровней глубины

Anthropic
инструменты официальный 2 ист. ~1 мин

Два релиза вышли 10–11 июня. v2.1.172 позволяет суб-агентам порождать собственных суб-агентов до 5 уровней вложенности, добавляет поисковую строку в marketplace-плагинах, раскрывает атрибут model в OTEL-метриках lines-of-code и исправляет несколько ошибок (сессии с контекстом 1M зависали на usage credits, повторяющиеся ошибки обработки изображений, лаг UI в agents-view, фоновые суб-агенты зависали в статусе active). Amazon Bedrock теперь считывает AWS-регион из ~/.aws config, если AWS_REGION не задан. v2.1.173 автоматически убирает суффикс [1m] из имён моделей Fable 5 и исправляет ложное предупреждение «sandbox dependencies missing» при запуске на Windows.

Почему это важно
Рекурсивный запуск суб-агентов до 5 уровней — значимое архитектурное улучшение для сложных агентских сценариев. Нормализация имён Fable 5 снимает трение при переходе команд на новое семейство моделей.
Справочно (5)

Модели OpenAI и Codex теперь доступны через кредиты Oracle Cloud

OpenAI
индустрия офиц. + СМИ 2 ист. ~1 мин

Клиенты OCI теперь могут направлять существующие Oracle Universal Credits на доступ к frontier-моделям OpenAI и Codex, интегрируя его через стандартные процессы закупок Oracle. Партнёрство позволяет корпоративным командам создавать AI-приложения и использовать Codex для разработки ПО без отдельных расчётных отношений с OpenAI.

Почему это важно
Расширяет охват OpenAI среди корпоративных клиентов через один из крупнейших корпоративных облачных закупочных конвейеров. Для клиентов Oracle — многих из финансовой, медицинской и государственной сферы — снимает барьеры закупок и встраивает frontier AI в существующие бюджетные структуры, нормализуя AI-возможности как стандартные облачные сервисы.

Анатомия пост-обучения: использование интерпретируемости для аудита и исправления данных предпочтений

исследования официальный 1 ист. ~1 мин

Применяет механистическую интерпретируемость для аудита и улучшения pipeline'ов пост-обучения. Метод выявляет латентные концепции в представлениях модели, различающие предпочтительные и менее предпочтительные ответы, затем использует эти концепции для диагностики ложных корреляций в датасетах предпочтений и формирования вознаграждений через вмешательства в признаки или данные. Позиционирует интерпретируемость не только как инструмент понимания моделей после обучения, но и как активный компонент самого цикла обучения.

Почему это важно
Устраняет разрыв между исследованиями интерпретируемости и практической работой по alignment. Диагностируя, какие концепции в действительности улавливает reward-модель — включая непредусмотренные — подход предлагает принципиальный способ аудита и коррекции обучающего сигнала до того, как нежелательное поведение закрепится.

OpenCode v1.17.1–v1.17.3: восстановление аутентификации, права суб-агентов, лаунчер для Linux

SST
инструменты официальный 2 ист. ~1 мин

Три релиза вышли 10 июня. v1.17.1 добавляет описания использования и видимость документации для ссылок, вводит таймауты для запросов к MCP-серверам, восстанавливает авто-обновление на macOS и добавляет маршрут /new-session с черновой вкладкой. v1.17.2 добавляет восстановление аутентификации при истёкшей удалённой конфигурации, управление правами для суб-агентов, лаунчер для Linux с иконкой приложения и UI для выбора устройства. v1.17.3 — хотфикс краша на десктопе, появившегося в v1.17.2.

Почему это важно
Управление правами суб-агентов — значимое дополнение с точки зрения безопасности и управления для команд, запускающих OpenCode в production. Восстановление аутентификации при истёкшей удалённой конфигурации улучшает надёжность в корпоративных окружениях.

llama.cpp b9589–b9592: исправление синхронизации CUDA SSM и оптимизация памяти Mamba

инструменты официальный 2 ист. ~1 мин

Четыре сборки вышли около 10 июня. b9589 исправляет отсутствующие барьеры синхронизации потоков перед повторным использованием разделяемой памяти в операциях CUDA SSM scan — ошибка корректности, затрагивающая модели семейства Mamba на GPU. b9591 объединяет копирование памяти D2D для MTP/Mamba в единую strided-передачу и рефакторит ggml_gated_delta_net, снижая накладные расходы. b9590 исправляет игнорирование json_schema из response_format в LFM2/LFM2.5. b9592 обновляет LibreSSL до 4.3.2.

Почему это важно
Исправление синхронизации CUDA SSM устраняет скрытую ошибку корректности — затронутые пользователи могли получать незаметно неверные результаты от моделей Mamba, не подозревая об этом. Консолидация передачи памяти улучшает пропускную способность для архитектур Mamba, набирающих популярность как альтернатива attention.

LangChain Stack: провайдер-независимые колбэки токенов контентных блоков для Anthropic, Groq, Mistral

LangChain
инструменты официальный 2 ист. ~1 мин

Скоординированные релизы 10–11 июня: langchain-core 1.4.5 добавляет валидацию чанков вызовов инструментов при стриминге и асинхронные fallback'и трейсеров. langchain-anthropic 1.4.5 добавляет поддержку колбэков для токенов контентных блоков и обновление профиля модели. langchain-groq 1.1.3 добавляет строгий режим и стандартные свойства модели. langchain-mistralai 1.1.5 добавляет поддержку токенов контентных блоков в колбэках. langchain 1.3.7 поставляет новый middleware-компонент.

Почему это важно
Поддержка колбэков токенов контентных блоков для Anthropic, Groq и Mistral стандартизирует наблюдаемость стриминга в LangChain-приложениях, делая трассировку на уровне токенов провайдер-независимой — полезно для учёта затрат, управления rate-limit и отладки.