Ежедневный дайджест
11 пунктов · ~11 мин · Неделя 2026-W24
Обязательно к прочтению (2)
Google выпускает DiffusionGemma: открытая модель на 26B с генерацией текста в 4× быстрее
Google DeepMindGoogle выпустил DiffusionGemma — экспериментальную открытую модель на 26B параметров в архитектуре Mixture-of-Experts (лицензия Apache 2.0), использующую текстовую диффузию вместо авторегрессионной генерации токенов. Вместо последовательного вывода одного токена модель генерирует и уточняет блок из 256 токенов параллельно, достигая до 4× более высокой пропускной способности: 1000+ токенов/с на H100 и 700+ на GeForce RTX 5090. Во время инференса активны лишь 3.8B параметров, а квантизованная модель умещается в 18 ГБ VRAM для запуска на потребительских GPU. Качество вывода уступает стандартной Gemma 4, поэтому модель ориентирована на интерактивные сценарии с приоритетом скорости, а не качества.
Kwai Keye-VL-2.0: открытая мультимодальная MoE-модель 30B с контекстом 256K для длинного видео
KwaiKwai выпустил Keye-VL-2.0 — открытую мультимодальную модель 30B в архитектуре Mixture-of-Experts с 3B активных параметров. Ключевое достижение: адаптация sparse attention (на основе DeepSeek) для поддержки контекста 256K токенов без потерь при обработке видео длиной до часа. Новая техника обучения Cross-Modal Multi-Teacher On-Policy Distillation предотвращает катастрофическое забывание между задачами. Поддерживает мультимодальные агентские сценарии: выполнение кода, вызов инструментов и веб-поиск.
Стоит знать (4)
Arbor: автономное ML-исследование через уточнение дерева гипотез
NLPIR LabArbor представляет фреймворк для полностью автономного ML-исследования. Координатор на основе LLM управляет персистентным Hypothesis Tree, связывающим гипотезы, экспериментальные артефакты и накопленные знания. Агенты-исполнители проверяют отдельные гипотезы в изолированных песочницах, что позволяет знаниям накапливаться на протяжении многих экспериментальных итераций вместо сброса после каждого запуска. На MLE-Bench Lite Arbor достигает 86.36% по Any Medal score — более чем 2.5× относительного прироста по сравнению с Codex и Claude Code при одинаковом вычислительном бюджете.
DeNovoSWE: генерация полного репозитория с нуля — рост с 5.8% до 47.2% на синтетических обучающих данных
AweAI TeamDeNovoSWE устраняет пробел в AI-агентах для кода: большинство обучающих данных охватывает исправление ошибок в существующих кодовых базах, а не построение полных репозиториев с нуля. Бенчмарк включает 4818 примеров, в каждом из которых требуется сгенерировать полный репозиторий по документации. Конвейер divide-and-conquer с critic-repair и фильтрацией по сложности формирует высококачественные обучающие траектории. Дообучение Qwen3-30B-A3B на этих данных поднимает метрику BeyondSWE-Doc2Repo с 5.8% до 47.2%.
Z-Reward: распределения оценок вместо скалярных наград для RLHF в генерации изображений
AlibabaZ-Reward заменяет одиночные скалярные значения вознаграждения распределениями по рубриковым оценкам для RLHF в генерации изображений. Модель-учитель на 27B явно рассуждает и выдаёт распределения оценок; модель-ученик усваивает это рассуждение во время инференса через Reasoning-Internalized Score Distillation (RISD) без необходимости цепочки рассуждений во время работы. Group-wise Direct Score Optimization (GDSO) объединяет вознаграждения policy-gradient с прямым супервизором по распределениям. Учитель на 27B достигает 89.6% точности по предпочтениям людей; ученик на 9B — 88.6%; как дифференцируемый сигнал вознаграждения во время генерации — 41.3% чистого улучшения по человеческим предпочтениям.
Claude Code v2.1.172–v2.1.173: вложенные суб-агенты до 5 уровней глубины
AnthropicДва релиза вышли 10–11 июня. v2.1.172 позволяет суб-агентам порождать собственных суб-агентов до 5 уровней вложенности, добавляет поисковую строку в marketplace-плагинах, раскрывает атрибут model в OTEL-метриках lines-of-code и исправляет несколько ошибок (сессии с контекстом 1M зависали на usage credits, повторяющиеся ошибки обработки изображений, лаг UI в agents-view, фоновые суб-агенты зависали в статусе active). Amazon Bedrock теперь считывает AWS-регион из ~/.aws config, если AWS_REGION не задан. v2.1.173 автоматически убирает суффикс [1m] из имён моделей Fable 5 и исправляет ложное предупреждение «sandbox dependencies missing» при запуске на Windows.
Справочно (5)
Модели OpenAI и Codex теперь доступны через кредиты Oracle Cloud
OpenAIКлиенты OCI теперь могут направлять существующие Oracle Universal Credits на доступ к frontier-моделям OpenAI и Codex, интегрируя его через стандартные процессы закупок Oracle. Партнёрство позволяет корпоративным командам создавать AI-приложения и использовать Codex для разработки ПО без отдельных расчётных отношений с OpenAI.
Анатомия пост-обучения: использование интерпретируемости для аудита и исправления данных предпочтений
Применяет механистическую интерпретируемость для аудита и улучшения pipeline'ов пост-обучения. Метод выявляет латентные концепции в представлениях модели, различающие предпочтительные и менее предпочтительные ответы, затем использует эти концепции для диагностики ложных корреляций в датасетах предпочтений и формирования вознаграждений через вмешательства в признаки или данные. Позиционирует интерпретируемость не только как инструмент понимания моделей после обучения, но и как активный компонент самого цикла обучения.
OpenCode v1.17.1–v1.17.3: восстановление аутентификации, права суб-агентов, лаунчер для Linux
SSTТри релиза вышли 10 июня. v1.17.1 добавляет описания использования и видимость документации для ссылок, вводит таймауты для запросов к MCP-серверам, восстанавливает авто-обновление на macOS и добавляет маршрут /new-session с черновой вкладкой. v1.17.2 добавляет восстановление аутентификации при истёкшей удалённой конфигурации, управление правами для суб-агентов, лаунчер для Linux с иконкой приложения и UI для выбора устройства. v1.17.3 — хотфикс краша на десктопе, появившегося в v1.17.2.
llama.cpp b9589–b9592: исправление синхронизации CUDA SSM и оптимизация памяти Mamba
Четыре сборки вышли около 10 июня. b9589 исправляет отсутствующие барьеры синхронизации потоков перед повторным использованием разделяемой памяти в операциях CUDA SSM scan — ошибка корректности, затрагивающая модели семейства Mamba на GPU. b9591 объединяет копирование памяти D2D для MTP/Mamba в единую strided-передачу и рефакторит ggml_gated_delta_net, снижая накладные расходы. b9590 исправляет игнорирование json_schema из response_format в LFM2/LFM2.5. b9592 обновляет LibreSSL до 4.3.2.
LangChain Stack: провайдер-независимые колбэки токенов контентных блоков для Anthropic, Groq, Mistral
LangChainСкоординированные релизы 10–11 июня: langchain-core 1.4.5 добавляет валидацию чанков вызовов инструментов при стриминге и асинхронные fallback'и трейсеров. langchain-anthropic 1.4.5 добавляет поддержку колбэков для токенов контентных блоков и обновление профиля модели. langchain-groq 1.1.3 добавляет строгий режим и стандартные свойства модели. langchain-mistralai 1.1.5 добавляет поддержку токенов контентных блоков в колбэках. langchain 1.3.7 поставляет новый middleware-компонент.