Ежедневный дайджест
15 пунктов · ~15 мин · Неделя 2026-W23
Tag warnings (new tags, lenient mode — add to vocabulary): physical-ai, nvidia, ideogram, devin, acp, jetbrains, mellum. Dropped (already in 2026-06-02): Anthropic Project Glasswing expansion, Qwen3.7-Plus, MiniMax M3, OpenAI+Codex on AWS Bedrock. Dropped (already in 2026-06-03): OpenAI Codex Sites/Annotations/role plugins. Dropped (only secondary source, no official): OpenClaw 2026.6.1-beta.3.
Обязательно к прочтению (3)
Ideogram 4.0 выходит как открытая модель text-to-image с 9,3B параметров и нативным разрешением 2K
IdeogramIdeogram выпустила версию 4.0 3 июня 2026 года — первую открытую по весам text-to-image модель: диффузионный трансформер на 9,3B параметров с нативным разрешением 2K, поддержкой прозрачного фона, управлением компоновкой через bounding-box и лучшим в классе многоязычным рендерингом текста. Веса в квантизациях nf4 и fp8 публично доступны на Hugging Face и GitHub под лицензией, допускающей некоммерческое/коммерческое (платное) использование. Модель занимает первое место в таблице лидеров DesignArena на момент запуска.
Google DeepMind выпускает Gemma 4 12B: мультимодальная модель без энкодера, работающая на ноутбуке с 16 ГБ VRAM
Google DeepMindGoogle DeepMind выпустила Gemma 4 12B 3 июня 2026 года — открытую мультимодальную модель без энкодера, нативно воспринимающую аудио, видео и изображения, работающую локально на ноутбуке с 16 ГБ VRAM и лицензированную под Apache 2.0. Это первая модель среднего размера со встроенной нативной поддержкой аудио, предназначенная для полностью локальных агентных рабочих процессов через стек Google AI Edge.
NVIDIA выпускает Cosmos 3: открытая омнимодальная фундаментальная модель для физического AI
NVIDIANVIDIA выпустила Cosmos 3 — первую полностью открытую омнимодальную фундаментальную модель для физического AI-рассуждения, обученную на 20T токенов мультимодальных данных, включая ~1B изображений, 400M видео, фоновый звук и последовательности действий. Построена на архитектуре mixture-of-transformers, объединяющей визуальное рассуждение, генерацию мира и предсказание действий; занимает первое место на восьми и более таблицах лидеров по vision-reasoning и world generation. Cosmos 3 Super и Nano сразу доступны на build.nvidia.com, Hugging Face и GitHub под лицензией OpenMDW-1.1.
Стоит знать (7)
Suno привлекает $400M в раунде Series D при оценке $5,4B и анонсирует музыкальную модель в партнёрстве с индустрией
SunoSuno анонсировала раунд Series D на $400M под руководством Bond Capital 3 июня 2026 года, оценив компанию в $5,4B. CEO Mikey Shulman объявил о готовящейся музыкальной модели, разрабатываемой совместно с музыкальной индустрией и уже находящейся на стадии тестирования, нацеленной на урегулирование текущих авторских споров.
JetBrains публикует исходный код Mellum2: 12B MoE-модель для кодирования в мульти-модельных пайплайнах
JetBrainsJetBrains выпустила Mellum2 под лицензией Apache 2.0: модель Mixture-of-Experts на 12B параметров (2,5B активных, 64 эксперта с активацией 8 на токен), обученная на примерно 10,6T токенов для задач разработки ПО. Спроектирована как быстрая фокусная модель для маршрутизации, RAG, субагентов и высокопроизводительных функций написания кода; обеспечивает в 2 раза более быстрый инференс по сравнению с плотными моделями сопоставимого размера.
Echo-Infinity: генерация бесконечного видео в реальном времени через обучаемый Memory Query
Echo-Infinity представляет авторегрессивный фреймворк генерации видео с обучаемым механизмом Memory Query, динамически сжимающим историю кадров через attention при постоянных вычислительных затратах независимо от длины последовательности. Подход впервые обеспечивает генерацию видео длиной 24 часа (более 1,3M кадров) в реальном времени и вводит Unified Relative RoPE для устранения разрывов при экстраполяции позиционных эмбеддингов.
ThoughtFold: интроспективное обучение предпочтениям сокращает токены рассуждения на 56% без потери точности
ThoughtFold представляет фреймворк, устраняющий избыточные шаги в крупных моделях рассуждения через интроспективное выявление ненужного поиска внутри корректных траекторий с последующей оптимизацией предпочтений против этих шагов. Применённый к DeepSeek-R1-Distill-Qwen-7B, он сокращает использование токенов примерно на 56% при сохранении точности уровня state-of-the-art.
Windsurf переименовывается в Devin Desktop и запускает открытый Agent Client Protocol (ACP)
CognitionWindsurf стал Devin Desktop 2 июня, представив единый Agent Command Center (Kanban), Spaces для обмена контекстом между агентами и открытый Agent Client Protocol (ACP), позволяющий сторонним агентам — включая Codex, Claude Code и OpenCode — работать внутри редактора. Devin Local, переписанный на Rust вариант Cascade, обеспечивает на 30% лучшую токен-эффективность с поддержкой субагентов. Прежний Cascade продолжает работу до 1 июля.
Самостоятельное десктопное приложение GitHub Copilot запускается в technical preview на Microsoft Build 2026
GitHubАнонсированное на Microsoft Build 2 июня, приложение GitHub Copilot — это нативное десктопное приложение для Windows, Mac и Linux, запускающее агентные сессии в изолированных git worktree, предоставляющее Canvases (двунаправленные рабочие поверхности для взаимодействия человека и агента), включающее Agent Merge для автоматизированного управления жизненным циклом PR и поддерживающее локальные и облачные sandbox-среды. Доступно в technical preview для подписчиков Copilot Pro/Pro+/Business/Enterprise.
Microsoft запускает Scout: всегда активный Autopilot AI-агент для Microsoft 365
MicrosoftЗапущенный на Microsoft Build 2 июня, Scout — первый Autopilot-агент Microsoft: всегда активный AI-ассистент, интегрированный с Teams, Outlook, OneDrive и SharePoint, который проактивно планирует встречи, блокирует время в календаре и отмечает зависшие решения. Доступен через программу раннего доступа Frontier при наличии лицензий GitHub Copilot и Intune.
Справочно (5)
ElevenLabs лицензирует голос и образ Stan Lee для коммерческого использования в AI
ElevenLabsElevenLabs анонсировала сделку с Stan Lee Universe о добавлении AI-голоса и образа покойного сооснователя Marvel в Iconic Marketplace для коммерческого лицензирования. Голос обучен на профессиональных записях; пользователи могут лицензировать его для коммерческих проектов или услышать в начитке книг в приложении Eleven Reader.
xAI Grok Voice становится движком по умолчанию для 2,5M+ голосовых агентов Vapi
xAIxAI объявила 3 июня о партнёрстве, делающем Grok Voice движком по умолчанию для 12 основных голосов Vapi, питающим более 2,5M голосовых агентов, построенных на платформе. В слепой оценке на арене Vapi Grok Voice занял первое место по естественности и эмоциональному диапазону.
OpenAI Codex CLI v0.137.0: мульти-агент v2, корпоративные пакеты конфигурации, горячие клавиши TUI
OpenAICodex v0.137.0 (4 июня) добавляет горячие клавиши TUI F13–F24, корпоративное отображение ежемесячных кредитных лимитов и управляемые облаком пакеты конфигурации, сопряжение клиентов удалённого управления через RPC app-server v2, машиночитаемый вывод `codex plugin list --json` и сохранение выбора мульти-агентного v2 runtime для каждого потока. Зависимости MCP обновлены до rmcp 1.7.0.
Claude Code v2.1.162: исправление уязвимости утечки OAuth-учётных данных, изоляция параллельных вызовов инструментов
AnthropicClaude Code v2.1.162 (3 июня) добавляет поле `waitingFor` в `claude agents --json`, изоляцию параллельных вызовов инструментов (ошибка Bash больше не отменяет другие вызовы в том же пакете), а также исправления правил разрешений WebFetch, обработки путей Windows и регрессии, которая могла приводить к утечке OAuth-учётных данных на пользовательские API-шлюзы.
GitHub Copilot переходит на поресурсное списание AI Credits с новым тарифом Max
GitHubС 1 июня все тарифы GitHub Copilot перешли на потребительскую модель оплаты через GitHub AI Credits. Запущен новый уровень Copilot Max для продвинутых пользователей с расширенным включённым использованием и лимитами расходов. Пользовательские бюджетные элементы управления теперь общедоступны для организаций и корпоративных клиентов с пороговыми значениями на пользователя и email-уведомлениями.