Ежедневный дайджест
12 пунктов · ~12 мин · Неделя 2026-W25
Обязательно к прочтению (1)
Moebius: лёгкая модель инпейнтинга на 0,2 млрд параметров сравнялась с FLUX на 11,9 млрд
Huazhong University of Science and TechnologyMoebius представляет модель инпейнтинга изображений на 0,22 млрд параметров, которая сравнивается или превосходит FLUX.1-Fill-Dev (11,9 млрд параметров) за счёт блока Local-λ Mix Interaction, сжимающего пространственный контекст и глобальные семантические приоры в матрицы фиксированного размера. Адаптивная дистилляция в латентном пространстве с несколькими уровнями гранулярности обеспечивает 15-кратное ускорение инференса.
Стоит знать (6)
ElevenLabs Music v2 API открывает смену жанров и инпейнтинг
ElevenLabsВ середине июня 2026 года ElevenLabs открыл модель Music v2 через публичный API. Модель поддерживает посекционное создание песен, смену жанра в середине трека (например, от оперы к хэви-металу в одном произведении) и инпейнтинг отдельных сегментов. Цены API снизились на 50% по сравнению с Music v1. Коммерческое лицензирование включено.
DeepSeek закрывает раунд Series A на $7,4 млрд при оценке $55 млрд: лиды — Tencent и CATL
DeepSeek16 июня 2026 года DeepSeek закрыл первый внешний раунд финансирования, привлёкший около 51 млрд юаней ($7,4 млрд) при постинвестиционной оценке около $55 млрд. Ведущими внешними инвесторами стали Tencent ($1,5 млрд) и CATL ($740 млн), основатель Лян Вэньфэн лично вложил $3 млрд. Сделка имеет нестандартную структуру управления: коммерческие инвесторы не получили права голоса и столкнулись с пятилетним локапом, тогда как государственный Национальный инвестиционный фонд в сфере ИИ получил прямую долю с эксклюзивными правами голоса.
Насколько прозрачна DiffusionGemma? Исследование интерпретируемости сокращает разрыв с авторегрессионными моделями
Google DeepMindСтатья исследует, сложнее ли интерпретировать DiffusionGemma — маскированную дискретно-диффузионную языковую модель с рассуждением в непрерывном латентном пространстве — по сравнению с авторегрессионными моделями. Пропуская промежуточные состояния денойзинга через интерпретируемое токенное узкое место, авторы сократили кажущийся разрыв в прозрачности с 28,6× до 1,1× относительно Gemma 4, а также выявили специфичные для диффузии феномены: нехронологическое рассуждение и смазывание токенов. Среди соавторов — Neel Nanda и Rohin Shah.
Mistral переименовывает Le Chat в Vibe: единый агент для работы и написания кода
MistralВ июне 2026 года Mistral переименовал продукт Le Chat в Vibe, объединив рабочие и кодинговые возможности в рамках одного агента и единой лицензии. Vibe включает Work Mode (агент для долгосрочных задач, самостоятельно выбирающий инструменты и транслирующий прогресс) и Code Mode (для удалённого кодирования и создания pull request'ов), новое расширение для VS Code и обновления CLI для автоматизации на уровне проекта. Все существующие разговоры, настройки и планы Le Chat переносятся автоматически.
OpenAI Codex получает Record and Replay для создания повторно используемых навыков
OpenAI18 июня 2026 года OpenAI выпустил Record & Replay для Codex (версия приложения 26.616): пользователь один раз демонстрирует повторяющийся рабочий процесс на macOS, а Codex преобразует его в многоразовый файл SKILL.md с поддержкой переменных входных данных. В отличие от классического RPA, функция фиксирует намерение, а не точные пиксельные координаты, что делает её устойчивой к изменениям интерфейса. Доступно подписчикам ChatGPT Plus, Pro, Business, Enterprise и Edu за пределами ЕС, Великобритании и Швейцарии.
Runway запускает Studio: единый AI-инструмент видеомонтажа
Runway18 июня 2026 года Runway выпустил Studio — единый интерфейс, позволяющий нарезать, склеивать, переставлять и экспортировать финальное видео, не покидая платформу. Функция замыкает цепочку между AI-генерацией и постпродакшн-монтажом в одном рабочем пространстве.
Справочно (5)
FAPO: полностью автономная оптимизация промптов в многошаговых LLM-пайплайнах
Cisco Foundation AIFAPO оценивает выходные данные многошагового LLM-пайплайна, атрибутирует сбои конкретному шагу, предлагает точечные варианты промптов, проверяет их независимым агентом и итерирует до улучшения точности или исчерпания бюджета. Система превзошла GEPA (актуальный state-of-the-art оптимизатор) в 15 из 18 пар модель–бенчмарк, со средним приростом +14,1 процентного пункта и +33,8 на задачах, требующих структурных изменений промптов. Открытый исходный код под лицензией Apache 2.0.
Игровое агентное обучение роботов: самостоятельная игра формирует переносимые навыки
UC BerkeleyRobotics Agent Teams (RATs) приобретают навыки через самостоятельную игру до задания каких-либо целевых задач. В ходе игры агент генерирует новые исследовательские задачи, пишет и исполняет код политик для робота, диагностирует сбои, повторяет попытки с обратной связью на уровне шагов и дистиллирует успехи в многоразовую библиотеку кода. Навыки, приобретённые в ходе игры, улучшили производительность на отложенных задачах на 20,6 и 17,0 процентного пункта по сравнению с базовыми линиями на LIBERO-PRO и MolmoSpaces и перенеслись на другие агенты Code-as-Policy без дообучения.
ChatGPT добавляет помощь с произношением на 60+ языках и хаб Чемпионата мира
OpenAI18–19 июня 2026 года OpenAI выпустил ряд улучшений ChatGPT: аудио- и текстовую помощь с произношением слов на более чем 60 языках, специальный раздел для FIFA World Cup 2026 с расписаниями, прогнозами и историями игроков, более гибкое управление разрешениями подключённых приложений, улучшенную организацию чатов с закреплением на боковой панели и поделиться одним кликом, ускоренную загрузку фото на iOS, а также выбор модели для каждого сообщения на Android для платных пользователей.
OpenCode v1.17.9: поддержка GLM-5.2 и исправления MCP
SSTOpenCode v1.17.9, выпущенный 21 июня 2026 года, добавляет варианты high и max thinking для моделей GLM-5.2, исправляет определение модели Devstral при различном регистре идентификатора провайдера, передаёт пользовательские заголовки в запросы к модели Copilot и устраняет отклонение схем MCP-инструментов OpenAI-совместимыми провайдерами. Также исправлены передача API-ключа Cloudflare AI Gateway, мерцание временно́й шкалы сессии; теперь при достижении лимита шагов агент принудительно формирует финальный текстовый ответ вместо аварийного завершения.
Claude Code v2.1.185 улучшает сообщение о зависании потока API
AnthropicВерсия 2.1.185 (20 июня 2026 года) меняет индикатор зависания потока с «No response from API · Retrying in …» на «Waiting for API response · will retry in …» и увеличивает порог перед появлением подсказки с 10 до 20 секунд.