Ежедневный дайджест

12 пунктов · ~12 мин · Неделя 2026-W25

Обязательно к прочтению (1)

Moebius: лёгкая модель инпейнтинга на 0,2 млрд параметров сравнялась с FLUX на 11,9 млрд

Huazhong University of Science and Technology
исследования официальный 1 ист. ~1 мин

Moebius представляет модель инпейнтинга изображений на 0,22 млрд параметров, которая сравнивается или превосходит FLUX.1-Fill-Dev (11,9 млрд параметров) за счёт блока Local-λ Mix Interaction, сжимающего пространственный контекст и глобальные семантические приоры в матрицы фиксированного размера. Адаптивная дистилляция в латентном пространстве с несколькими уровнями гранулярности обеспечивает 15-кратное ускорение инференса.

Почему это важно
Бумага с наибольшим числом голосов на HuggingFace Daily Papers (более 100). Демонстрирует, что экстремальная параметрическая эффективность (менее 2% от размера базовой модели) достижима для сложной задачи генерации без потери качества.

Стоит знать (6)

ElevenLabs Music v2 API открывает смену жанров и инпейнтинг

ElevenLabs
аудио офиц. + СМИ 3 ист. ~1 мин

В середине июня 2026 года ElevenLabs открыл модель Music v2 через публичный API. Модель поддерживает посекционное создание песен, смену жанра в середине трека (например, от оперы к хэви-металу в одном произведении) и инпейнтинг отдельных сегментов. Цены API снизились на 50% по сравнению с Music v1. Коммерческое лицензирование включено.

Почему это важно
API Music v2 с чанк-based компоновкой и коммерческим лицензированием делает его первой доступной разработчикам моделью генерации музыки со структурированными примитивами построения песен, напрямую конкурируя с Suno v5.5 по качеству и гибкости интеграции.

DeepSeek закрывает раунд Series A на $7,4 млрд при оценке $55 млрд: лиды — Tencent и CATL

DeepSeek
индустрия только СМИ 5 ист. ~1 мин

16 июня 2026 года DeepSeek закрыл первый внешний раунд финансирования, привлёкший около 51 млрд юаней ($7,4 млрд) при постинвестиционной оценке около $55 млрд. Ведущими внешними инвесторами стали Tencent ($1,5 млрд) и CATL ($740 млн), основатель Лян Вэньфэн лично вложил $3 млрд. Сделка имеет нестандартную структуру управления: коммерческие инвесторы не получили права голоса и столкнулись с пятилетним локапом, тогда как государственный Национальный инвестиционный фонд в сфере ИИ получил прямую долю с эксклюзивными правами голоса.

Почему это важно
Крупнейший первый раунд финансирования в истории китайского ИИ. Структура управления — передача единоличного контроля государственным инвесторам при блокировке частного капитала — создаёт новый прецедент государственного контроля над фронтирным ИИ и немедленно привлекает внимание западных регуляторов и инвесторов.

Насколько прозрачна DiffusionGemma? Исследование интерпретируемости сокращает разрыв с авторегрессионными моделями

Google DeepMind
исследования офиц. + СМИ 2 ист. ~1 мин

Статья исследует, сложнее ли интерпретировать DiffusionGemma — маскированную дискретно-диффузионную языковую модель с рассуждением в непрерывном латентном пространстве — по сравнению с авторегрессионными моделями. Пропуская промежуточные состояния денойзинга через интерпретируемое токенное узкое место, авторы сократили кажущийся разрыв в прозрачности с 28,6× до 1,1× относительно Gemma 4, а также выявили специфичные для диффузии феномены: нехронологическое рассуждение и смазывание токенов. Среди соавторов — Neel Nanda и Rohin Shah.

Почему это важно
Первое систематическое исследование механистической интерпретируемости диффузионной языковой модели производственного масштаба с прямыми последствиями для мониторинга безопасности ИИ по мере распространения диффузионных LM.

Mistral переименовывает Le Chat в Vibe: единый агент для работы и написания кода

Mistral
инструменты офиц. + СМИ 2 ист. ~1 мин

В июне 2026 года Mistral переименовал продукт Le Chat в Vibe, объединив рабочие и кодинговые возможности в рамках одного агента и единой лицензии. Vibe включает Work Mode (агент для долгосрочных задач, самостоятельно выбирающий инструменты и транслирующий прогресс) и Code Mode (для удалённого кодирования и создания pull request'ов), новое расширение для VS Code и обновления CLI для автоматизации на уровне проекта. Все существующие разговоры, настройки и планы Le Chat переносятся автоматически.

Почему это важно
Ребрендинг сигнализирует о стратегическом повороте Mistral от чат-ассистента к единой агентной платформе, напрямую конкурирующей с Cursor, Codex и Claude Code.

OpenAI Codex получает Record and Replay для создания повторно используемых навыков

OpenAI
инструменты только СМИ 2 ист. ~1 мин

18 июня 2026 года OpenAI выпустил Record & Replay для Codex (версия приложения 26.616): пользователь один раз демонстрирует повторяющийся рабочий процесс на macOS, а Codex преобразует его в многоразовый файл SKILL.md с поддержкой переменных входных данных. В отличие от классического RPA, функция фиксирует намерение, а не точные пиксельные координаты, что делает её устойчивой к изменениям интерфейса. Доступно подписчикам ChatGPT Plus, Pro, Business, Enterprise и Edu за пределами ЕС, Великобритании и Швейцарии.

Почему это важно
Запись рабочих процессов снижает порог автоматизации с помощью ИИ: не-разработчики могут обучать Codex задачам без написания промптов или скриптов, распространяя агентные возможности на значительно более широкую аудиторию.

Runway запускает Studio: единый AI-инструмент видеомонтажа

Runway
видео офиц. + СМИ 2 ист. ~1 мин

18 июня 2026 года Runway выпустил Studio — единый интерфейс, позволяющий нарезать, склеивать, переставлять и экспортировать финальное видео, не покидая платформу. Функция замыкает цепочку между AI-генерацией и постпродакшн-монтажом в одном рабочем пространстве.

Почему это важно
Runway переходит от инструмента только для генерации к полноценной платформе для производства видео от начала до конца, снижая потребность в отдельном монтажном ПО и делая AI-генерацию видео более пригодной для финальной доставки.
Справочно (5)

FAPO: полностью автономная оптимизация промптов в многошаговых LLM-пайплайнах

Cisco Foundation AI
исследования офиц. + СМИ 2 ист. ~1 мин

FAPO оценивает выходные данные многошагового LLM-пайплайна, атрибутирует сбои конкретному шагу, предлагает точечные варианты промптов, проверяет их независимым агентом и итерирует до улучшения точности или исчерпания бюджета. Система превзошла GEPA (актуальный state-of-the-art оптимизатор) в 15 из 18 пар модель–бенчмарк, со средним приростом +14,1 процентного пункта и +33,8 на задачах, требующих структурных изменений промптов. Открытый исходный код под лицензией Apache 2.0.

Почему это важно
Атрибуция сбоев на уровне шагов качественно отличается от рассмотрения пайплайна как чёрного ящика — это позволяет проводить точечную оптимизацию, недоступную методам без учёта структуры пайплайна.

Игровое агентное обучение роботов: самостоятельная игра формирует переносимые навыки

UC Berkeley
исследования официальный 1 ист. ~1 мин

Robotics Agent Teams (RATs) приобретают навыки через самостоятельную игру до задания каких-либо целевых задач. В ходе игры агент генерирует новые исследовательские задачи, пишет и исполняет код политик для робота, диагностирует сбои, повторяет попытки с обратной связью на уровне шагов и дистиллирует успехи в многоразовую библиотеку кода. Навыки, приобретённые в ходе игры, улучшили производительность на отложенных задачах на 20,6 и 17,0 процентного пункта по сравнению с базовыми линиями на LIBERO-PRO и MolmoSpaces и перенеслись на другие агенты Code-as-Policy без дообучения.

Почему это важно
Демонстрирует, что неструктурированная предзадачная игра с политиками на основе кода формирует навыки, обобщающиеся на незнакомые задачи и сторонних агентов, — шаг к роботам, самосовершенствующимся до развёртывания. Работа получила 42 апвоута на HuggingFace Daily Papers.

ChatGPT добавляет помощь с произношением на 60+ языках и хаб Чемпионата мира

OpenAI
инструменты офиц. + СМИ 2 ист. ~1 мин

18–19 июня 2026 года OpenAI выпустил ряд улучшений ChatGPT: аудио- и текстовую помощь с произношением слов на более чем 60 языках, специальный раздел для FIFA World Cup 2026 с расписаниями, прогнозами и историями игроков, более гибкое управление разрешениями подключённых приложений, улучшенную организацию чатов с закреплением на боковой панели и поделиться одним кликом, ускоренную загрузку фото на iOS, а также выбор модели для каждого сообщения на Android для платных пользователей.

Почему это важно
Произношение на 60+ языках расширяет полезность ChatGPT для изучающих языки по всему миру; хаб Чемпионата мира обозначает движение OpenAI в сторону спорта в реальном времени и аналитики live-событий.

OpenCode v1.17.9: поддержка GLM-5.2 и исправления MCP

SST
инструменты официальный 1 ист. ~1 мин

OpenCode v1.17.9, выпущенный 21 июня 2026 года, добавляет варианты high и max thinking для моделей GLM-5.2, исправляет определение модели Devstral при различном регистре идентификатора провайдера, передаёт пользовательские заголовки в запросы к модели Copilot и устраняет отклонение схем MCP-инструментов OpenAI-совместимыми провайдерами. Также исправлены передача API-ключа Cloudflare AI Gateway, мерцание временно́й шкалы сессии; теперь при достижении лимита шагов агент принудительно формирует финальный текстовый ответ вместо аварийного завершения.

Почему это важно
Поддержка thinking-режима GLM-5.2 выходит в день нарастающей волны принятия модели; исправление схем MCP разблокирует класс провайдеров, которые тихо не работали.

Claude Code v2.1.185 улучшает сообщение о зависании потока API

Anthropic
инструменты официальный 2 ист. ~1 мин

Версия 2.1.185 (20 июня 2026 года) меняет индикатор зависания потока с «No response from API · Retrying in …» на «Waiting for API response · will retry in …» и увеличивает порог перед появлением подсказки с 10 до 20 секунд.