Ежедневный дайджест

15 пунктов · ~15 мин · Неделя 2026-W27

Обязательно к прочтению (1)

Mistral выпускает Leanstral 1.5: открытая модель формальной верификации для Lean 4

Mistral
исследования официальный 1 ист. ~1 мин

Mistral выпустила Leanstral 1.5 — MoE-модель с 119B суммарных и 6B активных параметров, специализированную на формальном математическом доказательстве в Lean 4, под лицензией Apache-2.0. Модель полностью насыщает miniF2F (100%), решает 587/672 задач PutnamBench и устанавливает новый SOTA на FATE-H (87%) и FATE-X (34%). В практическом тестировании на 57 репозиториях с открытым исходным кодом модель обнаружила ранее неизвестные ошибки, в том числе целочисленное переполнение в широко используемой функции зигзаг-декодирования.

Почему это важно
Первая открытая модель, одновременно насыщающая miniF2F и демонстрирующая реальное обнаружение ошибок в масштабе; лицензия Apache-2.0 позволяет напрямую развёртывать её в коммерческих пайплайнах программной безопасности.

Стоит знать (7)

Сбер открывает исходный код GFusion — первой российской диффузионной языковой модели

Sber
модели/LLM офиц. + СМИ 4 ист. ~1 мин

Сбер выпустил GFusion — экспериментальную диффузионную языковую модель на базе GigaChat3-10B-A1.8B. В отличие от авторегрессионных моделей, GFusion сначала формирует структурный набросок, а затем заполняет токены параллельными проходами (~32 токена за проход). Внутренние бенчмарки показывают генерацию на 45–70% быстрее, чем у GigaChat 3, с потерей качества в 2–4 процентных пункта. Веса опубликованы на Hugging Face вместе с кастомными TileLang-ядрами внимания и интеграцией с SGLang.

Почему это важно
Первая российская открытая диффузионная LLM ставит Сбер в один ряд с Google (Diffusion Gemma) и Inception Labs в формирующейся категории неавторегрессионной генерации.

Систематический анализ гибридного линейного внимания: исследование 72 моделей

ByteDance Seed
исследования офиц. + СМИ 2 ист. ~1 мин

Исследователи обучили 72 модели с открытым исходным кодом (340M–1.3B параметров) по шести вариантам линейного внимания при различных коэффициентах гибридизации. Ключевой вывод: лучшая самостоятельная модель линейного внимания не является лучшей гибридной. Полнота восстановления резко улучшается, когда доля слоёв с полным вниманием превышает примерно 1 из 4. HGRN-2 и GatedDeltaNet при соотношениях 3:1–6:1 достигают уровня точности трансформера при существенно меньших вычислительных затратах на длинных последовательностях.

Почему это важно
Одно из наиболее строгих эмпирических исследований гибридного внимания на сегодняшний день с открытыми чекпоинтами; практические рекомендации по выбору архитектуры и коэффициента смешивания непосредственно применимы для специалистов, создающих LLM с большим контекстом.

Gemini Spark запускается на macOS с доступом к локальным файлам и поддержкой MCP-серверов

Google
инструменты офиц. + СМИ 4 ист. ~1 мин

Google выпустила Gemini Spark для приложения Gemini на macOS — впервые Spark получает возможность читать, сортировать и работать с файлами, хранящимися локально на компьютере пользователя. Обновление добавляет мониторинг тем в реальном времени, новые интеграции со сторонними приложениями и поддержку Model Context Protocol (MCP), позволяя расширять возможности Spark через любой MCP-совместимый сервер. Доступно в бета-версии для подписчиков Google AI Ultra в США.

Почему это важно
Поддержка MCP в собственном настольном агенте Google свидетельствует о продолжающейся экосистемной конвергенции вокруг протокола. Доступ к локальным файлам ставит Gemini Spark в прямую конкуренцию с Claude Desktop и Cursor на рынке повседневной настольной автоматизации.

xAI запускает Grok Voice Agent Builder в бета-версии

xAI
инструменты официальный 2 ист. ~1 мин

xAI запустила Voice Agent Builder в бета-версии: no-code платформу, позволяющую настроить production-голосового агента примерно за две минуты с использованием единой сквозной модели speech-to-speech с задержкой менее секунды. Среди функций — телефония, 80+ голосов с клонированием, поддержка 25+ языков с переключением в середине разговора, вызовы инструментов (календарь, email, API) и наблюдаемость на уровне звонка. Стоимость — от $0.05/мин; каждый аккаунт получает бесплатный номер телефона.

Почему это важно
Платформа объединяет стандартный трёхзвенный стек голосового ИИ (STT + LLM + TTS) в единое решение и предлагает более низкую поминутную цену, чем конкуренты — ElevenLabs и Vapi.

Claude Code v2.1.200: режим ручного подтверждения становится режимом по умолчанию

Anthropic
инструменты официальный 2 ист. ~1 мин

3 июля вышли два релиза. v2.1.200 меняет режим разрешений по умолчанию с «Accept Edits» на «Manual» во всех интерфейсах — CLI, VS Code и JetBrains, — а также отключает автопродолжение диалогов AskUserQuestion. Исправлены: передача управления фоновому агент-демону, сбои из-за устаревших lock-файлов, сбои подагентов при превышении rate-limit и обрывы сессий при переходе в спящий режим. v2.1.201 убирает напоминание системной роли в середине разговора, которое получали сессии Sonnet 5.

Почему это важно
Переход к режиму «Manual» по умолчанию — намеренный сдвиг в сторону большей безопасности: новые пользователи теперь видят каждое предлагаемое действие перед его выполнением, а не получают правки автоматически.

ByteDance Seedance 2.5 открывает корпоративное бета-тестирование: нативная генерация видео длиной 30 секунд

ByteDance
видео офиц. + СМИ 3 ист. ~1 мин

Seedance 2.5 от ByteDance 3 июля перешла в ограниченное корпоративное бета-тестирование, открыв окно, анонсированное на конференции Volcano Engine FORCE 23 июня. Модель заявляет о способности генерировать непрерывные 30-секундные видеоклипы за один инференс-проход с разрешением до 4K и нативным синхронизированным аудио, принимая до 50 референсных входных данных одновременно. Публичный доступ через Dreamina и Jimeng описывался как «через несколько дней»; более широкий доступ к API через Volcano Engine ожидается в конце июля.

Почему это важно
30-секундный лимит за один проход существенно превышает 10–15-секундные клипы, которые сегодня выдаёт большинство конкурентов. Встроенная совместная генерация аудио в едином латентном пространстве архитектурно отличает модель от Sora, Kling и Wan.

ShengShu Technology представляет Vidu S1: интерактивное видео в реальном времени на потребительских GPU

ShengShu Technology
видео офиц. + СМИ 2 ист. ~1 мин

Анонсированная на Глобальной конференции по цифровой экономике 2026 3 июля, Vidu S1 обеспечивает непрерывное интерактивное взаимодействие с видео в реальном времени вместо генерации отдельных клипов. Построенная на архитектуре авторегрессионной диффузии (AR+Diffusion), она непрерывно предсказывает и рендерит кадры на основе голосовых команд и контекста. Из одного изображения пользователи создают интерактивных персонажей с синхронизированными движениями губ, мимикой и полным движением тела при 540P / 25–42 FPS на потребительских GPU. Публичный доступ открыт на vidu.com/vidu-stream.

Почему это важно
Переход ИИ-видео от асинхронного производства клипов к интерактивному взаимодействию в реальном времени с голосовым управлением — это подлинный архитектурный сдвиг. Развёртывание на потребительских GPU с такой задержкой открывает экономически эффективные пути для AI-компаньонов, интерактивных стримов, игровых NPC и XR.
Справочно (7)

Suno анонсирует партнёрскую программу Developer API для генерации музыки с помощью ИИ

Suno
аудио только СМИ 2 ист. ~1 мин

CPO Suno Джек Броди объявил в LinkedIn 1 июля, что Suno рассматривает возможность создания официального developer API и принимает заявки через отобранную программу раннего доступа для партнёров, ориентированную на приложения, открывающие возможности, которые впервые становятся доступными благодаря генеративной музыке. Сроки запуска не объявлены; в настоящее время существуют только неофициальные сторонние обёртки.

Почему это важно
Официальный API позволит разработчикам напрямую встраивать генерацию музыки Suno в сторонние продукты. Это сигнализирует о стратегии платформенной экспансии Suno после раунда Series D ($400M, оценка $5.4B) — несмотря на активные судебные разбирательства об авторских правах с UMG и Sony Music.

WorldDirector: управляемый симулятор мира с постоянной памятью динамических объектов

исследования офиц. + СМИ 2 ист. ~1 мин

WorldDirector разделяет планирование движения и рендеринг видео: LLM координирует 3D-траектории объектов и движения камеры, которые затем управляют моделью генерации видео. В результате динамические объекты сохраняют согласованный визуальный облик даже при выходе из кадра и возврате в него на протяжении длительных последовательностей.

Почему это важно
Большинство видеомоделей мира со временем теряют идентичность объектов. Разделение семантической оркестровки и пиксельного рендеринга обеспечивает постоянные, поддающиеся повторной идентификации объекты при свободных ракурсах камеры — шаг к универсальным интерактивным симуляторам мира. 18 голосов на HuggingFace Daily Papers.

Улучшит ли масштабирование социальное моделирование с LLM? Исследование 85 моделей

Stanford / Columbia / Tsinghua
исследования официальный 1 ист. ~1 мин

Эмпирическое исследование с использованием 85 трансформерных моделей объёмом до 70B параметров по трём семействам задач: моделирование мнений, поведенческое моделирование и продольное прогнозирование. Масштабирование в целом помогает для хорошо представленных популяций, но систематически не улучшает калибровку когнитивных предубеждений человека — например, неприятия риска; для недопредставленных демографических групп прирост существенно ниже.

Почему это важно
Чёткий эмпирический вывод о том, что масштаб не устраняет ошибки калибровки предубеждений или точность для групп меньшинств в социальном моделировании — важное ограничение для растущей области применения LLM в качестве заменителей респондентов опросов.

VRRL: визуально заземлённая саморефлексия для моделей зрение-язык через RL

UT Austin / Cornell
исследования официальный 1 ист. ~1 мин

VRRL вводит два механизма на основе RL, помогающих VLM исправлять собственные ошибки с использованием реальных визуальных свидетельств, а не языковых приоров. Маскировка траекторий обучает модели восстанавливаться после ошибок в середине последовательности; буферизованный roll-in подвергает модели разнообразным состояниям отказа. При тестировании на бенчмарках визуального заземления вне распределения (таблицы, графики, пространственная навигация) VRRL существенно превосходит стандартный RL и базовые подходы с тонкой настройкой для рефлексии.

Почему это важно
VLM при саморефлексии часто опираются на языковую статистику вместо анализа изображения. VRRL непосредственно устраняет этот пробел; улучшения на таблицах и графиках актуальны для понимания документов.

GitHub Copilot CLI отказывается от требования PAT в Actions; потоковая передача агентских сессий в превью

GitHub
инструменты официальный 2 ист. ~1 мин

Два обновления в журнале изменений от 2 июля. Copilot CLI в GitHub Actions теперь может проходить аутентификацию с помощью встроенного GITHUB_TOKEN с разрешением «copilot-requests: write» — персональный токен доступа не нужен; расходы на AI-кредиты относятся на организацию. Agent Session Streaming выходит в публичный превью для GitHub Enterprise Cloud с управляемыми пользователями: администраторы могут направлять полные данные агентских сессий (запросы, ответы, вызовы инструментов) в SIEM или Microsoft Purview.

Почему это важно
Отказ от PAT устраняет распространённую проблему безопасности для команд, запускающих Copilot в CI. Потоковая передача сессий обеспечивает корпоративным командам по безопасности видимость, необходимую для аудита активности агентного ИИ в масштабе.

OpenCode (SST) v1.17.13: инструменты MCP resource template и принудительный режим рассуждения

SST
инструменты официальный 1 ист. ~1 мин

Выпущен 1 июля, v1.17.13 добавляет инструменты листинга MCP resource template и чтения ресурсов, принудительно включает режим рассуждения для провайдеров, совместимых с OpenAI, и прекращает воспроизведение устаревших идентификаторов ответов GitHub Copilot. Интерфейс сессий v2 получил исправления выравнивания, поиск по моделям и превью вкладок сессий с отображением пути к проекту, ветки и подключённого сервера.

Почему это важно
Добавление инструментов MCP resource согласует OpenCode с более широким расширением протокола, происходящим во всех coding-агентах. Принудительный режим рассуждения для провайдеров, совместимых с OpenAI, повышает качество вывода у тех провайдеров, которые поддерживают его, но не активировали по умолчанию.

OpenAI Codex CLI 0.142.5: исправление утечки данных в trace-логи

OpenAI
инструменты официальный 2 ист. ~1 мин

Стабильный релиз 0.142.5 (1 июля) устраняет проблему конфиденциальности: полные полезные нагрузки WebSocket-запросов Responses записывались в trace-логи; теперь они подавляются. Активная alpha-ветка достигла версии 0.143.0-alpha.35 3 июля.

Почему это важно
Исправление trace-лога предотвращает утечку содержимого промптов в локальные файлы журналов. Ежедневные alpha-сборки свидетельствуют об активной разработке перед следующим стабильным релизом.