Ежедневный дайджест

4 июля 2026

15 пунктов · ~15 мин · Неделя 2026-W27

Обязательно к прочтению (1)

исследования официальный 1 ист. ~1 мин

Mistral выпустила Leanstral 1.5 — MoE-модель с 119B суммарных и 6B активных параметров, специализированную на формальном математическом доказательстве в Lean 4, под лицензией Apache-2.0. Модель полностью насыщает miniF2F (100%), решает 587/672 задач PutnamBench и устанавливает новый SOTA на FATE-H (87%) и FATE-X (34%). В практическом тестировании на 57 репозиториях с открытым исходным кодом модель обнаружила ранее неизвестные ошибки, в том числе целочисленное переполнение в широко используемой функции зигзаг-декодирования.

Почему это важно

Первая открытая модель, одновременно насыщающая miniF2F и демонстрирующая реальное обнаружение ошибок в масштабе; лицензия Apache-2.0 позволяет напрямую развёртывать её в коммерческих пайплайнах программной безопасности.

#mistral #open-weights #apache2 #reasoning #mathematics #benchmark #formal-reasoning

Стоит знать (7)

модели/LLM офиц. + СМИ 4 ист. ~1 мин

Сбер выпустил GFusion — экспериментальную диффузионную языковую модель на базе GigaChat3-10B-A1.8B. В отличие от авторегрессионных моделей, GFusion сначала формирует структурный набросок, а затем заполняет токены параллельными проходами (~32 токена за проход). Внутренние бенчмарки показывают генерацию на 45–70% быстрее, чем у GigaChat 3, с потерей качества в 2–4 процентных пункта. Веса опубликованы на Hugging Face вместе с кастомными TileLang-ядрами внимания и интеграцией с SGLang.

Почему это важно

Первая российская открытая диффузионная LLM ставит Сбер в один ряд с Google (Diffusion Gemma) и Inception Labs в формирующейся категории неавторегрессионной генерации.

#diffusion #open-source #gigachat #russia #text-diffusion

исследования офиц. + СМИ 2 ист. ~1 мин

Исследователи обучили 72 модели с открытым исходным кодом (340M–1.3B параметров) по шести вариантам линейного внимания при различных коэффициентах гибридизации. Ключевой вывод: лучшая самостоятельная модель линейного внимания не является лучшей гибридной. Полнота восстановления резко улучшается, когда доля слоёв с полным вниманием превышает примерно 1 из 4. HGRN-2 и GatedDeltaNet при соотношениях 3:1–6:1 достигают уровня точности трансформера при существенно меньших вычислительных затратах на длинных последовательностях.

Почему это важно

Одно из наиболее строгих эмпирических исследований гибридного внимания на сегодняшний день с открытыми чекпоинтами; практические рекомендации по выбору архитектуры и коэффициента смешивания непосредственно применимы для специалистов, создающих LLM с большим контекстом.

#attention #architecture #long-context #efficiency #language-models

инструменты офиц. + СМИ 4 ист. ~1 мин

Google выпустила Gemini Spark для приложения Gemini на macOS — впервые Spark получает возможность читать, сортировать и работать с файлами, хранящимися локально на компьютере пользователя. Обновление добавляет мониторинг тем в реальном времени, новые интеграции со сторонними приложениями и поддержку Model Context Protocol (MCP), позволяя расширять возможности Spark через любой MCP-совместимый сервер. Доступно в бета-версии для подписчиков Google AI Ultra в США.

Почему это важно

Поддержка MCP в собственном настольном агенте Google свидетельствует о продолжающейся экосистемной конвергенции вокруг протокола. Доступ к локальным файлам ставит Gemini Spark в прямую конкуренцию с Claude Desktop и Cursor на рынке повседневной настольной автоматизации.

#gemini #google #mcp #desktop-agent #agents #agentic

инструменты официальный 2 ист. ~1 мин

xAI запустила Voice Agent Builder в бета-версии: no-code платформу, позволяющую настроить production-голосового агента примерно за две минуты с использованием единой сквозной модели speech-to-speech с задержкой менее секунды. Среди функций — телефония, 80+ голосов с клонированием, поддержка 25+ языков с переключением в середине разговора, вызовы инструментов (календарь, email, API) и наблюдаемость на уровне звонка. Стоимость — от $0.05/мин; каждый аккаунт получает бесплатный номер телефона.

Почему это важно

Платформа объединяет стандартный трёхзвенный стек голосового ИИ (STT + LLM + TTS) в единое решение и предлагает более низкую поминутную цену, чем конкуренты — ElevenLabs и Vapi.

#xai #grok #voice-ai #real-time-voice #speech #beta #agents #developer-api

инструменты официальный 2 ист. ~1 мин

3 июля вышли два релиза. v2.1.200 меняет режим разрешений по умолчанию с «Accept Edits» на «Manual» во всех интерфейсах — CLI, VS Code и JetBrains, — а также отключает автопродолжение диалогов AskUserQuestion. Исправлены: передача управления фоновому агент-демону, сбои из-за устаревших lock-файлов, сбои подагентов при превышении rate-limit и обрывы сессий при переходе в спящий режим. v2.1.201 убирает напоминание системной роли в середине разговора, которое получали сессии Sonnet 5.

Почему это важно

Переход к режиму «Manual» по умолчанию — намеренный сдвиг в сторону большей безопасности: новые пользователи теперь видят каждое предлагаемое действие перед его выполнением, а не получают правки автоматически.

#claude-code #coding-agents #anthropic #background-agents #agentic

видео офиц. + СМИ 3 ист. ~1 мин

Seedance 2.5 от ByteDance 3 июля перешла в ограниченное корпоративное бета-тестирование, открыв окно, анонсированное на конференции Volcano Engine FORCE 23 июня. Модель заявляет о способности генерировать непрерывные 30-секундные видеоклипы за один инференс-проход с разрешением до 4K и нативным синхронизированным аудио, принимая до 50 референсных входных данных одновременно. Публичный доступ через Dreamina и Jimeng описывался как «через несколько дней»; более широкий доступ к API через Volcano Engine ожидается в конце июля.

Почему это важно

30-секундный лимит за один проход существенно превышает 10–15-секундные клипы, которые сегодня выдаёт большинство конкурентов. Встроенная совместная генерация аудио в едином латентном пространстве архитектурно отличает модель от Sora, Kling и Wan.

#video-generation #seedance #bytedance #china #text-to-video #4k #beta

видео офиц. + СМИ 2 ист. ~1 мин

Анонсированная на Глобальной конференции по цифровой экономике 2026 3 июля, Vidu S1 обеспечивает непрерывное интерактивное взаимодействие с видео в реальном времени вместо генерации отдельных клипов. Построенная на архитектуре авторегрессионной диффузии (AR+Diffusion), она непрерывно предсказывает и рендерит кадры на основе голосовых команд и контекста. Из одного изображения пользователи создают интерактивных персонажей с синхронизированными движениями губ, мимикой и полным движением тела при 540P / 25–42 FPS на потребительских GPU. Публичный доступ открыт на vidu.com/vidu-stream.

Почему это важно

Переход ИИ-видео от асинхронного производства клипов к интерактивному взаимодействию в реальном времени с голосовым управлением — это подлинный архитектурный сдвиг. Развёртывание на потребительских GPU с такой задержкой открывает экономически эффективные пути для AI-компаньонов, интерактивных стримов, игровых NPC и XR.

#text-to-video #image-to-video #real-time #character-animation #china

Справочно (7)

аудио только СМИ 2 ист. ~1 мин

CPO Suno Джек Броди объявил в LinkedIn 1 июля, что Suno рассматривает возможность создания официального developer API и принимает заявки через отобранную программу раннего доступа для партнёров, ориентированную на приложения, открывающие возможности, которые впервые становятся доступными благодаря генеративной музыке. Сроки запуска не объявлены; в настоящее время существуют только неофициальные сторонние обёртки.

Почему это важно

Официальный API позволит разработчикам напрямую встраивать генерацию музыки Suno в сторонние продукты. Это сигнализирует о стратегии платформенной экспансии Suno после раунда Series D ($400M, оценка $5.4B) — несмотря на активные судебные разбирательства об авторских правах с UMG и Sony Music.

#suno #music-generation #developer-api #beta

исследования офиц. + СМИ 2 ист. ~1 мин

WorldDirector разделяет планирование движения и рендеринг видео: LLM координирует 3D-траектории объектов и движения камеры, которые затем управляют моделью генерации видео. В результате динамические объекты сохраняют согласованный визуальный облик даже при выходе из кадра и возврате в него на протяжении длительных последовательностей.

Почему это важно

Большинство видеомоделей мира со временем теряют идентичность объектов. Разделение семантической оркестровки и пиксельного рендеринга обеспечивает постоянные, поддающиеся повторной идентификации объекты при свободных ракурсах камеры — шаг к универсальным интерактивным симуляторам мира. 18 голосов на HuggingFace Daily Papers.

#video-generation #world-models #multimodal #3d-generation

исследования официальный 1 ист. ~1 мин

VRRL вводит два механизма на основе RL, помогающих VLM исправлять собственные ошибки с использованием реальных визуальных свидетельств, а не языковых приоров. Маскировка траекторий обучает модели восстанавливаться после ошибок в середине последовательности; буферизованный roll-in подвергает модели разнообразным состояниям отказа. При тестировании на бенчмарках визуального заземления вне распределения (таблицы, графики, пространственная навигация) VRRL существенно превосходит стандартный RL и базовые подходы с тонкой настройкой для рефлексии.

Почему это важно

VLM при саморефлексии часто опираются на языковую статистику вместо анализа изображения. VRRL непосредственно устраняет этот пробел; улучшения на таблицах и графиках актуальны для понимания документов.

#vlm #rl #reasoning #multimodal #reinforcement-learning

инструменты официальный 2 ист. ~1 мин

Два обновления в журнале изменений от 2 июля. Copilot CLI в GitHub Actions теперь может проходить аутентификацию с помощью встроенного GITHUB_TOKEN с разрешением «copilot-requests: write» — персональный токен доступа не нужен; расходы на AI-кредиты относятся на организацию. Agent Session Streaming выходит в публичный превью для GitHub Enterprise Cloud с управляемыми пользователями: администраторы могут направлять полные данные агентских сессий (запросы, ответы, вызовы инструментов) в SIEM или Microsoft Purview.

Почему это важно

Отказ от PAT устраняет распространённую проблему безопасности для команд, запускающих Copilot в CI. Потоковая передача сессий обеспечивает корпоративным командам по безопасности видимость, необходимую для аудита активности агентного ИИ в масштабе.

#github-copilot #coding-agents #enterprise #streaming #security

инструменты официальный 1 ист. ~1 мин

Выпущен 1 июля, v1.17.13 добавляет инструменты листинга MCP resource template и чтения ресурсов, принудительно включает режим рассуждения для провайдеров, совместимых с OpenAI, и прекращает воспроизведение устаревших идентификаторов ответов GitHub Copilot. Интерфейс сессий v2 получил исправления выравнивания, поиск по моделям и превью вкладок сессий с отображением пути к проекту, ветки и подключённого сервера.

Почему это важно

Добавление инструментов MCP resource согласует OpenCode с более широким расширением протокола, происходящим во всех coding-агентах. Принудительный режим рассуждения для провайдеров, совместимых с OpenAI, повышает качество вывода у тех провайдеров, которые поддерживают его, но не активировали по умолчанию.

#opencode #coding-agents #mcp #open-source

инструменты официальный 2 ист. ~1 мин

Стабильный релиз 0.142.5 (1 июля) устраняет проблему конфиденциальности: полные полезные нагрузки WebSocket-запросов Responses записывались в trace-логи; теперь они подавляются. Активная alpha-ветка достигла версии 0.143.0-alpha.35 3 июля.

Почему это важно

Исправление trace-лога предотвращает утечку содержимого промптов в локальные файлы журналов. Ежедневные alpha-сборки свидетельствуют об активной разработке перед следующим стабильным релизом.

#codex #openai #coding-agents #security #bug-fix

4 июля 2026

Обязательно к прочтению (1)

Mistral выпускает Leanstral 1.5: открытая модель формальной верификации для Lean 4

Стоит знать (7)

Сбер открывает исходный код GFusion — первой российской диффузионной языковой модели

Систематический анализ гибридного линейного внимания: исследование 72 моделей

Gemini Spark запускается на macOS с доступом к локальным файлам и поддержкой MCP-серверов

xAI запускает Grok Voice Agent Builder в бета-версии

Claude Code v2.1.200: режим ручного подтверждения становится режимом по умолчанию

ByteDance Seedance 2.5 открывает корпоративное бета-тестирование: нативная генерация видео длиной 30 секунд

ShengShu Technology представляет Vidu S1: интерактивное видео в реальном времени на потребительских GPU

Suno анонсирует партнёрскую программу Developer API для генерации музыки с помощью ИИ

WorldDirector: управляемый симулятор мира с постоянной памятью динамических объектов

VRRL: визуально заземлённая саморефлексия для моделей зрение-язык через RL

GitHub Copilot CLI отказывается от требования PAT в Actions; потоковая передача агентских сессий в превью

OpenCode (SST) v1.17.13: инструменты MCP resource template и принудительный режим рассуждения

OpenAI Codex CLI 0.142.5: исправление утечки данных в trace-логи