Ежедневный дайджест

22 пункта · ~22 мин · Неделя 2026-W26

Обязательно к прочтению (3)

Google DeepMind инвестирует $75 млн в A24 и формирует первое AI-исследовательское партнёрство с киностудией

Google DeepMind
индустрия офиц. + СМИ 4 ист. ~1 мин

22 июня 2026 года Google инвестировала $75 млн в A24 — первая доля в капитале киностудии — в рамках многолетнего исследовательского партнёрства по совместной разработке AI-инструментов для кинопроизводства с использованием Veo. Исследователи DeepMind будут встроены в активные производства A24 для создания новых творческих рабочих процессов и техник. Google не получает доступа к существующей фильмотеке A24.

Почему это важно
Это первый случай, когда крупная AI-исследовательская лаборатория приобрела долю в кинопроизводственной компании для формирования своих моделей видеогенерации через профессиональную творческую обратную связь, создавая прецедент для того, как AI-лаборатории могут добиваться принятия в творческих индустриях.

ByteDance представляет флагманскую LLM Doubao-Seed-2.1 Pro на конференции FORCE

ByteDance / Doubao
модели/LLM офиц. + СМИ 4 ист. ~1 мин

ByteDance представила Doubao-Seed-2.1 Pro на конференции Volcano Engine FORCE 2026 23 июня — флагманскую MoE LLM, ориентированную на корпоративное программирование, длинноцепочечные агентные задачи и мультимодальное понимание с контекстными окнами до миллиона токенов. Модель демонстрирует конкурентоспособные показатели в сравнении с GPT-5.5 и Gemini 3.1 Pro, цена — 6 юаней за миллион входных токенов. На том же мероприятии ByteDance анонсировала Seedance 2.5 (генерация видео) и Seedream 5.0 Pro (генерация изображений), завершив формирование полного стека медиа-AI.

Почему это важно
Doubao теперь обслуживает 180 триллионов токенов в день — рост в 1500 раз с момента запуска, — что делает этот продукт наиболее широко развёрнутым китайским AI-продуктом; выпуск 2.1 Pro означает ставку ByteDance на монетизацию корпоративного сегмента.

ByteDance представляет Seedance 2.5: нативная генерация 30-секундного 4K-видео с 50 мультимодальными входами

ByteDance
видео офиц. + СМИ 4 ист. ~1 мин

ByteDance анонсировала Seedance 2.5 на конференции Volcano Engine FORCE 23 июня — модель генерирует 30-секундные клипы нативно в 4K с глубиной цвета 10 бит. Модель принимает до 50 одновременных мультимодальных входов (изображения, аудио, 3D white-модели, стилевые референсы) и обрабатывает аудио в том же латентном пространстве, что и видео, для нативной синхронизации звука. Корпоративная бета уже доступна; публичный запуск запланирован на начало июля.

Почему это важно
Seedance 2.5 более чем вчетверо увеличивает ёмкость входных референсов по сравнению с ближайшим конкурентом, а нативная генерация 30-секундных роликов без склейки устраняет ключевое ограничение современных видеомоделей — повышая планку для длинноформатной AI-видеогенерации.

Стоит знать (12)

ByteDance запускает Seed-Audio 1.0: унифицированная генерация речи, музыки и фоновых звуков

ByteDance
аудио офиц. + СМИ 3 ист. ~1 мин

Анонсированная вместе с Seedance 2.5 на конференции Volcano Engine FORCE 23 июня, Seed-Audio 1.0 генерирует многоперсонажные диалоги с различными голосами, фоновую музыку, звуковые эффекты и акустическую атмосферу за единый сквозной проход длиной до 2 минут. Принимает текстовые подсказки и референсное аудио для стилевого соответствия и клонирования голоса; доступна через API ByteDance Volcano Ark, интегрированный в CapCut, Jimeng и Fanqie.

Почему это важно
Seed-Audio 1.0 позиционирует ByteDance как полностековый генеративный медиапровайдер, объединяя голос, музыку и эффекты в одной модели — прямой конкурент мультипродуктовому набору ElevenLabs и снижение потребности в отдельных специализированных инструментах в контентных пайплайнах.

ByteDance анонсирует Seedream 5.0 Pro: генерация изображений со встроенным онлайн-поиском и глубоким рассуждением

ByteDance
изображения офиц. + СМИ 3 ист. ~1 мин

Анонсированная на Volcano Engine FORCE 23 июня, Seedream 5.0 Pro предлагает интегрированный онлайн-поиск для генерации изображений, актуальных трендам и текущим событиям, глубокое понимание подсказок, поддержку до 10 референсных изображений и вывод в разрешении 2K+. Ориентирована на коммерческое производство с возможностями контроля компоновки и точечного редактирования.

Почему это важно
Интеграция живого веб-поиска в генерацию изображений — новый архитектурный подход, позволяющий модели создавать контекстуально актуальные изображения без отдельных этапов извлечения, — дифференциатор по сравнению с Flux.2, Midjourney v8.1 и Ideogram 4.0.

Модель Mythos от Anthropic обнаружила уязвимости в засекреченных системах правительства США за несколько часов

Anthropic
индустрия только СМИ 3 ист. ~1 мин

Высокопоставленный американский чиновник раскрыл, что модель Mythos от Anthropic выявила уязвимости в засекреченных компьютерных системах правительства США за несколько часов в ходе тестирования в рамках проекта Glasswing. Сенатор Марк Уорнер сослался на эти результаты на слушаниях в Банковском комитете Сената, заявив, что модель «взломала почти все наши засекреченные системы — не за недели, а за часы». Это откровение стало одним из оснований для правительственной директивы, ограничивающей доступ иностранных граждан к моделям Fable 5 и Mythos 5 от Anthropic.

Почему это важно
Передовые AI-модели перешли черту, за которой способны автономно находить уязвимости в защищённой засекреченной инфраструктуре, — это меняет подход правительств к политике в области AI-безопасности и экспортному контролю.

Mistral выпускает OCR 4: SOTA-модель для работы с документами с возможностью локального развёртывания

Mistral AI
модели/LLM офиц. + СМИ 3 ист. ~1 мин

Mistral выпустила OCR 4 — модель для интеллектуальной обработки документов с поддержкой 170 языков, возвращающую структурированный вывод с ограничивающими рамками, классификацией блоков по типам (заголовки, таблицы, формулы, подписи) и инлайн-оценками уверенности. Модель занимает первое место на OlmOCRBench с результатом 85.20 и 72% среднего процента побед в пользовательских исследованиях, развёртывается как единый контейнер для on-premises-использования. Стоимость — $4 за 1000 страниц через API; доступна на Mistral API, Amazon SageMaker и Microsoft Foundry.

Почему это важно
Сочетание лучшего в классе качества извлечения данных с возможностью самостоятельного хостинга в едином контейнере устраняет ключевой барьер для корпоративных клиентов — необходимость передавать конфиденциальные документы в сторонние облачные API, — укрепляя позиции Mistral на рынке корпоративной обработки документов.

Яндекс выпускает масштабное обновление Алисы: межсессионная память, персонализация и режим доступности в реальном времени

Yandex
модели/LLM офиц. + СМИ 4 ист. ~1 мин

25 июня на фестивале YoungCon Яндекс анонсировал значительное обновление Алисы, включающее обновление основной LLM, поисковой модели и мультимодальной VLM. Новые возможности: постоянная межсессионная память, адаптивный стиль общения, отражающий тон и формальность пользователя, улучшенное понимание изображений, диаграмм и таблиц, а также режим Live для слабовидящих пользователей, описывающий окружающую обстановку через камеру в реальном времени с помощью VLM Алисы.

Почему это важно
Широкий скачок возможностей наиболее распространённого потребительского AI-ассистента в России — движение к модели постоянного персонализированного агента с функциями доступности, расширяющими значимый доступ к AI для слепых и слабовидящих пользователей.

GLM-5.2: MoE-модель для программирования от Zhipu AI на 744B параметров под лицензией MIT вызывает опасения в сфере кибербезопасности

Zhipu AI / Z.ai
модели/LLM только СМИ 3 ист. ~1 мин

Zhipu AI выпустила веса GLM-5.2 — MoE-модели на 744B параметров с 40B активными параметрами и контекстом 1M токенов — на HuggingFace около 17 июня; 25 июня Axios опубликовал материал о том, что исследователи в области безопасности обнаружили: модель сопоставима с американскими фронтирными моделями по бенчмаркам кибербезопасности. GLM-5.2 набирает 62.1 на SWE-bench Pro, занимает второе место на Code Arena и стоит около $1.40 за миллион входных токенов против $5 у GPT-5.5.

Почему это важно
Сочетание возможностей фронтирного уровня в программировании, MIT-лицензии с неограниченным коммерческим использованием и стоимости примерно в шесть раз ниже, чем у GPT-5.5, делает GLM-5.2 наиболее экономически деструктивной открытой моделью для программирования; сообщество безопасности оценивает её двойное применение.

JetSpec: преодоление потолка масштабирования спекулятивного декодирования с помощью параллельного построения деревьев черновиков

Hao AI Lab, UC San Diego
исследования офиц. + СМИ 2 ист. ~1 мин

JetSpec вводит каузальную параллельную голову для черновых токенов, согласовывающую оценки дерева кандидатов с авторегрессионной факторизацией целевой модели и решающую давний компромисс между авторегрессионными и двунаправленными генераторами черновиков. Достигается ускорение до 9.64× на MATH-500 и 4.58× на разговорных задачах с использованием моделей Qwen3 на GPU H100/B200, с интеграцией vLLM и опубликованными черновыми моделями на HuggingFace.

Почему это важно
Спекулятивное декодирование зашло в тупик, поскольку увеличение бюджета черновиков не давало надёжно более длинных принимаемых последовательностей. JetSpec преодолевает этот потолок с помощью обоснованной обучающей цели, обеспечивая пропускную способность >1000 токенов в секунду — практически значимо для снижения стоимости инференса в любом масштабе.

Qwen-AgentWorld: языковые мировые модели для универсальных агентов на 35B и 397B параметров

Qwen Team, Alibaba
исследования офиц. + СМИ 2 ист. ~1 мин

Qwen-AgentWorld представляет две фундаментальные мировые модели (35B и 397B параметров), обученные на более чем 10 миллионах траекторий взаимодействия в семи областях с использованием трёхэтапного пайплайна: инжекция возможностей, активация предсказания следующего состояния и RL-уточнение. Система выступает одновременно масштабируемым симулятором среды для RL-обучения и этапом прогрева для последующих агентных задач; вместе с ней представлен новый бенчмарк AgentWorldBench.

Почему это важно
Языковые мировые модели, достоверно симулирующие динамику среды, могут снизить стоимость сбора RL-данных и позволить агентам отрабатывать навыки в симуляции до реального развёртывания. На 397B параметров это крупнейшая специализированная мировая модель для агентов на сегодняшний день.

Детерминированный горизонт: когда расширенное рассуждение даёт сбой и необходима делегация инструментам

исследования официальный 1 ист. ~1 мин

Принятая на ICML 2026 статья формулирует теорему об узком месте внимания, ограничивающую мощность отслеживания состояний у decoder-only трансформеров, и выявляет «детерминированный горизонт» примерно в 19–31 шаг, за которым рассуждение в цепочке мысли деградирует сверхэкспоненциально. Эмпирическая проверка на 12 моделях и 8 предметных областях — включая SWE-Bench и WebArena — показывает, что гибридные нейросетево-инструментальные системы достигают 86–94% точности против 24–42% у чистой цепочки мысли.

Почему это важно
Статья переносит нарратив о сбоях рассуждения с проблемы обучающих данных на архитектурное ограничение мощности, задавая обоснованные пороги, при достижении которых агентным системам следует делегировать задачи внешним инструментам, а не продолжать рассуждать.

OpenAI делает Codex Remote общедоступным для всех тарифов и сообщает о 97.9% внутреннем уровне использования

OpenAI
инструменты офиц. + СМИ 3 ист. ~1 мин

OpenAI сделала Codex Remote общедоступным для всех тарифов ChatGPT: пользователи могут начинать или продолжать работу с кодом на подключённом Mac или Windows-компьютере с мобильного устройства через аутентификацию по QR-коду. Одновременно OpenAI опубликовала данные об использовании: 97.9% сотрудников компании теперь используют Codex — по сравнению с ~40% в августе 2025 года, — включая нетехнические подразделения: юридический отдел и финансы.

Почему это важно
Перевод Codex Remote из предварительного доступа в GA для всех тарифов существенно расширяет круг пользователей агентных помощников по программированию; данные о внутреннем использовании свидетельствуют о том, что OpenAI считает Codex готовым к широкому корпоративному применению за пределами чисто инженерных задач.

DeepReinforce выпускает Ornith-1.0: открытые модели для программирования, самостоятельно обучающие свои RL-каркасы

DeepReinforce
инструменты офиц. + СМИ 3 ист. ~1 мин

25 июня DeepReinforce выпустила Ornith-1.0 — семейство из четырёх агентных моделей для программирования под лицензией MIT (9B dense, 31B dense, 35B MoE, 397B MoE) на базе Gemma 4 и Qwen 3.5. Вместо разработанных людьми RL-каркасов каждая модель обучается генерировать собственные специализированные обёртки в процессе RL-обучения, с передачей вознаграждений как на этап генерации каркаса, так и на этап генерации решения. Флагманская 397B-модель достигает 77.5 на Terminal-Bench 2.1 и 82.4 на SWE-Bench Verified, что сопоставимо с Claude Opus 4.7.

Почему это важно
Самогенерируемые RL-каркасы — значимое отклонение от обучения с фиксированными обёртками, и это первое семейство открытых моделей, сопоставимых с последней фронтирной моделью Anthropic по агентным бенчмаркам программирования при MIT-лицензии.

Runway выпускает Agent 2.0 для автоматизации маркетинговых кампаний

Runway
видео официальный 1 ист. ~1 мин

25 июня Runway выпустила Agent 2.0 для всех тарифов — агентный инструмент, создающий целые маркетинговые кампании, анализирующий данные об эффективности и масштабирующий креативные материалы на разные платформы, форматы и рынки в рамках единого диалогового рабочего процесса. Продукт базируется на видеомоделях Aleph 2.0 и Gen-4.5, выпущенных ранее в 2026 году.

Почему это важно
Agent 2.0 знаменует переход Runway от инструмента генерации видео к полноценной платформе маркетинговых производств, ориентированной на креативные агентства и бренд-команды с опорой на лидерство компании в видеогенерации.
Справочно (7)

Suno запускает инкубатор Spark для независимых артистов с грантами и наставничеством

Suno
аудио офиц. + СМИ 4 ист. ~1 мин

25 июня Suno анонсировала Spark — инкубаторную программу, предлагающую независимым артистам гранты, маркетинговое финансирование, приглашения на лагеря по написанию песен и наставничество. Участники сохраняют полные творческие и коммерческие права на работы, созданные с помощью платформы. Программа следует за раундом привлечения $400 млн при оценке $5.4 млрд в июне 2026 года.

Почему это важно
Spark — наиболее прямая попытка Suno позиционировать себя как партнёра отрасли, а не разрушителя, с финансовыми обязательствами перед артистами в момент, когда Universal Music Group и Sony всё ещё судятся с компанией.

Плотного надзора недостаточно: слепое пятно считывания в зациклённых языковых моделях

исследования официальный 1 ист. ~1 мин

Статья диагностирует сбой обучения в зациклённых (рекуррентных) архитектурах трансформеров: инвариантные к масштабу считывания, такие как RMSNorm и LayerNorm, создают «слепое пятно», при котором пошаговый надзор с cross-entropy оставляет нормы скрытых состояний неконтролируемыми — они вырастают до тысяч, несмотря на плотный надзор. Авторы предлагают два архитектурных решения — сделать масштаб видимым для функции потерь или убрать его из рекуррентного цикла — и демонстрируют, что варианты с контролем масштаба достигают лучшей перплексии при совпадающей глубине инференса на моделях 44M и 129M параметров.

Почему это важно
Зациклённые/рекуррентные трансформеры — перспективное направление для вычислительно-эффективного инференса (повторное использование весов на разных глубинах), однако нестабильность обучения ограничивала их применение. Работа даёт конкретный диагноз и простое правило проектирования, которое может разблокировать практическую разработку этого класса архитектур.

OPRD: дистилляция представлений на политике для пост-обучения LLM

исследования официальный 1 ист. ~1 мин

OPRD расширяет дистилляцию на политике из пространства выходов (логитов) в пространство скрытых представлений, согласовывая представления студента и учителя на выбранных слоях на совместных выборках. Межархитектурное расширение (OPRD-Bridge) переносит знания между моделями с разными архитектурами и токенизаторами через низкоранговую структуру представлений. Метод обеспечивает ускорение обучения в 1.44× и снижение памяти до 54% при существенном сокращении разрыва в производительности на математических бенчмарках, где методы на основе логитов достигают плато.

Почему это важно
Дистилляция на политике — стандартный компонент пайплайнов пост-обучения для фронтирных моделей. OPRD исправляет ключевой режим отказа — высокоэнтропийные распределения токенов, делающие градиенты в пространстве выходов неинформативными, — и открывает дистилляцию между несовместимыми семействами моделей.

Claude Code v2.1.193: расширение классификатора shell, логирование ответов через OTel, автодополнение путей в реальном времени

Anthropic
инструменты официальный 2 ист. ~1 мин

Claude Code v2.1.193 добавляет новую настройку autoMode.classifyAllShell, направляющую все команды Bash/PowerShell через классификатор безопасности автоматического режима; опциональное событие логирования claude_code.assistant_response через OpenTelemetry; автодополнение путей к файлам в реальном времени в режиме bash; уведомления об аутентификации MCP при запуске. Исправлена надёжность фоновых агентов: устранено создание фантомных подагентов, устаревание UI после входа и повторные запросы при автообновлении.

Почему это важно
Расширение классификатора shell и логирование ответов через OTel важны для корпоративных развёртываний, требующих журналов аудита и детального контроля разрешений shell; исправления фоновых агентов устраняют давние проблемы надёжности по мере роста использования мультиагентных рабочих процессов.

OpenAI Codex CLI v0.142.2: поиск инструментов MCP по умолчанию, поддержка прокси в macOS, защита PowerShell

OpenAI
инструменты официальный 1 ист. ~1 мин

Codex CLI v0.142.2 делает поиск инструментов MCP поведением по умолчанию при поддержке со стороны сервера, добавляет поддержку системного прокси macOS и PAC/WPAD, а также требует явного подтверждения для команд PowerShell, содержащих исполняемые AST-регионы, которые классификатор безопасности не может проверить. Также включены логотипы плагинов в тёмной теме, расширенные метаданные UI буферизации безопасности и понятные инструкции по восстановлению учётных данных Bedrock.

Почему это важно
Поиск инструментов MCP по умолчанию повышает удобство работы с большими каталогами инструментов; принудительная проверка AST PowerShell закрывает значимую поверхность для побега из песочницы.

OpenCode v1.17.11: снимки сессий с возможностью отката, переключение вкладок в стиле Chrome

SST
инструменты официальный 2 ист. ~1 мин

OpenCode v1.17.11 вводит снимки сессий с элементами управления откатом, позволяющие откатить сессию к любому предыдущему сообщению вместе со всеми связанными изменениями файлов. В настольном интерфейсе появилось переключение вкладок в стиле Chrome (mod+1–9) и перетаскиваемые вкладки. В предыдущем релизе v1.17.10 (24 июня) добавлены инструкции MCP-сервера, инжектируемые в контекст сессии, инструменты листинга и чтения шаблонов ресурсов MCP, а также режим CLI --mini.

Почему это важно
Снимки сессий с откатом файлов — значимая функция безопасности для агентных рабочих процессов программирования, снижающая стоимость исследовательских или рискованных запусков агентов.

OpenAI выпускает codex-zsh v0.1.0: версионированный патченый бинарник zsh для песочницы Codex

OpenAI
инструменты официальный 1 ист. ~1 мин

OpenAI опубликовала codex-zsh v0.1.0 как самостоятельный версионированный артефакт — минимально патченая сборка zsh с поддержкой EXEC_WRAPPER через патч к Src/exec.c, позволяющая протоколу эскалации shell в Codex перехватывать вызовы execve и направлять каждую команду через политику песочницы Run/Escalate/Deny. Бинарники поставляются для macOS (aarch64 и x86_64) и Linux (musl, оба архитектуры).

Почему это важно
Публикация в виде отдельного версионированного артефакта отделяет сопровождение патча zsh от цикла выпуска основного Codex CLI и делает доверенную границу песочницы доступной для аудита.