Ежедневный дайджест

14 пунктов · ~14 мин · Неделя 2026-W26

Обязательно к прочтению (2)

OpenAI и Broadcom представили Jalapeño — первый собственный чип OpenAI для инференса

OpenAI
индустрия офиц. + СМИ 3 ист. ~1 мин

24 июня OpenAI и Broadcom совместно анонсировали Jalapeño — первый ASIC OpenAI, разработанный исключительно для инференса LLM. Чип создавался от начального дизайна до tape-out девять месяцев; часть процесса проектирования была ускорена с помощью ИИ. OpenAI заявляет о примерно 50% снижении стоимости токена по сравнению с GPU текущего поколения. Прототипные развёртывания запланированы на конец 2026 года, массовое производство — на 2027–2028 годы. Чип не будет продаваться внешним заказчикам.

Почему это важно
Первый шаг OpenAI к вертикальной аппаратной интеграции снижает зависимость от Nvidia и уменьшает стоимость токена при обслуживании ChatGPT и API-продуктов в масштабе. Девятимесячный цикл разработки — частично обеспеченный самим ИИ — сигнализирует об ускорении петли разработки аппаратного обеспечения. Это ставит OpenAI в один ряд с Google (TPU), Amazon (Trainium) и Microsoft (Maia) в клубе производителей кастомного кремния.

Qualcomm приобретает Modular за $3,92 млрд для противостояния привязке к CUDA

Qualcomm
индустрия офиц. + СМИ 3 ист. ~1 мин

24 июня на Investor Day Qualcomm объявила о поглощении Modular — стартапа, стоящего за языком программирования Mojo и инференс-движком MAX, — в сделке полностью на акциях стоимостью около $3,92 млрд. Закрытие сделки ожидается во второй половине 2026 года при условии одобрения регуляторами. Стек Modular позволяет запускать модели ИИ на Nvidia, AMD, Intel и Apple Silicon без аппаратно-специфических правок, напрямую устраняя привязку разработчиков, которая делает CUDA незаменимой.

Почему это важно
Если Qualcomm сможет вывести кросс-аппаратную абстракцию Modular в мейнстрим, это подорвёт один из самых глубоких рвов Nvidia. Для ML-инженеров зрелый аппаратно-независимый стек инференса существенно расширит возможности деплоя и снизит зависимость от вендоров GPU. Цена в $3,92 млрд демонстрирует корпоративную убеждённость в экосистеме Mojo / MAX.

Стоит знать (4)

Anthropic обвиняет Alibaba в крупнейшей известной атаке дистилляции Claude: 28,8 млн диалогов

Anthropic
индустрия только СМИ 3 ист. ~1 мин

В письме в Комитет Сената США по банковскому делу, обнародованном 24 июня, Anthropic обвинила лабораторию Qwen компании Alibaba в проведении крупнейшей известной атаки дистилляции против Claude: 28,8 миллиона обменов диалогами через почти 25 000 мошеннических аккаунтов в период с 22 апреля по 5 июня 2026 года. Кампания была направлена на возможности Claude в области разработки программного обеспечения и агентного рассуждения. Ранее Anthropic выявила аналогичные кампании, приписываемые DeepSeek (150 тыс. взаимодействий), Moonshot AI (3,4 млн) и MiniMax (13 млн).

Почему это важно
Дистилляция моделей в таком масштабе — использование выходных данных фронтирной модели для обучения более дешёвой конкурирующей модели — становится всё более серьёзной угрозой для ИС AI-лабораторий. Обвинение в адрес Alibaba представляет собой значительную эскалацию. Раскрытие информации Сенату может повлиять на экспортный контроль и политику доступа к API в контексте продолжающейся конкуренции США и Китая в сфере ИИ.

Beyond NL2Code: структурированный обзор мультимодального интеллекта в написании кода

исследования офиц. + СМИ 2 ист. ~1 мин

Всесторонний обзор систем кодового интеллекта, выходящих за рамки только текстовых входных данных: охватывает обработку LLM визуальных артефактов — скриншотов, графиков, векторных рисунков, интерактивных состояний UI — для генерации исполняемого кода. В работе рассматриваются четыре области: графические пользовательские интерфейсы, научная визуализация, структурированная графика и новые агентные фреймворки; авторы утверждают, что дальнейший прогресс требует многосигнальной валидации и прозрачности агентов.

Почему это важно
Возглавил HuggingFace Daily Papers за 25 июня с 262 голосами — самая высоко оцененная работа дня. По мере того как ИИ-помощники в написании кода всё чаще сталкиваются с визуальными спецификациями и макетами UI, данный обзор формулирует открытые задачи в области визуально обоснованного программирования и задаёт исследовательскую повестку для следующего поколения агентов для написания кода.

Квантизированные модели рассуждения думают, что им нужно думать дольше, — но это не так

Meta
исследования официальный 1 ист. ~1 мин

Эмпирическое исследование, показывающее, что постобучающая квантизация моделей рассуждения парадоксально увеличивает длину цепочки рассуждений при снижении точности. В до 52% случаев ошибок квантизированные модели находят верный промежуточный ответ, но затем не выбирают его — поскольку позиции токенов с высокой энтропией вынуждают их избыточно сэмплировать маркеры «избыточного мышления» вроде «wait», «but», «alternatively». Не требующий обучения штраф logit на эти маркеры сокращает длину рассуждения на 12–23%, сохраняя или улучшая точность на 5 моделях (1,5B–32B), 3 методах квантизации и 5 бенчмарках.

Почему это важно
Квантизация является основной техникой для дешёвого деплоя крупных моделей рассуждения, однако данная работа выявляет ранее не диагностированный режим сбоя, объясняющий значительную часть потерь точности. Исправление без обучения применимо немедленно к любому развёртыванию квантизированной модели рассуждения, обеспечивая существенное снижение стоимости инференса без дообучения.

Gemini 3.5 Flash получает встроенный инструмент управления компьютером

Google DeepMind
инструменты офиц. + СМИ 2 ист. ~1 мин

24 июня Google объявила, что computer use теперь является нативным встроенным инструментом в Gemini 3.5 Flash, доступным через Gemini API и Gemini Enterprise Agent Platform. Прежде доступная только в виде отдельной специализированной модели, возможность теперь позволяет агентам видеть, кликать, печатать и прокручивать интерфейсы в браузере, на мобильных и десктопных средах. Целевое adversarial-обучение снижает риски prompt injection. Улучшены результаты на бенчмарке OSWorld по сравнению с предыдущими реализациями.

Почему это важно
Интеграция computer use непосредственно в основную модель Flash снижает порог для создания агентных рабочих процессов над реальными UI. В сочетании со скоростным и экономичным профилем Flash это делает автоматизацию на основе реальных интерфейсов доступнее для корпоративных развёртываний — и напрямую конкурирует с предложением Anthropic по computer use.
Справочно (8)

Готовы ли мы к агент-нативным системам памяти? SJTU сравнивает 12 архитектур

исследования офиц. + СМИ 2 ист. ~1 мин

Систематическая оценка памяти агентов ИИ через призму управления данными от SJTU и Tsinghua. В работе предлагается фреймворк, декомпозирующий память агента на четыре модуля — представление и хранение, извлечение, поиск и маршрутизация, обслуживание — и производится бенчмаркинг 12 существующих систем памяти. Ключевой вывод: ни одна архитектура не показывает оптимальных результатов по всем нагрузкам; локализованное обслуживание более экономично, чем полная реорганизация.

Почему это важно
По мере распространения агентного ИИ память всё чаще становится узким местом при развёртывании. Это первый систематический бенчмарк 12 архитектур памяти с использованием единого фреймворка, дающий практикам обоснованную основу для выбора архитектуры. Второй по рейтингу на HF Daily Papers за 25 июня (40 голосов).

Wan-Streamer v0.1: сквозная интерактивная фундаментальная модель реального времени с задержкой менее 550 мс

Wan-AI
исследования офиц. + СМИ 2 ист. ~1 мин

Унифицированная фундаментальная модель для мультимодального взаимодействия в реальном времени, обрабатывающая текст, аудио и видео в едином Transformer с block-causal attention. В отличие от пайплайновых систем, объединяющих отдельные модули ASR, рассуждения и TTS, Wan-Streamer совместно обучает восприятие, рассуждение и генерацию — достигая ~200 мс задержки на стороне модели и 550 мс общей задержки взаимодействия, с единицами стриминга от 160 мс при 25 кадрах в секунду. На данный момент разрешение 192p — как proof of concept.

Почему это важно
Интерактивный ИИ реального времени, в котором модель видит, слышит и отвечает звуком и видео за полсекунды, был сложной системной задачей. Wan-Streamer демонстрирует, что сквозное совместное обучение в едином Transformer способно достичь целевых показателей задержки, ранее требовавших специализированного пайплайнового склеивания.

DomainShuttle: синтез видео по субъекту из текста для внутри- и междоменных сценариев

исследования офиц. + СМИ 2 ист. ~1 мин

Система text-to-video для субъектно-управляемого синтеза в двух сценариях: внутридоменном (точное сохранение признаков референсного субъекта) и межсценном (гибкая вариация при сохранении идентичности). Вводятся Domain-MoT (domain-aware adaptive layer normalization), Video-Reference DualRoPE (отдельное ротационное позиционное кодирование для референсных и видеотокенов) и Cross-Pair Consistent Loss. Третье место на HF Daily Papers за 25 июня (34 голоса).

Почему это важно
Существующие методы субъектно-управляемого видео вынуждены выбирать между точностью и редактируемостью — DomainShuttle предлагает архитектурные компоненты, разделяющие эти цели и позволяющие одновременно точно сохранять субъект и свободно переносить его в другой домен.

GitHub Copilot убирает ручной выбор модели для Free и Student планов

GitHub / Microsoft
инструменты офиц. + СМИ 2 ист. ~1 мин

С 24 июня GitHub сделал автоматический выбор модели Copilot выбором по умолчанию и единственным вариантом для пользователей планов Free и Student. Система Auto динамически направляет каждый запрос к наиболее подходящей доступной модели из семейств OpenAI, Anthropic и Google с учётом ограничений плана. GitHub также снял метку (Preview) со всех моделей, выпущенных Microsoft.

Почему это важно
Удаление ручного выбора модели для планов нижнего уровня упрощает UX, но ограничивает контроль пользователя — следуя тренду, при котором провайдеры абстрагируют выбор модели для оптимизации затрат. Пользователи Free и Student больше не могут зафиксироваться на конкретной модели.

Claude Code v2.1.191: команда /rewind, снижение CPU на 37%, логика повтора MCP

Anthropic
инструменты официальный 1 ист. ~1 мин

Claude Code v2.1.191 (24 июня) добавляет /rewind для возобновления разговоров до выполнения /clear, снижает нагрузку на CPU при стриминге примерно на 37% за счёт объединения обновлений текста, добавляет логику повтора MCP-сервера при временных сетевых ошибках и уменьшает рост потребления памяти в долгих сессиях. В предыдущем выпуске v2.1.187 (23 июня) были добавлены sandbox.credentials для блокировки чтения секретных файлов изолированными командами и настраиваемые организацией ограничения модели в выборе модели.

Почему это важно
Два быстрых релиза за 36 часов демонстрируют активный темп разработки. Функция /rewind устраняет распространённую проблему потери состояния разговора; улучшения CPU и памяти важны для долгих агентных сессий; повышение надёжности MCP актуально для производственных пайплайнов с использованием инструментов.

OpenCode v1.17.10: инструкции MCP-сервера в контексте, режим CLI --mini

SST
инструменты официальный 1 ист. ~1 мин

OpenCode v1.17.10 (24 июня) включает инструкции MCP-сервера, интегрированные непосредственно в контекст сессии, новый режим CLI --mini для облегчённого запуска, инструменты для перечисления и чтения шаблонов ресурсов MCP, поддержку интеграции провайдеров под управлением opencode и исправление OAuth-коллбэков MCP для локальной аутентификации.

Почему это важно
OpenCode — один из наиболее активно звёздных open-source агентов для написания кода (160K+ звёзд на GitHub). Инструменты шаблонов ресурсов MCP и интеграция управляемых провайдеров расширяют возможности агента для нативной работы с внешними источниками данных.

OpenAI Codex CLI v0.142.1: опциональная поддержка системного прокси Windows

OpenAI
инструменты официальный 1 ист. ~1 мин

Codex CLI v0.142.1 (25 июня, стабильный) добавляет опциональную поддержку системного прокси Windows, включая PAC, WPAD, статические прокси и правила обхода. Серия 0.143.0-alpha продолжилась 9+ предрелизными сборками с 23 по 25 июня, что указывает на подготовку более крупного обновления функциональности.

Почему это важно
Корпоративные развёртывания Windows за корпоративными прокси были блокером для принятия Codex CLI. Активная серия alpha сигнализирует об интенсивной текущей разработке.

Google распространяет аудио Veo 3.1 на все инструменты редактирования Flow, добавляет Insert и Remove

Google DeepMind
видео офиц. + СМИ 3 ист. ~1 мин

22 июня Google распространила генерацию аудио Veo 3.1 на существующие функции создания Flow — Ingredients to Video, Frames to Video и Extend — которые ранее выдавали видео без звука. Также добавлены два новых инструмента точного редактирования: Insert (добавление элементов в сцену с подбором освещения) и Remove (удаление объектов с автоматическим восстановлением фона). Доступно в Gemini API, Vertex AI, приложении Gemini и Flow.

Почему это важно
Распространение нативного аудио на рабочие процессы, основанные на референсных изображениях и расширении клипов, закрывает важный пробел для профессиональных пользователей, создающих видео из существующих материалов. Инструменты Insert и Remove продвигают Veo к полноценному постпродакшн-пайплайну.