Ежедневный дайджест
14 пунктов · ~14 мин · Неделя 2026-W26
Обязательно к прочтению (2)
OpenAI и Broadcom представили Jalapeño — первый собственный чип OpenAI для инференса
OpenAI24 июня OpenAI и Broadcom совместно анонсировали Jalapeño — первый ASIC OpenAI, разработанный исключительно для инференса LLM. Чип создавался от начального дизайна до tape-out девять месяцев; часть процесса проектирования была ускорена с помощью ИИ. OpenAI заявляет о примерно 50% снижении стоимости токена по сравнению с GPU текущего поколения. Прототипные развёртывания запланированы на конец 2026 года, массовое производство — на 2027–2028 годы. Чип не будет продаваться внешним заказчикам.
Qualcomm приобретает Modular за $3,92 млрд для противостояния привязке к CUDA
Qualcomm24 июня на Investor Day Qualcomm объявила о поглощении Modular — стартапа, стоящего за языком программирования Mojo и инференс-движком MAX, — в сделке полностью на акциях стоимостью около $3,92 млрд. Закрытие сделки ожидается во второй половине 2026 года при условии одобрения регуляторами. Стек Modular позволяет запускать модели ИИ на Nvidia, AMD, Intel и Apple Silicon без аппаратно-специфических правок, напрямую устраняя привязку разработчиков, которая делает CUDA незаменимой.
Стоит знать (4)
Anthropic обвиняет Alibaba в крупнейшей известной атаке дистилляции Claude: 28,8 млн диалогов
AnthropicВ письме в Комитет Сената США по банковскому делу, обнародованном 24 июня, Anthropic обвинила лабораторию Qwen компании Alibaba в проведении крупнейшей известной атаки дистилляции против Claude: 28,8 миллиона обменов диалогами через почти 25 000 мошеннических аккаунтов в период с 22 апреля по 5 июня 2026 года. Кампания была направлена на возможности Claude в области разработки программного обеспечения и агентного рассуждения. Ранее Anthropic выявила аналогичные кампании, приписываемые DeepSeek (150 тыс. взаимодействий), Moonshot AI (3,4 млн) и MiniMax (13 млн).
Beyond NL2Code: структурированный обзор мультимодального интеллекта в написании кода
Всесторонний обзор систем кодового интеллекта, выходящих за рамки только текстовых входных данных: охватывает обработку LLM визуальных артефактов — скриншотов, графиков, векторных рисунков, интерактивных состояний UI — для генерации исполняемого кода. В работе рассматриваются четыре области: графические пользовательские интерфейсы, научная визуализация, структурированная графика и новые агентные фреймворки; авторы утверждают, что дальнейший прогресс требует многосигнальной валидации и прозрачности агентов.
Квантизированные модели рассуждения думают, что им нужно думать дольше, — но это не так
MetaЭмпирическое исследование, показывающее, что постобучающая квантизация моделей рассуждения парадоксально увеличивает длину цепочки рассуждений при снижении точности. В до 52% случаев ошибок квантизированные модели находят верный промежуточный ответ, но затем не выбирают его — поскольку позиции токенов с высокой энтропией вынуждают их избыточно сэмплировать маркеры «избыточного мышления» вроде «wait», «but», «alternatively». Не требующий обучения штраф logit на эти маркеры сокращает длину рассуждения на 12–23%, сохраняя или улучшая точность на 5 моделях (1,5B–32B), 3 методах квантизации и 5 бенчмарках.
Gemini 3.5 Flash получает встроенный инструмент управления компьютером
Google DeepMind24 июня Google объявила, что computer use теперь является нативным встроенным инструментом в Gemini 3.5 Flash, доступным через Gemini API и Gemini Enterprise Agent Platform. Прежде доступная только в виде отдельной специализированной модели, возможность теперь позволяет агентам видеть, кликать, печатать и прокручивать интерфейсы в браузере, на мобильных и десктопных средах. Целевое adversarial-обучение снижает риски prompt injection. Улучшены результаты на бенчмарке OSWorld по сравнению с предыдущими реализациями.
Справочно (8)
Готовы ли мы к агент-нативным системам памяти? SJTU сравнивает 12 архитектур
Систематическая оценка памяти агентов ИИ через призму управления данными от SJTU и Tsinghua. В работе предлагается фреймворк, декомпозирующий память агента на четыре модуля — представление и хранение, извлечение, поиск и маршрутизация, обслуживание — и производится бенчмаркинг 12 существующих систем памяти. Ключевой вывод: ни одна архитектура не показывает оптимальных результатов по всем нагрузкам; локализованное обслуживание более экономично, чем полная реорганизация.
Wan-Streamer v0.1: сквозная интерактивная фундаментальная модель реального времени с задержкой менее 550 мс
Wan-AIУнифицированная фундаментальная модель для мультимодального взаимодействия в реальном времени, обрабатывающая текст, аудио и видео в едином Transformer с block-causal attention. В отличие от пайплайновых систем, объединяющих отдельные модули ASR, рассуждения и TTS, Wan-Streamer совместно обучает восприятие, рассуждение и генерацию — достигая ~200 мс задержки на стороне модели и 550 мс общей задержки взаимодействия, с единицами стриминга от 160 мс при 25 кадрах в секунду. На данный момент разрешение 192p — как proof of concept.
DomainShuttle: синтез видео по субъекту из текста для внутри- и междоменных сценариев
Система text-to-video для субъектно-управляемого синтеза в двух сценариях: внутридоменном (точное сохранение признаков референсного субъекта) и межсценном (гибкая вариация при сохранении идентичности). Вводятся Domain-MoT (domain-aware adaptive layer normalization), Video-Reference DualRoPE (отдельное ротационное позиционное кодирование для референсных и видеотокенов) и Cross-Pair Consistent Loss. Третье место на HF Daily Papers за 25 июня (34 голоса).
GitHub Copilot убирает ручной выбор модели для Free и Student планов
GitHub / MicrosoftС 24 июня GitHub сделал автоматический выбор модели Copilot выбором по умолчанию и единственным вариантом для пользователей планов Free и Student. Система Auto динамически направляет каждый запрос к наиболее подходящей доступной модели из семейств OpenAI, Anthropic и Google с учётом ограничений плана. GitHub также снял метку (Preview) со всех моделей, выпущенных Microsoft.
Claude Code v2.1.191: команда /rewind, снижение CPU на 37%, логика повтора MCP
AnthropicClaude Code v2.1.191 (24 июня) добавляет /rewind для возобновления разговоров до выполнения /clear, снижает нагрузку на CPU при стриминге примерно на 37% за счёт объединения обновлений текста, добавляет логику повтора MCP-сервера при временных сетевых ошибках и уменьшает рост потребления памяти в долгих сессиях. В предыдущем выпуске v2.1.187 (23 июня) были добавлены sandbox.credentials для блокировки чтения секретных файлов изолированными командами и настраиваемые организацией ограничения модели в выборе модели.
OpenCode v1.17.10: инструкции MCP-сервера в контексте, режим CLI --mini
SSTOpenCode v1.17.10 (24 июня) включает инструкции MCP-сервера, интегрированные непосредственно в контекст сессии, новый режим CLI --mini для облегчённого запуска, инструменты для перечисления и чтения шаблонов ресурсов MCP, поддержку интеграции провайдеров под управлением opencode и исправление OAuth-коллбэков MCP для локальной аутентификации.
OpenAI Codex CLI v0.142.1: опциональная поддержка системного прокси Windows
OpenAICodex CLI v0.142.1 (25 июня, стабильный) добавляет опциональную поддержку системного прокси Windows, включая PAC, WPAD, статические прокси и правила обхода. Серия 0.143.0-alpha продолжилась 9+ предрелизными сборками с 23 по 25 июня, что указывает на подготовку более крупного обновления функциональности.
Google распространяет аудио Veo 3.1 на все инструменты редактирования Flow, добавляет Insert и Remove
Google DeepMind22 июня Google распространила генерацию аудио Veo 3.1 на существующие функции создания Flow — Ingredients to Video, Frames to Video и Extend — которые ранее выдавали видео без звука. Также добавлены два новых инструмента точного редактирования: Insert (добавление элементов в сцену с подбором освещения) и Remove (удаление объектов с автоматическим восстановлением фона). Доступно в Gemini API, Vertex AI, приложении Gemini и Flow.