Ежедневный дайджест

7 пунктов · ~7 мин · Неделя 2026-W27

Стоит знать (5)

Grok 4.5 вышел в закрытое бета-тестирование в SpaceX и Tesla

xAI
модели/LLM только СМИ 4 ист. ~1 мин

Генеральный директор xAI Илон Маск объявил 28 июня, что Grok 4.5 перешёл в стадию закрытого бета-тестирования в SpaceX и Tesla. Модель основана на архитектуре xAI V9 с 1,5 триллиона параметров — на 50% больше, чем у Grok 4.4 — и включает дополнительные обучающие данные с платформы Cursor. По имеющимся данным, внутренние оценки показывают, что Grok 4.5 выполняет ряд задач на уровне Anthropic Claude Opus или лучше. Дата публичного релиза не объявлена.

Почему это важно
Увеличение параметров на 50% и интеграция данных Cursor свидетельствуют о намерении xAI выпускать новые поколения моделей ежемесячно в течение 2026 года. Тестирование внутри SpaceX и Tesla даёт xAI доступ к проприетарным инженерным данным, которые могут выделить будущие версии на фоне конкурентов.

JetSpec: параллельная генерация деревьев черновиков даёт ускорение speculative decoding в 9,64×

Hao AI Lab, UCSD
исследования офиц. + СМИ 3 ист. ~1 мин

JetSpec вводит параллельную причинно-обусловленную голову-черновик, разрешающую дилемму между причинностью и эффективностью в speculative decoding. Стандартные подходы с деревьями либо генерируют черновик авторегрессивно (точно, но медленно), либо за один параллельный проход (быстро, но некогерентно). JetSpec обучает голову-черновик на слитых скрытых состояниях целевой модели так, чтобы оценки токенов дерева кандидатов следовали авторегрессивной факторизации целевой модели, а затем верифицирует полное дерево за один прямой проход. На бенчмарках по программированию и математике достигается ускорение до 9,64× по сравнению со стандартным авторегрессивным декодированием на GPU H100/B200. Код открыт.

Почему это важно
Предыдущие методы speculative decoding упирались в потолок ускорения при росте бюджета черновиков; JetSpec сохраняет прирост и за этим пределом. Заявленные 1000+ токенов/с на математических задачах делают его непосредственно применимым в продакшн-инференсе LLM.

OPID: дистилляция навыков на собственной политике улучшает RL агентов с длинным горизонтом

Institute of Automation, Chinese Academy of Sciences
исследования официальный 2 ист. ~1 мин

OPID добавляет плотный, пообновный надзор к RL на основе результатов для LLM-агентов. В процессе обучения лёгкий LLM-анализатор извлекает два уровня навыков из выполненных траекторий post-hoc: сводки рабочих процессов на уровне эпизода и обоснования действий на уровне шага в критических точках принятия решений. Механизм critical-first routing встраивает соответствующий навык в историю взаимодействий, позволяя политике сопоставлять ответы с навыком и без него для оценки преимуществ на уровне токенов. На ALFWorld, WebShop и Search-QA OPID превосходит базовый RL только по результатам по показателям завершения задач, эффективности обучения и устойчивости.

Почему это важно
Чистый RL на основе наград для агентов с длинным горизонтом страдает от разреженного сигнала и медленного присвоения кредитов. OPID извлекает навыки из собственных прогонов агента, не требуя внешних библиотек навыков, что делает плотный надзор самодостаточным и практичным.

SingGuard: адаптируемый к политике во время выполнения мультимодальный защитный барьер LLM с бенчмарком из 56 тыс. примеров

inclusionAI
исследования официальный 2 ист. ~1 мин

SingGuard — защитная модель для vision-language моделей, принимающая политики безопасности на естественном языке во время выполнения, а не зашитые в модель при обучении. Контент оценивается по правилам политики поочерёдно в трёх режимах скорости инференса (fast/hybrid/slow) для баланса между интерпретируемостью и задержкой. Новый бенчмарк SingGuard-Bench содержит 56 340 примеров по 80+ категориям рисков, включая кросс-модальные совместные риски, когда ни текст, ни изображение по отдельности не вредоносны, но их сочетание несёт небезопасный смысл. Точность следования политике при изменениях во время выполнения улучшается с ~64,6% до ~74,1% по сравнению с предыдущими методами.

Почему это важно
Большинство защитных систем не могут адаптироваться при изменении политики безопасности продукта без переобучения. Инъекция политики во время выполнения делает SingGuard практичным для разных регионов или продуктовых линеек. Бенчмарк кросс-модальных совместных рисков закрывает пробел в существующих наборах для оценки безопасности.

DeepSeek открыл исходный код DSpark: ускорение инференса V4 на 57–85% в продакшне

DeepSeek
инструменты офиц. + СМИ 3 ист. ~1 мин

DeepSeek совместно с лабораторией NLP Пекинского университета выпустили DSpark (Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation) — фреймворк, ускоряющий инференс DeepSeek-V4-Flash на 60–85% и V4-Pro на 57–78% по сравнению с базовым MTP-1. Фреймворк запущен в продакшне для обоих вариантов V4. Кодовая база для обучения и оценки DeepSpec опубликована под лицензией MIT на GitHub (`deepseek-ai/DeepSpec`); карточки моделей DeepSeek-V4-Pro-DSpark и DeepSeek-V4-Flash-DSpark размещены на HuggingFace.

Почему это важно
Ускорение инференса на 57–85% без потери качества — это немедленно применимый результат для всех, кто работает с DeepSeek V4 в масштабе. Открытый исходный код DeepSpec означает, что рецепт обучения модели-черновика доступен сообществу для адаптации под другие базовые модели.
Справочно (2)

Wayfinder Router: маршрутизатор LLM-запросов с открытым кодом без обращения к модели попал в тренды Hacker News

инструменты офиц. + СМИ 2 ист. ~1 мин

Wayfinder Router (Apache-2.0, Python) — CLI-инструмент, маршрутизирующий LLM-запросы между локальными моделями (Ollama, vLLM) и облачными API (OpenAI, Claude, Gemini, OpenAI-совместимые эндпоинты) без вызова модели на этапе принятия решения. Структурная сложность промпта оценивается офлайн по шкале 0–1 менее чем за 1 мс: простые запросы отправляются к локальным моделям, сложные — к облачным API. Инструмент предоставляет OpenAI-совместимый шлюз, так что клиентский код менять не нужно. 28 июня проект набрал 115 очков на Hacker News.

Почему это важно
Офлайн-маршрутизация за менее чем миллисекунду между локальными и облачными LLM решает реальную задачу оптимизации затрат: дешёвые локальные модели — для простых промптов, переход к frontier API — только при необходимости. OpenAI-совместимый шлюз позволяет внедрить инструмент без изменения существующего кода.

llama.cpp b9830–b9837: DFlash v2, парсер MiniCPM5, флаг --reasoning-preserve

ggml-org
инструменты официальный 1 ист. ~1 мин

28–29 июня вышло шесть сборок llama.cpp (b9830–b9837). Ключевые изменения: b9830 добавляет флаг `--offline` для `llama download` (работа только с кэшем) и исправляет use-after-free в колбэках URL-задач; b9831 добавляет DFlash v2 со sliding window attention на уровне отдельных слоёв; b9833 реализует выделенный PEG-парсер для MiniCPM5 с поддержкой XML-вызовов инструментов; b9837 добавляет `--reasoning-preserve` для сохранения токенов chain-of-thought в Jinja и выводе чата.

Почему это важно
DFlash v2 расширяет совместимость с моделями при локальном инференсе; `--reasoning-preserve` даёт разработчикам явный контроль над тем, попадают ли цепочки рассуждений в вывод, — что становится всё актуальнее по мере того, как локальные модели всё чаще публикуют токены chain-of-thought.