Ежедневный дайджест
7 пунктов · ~7 мин · Неделя 2026-W27
Стоит знать (5)
Grok 4.5 вышел в закрытое бета-тестирование в SpaceX и Tesla
xAIГенеральный директор xAI Илон Маск объявил 28 июня, что Grok 4.5 перешёл в стадию закрытого бета-тестирования в SpaceX и Tesla. Модель основана на архитектуре xAI V9 с 1,5 триллиона параметров — на 50% больше, чем у Grok 4.4 — и включает дополнительные обучающие данные с платформы Cursor. По имеющимся данным, внутренние оценки показывают, что Grok 4.5 выполняет ряд задач на уровне Anthropic Claude Opus или лучше. Дата публичного релиза не объявлена.
JetSpec: параллельная генерация деревьев черновиков даёт ускорение speculative decoding в 9,64×
Hao AI Lab, UCSDJetSpec вводит параллельную причинно-обусловленную голову-черновик, разрешающую дилемму между причинностью и эффективностью в speculative decoding. Стандартные подходы с деревьями либо генерируют черновик авторегрессивно (точно, но медленно), либо за один параллельный проход (быстро, но некогерентно). JetSpec обучает голову-черновик на слитых скрытых состояниях целевой модели так, чтобы оценки токенов дерева кандидатов следовали авторегрессивной факторизации целевой модели, а затем верифицирует полное дерево за один прямой проход. На бенчмарках по программированию и математике достигается ускорение до 9,64× по сравнению со стандартным авторегрессивным декодированием на GPU H100/B200. Код открыт.
OPID: дистилляция навыков на собственной политике улучшает RL агентов с длинным горизонтом
Institute of Automation, Chinese Academy of SciencesOPID добавляет плотный, пообновный надзор к RL на основе результатов для LLM-агентов. В процессе обучения лёгкий LLM-анализатор извлекает два уровня навыков из выполненных траекторий post-hoc: сводки рабочих процессов на уровне эпизода и обоснования действий на уровне шага в критических точках принятия решений. Механизм critical-first routing встраивает соответствующий навык в историю взаимодействий, позволяя политике сопоставлять ответы с навыком и без него для оценки преимуществ на уровне токенов. На ALFWorld, WebShop и Search-QA OPID превосходит базовый RL только по результатам по показателям завершения задач, эффективности обучения и устойчивости.
SingGuard: адаптируемый к политике во время выполнения мультимодальный защитный барьер LLM с бенчмарком из 56 тыс. примеров
inclusionAISingGuard — защитная модель для vision-language моделей, принимающая политики безопасности на естественном языке во время выполнения, а не зашитые в модель при обучении. Контент оценивается по правилам политики поочерёдно в трёх режимах скорости инференса (fast/hybrid/slow) для баланса между интерпретируемостью и задержкой. Новый бенчмарк SingGuard-Bench содержит 56 340 примеров по 80+ категориям рисков, включая кросс-модальные совместные риски, когда ни текст, ни изображение по отдельности не вредоносны, но их сочетание несёт небезопасный смысл. Точность следования политике при изменениях во время выполнения улучшается с ~64,6% до ~74,1% по сравнению с предыдущими методами.
DeepSeek открыл исходный код DSpark: ускорение инференса V4 на 57–85% в продакшне
DeepSeekDeepSeek совместно с лабораторией NLP Пекинского университета выпустили DSpark (Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation) — фреймворк, ускоряющий инференс DeepSeek-V4-Flash на 60–85% и V4-Pro на 57–78% по сравнению с базовым MTP-1. Фреймворк запущен в продакшне для обоих вариантов V4. Кодовая база для обучения и оценки DeepSpec опубликована под лицензией MIT на GitHub (`deepseek-ai/DeepSpec`); карточки моделей DeepSeek-V4-Pro-DSpark и DeepSeek-V4-Flash-DSpark размещены на HuggingFace.
Справочно (2)
Wayfinder Router: маршрутизатор LLM-запросов с открытым кодом без обращения к модели попал в тренды Hacker News
Wayfinder Router (Apache-2.0, Python) — CLI-инструмент, маршрутизирующий LLM-запросы между локальными моделями (Ollama, vLLM) и облачными API (OpenAI, Claude, Gemini, OpenAI-совместимые эндпоинты) без вызова модели на этапе принятия решения. Структурная сложность промпта оценивается офлайн по шкале 0–1 менее чем за 1 мс: простые запросы отправляются к локальным моделям, сложные — к облачным API. Инструмент предоставляет OpenAI-совместимый шлюз, так что клиентский код менять не нужно. 28 июня проект набрал 115 очков на Hacker News.
llama.cpp b9830–b9837: DFlash v2, парсер MiniCPM5, флаг --reasoning-preserve
ggml-org28–29 июня вышло шесть сборок llama.cpp (b9830–b9837). Ключевые изменения: b9830 добавляет флаг `--offline` для `llama download` (работа только с кэшем) и исправляет use-after-free в колбэках URL-задач; b9831 добавляет DFlash v2 со sliding window attention на уровне отдельных слоёв; b9833 реализует выделенный PEG-парсер для MiniCPM5 с поддержкой XML-вызовов инструментов; b9837 добавляет `--reasoning-preserve` для сохранения токенов chain-of-thought в Jinja и выводе чата.