inference — AI Digest

7 мая xAI выпустила Grok 4.3 с контекстом 1M токенов, снижением цен на 40–60% и улучшенными результатами в агентных бенчмарках xAI models-llm
13 мая Codex-Spark (GPT-5.3-Codex-Spark) Research Preview: модель для кодирования с 1000+ токенов/сек OpenAI tools
20 мая Gemini 3.5 Flash Released at Google I/O 2026: Frontier Coding + Agentic at Flash Speed Google DeepMind models-llm
8 июн NVIDIA Nemotron 3 Ultra: открытая модель 550B MoE теперь доступна для агентных задач NVIDIA models-llm
9 мая Zyphra выпускает ZAYA1-8B: открытая рассуждающая MoE-модель, обученная на оборудовании AMD Zyphra models-llm
4 июн JetBrains публикует исходный код Mellum2: 12B MoE-модель для кодирования в мульти-модельных пайплайнах JetBrains models-llm
16 июн Kimi K2.7-Code HighSpeed: рост производительности в 6× для продакшн-пайплайнов агентов по коду Moonshot AI models-llm
19 июн AWS Summit New York 2026: общая доступность Bedrock AgentCore, iOS-предпросмотр Kiro и анонс AWS Context Amazon tools
19 мая LongLive-2.0: параллельная инфраструктура NVFP4 для генерации длинных видео (NVIDIA, 1220 апвоутов на HF) NVIDIA research
14 июн MiniMax Sparse Attention: сокращение вычислений в 28 раз при контексте 1M токенов без потери качества MiniMax research
6 мая SGLang v0.5.11: Speculative Decoding V2 по умолчанию и поддержка восьми новых архитектур tools
10 мая vLLM v0.20.2: TurboQuant 2-bit KV Cache и FlashAttention 4 по умолчанию для MoE-инференса tools
15 мая Hugging Face Transformers: асинхронный continuous batching даёт прирост скорости инференса на 22% Hugging Face tools
16 мая Orthrus: 7,8-кратное ускорение инференса для Qwen3 за счёт совместного использования KV-кеша AR и диффузии research
18 мая vLLM v0.21.0: MLA-бэкенд для Blackwell, KV-выгрузка через HMA, speculative decoding для reasoning-моделей vLLM Project tools
2 июн vLLM v0.22.0: производственное укрепление DeepSeek V4, Rust-фронтенд, снижение задержки на 28,9% tools
9 июн vLLM Semantic Router v0.3 Themis: производственная маршрутизация с сохранением состояния и Session-Aware Agentic Routing tools
14 июн vLLM добавляет поддержку MiniMax M3 с открытыми весами в день выхода: разреженное внимание с контекстом 1M токенов MiniMax tools
17 июн vLLM v0.23.0: Model Runner V2 по умолчанию для Llama и Mistral, Transformers v5, многоуровневый KV-кэш tools
29 апр vLLM v0.20.0 — третий релиз за две недели vLLM tools
30 апр TIDE: кросс-архитектурная дистилляция для диффузионных LLM Peking University research
2 мая ESamp: LLM исследуют через latent distilling для семплирования по семантической новизне ShanghaiTech University research
11 мая AutoTTS: LLM-агенты автоматически открывают стратегии test-time scaling за $40 research
2 июн BadHost (CVE-2026-48710): обход аутентификации через Host-заголовок в Starlette затрагивает vLLM, LiteLLM и MCP-серверы tools
4 мая Ollama v0.23.0 добавляет поддержку Claude Desktop через Ollama Launch Ollama tools
4 мая vLLM v0.20.1 устраняет критическую нестабильность DeepSeek V4 под производственными нагрузками vLLM Project tools
6 мая vLLM v0.20.1: стабилизация DeepSeek V4 на CUDA 13 и PyTorch 2.11 tools
6 мая Ollama v0.23.1: MTP-спекулятивное декодирование Gemma 4 даёт ускорение в 2× на Apple Silicon tools
7 мая ИИ-распознавание персонажей в VK Video увеличило время просмотра на 9% с помощью каскадного определения лиц VK AI tools
7 мая LongSeeker: эластичная оркестрация контекста для агентов долгосрочного поиска Shanghai Jiao Tong University research
9 мая llama.cpp b9085: flash attention для MiMo-V2.5 и поддержка Vertex AI Server tools
12 мая vLLM v0.21.0rc1: поддержка Python 3.14, CUDA 13.0 и Transformers v5 tools
12 мая TMAS: масштабирование тестового вычисления через синергию мультиагентов с иерархической памятью research
13 мая vLLM v0.21.0rc1: поддержка PyTorch 2.11, HuggingFace Transformers v5 и Python 3.14 tools
15 мая Ollama v0.24.0: интеграция с Codex App и улучшения MLX-семплера Ollama tools
16 мая llama.cpp b9161/b9169: совместимость с Codex CLI и мультимодальная поддержка Qwen3A ggml-org tools
18 мая BetaPRM: process rewards с учётом неопределённости сокращают расход reasoning-токенов на 33% research
8 июн Code2LoRA: гиперсеть генерирует репозиторно-специфичные адаптеры для code LM без накладных расходов на инференс University of Waterloo research
9 июн Ollama v0.30.7: поддержка Hermes Desktop, Gemma 4 QAT и Nemotron-3-Ultra Ollama tools
11 июн llama.cpp b9589–b9592: исправление синхронизации CUDA SSM и оптимизация памяти Mamba tools
12 июн llama.cpp b9603: OpenCL-ядра Qualcomm Adreno для инференса на устройстве ggml-org tools
17 июн Ollama v0.30.9: поддержка Cohere2Moe, исправлен баг с одиночным токеном в coding-агентах tools
17 июн llama.cpp, сборки от 16 июня: спекулятивное декодирование Eagle3, память Vulkan UMA, исправления NVFP4 tools
19 июн llama.cpp b9716: мультимодальный батчинг InternVL, CUDA col2im и исправление SSE для Nginx tools
12 мая llama.cpp добавляет поддержку gpt-oss-20b в сборке от 12 мая tools
13 мая Ollama v0.23.3: исправления MLX runner и совместимость с Metal в macOS 26 Ollama tools