vllm — AI Digest

10 мая vLLM v0.20.2: TurboQuant 2-bit KV Cache и FlashAttention 4 по умолчанию для MoE-инференса tools
18 мая vLLM v0.21.0: MLA-бэкенд для Blackwell, KV-выгрузка через HMA, speculative decoding для reasoning-моделей vLLM Project tools
2 июн vLLM v0.22.0: производственное укрепление DeepSeek V4, Rust-фронтенд, снижение задержки на 28,9% tools
9 июн vLLM Semantic Router v0.3 Themis: производственная маршрутизация с сохранением состояния и Session-Aware Agentic Routing tools
14 июн vLLM добавляет поддержку MiniMax M3 с открытыми весами в день выхода: разреженное внимание с контекстом 1M токенов MiniMax tools
17 июн vLLM v0.23.0: Model Runner V2 по умолчанию для Llama и Mistral, Transformers v5, многоуровневый KV-кэш tools
29 апр vLLM v0.20.0 — третий релиз за две недели vLLM tools
2 июн BadHost (CVE-2026-48710): обход аутентификации через Host-заголовок в Starlette затрагивает vLLM, LiteLLM и MCP-серверы tools
6 мая vLLM v0.20.1: стабилизация DeepSeek V4 на CUDA 13 и PyTorch 2.11 tools
12 мая vLLM v0.21.0rc1: поддержка Python 3.14, CUDA 13.0 и Transformers v5 tools
13 мая vLLM v0.21.0rc1: поддержка PyTorch 2.11, HuggingFace Transformers v5 и Python 3.14 tools