-
vLLM v0.20.2: TurboQuant 2-bit KV Cache и FlashAttention 4 по умолчанию для MoE-инференса
tools
-
vLLM v0.21.0: MLA-бэкенд для Blackwell, KV-выгрузка через HMA, speculative decoding для reasoning-моделей
vLLM Project
tools
-
vLLM v0.22.0: производственное укрепление DeepSeek V4, Rust-фронтенд, снижение задержки на 28,9%
tools
-
vLLM Semantic Router v0.3 Themis: производственная маршрутизация с сохранением состояния и Session-Aware Agentic Routing
tools
-
vLLM добавляет поддержку MiniMax M3 с открытыми весами в день выхода: разреженное внимание с контекстом 1M токенов
MiniMax
tools
-
vLLM v0.23.0: Model Runner V2 по умолчанию для Llama и Mistral, Transformers v5, многоуровневый KV-кэш
tools
-
vLLM v0.20.0 — третий релиз за две недели
vLLM
tools
-
BadHost (CVE-2026-48710): обход аутентификации через Host-заголовок в Starlette затрагивает vLLM, LiteLLM и MCP-серверы
tools
-
vLLM v0.20.1: стабилизация DeepSeek V4 на CUDA 13 и PyTorch 2.11
tools
-
vLLM v0.21.0rc1: поддержка Python 3.14, CUDA 13.0 и Transformers v5
tools
-
vLLM v0.21.0rc1: поддержка PyTorch 2.11, HuggingFace Transformers v5 и Python 3.14
tools