vLLM v0.20.2: TurboQuant 2-bit KV Cache и FlashAttention 4 по умолчанию для MoE-инференса

инструменты официальный 2 ист. ~1 мин

vLLM v0.20.2 исправляет мажорный релиз v0.20.0. Ключевые возможности v0.20.0: поддержка DeepSeek V4, FlashAttention 4 как дефолтный MLA prefill, TurboQuant 2-bit KV cache (4× увеличение ёмкости памяти по сравнению со стандартным FP16), а также базовые требования CUDA 13 / PyTorch 2.11 / Transformers v5. Патч v0.20.2 стабилизирует DeepSeek V4 с multi-stream GEMM, настраиваемыми параметрами GEMM и BF16/MXFP8 all-to-all, а также исправляет дедлоки TopK cooperative и ядра NVFP4 MoE на рабочих станциях с RTX Blackwell.

Почему это важно

TurboQuant 2-bit KV, учетверяющий ёмкость памяти — существенный выигрыш эффективности для инференса с длинным контекстом; FA4 как дефолтный MLA улучшает производительность MoE prefill в продакшн-масштабе.

Важность: 3/5

TurboQuant 2-bit KV cache (4× ёмкость) и FA4 как дефолтный MLA prefill обеспечивают значительный прирост эффективности для продакшн-инференса MoE-моделей класса DeepSeek.

vllm inference open-source release

Источники

официальный Releases — vllm-project/vllm

официальный v0.20.2 Milestone — vllm-project/vllm