vLLM v0.20.2: TurboQuant 2-bit KV Cache и FlashAttention 4 по умолчанию для MoE-инференса
vLLM v0.20.2 исправляет мажорный релиз v0.20.0. Ключевые возможности v0.20.0: поддержка DeepSeek V4, FlashAttention 4 как дефолтный MLA prefill, TurboQuant 2-bit KV cache (4× увеличение ёмкости памяти по сравнению со стандартным FP16), а также базовые требования CUDA 13 / PyTorch 2.11 / Transformers v5. Патч v0.20.2 стабилизирует DeepSeek V4 с multi-stream GEMM, настраиваемыми параметрами GEMM и BF16/MXFP8 all-to-all, а также исправляет дедлоки TopK cooperative и ядра NVFP4 MoE на рабочих станциях с RTX Blackwell.
Почему это важно
TurboQuant 2-bit KV, учетверяющий ёмкость памяти — существенный выигрыш эффективности для инференса с длинным контекстом; FA4 как дефолтный MLA улучшает производительность MoE prefill в продакшн-масштабе.
Важность: 3/5
TurboQuant 2-bit KV cache (4× ёмкость) и FA4 как дефолтный MLA prefill обеспечивают значительный прирост эффективности для продакшн-инференса MoE-моделей класса DeepSeek.