vLLM v0.20.1: стабилизация DeepSeek V4 на CUDA 13 и PyTorch 2.11
vLLM v0.20.1, выпущенный 4 мая 2026 года, является патч-релизом, стабилизирующим DeepSeek V4 на новом базовом стеке CUDA 13 + PyTorch 2.11, установленном в v0.20.0. Исправления включают устойчивый deadlock в topk cooperative, поддержку ядра NVFP4 MoE для рабочих GPU RTX Blackwell и улучшения производительности multi-stream pre-attention GEMM. Серия v0.20.x также добавила поддержку HuggingFace Transformers v5.
Почему это важно
Переход vLLM на CUDA 13/PyTorch 2.11/Transformers v5 является определяющим фактором для всей экосистемы; исправление deadlock в DeepSeek V4 разблокирует продуктивные развёртывания ведущей открытой MoE-модели.
Важность: 2/5
Патч-релиз, стабилизирующий DeepSeek V4 на CUDA 13 + PyTorch 2.11 — важно для продуктивных развёртываний.
Источники
официальный
vLLM Releases — vllm-project/vllm