vLLM v0.20.1: стабилизация DeepSeek V4 на CUDA 13 и PyTorch 2.11

инструменты официальный 1 ист. ~1 мин

vLLM v0.20.1, выпущенный 4 мая 2026 года, является патч-релизом, стабилизирующим DeepSeek V4 на новом базовом стеке CUDA 13 + PyTorch 2.11, установленном в v0.20.0. Исправления включают устойчивый deadlock в topk cooperative, поддержку ядра NVFP4 MoE для рабочих GPU RTX Blackwell и улучшения производительности multi-stream pre-attention GEMM. Серия v0.20.x также добавила поддержку HuggingFace Transformers v5.

Почему это важно

Переход vLLM на CUDA 13/PyTorch 2.11/Transformers v5 является определяющим фактором для всей экосистемы; исправление deadlock в DeepSeek V4 разблокирует продуктивные развёртывания ведущей открытой MoE-модели.

Важность: 2/5

Патч-релиз, стабилизирующий DeepSeek V4 на CUDA 13 + PyTorch 2.11 — важно для продуктивных развёртываний.

inference vllm open-source gpu deepseek release

Источники

официальный vLLM Releases — vllm-project/vllm