vLLM v0.20.1 устраняет критическую нестабильность DeepSeek V4 под производственными нагрузками
vLLM Project
vLLM v0.20.1 (3 мая) исправляет критическую нестабильность DeepSeek V4: постоянный кооперативный дедлок TopK при TopK=1024, настройку multi-stream pre-attention GEMM, поддержку BF16 и MXFP8 all-to-all для односторонней коммуникации FlashInfer, захват CUDA graph max_num_batched_token и корректировку поворота MLA RoPE для BailingMoE.
Почему это важно
DeepSeek V4 Pro — одна из сильнейших open-weight моделей для кодинга по состоянию на май 2026 года; эти исправления разблокируют производственные развёртывания vLLM, которые сталкивались с дедлоками под реальными нагрузками, делая высокопроизводительное обслуживание в масштабе практически осуществимым.
Важность: 2/5
Патч-релиз, но разблокирующий производственное развёртывание широко используемой фронтирной open-weight модели.