vLLM v0.20.1 устраняет критическую нестабильность DeepSeek V4 под производственными нагрузками

vLLM Project

инструменты официальный 1 ист. ~1 мин

vLLM v0.20.1 (3 мая) исправляет критическую нестабильность DeepSeek V4: постоянный кооперативный дедлок TopK при TopK=1024, настройку multi-stream pre-attention GEMM, поддержку BF16 и MXFP8 all-to-all для односторонней коммуникации FlashInfer, захват CUDA graph max_num_batched_token и корректировку поворота MLA RoPE для BailingMoE.

Почему это важно

DeepSeek V4 Pro — одна из сильнейших open-weight моделей для кодинга по состоянию на май 2026 года; эти исправления разблокируют производственные развёртывания vLLM, которые сталкивались с дедлоками под реальными нагрузками, делая высокопроизводительное обслуживание в масштабе практически осуществимым.

Важность: 2/5

Патч-релиз, но разблокирующий производственное развёртывание широко используемой фронтирной open-weight модели.

inference release deepseek-v4

Связанные пункты

Источники

официальный vLLM v0.20.1 Release Notes — GitHub