vLLM v0.22.0: производственное укрепление DeepSeek V4, Rust-фронтенд, снижение задержки на 28,9%

инструменты официальный 1 ист. ~1 мин

vLLM v0.22.0 (выпущен 29 мая 2026 года) включает 459 коммитов от 230 контрибьюторов. Ключевые изменения: производственное укрепление DeepSeek V4 с NVFP4 fused MoE, полным CUDA graph и MTP speculative decoding; новый экспериментальный Rust-фронтенд с data-parallel serving supervisor; снижение сквозной задержки на 28,9% за счёт Cutlass FP8 batch-invariant inference; многоуровневое KV cache offloading на диск. Также добавлены оптимизации для AMD ROCm parity и NVIDIA Blackwell (SM12x).

Почему это важно

DeepSeek V4 — наиболее распространённая frontier-модель для самостоятельного хостинга; полноценная поддержка в vLLM в связке со снижением задержки на 28,9% делает её значительно более пригодной для высоконагруженных развёртываний в масштабе.

Важность: 3/5

Официальный релиз на GitHub; существенные улучшения производительности наиболее широко используемого движка инференса с открытым исходным кодом.

vllm inference open-source gpu deepseek

Источники

официальный Releases · vllm-project/vllm — GitHub