vLLM v0.22.0: производственное укрепление DeepSeek V4, Rust-фронтенд, снижение задержки на 28,9%
vLLM v0.22.0 (выпущен 29 мая 2026 года) включает 459 коммитов от 230 контрибьюторов. Ключевые изменения: производственное укрепление DeepSeek V4 с NVFP4 fused MoE, полным CUDA graph и MTP speculative decoding; новый экспериментальный Rust-фронтенд с data-parallel serving supervisor; снижение сквозной задержки на 28,9% за счёт Cutlass FP8 batch-invariant inference; многоуровневое KV cache offloading на диск. Также добавлены оптимизации для AMD ROCm parity и NVIDIA Blackwell (SM12x).
Почему это важно
DeepSeek V4 — наиболее распространённая frontier-модель для самостоятельного хостинга; полноценная поддержка в vLLM в связке со снижением задержки на 28,9% делает её значительно более пригодной для высоконагруженных развёртываний в масштабе.
Важность: 3/5
Официальный релиз на GitHub; существенные улучшения производительности наиболее широко используемого движка инференса с открытым исходным кодом.