#gpu
- SGLang v0.5.11: Speculative Decoding V2 по умолчанию и поддержка восьми новых архитектур tools
- vLLM v0.21.0: MLA-бэкенд для Blackwell, KV-выгрузка через HMA, speculative decoding для reasoning-моделей vLLM Project tools
- vLLM v0.22.0: производственное укрепление DeepSeek V4, Rust-фронтенд, снижение задержки на 28,9% tools
- vLLM v0.20.1: стабилизация DeepSeek V4 на CUDA 13 и PyTorch 2.11 tools