gpu — AI Digest

6 мая SGLang v0.5.11: Speculative Decoding V2 по умолчанию и поддержка восьми новых архитектур tools
18 мая vLLM v0.21.0: MLA-бэкенд для Blackwell, KV-выгрузка через HMA, speculative decoding для reasoning-моделей vLLM Project tools
2 июн vLLM v0.22.0: производственное укрепление DeepSeek V4, Rust-фронтенд, снижение задержки на 28,9% tools
6 мая vLLM v0.20.1: стабилизация DeepSeek V4 на CUDA 13 и PyTorch 2.11 tools