SGLang v0.5.11: Speculative Decoding V2 по умолчанию и поддержка восьми новых архитектур
SGLang v0.5.11 переходит на CUDA 13 + PyTorch 2.11 как базовый стек и включает Speculative Decoding V2 с overlap-планированием по умолчанию, снижая затраты CPU на шаг декодирования. В релиз добавлена поддержка восьми новых архитектур: Gemma 4, GLM-5.1, Qwen3.6, Kimi-K2.6 и других, а также расширена поддержка LoRA для крупномасштабных MoE-моделей на базе MLA, таких как DeepSeek-V3.
Почему это важно
Speculative Decoding V2 по умолчанию меняет базовый порог пропускной способности для всех развёртываний SGLang; LoRA для DeepSeek-V3/Kimi-K2 открывает дообучение ведущих открытых MoE-моделей в продакшн-масштабе.
Важность: 3/5
Крупное базовое обновление (CUDA 13 + PyTorch 2.11) + Speculative Decoding V2 по умолчанию — затрагивает все инференс-развёртывания SGLang.
Источники
официальный
SGLang Releases — sgl-project/sglang