SGLang v0.5.11: Speculative Decoding V2 по умолчанию и поддержка восьми новых архитектур

инструменты официальный 1 ист. ~1 мин

SGLang v0.5.11 переходит на CUDA 13 + PyTorch 2.11 как базовый стек и включает Speculative Decoding V2 с overlap-планированием по умолчанию, снижая затраты CPU на шаг декодирования. В релиз добавлена поддержка восьми новых архитектур: Gemma 4, GLM-5.1, Qwen3.6, Kimi-K2.6 и других, а также расширена поддержка LoRA для крупномасштабных MoE-моделей на базе MLA, таких как DeepSeek-V3.

Почему это важно

Speculative Decoding V2 по умолчанию меняет базовый порог пропускной способности для всех развёртываний SGLang; LoRA для DeepSeek-V3/Kimi-K2 открывает дообучение ведущих открытых MoE-моделей в продакшн-масштабе.

Важность: 3/5

Крупное базовое обновление (CUDA 13 + PyTorch 2.11) + Speculative Decoding V2 по умолчанию — затрагивает все инференс-развёртывания SGLang.

inference sglang open-source speculative-decoding gpu release

Источники

официальный SGLang Releases — sgl-project/sglang