vLLM v0.24.0: Model Runner V2 по умолчанию, Rust-фронтенд, ускорение SM90 FP8

vLLM

инструменты официальный 1 ист. ~1 мин

vLLM v0.24.0 (выпущен около 30 июня) включает 571 коммит от 256 контрибьюторов. Model Runner V2 теперь является движком по умолчанию для квантизированных моделей, а также для плотных моделей Llama и Mistral. Rust-фронтенд готов к продакшену с аутентификацией по API-ключу, CORS и новыми эндпоинтами токенизации. Ядра SM90 CUTLASS FP8 обеспечивают ускорение 180–290% на оборудовании класса H100. DeepSeek-V4 получает кэширование sparse-индекса через FlashInfer, а в числе новых поддерживаемых моделей — MiniMax-M3 и DiffusionGemma.

Почему это важно

Переход Model Runner V2 в режим по умолчанию для квантизированных моделей — важная веха готовности к продакшену. Rust-фронтенд позволяет развёртывать vLLM как полноценный продакшн-сервис без дополнительного прокси.

Важность: 3/5

Крупный релиз vLLM: 571 коммит, Model Runner V2 по умолчанию, Rust-фронтенд готов к продакшену, ускорение FP8 на 180–290% на H100

vllm inference quantization deepseek-v4 efficiency serving

Источники

официальный vLLM v0.24.0 Release Notes