vLLM v0.23.0: Model Runner V2 по умолчанию для Llama и Mistral, Transformers v5, многоуровневый KV-кэш

инструменты официальный 1 ист. ~1 мин

vLLM v0.23.0 (15 июня, 408 коммитов, 200 контрибьюторов) устанавливает Model Runner V2 в качестве режима по умолчанию для плотных моделей Llama и Mistral, добавляет совместимость с Transformers v5, многоуровневое вытеснение KV-кэша со вторичным хранилищем на основе объектного хранилища, унифицированный парсер для рассуждений и вызовов инструментов, поддержку Gemma 4 без энкодера, а также улучшения Rust-фронтенда — потоковую генерацию и динамическую LoRA. Включает также усиление стабильности DeepSeek-V4 в продакшне и обновления ROCm 7.2.3 / FlashInfer v0.6.12.

Почему это важно

Расширение MRv2 на Llama и Mistral охватывает два наиболее широко развёртываемых семейства открытых моделей и устраняет пузыри при параллелизме по конвейеру. Унифицированный парсер упрощает интеграцию для рабочих процессов с вызовами инструментов и рассуждениями.

Важность: 3/5

Крупный релиз vLLM (408 коммитов) с расширением MRv2 на два самых популярных семейства открытых моделей

vllm inference open-source deepseek gemma

Источники

официальный vLLM v0.23.0 release notes