vLLM v0.23.0: Model Runner V2 по умолчанию для Llama и Mistral, Transformers v5, многоуровневый KV-кэш
vLLM v0.23.0 (15 июня, 408 коммитов, 200 контрибьюторов) устанавливает Model Runner V2 в качестве режима по умолчанию для плотных моделей Llama и Mistral, добавляет совместимость с Transformers v5, многоуровневое вытеснение KV-кэша со вторичным хранилищем на основе объектного хранилища, унифицированный парсер для рассуждений и вызовов инструментов, поддержку Gemma 4 без энкодера, а также улучшения Rust-фронтенда — потоковую генерацию и динамическую LoRA. Включает также усиление стабильности DeepSeek-V4 в продакшне и обновления ROCm 7.2.3 / FlashInfer v0.6.12.
Почему это важно
Расширение MRv2 на Llama и Mistral охватывает два наиболее широко развёртываемых семейства открытых моделей и устраняет пузыри при параллелизме по конвейеру. Унифицированный парсер упрощает интеграцию для рабочих процессов с вызовами инструментов и рассуждениями.
Важность: 3/5
Крупный релиз vLLM (408 коммитов) с расширением MRv2 на два самых популярных семейства открытых моделей