vLLM v0.21.0: MLA-бэкенд для Blackwell, KV-выгрузка через HMA, speculative decoding для reasoning-моделей

vLLM Project

инструменты официальный 2 ист. ~1 мин

vLLM v0.21.0 вышел 15 мая 2026 года (367 коммитов, 202 участника). Ключевые добавления: attention-бэкенд TOKENSPEED_MLA для DeepSeek-R1 и Kimi-K2.5 на GPU NVIDIA Blackwell; KV-выгрузка интегрирована с Hybrid Memory Allocator (HMA); speculative decoding теперь учитывает reasoning/thinking-бюджеты для корректной работы с reasoning-моделями; Docker-образ уменьшен примерно на 2,5 ГБ. Критические изменения: требуется компилятор C++20, Transformers v4 объявлен устаревшим (необходимо обновление до v5).

Почему это важно

TOKENSPEED_MLA на Blackwell открывает production-grade обслуживание моделей класса DeepSeek-R1 с улучшенной утилизацией GPU. Корректный speculative decoding для reasoning-моделей — давно ожидаемое исправление для тех, кто разворачивает модели с ограниченным thinking-бюджетом в промышленных масштабах.

Важность: 3/5

Крупный релиз инфраструктуры инференса: MLA-бэкенд для Blackwell, speculative decoding для reasoning-моделей, 367 коммитов от 202 участников

Источники

официальный vllm — PyPI