vLLM v0.21.0: MLA-бэкенд для Blackwell, KV-выгрузка через HMA, speculative decoding для reasoning-моделей
vLLM Project
vLLM v0.21.0 вышел 15 мая 2026 года (367 коммитов, 202 участника). Ключевые добавления: attention-бэкенд TOKENSPEED_MLA для DeepSeek-R1 и Kimi-K2.5 на GPU NVIDIA Blackwell; KV-выгрузка интегрирована с Hybrid Memory Allocator (HMA); speculative decoding теперь учитывает reasoning/thinking-бюджеты для корректной работы с reasoning-моделями; Docker-образ уменьшен примерно на 2,5 ГБ. Критические изменения: требуется компилятор C++20, Transformers v4 объявлен устаревшим (необходимо обновление до v5).
Почему это важно
TOKENSPEED_MLA на Blackwell открывает production-grade обслуживание моделей класса DeepSeek-R1 с улучшенной утилизацией GPU. Корректный speculative decoding для reasoning-моделей — давно ожидаемое исправление для тех, кто разворачивает модели с ограниченным thinking-бюджетом в промышленных масштабах.
Важность: 3/5
Крупный релиз инфраструктуры инференса: MLA-бэкенд для Blackwell, speculative decoding для reasoning-моделей, 367 коммитов от 202 участников