vLLM v0.21.0rc1: поддержка Python 3.14, CUDA 13.0 и Transformers v5
vLLM опубликовал релиз-кандидат v0.21.0rc1 12 мая 2026 года, включающий PyTorch 2.11, поддержку Python 3.14, CUDA 13.0 в качестве нового дефолта и совместимость с Transformers v5. Этому предшествовал v0.20.2 (10 мая), который был отозван из-за ошибки в tensor parallelism.
Почему это важно
Поддерживает ведущий open-source движок инференса в актуальном состоянии с последним тулчейном PyTorch и CUDA, что важно для производственных GPU-деплойментов
Важность: 2/5
Приводит vLLM в соответствие с Python 3.14, CUDA 13.0 и Transformers v5; предыдущий релиз был отозван из-за ошибки в tensor parallelism.
Источники
официальный
vLLM GitHub Releases — v0.21.0rc1