vLLM v0.21.0rc1: поддержка Python 3.14, CUDA 13.0 и Transformers v5

инструменты официальный 1 ист. ~1 мин

vLLM опубликовал релиз-кандидат v0.21.0rc1 12 мая 2026 года, включающий PyTorch 2.11, поддержку Python 3.14, CUDA 13.0 в качестве нового дефолта и совместимость с Transformers v5. Этому предшествовал v0.20.2 (10 мая), который был отозван из-за ошибки в tensor parallelism.

Почему это важно

Поддерживает ведущий open-source движок инференса в актуальном состоянии с последним тулчейном PyTorch и CUDA, что важно для производственных GPU-деплойментов

Важность: 2/5

Приводит vLLM в соответствие с Python 3.14, CUDA 13.0 и Transformers v5; предыдущий релиз был отозван из-за ошибки в tensor parallelism.

vllm inference open-source infrastructure release

Источники

официальный vLLM GitHub Releases — v0.21.0rc1