Hugging Face Transformers: асинхронный continuous batching даёт прирост скорости инференса на 22%

Hugging Face

инструменты официальный 1 ист. ~1 мин

Hugging Face опубликовала статью, описывающую асинхронный continuous batching в библиотеке Transformers. Благодаря CUDA streams для перекрытия подготовки батча на CPU с вычислениями на GPU утилизация GPU вырастает с 76% до 99.4%, а время генерации сокращается на 22% (300.6 с → 234.5 с) на модели 8B при размере батча 32. Метод не требует никаких изменений архитектуры модели.

Почему это важно

Прирост пропускной способности на 22% без изменений модели готов к развёртыванию в production-стеках инференса и теперь является частью официальной библиотеки Transformers.

Важность: 3/5

Значительный прирост пропускной способности для всей экосистемы Transformers без изменений кода

inference transformers performance cuda

Источники

официальный Unlocking Asynchronicity in Continuous Batching — HuggingFace Blog