Hugging Face Transformers: асинхронный continuous batching даёт прирост скорости инференса на 22%
Hugging Face
Hugging Face опубликовала статью, описывающую асинхронный continuous batching в библиотеке Transformers. Благодаря CUDA streams для перекрытия подготовки батча на CPU с вычислениями на GPU утилизация GPU вырастает с 76% до 99.4%, а время генерации сокращается на 22% (300.6 с → 234.5 с) на модели 8B при размере батча 32. Метод не требует никаких изменений архитектуры модели.
Почему это важно
Прирост пропускной способности на 22% без изменений модели готов к развёртыванию в production-стеках инференса и теперь является частью официальной библиотеки Transformers.
Важность: 3/5
Значительный прирост пропускной способности для всей экосистемы Transformers без изменений кода