BlockPilot: адаптивный размер блока для диффузионного спекулятивного декодирования

исследования офиц. + СМИ 2 ист. ~1 мин

BlockPilot показывает, что оптимальный размер блока в диффузионном спекулятивном декодировании варьируется в зависимости от входных данных, и формулирует выбор размера блока как лёгкую политику, обучаемую на представлении префиллинга. Применительно к Qwen3-4B достигает длины принятия 5,92 токена и ускорения инференса в 4,20× при температуре T=1 с пренебрежимо малыми накладными расходами и работает как plug-and-play поверх существующих систем спекулятивного декодирования.

Почему это важно

67 голосов в HuggingFace Daily Papers (1 июля). Демонстрирует, что статический размер блока является значимым источником неэффективности в спекулятивном декодировании, и предлагает практичное малозатратное исправление с ускорением в 4×.

Важность: 2/5

67 голосов в HF Daily Papers; ускорение инференса в 4,2× через адаптивный размер блока, plug-and-play для существующего спекулятивного декодирования

Источники