BlockPilot: адаптивный размер блока для диффузионного спекулятивного декодирования
BlockPilot показывает, что оптимальный размер блока в диффузионном спекулятивном декодировании варьируется в зависимости от входных данных, и формулирует выбор размера блока как лёгкую политику, обучаемую на представлении префиллинга. Применительно к Qwen3-4B достигает длины принятия 5,92 токена и ускорения инференса в 4,20× при температуре T=1 с пренебрежимо малыми накладными расходами и работает как plug-and-play поверх существующих систем спекулятивного декодирования.
Почему это важно
67 голосов в HuggingFace Daily Papers (1 июля). Демонстрирует, что статический размер блока является значимым источником неэффективности в спекулятивном декодировании, и предлагает практичное малозатратное исправление с ускорением в 4×.
Важность: 2/5
67 голосов в HF Daily Papers; ускорение инференса в 4,2× через адаптивный размер блока, plug-and-play для существующего спекулятивного декодирования