JetSpec: параллельная генерация деревьев черновиков даёт ускорение speculative decoding в 9,64×
Hao AI Lab, UCSD
JetSpec вводит параллельную причинно-обусловленную голову-черновик, разрешающую дилемму между причинностью и эффективностью в speculative decoding. Стандартные подходы с деревьями либо генерируют черновик авторегрессивно (точно, но медленно), либо за один параллельный проход (быстро, но некогерентно). JetSpec обучает голову-черновик на слитых скрытых состояниях целевой модели так, чтобы оценки токенов дерева кандидатов следовали авторегрессивной факторизации целевой модели, а затем верифицирует полное дерево за один прямой проход. На бенчмарках по программированию и математике достигается ускорение до 9,64× по сравнению со стандартным авторегрессивным декодированием на GPU H100/B200. Код открыт.
Почему это важно
Предыдущие методы speculative decoding упирались в потолок ускорения при росте бюджета черновиков; JetSpec сохраняет прирост и за этим пределом. Заявленные 1000+ токенов/с на математических задачах делают его непосредственно применимым в продакшн-инференсе LLM.
Важность: 3/5
Топ HF Daily paper 28 июня (81 голос); ускорение инференса в 9,64× с открытым кодом, напрямую применимо в продакшн-стеках