JetSpec: параллельная генерация деревьев черновиков даёт ускорение speculative decoding в 9,64×

Hao AI Lab, UCSD

исследования офиц. + СМИ 3 ист. ~1 мин

JetSpec вводит параллельную причинно-обусловленную голову-черновик, разрешающую дилемму между причинностью и эффективностью в speculative decoding. Стандартные подходы с деревьями либо генерируют черновик авторегрессивно (точно, но медленно), либо за один параллельный проход (быстро, но некогерентно). JetSpec обучает голову-черновик на слитых скрытых состояниях целевой модели так, чтобы оценки токенов дерева кандидатов следовали авторегрессивной факторизации целевой модели, а затем верифицирует полное дерево за один прямой проход. На бенчмарках по программированию и математике достигается ускорение до 9,64× по сравнению со стандартным авторегрессивным декодированием на GPU H100/B200. Код открыт.

Почему это важно

Предыдущие методы speculative decoding упирались в потолок ускорения при росте бюджета черновиков; JetSpec сохраняет прирост и за этим пределом. Заявленные 1000+ токенов/с на математических задачах делают его непосредственно применимым в продакшн-инференсе LLM.

Важность: 3/5

Топ HF Daily paper 28 июня (81 голос); ускорение инференса в 9,64× с открытым кодом, напрямую применимо в продакшн-стеках

Источники