JetSpec: преодоление потолка масштабирования спекулятивного декодирования с помощью параллельного построения деревьев черновиков

Hao AI Lab, UC San Diego

исследования офиц. + СМИ 2 ист. ~1 мин

JetSpec вводит каузальную параллельную голову для черновых токенов, согласовывающую оценки дерева кандидатов с авторегрессионной факторизацией целевой модели и решающую давний компромисс между авторегрессионными и двунаправленными генераторами черновиков. Достигается ускорение до 9.64× на MATH-500 и 4.58× на разговорных задачах с использованием моделей Qwen3 на GPU H100/B200, с интеграцией vLLM и опубликованными черновыми моделями на HuggingFace.

Почему это важно

Спекулятивное декодирование зашло в тупик, поскольку увеличение бюджета черновиков не давало надёжно более длинных принимаемых последовательностей. JetSpec преодолевает этот потолок с помощью обоснованной обучающей цели, обеспечивая пропускную способность >1000 токенов в секунду — практически значимо для снижения стоимости инференса в любом масштабе.

Важность: 3/5

Ускорение в 9.64× при спекулятивном декодировании с обоснованной обучающей целью, устраняющей сбой масштабирования бюджета черновиков

inference speculative-decoding efficiency benchmark paper vllm

Источники

официальный JetSpec: Breaking the Scaling Ceiling of Speculative Decoding with Parallel Tree Drafting — arXiv

СМИ AIを最大9.64倍高速化する投機的デコーディング手法「JetSpec」が開発される — Gigazine