Orthrus: 7,8-кратное ускорение инференса для Qwen3 за счёт совместного использования KV-кеша AR и диффузии

исследования официальный 2 ист. ~1 мин

Orthrus (arXiv 2605.12825) объединяет замороженную предобученную авторегрессионную LLM с лёгким обучаемым диффузионным модулем, совместно использующим один KV-кеш, что обеспечивает параллельную генерацию токенов с точным механизмом внутримодельного консенсуса без потерь. Применённый к Qwen3 (1,7B, 4B, 8B), он достигает до 7,8-кратного ускорения токенов на один прямой проход при O(1) дополнительных затратах памяти. GitHub-реализация попала в тренды Hacker News (34 балла) и GitHub Python Trending 15–16 мая.

Почему это важно

Совместное использование KV-кеша между авторегрессионными и диффузионными головами — новая альтернатива спекулятивному декодированию, исключающая накладные расходы на черновую модель. Заявление об O(1) по памяти делает подход реализуемым на потребительском железе. Совместимость с Qwen3 актуальна с учётом текущего широкого распространения этого семейства моделей.

Важность: 3/5

Новая архитектура с совместным KV-кешом AR и диффузионных голов; 7,8-кратное ускорение; в трендах Hacker News и GitHub

inference diffusion speculative-decoding qwen open-source efficiency

Источники

официальный Orthrus: Lossless LLM Inference Acceleration via Intra-Model Consensus — arXiv

официальный chiennv2000/orthrus — GitHub