Orthrus: 7,8-кратное ускорение инференса для Qwen3 за счёт совместного использования KV-кеша AR и диффузии
Orthrus (arXiv 2605.12825) объединяет замороженную предобученную авторегрессионную LLM с лёгким обучаемым диффузионным модулем, совместно использующим один KV-кеш, что обеспечивает параллельную генерацию токенов с точным механизмом внутримодельного консенсуса без потерь. Применённый к Qwen3 (1,7B, 4B, 8B), он достигает до 7,8-кратного ускорения токенов на один прямой проход при O(1) дополнительных затратах памяти. GitHub-реализация попала в тренды Hacker News (34 балла) и GitHub Python Trending 15–16 мая.
Почему это важно
Совместное использование KV-кеша между авторегрессионными и диффузионными головами — новая альтернатива спекулятивному декодированию, исключающая накладные расходы на черновую модель. Заявление об O(1) по памяти делает подход реализуемым на потребительском железе. Совместимость с Qwen3 актуальна с учётом текущего широкого распространения этого семейства моделей.
Важность: 3/5
Новая архитектура с совместным KV-кешом AR и диффузионных голов; 7,8-кратное ускорение; в трендах Hacker News и GitHub