Google выпускает DiffusionGemma: открытая модель на 26B с генерацией текста в 4× быстрее

Google DeepMind

модели/LLM офиц. + СМИ 2 ист. ~1 мин

Google выпустил DiffusionGemma — экспериментальную открытую модель на 26B параметров в архитектуре Mixture-of-Experts (лицензия Apache 2.0), использующую текстовую диффузию вместо авторегрессионной генерации токенов. Вместо последовательного вывода одного токена модель генерирует и уточняет блок из 256 токенов параллельно, достигая до 4× более высокой пропускной способности: 1000+ токенов/с на H100 и 700+ на GeForce RTX 5090. Во время инференса активны лишь 3.8B параметров, а квантизованная модель умещается в 18 ГБ VRAM для запуска на потребительских GPU. Качество вывода уступает стандартной Gemma 4, поэтому модель ориентирована на интерактивные сценарии с приоритетом скорости, а не качества.

Почему это важно

Одна из первых практически применимых открытых текстовых диффузионных моделей с публичными весами. Архитектурный переход от последовательной к параллельной генерации блоков устраняет пропускную способность памяти как основное узкое место и открывает возможность двунаправленного внимания по генерируемым токенам — недостижимого в авторегрессионных моделях. Открытый релиз под Apache 2.0 для потребительского железа ускоряет исследования диффузионных LLM.

Важность: 4/5

Флагманская открытая модель Google; первая практически применимая текстовая диффузионная архитектура с открытыми весами; запускается на потребительском GPU. Новый класс моделей генерации текста, выпущенный открыто.

gemma diffusion-gemma open-weights text-diffusion local-inference apache2

Источники

официальный DiffusionGemma: 4× faster text generation — Google Blog

СМИ Google open-sources speedy DiffusionGemma text diffusion model — SiliconAngle