Google DeepMind публикует QAT-чекпоинты Gemma 4: модель E2B занимает менее 1 ГБ на устройстве

Google DeepMind

модели/LLM офиц. + СМИ 3 ист. ~1 мин

Google DeepMind 5 июня выпустила чекпоинты Quantization-Aware Training (QAT) для всего семейства Gemma 4. Новый мобильный QAT-формат сокращает объём модели E2B (2B) до менее 1 ГБ ОЗУ (против 9,6 ГБ в BF16), Q4_0 QAT уменьшает E2B с 9,6 ГБ до 3,2 ГБ, а E4B — с 15 ГБ до 5 ГБ. Веса опубликованы на Hugging Face с поддержкой в llama.cpp (b9549+ добавляет поддержку Gemma 4 MTP), Ollama, LM Studio, vLLM, MLX и LiteRT-LM.

Почему это важно

Модели объёмом менее 1 ГБ открывают возможность развёртывания на среднебюджетных смартфонах и микроконтроллерах. QAT нивелирует типичное падение качества при агрессивном квантовании, делая компактные модели Gemma 4 пригодными для продакшн-приложений на устройстве — веха для edge AI.

Важность: 3/5

Официальный блог Google DeepMind + 2 независимых медиаподтверждения; первое open-weights мультимодальное семейство, достигшее порога менее 1 ГБ на устройстве без существенной потери качества.

gemma quantization on-device open-weights mobile local-llm

Связанные пункты

Google DeepMind выпускает Gemma 4 12B: мультимодальная модель без энкодера, работающая на ноутбуке с 16 ГБ VRAM — Google DeepMind

Источники

официальный Gemma 4 QAT models: Optimizing model compression for mobile and laptop efficiency — Google Blog

СМИ Google DeepMind Releases Gemma 4 QAT Checkpoints — MarkTechPost

СМИ Google Releases Smaller Gemma 4 QAT Models for Local AI — WinBuzzer