Ollama v0.23.1: MTP-спекулятивное декодирование Gemma 4 даёт ускорение в 2× на Apple Silicon

инструменты официальный 1 ист. ~1 мин

Ollama v0.23.1, выпущенный 5 мая 2026 года, вводит спекулятивное декодирование Gemma 4 MTP (Multi-Token Processing) для MLX runner на Apple Silicon, обеспечивая более чем двукратное ускорение модели Gemma 4 31B на задачах кодирования. Релиз также включает исправления потоков MLX и MLX-C, а также обновление языка до Go 1.26.

Почему это важно

Более чем двукратное ускорение кодирования для модели 31B уровня state-of-the-art на обычном Mac-железе — значимый шаг для локальных агентных рабочих процессов кодирования без зависимости от облака.

Важность: 2/5

Двукратное ускорение Gemma 4 на Apple Silicon через MTP-спекулятивное декодирование.

Источники

официальный Ollama Releases — ollama/ollama