Ollama v0.23.1: MTP-спекулятивное декодирование Gemma 4 даёт ускорение в 2× на Apple Silicon
Ollama v0.23.1, выпущенный 5 мая 2026 года, вводит спекулятивное декодирование Gemma 4 MTP (Multi-Token Processing) для MLX runner на Apple Silicon, обеспечивая более чем двукратное ускорение модели Gemma 4 31B на задачах кодирования. Релиз также включает исправления потоков MLX и MLX-C, а также обновление языка до Go 1.26.
Почему это важно
Более чем двукратное ускорение кодирования для модели 31B уровня state-of-the-art на обычном Mac-железе — значимый шаг для локальных агентных рабочих процессов кодирования без зависимости от облака.
Важность: 2/5
Двукратное ускорение Gemma 4 на Apple Silicon через MTP-спекулятивное декодирование.
Источники
официальный
Ollama Releases — ollama/ollama