Ollama v0.31.1: Gemma 4 почти на 90% быстрее на Apple Silicon через MTP
Ollama
Ollama v0.31.1 (30 июня) обеспечивает примерно на 90% более быструю генерацию токенов Gemma 4 на Apple Silicon посредством multi-token prediction (MTP) с автоматической настройкой, включённой по умолчанию — конфигурация не требуется. Релиз также обновляет движок MLX с новым ядром матричного умножения для малых батчей и обновляет бэкенд llama.cpp до сборки 9840.
Почему это важно
Почти двукратный рост пропускной способности для Gemma 4 на оборудовании Mac существенно расширяет возможности локального запуска этой модели для интерактивных сценариев использования агентов кодирования, где важна задержка.
Важность: 2/5
90% ускорение инференса Gemma 4 на Apple Silicon через MTP; улучшение для локального инференса без настройки
Источники
официальный
Ollama v0.31.1 Release Notes