Ollama v0.31.1: Gemma 4 почти на 90% быстрее на Apple Silicon через MTP

Ollama

инструменты официальный 1 ист. ~1 мин

Ollama v0.31.1 (30 июня) обеспечивает примерно на 90% более быструю генерацию токенов Gemma 4 на Apple Silicon посредством multi-token prediction (MTP) с автоматической настройкой, включённой по умолчанию — конфигурация не требуется. Релиз также обновляет движок MLX с новым ядром матричного умножения для малых батчей и обновляет бэкенд llama.cpp до сборки 9840.

Почему это важно

Почти двукратный рост пропускной способности для Gemma 4 на оборудовании Mac существенно расширяет возможности локального запуска этой модели для интерактивных сценариев использования агентов кодирования, где важна задержка.

Важность: 2/5

90% ускорение инференса Gemma 4 на Apple Silicon через MTP; улучшение для локального инференса без настройки

ollama inference apple-silicon gemma local-llm mlx

Источники

официальный Ollama v0.31.1 Release Notes