llama.cpp b9085: flash attention для MiMo-V2.5 и поддержка Vertex AI Server

инструменты официальный 1 ист. ~1 мин

Сборки llama.cpp, выпущенные 8–9 мая, включают две заметные функции: b9077 добавляет API-эндпоинт сервера, совместимый с Vertex AI, настраиваемый через переменные окружения `AIP_*` для бесшовной облачной интеграции; b9085 добавляет поддержку flash attention MMA/tiles для моделей MiMo-V2.5 с оптимизацией обработки GQA. Дополнительные сборки добавляют Hexagon HTP kernel для рекуррентности Gated Delta Net и поддержку конвертации GGUF для Gemma4_26B_A4B_NVFP4.

Почему это важно

Совместимость с Vertex AI Server позволяет разработчикам встраивать llama.cpp в пайплайны Google Cloud с минимальными изменениями; поддержка attention для MiMo-V2.5 расширяет локальный инференс на очень большие MoE-модели.

Важность: 2/5

Эндпоинт Vertex AI Server обеспечивает бесшовное использование llama.cpp в Google Cloud; flash attention для MiMo-V2.5 расширяет эффективный локальный инференс на крупные MoE-модели.

inference local-ai vertex-ai release open-source

Источники

официальный Releases — ggml-org/llama.cpp