llama.cpp b9085: flash attention для MiMo-V2.5 и поддержка Vertex AI Server
Сборки llama.cpp, выпущенные 8–9 мая, включают две заметные функции: b9077 добавляет API-эндпоинт сервера, совместимый с Vertex AI, настраиваемый через переменные окружения `AIP_*` для бесшовной облачной интеграции; b9085 добавляет поддержку flash attention MMA/tiles для моделей MiMo-V2.5 с оптимизацией обработки GQA. Дополнительные сборки добавляют Hexagon HTP kernel для рекуррентности Gated Delta Net и поддержку конвертации GGUF для Gemma4_26B_A4B_NVFP4.
Почему это важно
Совместимость с Vertex AI Server позволяет разработчикам встраивать llama.cpp в пайплайны Google Cloud с минимальными изменениями; поддержка attention для MiMo-V2.5 расширяет локальный инференс на очень большие MoE-модели.
Важность: 2/5
Эндпоинт Vertex AI Server обеспечивает бесшовное использование llama.cpp в Google Cloud; flash attention для MiMo-V2.5 расширяет эффективный локальный инференс на крупные MoE-модели.