llama.cpp, сборки от 16 июня: спекулятивное декодирование Eagle3, память Vulkan UMA, исправления NVFP4

инструменты официальный 3 ист. ~1 мин

llama.cpp выпустила инкрементальные сборки b9660–b9672 16 июня. Ключевые изменения: поддержка спекулятивного декодирования Eagle3 в бэкенд-сэмплере (b9669), предпочтение Vulkan к host-visible памяти на UMA-устройствах (b9668), исправления граничных случаев NVFP4 в llama-graph (b9670), поддержка SYCL для Q4_K/Q5_K/Q6_K MoE MUL_MAT_ID (b9664), обновление вендорской копии BoringSSL до 0.20260616.0 (b9672).

Почему это важно

Спекулятивное декодирование Eagle3 в бэкенд-сэмплере распространяет самую быструю технику локального инференса на большее число аппаратных конфигураций. Оптимизация Vulkan UMA выгодна для встроенных GPU и устройств с унифицированной памятью Apple.

Важность: 2/5

Ежедневные сборки, но заметные улучшения: спекулятивное декодирование Eagle3 и оптимизация Vulkan UMA для локального инференса

llama-cpp inference local-llm open-source speculative-decoding

Источники

официальный llama.cpp b9672

официальный llama.cpp b9669: Eagle3 backend sampling

официальный llama.cpp b9668: Vulkan UMA