llama.cpp b9603: OpenCL-ядра Qualcomm Adreno для инференса на устройстве

ggml-org

инструменты официальный 1 ист. ~1 мин

Релиз llama.cpp b9603 (12 июня) добавил OpenCL-ядра q5_0 и q5_1 GEMM/GEMV для GPU Qualcomm Adreno при участии инженеров Qualcomm. Это обеспечивает аппаратно-ускоренный квантизованный инференс на Android-устройствах с Qualcomm и ноутбуках на Snapdragon. Другие недавние сборки в окне: b9601 — исправление сборки Vulkan; b9596 — оптимизация логирования в режиме роутера сервера; b9591 — оптимизация памяти MTP; b9590 — исправление json_schema для LFM2.

Почему это важно

Adreno — наиболее распространённая архитектура мобильных GPU. Эти OpenCL-ядра приносят оптимизированный квантизованный инференс на широкую аппаратную базу, которая прежде имела ограниченную поддержку ускорения в llama.cpp.

Важность: 2/5

OpenCL-ядра Adreno расширяют мобильный инференс на наиболее распространённую архитектуру мобильных GPU

inference on-device mobile quantization open-source update

Связанные пункты

llama.cpp b9589–b9592: исправление синхронизации CUDA SSM и оптимизация памяти Mamba — tools

Источники

официальный llama.cpp b9603 release — GitHub