llama.cpp b9603: OpenCL-ядра Qualcomm Adreno для инференса на устройстве
ggml-org
Релиз llama.cpp b9603 (12 июня) добавил OpenCL-ядра q5_0 и q5_1 GEMM/GEMV для GPU Qualcomm Adreno при участии инженеров Qualcomm. Это обеспечивает аппаратно-ускоренный квантизованный инференс на Android-устройствах с Qualcomm и ноутбуках на Snapdragon. Другие недавние сборки в окне: b9601 — исправление сборки Vulkan; b9596 — оптимизация логирования в режиме роутера сервера; b9591 — оптимизация памяти MTP; b9590 — исправление json_schema для LFM2.
Почему это важно
Adreno — наиболее распространённая архитектура мобильных GPU. Эти OpenCL-ядра приносят оптимизированный квантизованный инференс на широкую аппаратную базу, которая прежде имела ограниченную поддержку ускорения в llama.cpp.
Важность: 2/5
OpenCL-ядра Adreno расширяют мобильный инференс на наиболее распространённую архитектуру мобильных GPU