llama.cpp b9589–b9592: исправление синхронизации CUDA SSM и оптимизация памяти Mamba

инструменты официальный 2 ист. ~1 мин

Четыре сборки вышли около 10 июня. b9589 исправляет отсутствующие барьеры синхронизации потоков перед повторным использованием разделяемой памяти в операциях CUDA SSM scan — ошибка корректности, затрагивающая модели семейства Mamba на GPU. b9591 объединяет копирование памяти D2D для MTP/Mamba в единую strided-передачу и рефакторит ggml_gated_delta_net, снижая накладные расходы. b9590 исправляет игнорирование json_schema из response_format в LFM2/LFM2.5. b9592 обновляет LibreSSL до 4.3.2.

Почему это важно

Исправление синхронизации CUDA SSM устраняет скрытую ошибку корректности — затронутые пользователи могли получать незаметно неверные результаты от моделей Mamba, не подозревая об этом. Консолидация передачи памяти улучшает пропускную способность для архитектур Mamba, набирающих популярность как альтернатива attention.

Важность: 2/5

Исправление корректности для GPU-инференса Mamba/SSM; скрытая ошибка, способная влиять на качество вывода у локальных пользователей моделей Mamba.

inference cuda ssm open-source local-llm

Источники

официальный llama.cpp b9589 — CUDA SSM sync fix — GitHub

официальный llama.cpp b9591 — MTP/Mamba memory optimization — GitHub