llama.cpp b9830–b9837: DFlash v2, парсер MiniCPM5, флаг --reasoning-preserve

ggml-org

инструменты официальный 1 ист. ~1 мин

28–29 июня вышло шесть сборок llama.cpp (b9830–b9837). Ключевые изменения: b9830 добавляет флаг `--offline` для `llama download` (работа только с кэшем) и исправляет use-after-free в колбэках URL-задач; b9831 добавляет DFlash v2 со sliding window attention на уровне отдельных слоёв; b9833 реализует выделенный PEG-парсер для MiniCPM5 с поддержкой XML-вызовов инструментов; b9837 добавляет `--reasoning-preserve` для сохранения токенов chain-of-thought в Jinja и выводе чата.

Почему это важно

DFlash v2 расширяет совместимость с моделями при локальном инференсе; `--reasoning-preserve` даёт разработчикам явный контроль над тем, попадают ли цепочки рассуждений в вывод, — что становится всё актуальнее по мере того, как локальные модели всё чаще публикуют токены chain-of-thought.

Важность: 2/5

6 сборок за 2 дня с DFlash v2 и reasoning-preserve; непрерывные поставки из основной библиотеки для локального инференса

llama-cpp inference open-source speculative-decoding

Источники

официальный llama.cpp releases — ggml-org/llama.cpp on GitHub