llama.cpp b9830–b9837: DFlash v2, парсер MiniCPM5, флаг --reasoning-preserve
ggml-org
28–29 июня вышло шесть сборок llama.cpp (b9830–b9837). Ключевые изменения: b9830 добавляет флаг `--offline` для `llama download` (работа только с кэшем) и исправляет use-after-free в колбэках URL-задач; b9831 добавляет DFlash v2 со sliding window attention на уровне отдельных слоёв; b9833 реализует выделенный PEG-парсер для MiniCPM5 с поддержкой XML-вызовов инструментов; b9837 добавляет `--reasoning-preserve` для сохранения токенов chain-of-thought в Jinja и выводе чата.
Почему это важно
DFlash v2 расширяет совместимость с моделями при локальном инференсе; `--reasoning-preserve` даёт разработчикам явный контроль над тем, попадают ли цепочки рассуждений в вывод, — что становится всё актуальнее по мере того, как локальные модели всё чаще публикуют токены chain-of-thought.
Важность: 2/5
6 сборок за 2 дня с DFlash v2 и reasoning-preserve; непрерывные поставки из основной библиотеки для локального инференса