llama.cpp b9754: прогресс загрузки модели в реальном времени через SSE и PEG-парсер грамматик
llama.cpp выпустил ~12 тегированных сборок 21 июня 2026 года (b9743–b9754). Ключевые добавления: b9747 добавляет отслеживание прогресса загрузки модели в реальном времени через /models/sse (Server-Sent Events); b9750 реализует оператор call из Jinja для генерации шаблонов; b9754 добавляет автоматный PEG-парсер для более строгой генерации с грамматическими ограничениями. Все сборки поставляются с кросс-платформенными бинарными файлами для macOS, Linux, Windows и Android.
Почему это важно
SSE-стриминг прогресса в реальном времени снижает непрозрачную задержку при запуске для frontend-клиентов локального инференса; PEG-парсер повышает надёжность структурированного вывода
Важность: 2/5
Активный темп релизов (12 сборок за один день); два новых функциональных улучшения для локального инференса