llama.cpp b9716: мультимодальный батчинг InternVL, CUDA col2im и исправление SSE для Nginx

инструменты официальный 1 ист. ~1 мин

llama.cpp выпустил более десяти сборок 18–19 июня (b9702–b9716). Ключевые дополнения: поддержка батчинга для мультимодальных моделей InternVL в пайплайне mtmd, операция CUDA col2im 1D, исправление стриминга с добавлением заголовка `X-Accel-Buffering: no` для предотвращения буферизации SSE-ответов в Nginx, а также возврат HTTP 400 при некорректных грамматических входных данных вместо молчаливого игнорирования. Также добавлены схема сервера и валидация запросов.

Почему это важно

Исправление буферизации SSE в Nginx — широко распространённая производственная проблема для всех, кто запускает llama.cpp за обратным прокси; изменение в валидации грамматики улучшает отладку для сценариев структурированного вывода.

Важность: 2/5

Плановые патч-сборки с широко востребованным исправлением производственной ошибки (буферизация SSE в Nginx).

inference local-ai multimodal open-source

Источники

официальный Releases — ggml-org/llama.cpp