llama.cpp b9716: мультимодальный батчинг InternVL, CUDA col2im и исправление SSE для Nginx
llama.cpp выпустил более десяти сборок 18–19 июня (b9702–b9716). Ключевые дополнения: поддержка батчинга для мультимодальных моделей InternVL в пайплайне mtmd, операция CUDA col2im 1D, исправление стриминга с добавлением заголовка `X-Accel-Buffering: no` для предотвращения буферизации SSE-ответов в Nginx, а также возврат HTTP 400 при некорректных грамматических входных данных вместо молчаливого игнорирования. Также добавлены схема сервера и валидация запросов.
Почему это важно
Исправление буферизации SSE в Nginx — широко распространённая производственная проблема для всех, кто запускает llama.cpp за обратным прокси; изменение в валидации грамматики улучшает отладку для сценариев структурированного вывода.
Важность: 2/5
Плановые патч-сборки с широко востребованным исправлением производственной ошибки (буферизация SSE в Nginx).