SingGuard: адаптируемый к политике во время выполнения мультимодальный защитный барьер LLM с бенчмарком из 56 тыс. примеров

inclusionAI

исследования официальный 2 ист. ~1 мин

SingGuard — защитная модель для vision-language моделей, принимающая политики безопасности на естественном языке во время выполнения, а не зашитые в модель при обучении. Контент оценивается по правилам политики поочерёдно в трёх режимах скорости инференса (fast/hybrid/slow) для баланса между интерпретируемостью и задержкой. Новый бенчмарк SingGuard-Bench содержит 56 340 примеров по 80+ категориям рисков, включая кросс-модальные совместные риски, когда ни текст, ни изображение по отдельности не вредоносны, но их сочетание несёт небезопасный смысл. Точность следования политике при изменениях во время выполнения улучшается с ~64,6% до ~74,1% по сравнению с предыдущими методами.

Почему это важно

Большинство защитных систем не могут адаптироваться при изменении политики безопасности продукта без переобучения. Инъекция политики во время выполнения делает SingGuard практичным для разных регионов или продуктовых линеек. Бенчмарк кросс-модальных совместных рисков закрывает пробел в существующих наборах для оценки безопасности.

Важность: 3/5

HF Daily paper 29 июня (30 голосов); защитные барьеры с адаптацией политики во время выполнения закрывают реальный пробел в деплое; вклад в виде бенчмарка из 56 тыс. примеров

safety multimodal alignment policy paper benchmark

Источники

официальный SingGuard: A Policy-Adaptive Multimodal LLM Guardrail with Dynamic Reasoning — arXiv

официальный SingGuard — HuggingFace Daily Papers (30 upvotes, 2026-06-29)