SingGuard: адаптируемый к политике во время выполнения мультимодальный защитный барьер LLM с бенчмарком из 56 тыс. примеров
inclusionAI
SingGuard — защитная модель для vision-language моделей, принимающая политики безопасности на естественном языке во время выполнения, а не зашитые в модель при обучении. Контент оценивается по правилам политики поочерёдно в трёх режимах скорости инференса (fast/hybrid/slow) для баланса между интерпретируемостью и задержкой. Новый бенчмарк SingGuard-Bench содержит 56 340 примеров по 80+ категориям рисков, включая кросс-модальные совместные риски, когда ни текст, ни изображение по отдельности не вредоносны, но их сочетание несёт небезопасный смысл. Точность следования политике при изменениях во время выполнения улучшается с ~64,6% до ~74,1% по сравнению с предыдущими методами.
Почему это важно
Большинство защитных систем не могут адаптироваться при изменении политики безопасности продукта без переобучения. Инъекция политики во время выполнения делает SingGuard практичным для разных регионов или продуктовых линеек. Бенчмарк кросс-модальных совместных рисков закрывает пробел в существующих наборах для оценки безопасности.
Важность: 3/5
HF Daily paper 29 июня (30 голосов); защитные барьеры с адаптацией политики во время выполнения закрывают реальный пробел в деплое; вклад в виде бенчмарка из 56 тыс. примеров