LLM Safety From Within (SIREN)
University of Toronto CSSLab / McGill / LMU Munich
Линейные пробы по всем внутренним слоям LLM выделяют «safety neurons» с адаптивным взвешиванием. Обходит SoTA open-source guard-модели на множественных бенчмарках при в 250× меньшем числе обучаемых параметров, поддерживает streaming-детекцию.
Importance: 2/5
Backfilled from MD; not retroactively scored.