LLM Safety From Within (SIREN)

Линейные пробы по всем внутренним слоям LLM выделяют «safety neurons» с адаптивным взвешиванием. Обходит SoTA open-source guard-модели на множественных бенчмарках при в 250× меньшем числе обучаемых параметров, поддерживает streaming-детекцию.

Importance: 2/5

Backfilled from MD; not retroactively scored.