Анатомия пост-обучения: использование интерпретируемости для аудита и исправления данных предпочтений
Применяет механистическую интерпретируемость для аудита и улучшения pipeline'ов пост-обучения. Метод выявляет латентные концепции в представлениях модели, различающие предпочтительные и менее предпочтительные ответы, затем использует эти концепции для диагностики ложных корреляций в датасетах предпочтений и формирования вознаграждений через вмешательства в признаки или данные. Позиционирует интерпретируемость не только как инструмент понимания моделей после обучения, но и как активный компонент самого цикла обучения.
Почему это важно
Устраняет разрыв между исследованиями интерпретируемости и практической работой по alignment. Диагностируя, какие концепции в действительности улавливает reward-модель — включая непредусмотренные — подход предлагает принципиальный способ аудита и коррекции обучающего сигнала до того, как нежелательное поведение закрепится.
Важность: 2/5
Добротная статья по alignment/интерпретируемости; практическое применение mech-interp к аудиту данных пост-обучения.