Вмешательства SAE ненадёжны: подавленное поведение восстанавливается после интервенции
Hong Kong Polytechnic University
Статья оспаривает ключевое допущение механистической интерпретируемости на основе SAE: что зажим или подавление признаков разреженного автоэнкодера надёжно контролирует поведение модели. Авторы показывают, что подавленное поведение, как правило, восстанавливается после интервенции, подрывая надёжность SAE-управления как механизма безопасности или контроля.
Почему это важно
Ставит критически важный вопрос перед сообществом интерпретируемости: если подавление признаков SAE не обеспечивает устойчивое предотвращение поведений, то подходы к выравниванию на основе управления через SAE могут быть менее надёжными, чем предполагалось.
Важность: 3/5
Оспаривает ключевую технику в исследованиях механистической интерпретируемости и безопасности AI с прямыми последствиями для работ по выравниванию.