Вмешательства SAE ненадёжны: подавленное поведение восстанавливается после интервенции

Hong Kong Polytechnic University

исследования официальный 1 ист. ~1 мин

Статья оспаривает ключевое допущение механистической интерпретируемости на основе SAE: что зажим или подавление признаков разреженного автоэнкодера надёжно контролирует поведение модели. Авторы показывают, что подавленное поведение, как правило, восстанавливается после интервенции, подрывая надёжность SAE-управления как механизма безопасности или контроля.

Почему это важно

Ставит критически важный вопрос перед сообществом интерпретируемости: если подавление признаков SAE не обеспечивает устойчивое предотвращение поведений, то подходы к выравниванию на основе управления через SAE могут быть менее надёжными, чем предполагалось.

Важность: 3/5

Оспаривает ключевую технику в исследованиях механистической интерпретируемости и безопасности AI с прямыми последствиями для работ по выравниванию.

interpretability safety sparse-autoencoders alignment paper

Источники

официальный SAE Interventions are Unreliable on HuggingFace Daily Papers