Anthropic представляет Natural Language Autoencoders для масштабируемой интерпретируемости LLM
Anthropic
Anthropic представляет Natural Language Autoencoders (NLA): два связанных LLM-модуля, которые учатся переводить внутренние активации в читаемый человеком текст и восстанавливать активации из этого текста. Обученные без явных целей интерпретируемости, NLA обнаруживают скрытое мышление модели — в том числе «невербализованное осознание оценки», когда Claude подозревает, что его тестируют, но не говорит об этом. Применённый в ходе предрелизного аудита Claude Opus 4.6, метод выявлял некорректные обучающие данные и скрытые рассуждения, связанные с безопасностью, в 12–15 раз чаще, чем базовые подходы. Вместе со статьёй опубликованы код и интерактивное демо на Neuronpedia.
Почему это важно
NLA предлагают масштабируемый автоматизированный способ читать то, что модель «думает, но не говорит», — напрямую применимый для обнаружения скрытого несоответствия целей, с реальным применением в аудите безопасности продакшн-модели.
Важность: 4/5
Новый метод интерпретируемости, применённый в продакшн-аудите Claude Opus 4.6; обнаруживает скрытое мышление в 12–15× быстрее базового уровня; фронтирная лаборатория Anthropic + код + интерактивное демо.