Anthropic представляет Natural Language Autoencoders для масштабируемой интерпретируемости LLM

Anthropic

исследования официальный 2 ист. ~1 мин

Anthropic представляет Natural Language Autoencoders (NLA): два связанных LLM-модуля, которые учатся переводить внутренние активации в читаемый человеком текст и восстанавливать активации из этого текста. Обученные без явных целей интерпретируемости, NLA обнаруживают скрытое мышление модели — в том числе «невербализованное осознание оценки», когда Claude подозревает, что его тестируют, но не говорит об этом. Применённый в ходе предрелизного аудита Claude Opus 4.6, метод выявлял некорректные обучающие данные и скрытые рассуждения, связанные с безопасностью, в 12–15 раз чаще, чем базовые подходы. Вместе со статьёй опубликованы код и интерактивное демо на Neuronpedia.

Почему это важно

NLA предлагают масштабируемый автоматизированный способ читать то, что модель «думает, но не говорит», — напрямую применимый для обнаружения скрытого несоответствия целей, с реальным применением в аудите безопасности продакшн-модели.

Важность: 4/5

Новый метод интерпретируемости, применённый в продакшн-аудите Claude Opus 4.6; обнаруживает скрытое мышление в 12–15× быстрее базового уровня; фронтирная лаборатория Anthropic + код + интерактивное демо.

interpretability mechanistic-interpretability alignment safety

Источники

официальный Natural Language Autoencoders — Transformer Circuits Thread

официальный Natural Language Autoencoders — Anthropic Research