#mechanistic-interpretability
- Natural Language Autoencoders: превращение внутренних состояний Claude в текст Anthropic research
- Anthropic представляет Natural Language Autoencoders для масштабируемой интерпретируемости LLM Anthropic research
- Структурное происхождение attention sink: расхождение дисперсий, суперн ейроны и исправление research