mechanistic-interpretability — AI Digest

8 мая Natural Language Autoencoders: превращение внутренних состояний Claude в текст Anthropic research
10 мая Anthropic представляет Natural Language Autoencoders для масштабируемой интерпретируемости LLM Anthropic research
8 мая Структурное происхождение attention sink: расхождение дисперсий, суперн ейроны и исправление research